欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

 分类:Spark 3.0

Spark Join Hints 简介及使用

Spark Join Hints 简介及使用
当前 Spark 计算引擎能够利用一些统计信息选择合适的 Join 策略(关于 Spark 支持的 Join 策略可以参见每个 Spark 工程师都应该知道的五种 Join 策略),但是由于各种原因,比如统计信息缺失、统计信息不准确等原因,Spark 给我们选择的 Join 策略不是正确的,这时候我们就可以人为“干涉”,Spark 从 2.2.0 版本开始(参见SPARK-16475),支

w397090770   4年前 (2020-09-15) 3522℃ 0评论3喜欢

每个 Spark 工程师都应该知道的五种 Join 策略

每个 Spark 工程师都应该知道的五种 Join 策略
数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划(physical plan)阶段,Spark 的 JoinSelection 类会根据 Join hints 策略、Join 表的大小、 Join 是等值 Join(equi-join) 还是不等值(non-equi-joins)以及参与 Join 的 key 是否可以排序等条件来选择最终的 Join 策略(join strategies),最后 Spark 会利用选择好的 Join 策略执行最

w397090770   4年前 (2020-09-13) 5183℃ 0评论13喜欢

Apache Spark 3.0 第一个稳定版发布,终于可以在生产环境中使用啦!

Apache Spark 3.0 第一个稳定版发布,终于可以在生产环境中使用啦!
Apache Spark 3.0.0 正式版是2020年6月18日发布的,其为我们带来大量新功能,很多功能加快了数据的计算速度。但是遗憾的是,这个版本并非稳定版。不过就在昨天,Apache Spark 3.0.1 版本悄悄发布了(好像没看到邮件通知)!值得大家高兴的是,这个版本是稳定版,官方推荐所有 3.0 的用户升级到这个版本。Apache Spark 3.0 增加了很多

w397090770   4年前 (2020-09-10) 1291℃ 0评论0喜欢

在 Delta Lake 中启用 Spark SQL DDL 和 DML

在 Delta Lake 中启用 Spark SQL DDL 和 DML
Delta Lake 0.7.0 是随着 Apache Spark 3.0 版本发布之后发布的,这个版本比较重要的特性就是支持使用 SQL 来操作 Delta 表,包括 DDL 和 DML 操作。本文将详细介绍如何使用 SQL 来操作 Delta Lake 表,关于 Delta Lake 0.7.0 版本的详细 Release Note 可以参见这里。使用 SQL 在 Hive Metastore 中创建表Delta Lake 0.7.0 支持在 Hive Metastore 中定义 Delta 表,而且这

w397090770   4年前 (2020-09-06) 1177℃ 0评论0喜欢

Learning Spark, 2nd Edition 可以免费下载了

Learning Spark, 2nd Edition 可以免费下载了
《Learning Spark, 2nd Edition》这本书是由 O'Reilly Media 出版社于2020年7月出版的,作者包括 Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop图书介绍第二版已更新包含了 Spark 3.0 的一些东西,本书向数据工程师和数据科学家展示了 Spark 中结构化和统一

w397090770   4年前 (2020-09-03) 2753℃ 0评论10喜欢

Apache Spark 自定义优化规则:Custom Strategy

Apache Spark 自定义优化规则:Custom Strategy
这篇文章本来19年5月份就想写的,最终拖到今天才整理出来😂。Spark 内置给我们带来了非常丰富的各种优化,这些优化基本可以满足我们日常的需求。但是我们知道,现实场景中会有各种各样的需求,总有一些场景在 Spark 得到的执行计划不是最优的,社区的大佬肯定也知道这个问题,所以从 Spark 1.3.0 开始,Spark 为我们提供

w397090770   4年前 (2020-08-05) 1121℃ 2评论3喜欢

Apache Spark 动态分区 OverWrite 问题

Apache Spark 动态分区 OverWrite 问题
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop假设我们有以下表:[code lang="scala"]scala> spark.sql("""CREATE TABLE iteblog_test (name STRING, id int) using orc PARTITIONED BY (id)""").show(100)[/code]我们往里面插入一些数据:[code lang="sql"]scala> spark.sql("insert into table iteblog_test select

w397090770   4年前 (2020-08-03) 3333℃ 0评论4喜欢

如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析

如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析
本文为阿里巴巴技术专家余根茂在社区发的一篇文章。Structured Streaming 最初是在 Apache Spark 2.0 中引入的,它已被证明是构建分布式流处理应用程序的最佳平台。SQL/Dataset/DataFrame API 和 Spark 的内置函数的统一使得开发人员可以轻松实现复杂的需求,比如支持流聚合、流-流 Join 和窗口。自从 Structured Streaming 发布以来,社区的开发人

w397090770   4年前 (2020-07-30) 756℃ 0评论1喜欢

Apache Spark 3.0 R 的向量化 IO

Apache Spark 3.0 R 的向量化 IO
R 是数据科学中最流行的计算机语言之一,专门用于统计分析和一些扩展,如用于数据处理和机器学习任务的 RStudio addins 和其他 R 包。此外,它使数据科学家能够轻松地可视化他们的数据集。通过在 Apache Spark 中使用 SparkR,可以很容易地扩展 R 代码。要交互式地运行作业,可以通过运行 R shell 轻松地在分布式集群中运行 R 的作业

w397090770   5年前 (2020-07-09) 756℃ 0评论2喜欢

Spark 3.0 中七个必须知道的 SQL 性能优化

Spark 3.0 中七个必须知道的 SQL 性能优化
​本文来自 IBM 东京研究院的高级技术人员 Kazuaki Ishizaki 博士在 Spark Summit North America 2020 的 《SQL Performance Improvements at a Glance in Apache Spark 3.0》议题的分享,本文视频参见今天的推文第三条​。PPT 请关注过往记忆大数据并后台回复 sparksql3 ​获取。Spark 3.0 正式版在上个月已经发布了,其中更新了很多功能,参见过往记忆大数据的 Ap

w397090770   5年前 (2020-07-08) 2530℃ 0评论3喜欢