分类：Spark

贝壳一站式大数据开发平台实践

本文根据贝壳找房资深工程师仰宗强老师在2020年"面向AI技术的工程架构实践"大会上的演讲速记整理而成。1 开场大家下午好,很荣幸来到这跟大家一起分享贝壳一站式大数据开发平台的落地实践。今天的分享主要分为以下四个部分：贝壳的数据业务背景。数据开发平台探索历程。数据开发平台的整体情况介绍未来规划与

w397090770 4年前 (2020-11-25) 1739℃ 0评论5喜欢

这些未在 Spark SQL 文档中说明的优化措施，你知道吗？

本文来自上周（2020-11-17至2020-11-19）举办的 Data + AI Summit 2020 （原 Spark+AI Summit），主题为《Spark SQL Beyond Official Documentation》的分享，作者 David Vrba，是 Socialbakers 的高级机器学习工程师。实现高效的 Spark 应用程序并获得最大的性能为目标，通常需要官方文档之外的知识。理解 Spark 的内部流程和特性有助于根据内部优化设计查询

w397090770 4年前 (2020-11-24) 1191℃ 0评论4喜欢

Apache Iceberg 小文件合并原理及实践

在《一条数据在 Apache Iceberg 之旅：写过程分析》这篇文章中我们分析了 Apache Iceberg 写数据的源码。如下是我们使用 Spark 写两次数据到 Iceberg 表的数据目录布局（测试代码在这里）：[code lang="bash"]/data/hive/warehouse/default.db/iteblog├── data│ └── ts_year=2020│ ├── id_bucket=0│ │ ├── 00000-0-19603f5a-d38a

w397090770 4年前 (2020-11-20) 6976℃ 6评论8喜欢

一条数据在 Apache Iceberg 之旅：写过程分析

本文基于 Apache Iceberg 0.9.0 最新分支，主要分析 Apache Iceberg 中使用 Spark 2.4.6 来写数据到 Iceberg 表中，也就是对应 iceberg-spark2 模块。当然，Apache Iceberg 也支持 Flink 来读写 Iceberg 表，其底层逻辑也 Spark 类似，感兴趣的同学可以去看看。使用 Spark2 将数据写到 Apache Iceberg在介绍下面文章之前，我们先来看下在 Apache Spark 2.4.6 中写数

w397090770 4年前 (2020-11-12) 6108℃ 0评论9喜欢

Apache Spark 中支持的七种 Join 类型

数据分析中将两个数据集进行 Join 操作是很常见的场景。我在这篇文章中介绍了 Spark 支持的五种 Join 策略，本文我将给大家介绍一下 Apache Spark 中支持的 Join 类型（Join Type）。目前 Apache Spark 3.0 版本中，一共支持以下七种 Join 类型：INNER JOINCROSS JOINLEFT OUTER JOINRIGHT OUTER JOINFULL OUTER JOINLEFT SEMI JOINLEFT ANTI JOIN在实现上

w397090770 5年前 (2020-10-25) 1667℃ 0评论6喜欢

Apache Spark 3.0 新功能最新分享

本文资料来自2020年9月23日举办的 Apache Spark Bogotá 题为《Apache Spark 3.0: Overview of What’s New and Why Care》的分享。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoopApache Spark 3.0 继续坚持更快、更简单、更智能的目标，这个版本解决了3000多个 JIRAs。在这次演讲中，主要和 Bogota Spark 社区分享 Spark 3.0 的

w397090770 5年前 (2020-10-24) 873℃ 0评论3喜欢