w397090770的文章

Apache Spark 3.0 第一个稳定版发布，终于可以在生产环境中使用啦！

Apache Spark 3.0.0 正式版是2020年6月18日发布的，其为我们带来大量新功能，很多功能加快了数据的计算速度。但是遗憾的是，这个版本并非稳定版。不过就在昨天，Apache Spark 3.0.1 版本悄悄发布了（好像没看到邮件通知）！值得大家高兴的是，这个版本是稳定版，官方推荐所有 3.0 的用户升级到这个版本。Apache Spark 3.0 增加了很多

5年前 (2020-09-10) 1302℃ 0评论0喜欢

Spark

Spark on Yarn: 你设置的内存都去哪里了？

Efficient processing of big data, especially with Spark, is really all about how much memory one can afford, or how efficient use one can make of the limited amount of available memory. Efficient memory utilization, however, is not what one can take for granted with default configuration shipped with Spark and Yarn. Rather, it takes very careful provisioning and tuning to get as much as possible from the bare metal. In this post I’ll

5年前 (2020-09-09) 1001℃ 0评论0喜欢

Spark

Apache Spark SQL 参数介绍

我们可以在初始化 SparkSession 的时候进行一些设置：[code lang="scala"]import org.apache.spark.sql.SparkSessionval spark: SparkSession = SparkSession.builder .master("local[*]") .appName("My Spark Application") .config("spark.sql.warehouse.dir", "c:/Temp") (1) .getOrCreateSets spark.sql.warehouse.dir for the Spark SQL session[/code]也可以使用 SQL SET

5年前 (2020-09-09) 3421℃ 0评论2喜欢

Apache Iceberg

数据湖技术 Iceberg 的探索与实践

本文资料来自2020年9月5日由快手技术团队主办的快手大数据平台架构技术交流会，分享者邵赛赛，腾讯数据平台部数据湖内核技术负责人，资深大数据工程师，Apache Spark PMC member & committer, Apache Livy PMC member，曾就职于 Hortonworks，Intel 。随着大数据存储和处理需求的多样化，如何构建一个统一的数据湖存储，并在其上进行多种形式

5年前 (2020-09-07) 4634℃ 3评论8喜欢

Delta Lake

在 Delta Lake 中启用 Spark SQL DDL 和 DML

Delta Lake 0.7.0 是随着 Apache Spark 3.0 版本发布之后发布的，这个版本比较重要的特性就是支持使用 SQL 来操作 Delta 表，包括 DDL 和 DML 操作。本文将详细介绍如何使用 SQL 来操作 Delta Lake 表，关于 Delta Lake 0.7.0 版本的详细 Release Note 可以参见这里。使用 SQL 在 Hive Metastore 中创建表Delta Lake 0.7.0 支持在 Hive Metastore 中定义 Delta 表，而且这

5年前 (2020-09-06) 1191℃ 0评论0喜欢

Spark

Learning Spark, 2nd Edition 可以免费下载了

《Learning Spark, 2nd Edition》这本书是由 O'Reilly Media 出版社于2020年7月出版的，作者包括 Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop图书介绍第二版已更新包含了 Spark 3.0 的一些东西，本书向数据工程师和数据科学家展示了 Spark 中结构化和统一

5年前 (2020-09-03) 2843℃ 0评论10喜欢

Pulsar

Apache Pulsar 2.6.1 版本正式发布：功能增强，新增 OAuth2 支持

在 Apache Pulsar 2.6.0 版本发布后的 2 个月，2020 年 8 月 21 日，Apache Pulsar 2.6.1 版本正式发布！如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopApache Pulsar 2.6.1 修复了 2.6.0 版本中的诸多问题，改进了一些功能，新增了对 OAuth2 的支持，覆盖 Broker、Pulsar SQL、Pulsar Functions、Go Function、Java Client 和 C++

5年前 (2020-09-02) 624℃ 0评论2喜欢

hudi

Apache Hudi 0.6.0 版本发布，新功能介绍

本文英文原文：https://hudi.apache.org/releases.html下载信息源码：Apache Hudi 0.6.0 Source Release (asc, sha512)二进制Jar包：nexus如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop2. 迁移指南如果您从0.5.3以前的版本迁移至0.6.0，请仔细核对每个版本的迁移指南；0.6.0版本从基于list的rollback策略变更为

5年前 (2020-09-02) 924℃ 0评论0喜欢

Idea

IntelliJ IDEA 2020.2.1 版本正式发布

如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop尽管 IntelliJ IDEA 2020.2 版本发布不久，但我们已经带着一个改进版 IntelliJ IDEA 回来了。这个版本主要对 2020.2 版本进行了一些的调整，帮助您更加专注和高效。重要更新如下：修复了 Lombok 插件被异常阻止的问题经调试后，MacBook Touch Bar 不再

5年前 (2020-08-25) 752℃ 0评论2喜欢

Delta Lake

Delta Lake 第一篇论文发布了

最近，数砖大佬们给 VLDB 投了一篇名为《Delta Lake: High-Performance ACID Table Storage overCloud Object Stores》的论文，并且被 VLDB 收录了，这是第一篇比较系统介绍数砖开发 Delta Lake 的论文。随着云对象存储（Cloud object stores）的普及，因为其廉价的成本，越来越多的企业都选择对象存储作为其海量数据的存储引擎。但是由于对象存储的特点

5年前 (2020-08-25) 1066℃ 0评论2喜欢

上一页
1
···
17
18
19
20
21
22
23
24
25
26
27
...
134
下一页
共 134 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

w397090770的文章

Apache Spark 3.0 第一个稳定版发布，终于可以在生产环境中使用啦！

Spark on Yarn: 你设置的内存都去哪里了？

Apache Spark SQL 参数介绍

数据湖技术 Iceberg 的探索与实践

在 Delta Lake 中启用 Spark SQL DDL 和 DML

Learning Spark, 2nd Edition 可以免费下载了

Apache Pulsar 2.6.1 版本正式发布：功能增强，新增 OAuth2 支持

Apache Hudi 0.6.0 版本发布，新功能介绍

IntelliJ IDEA 2020.2.1 版本正式发布

Delta Lake 第一篇论文发布了