w397090770的文章

Apache Iceberg 快速入门

导言本文主要介绍如何快速的通过Spark访问 Iceberg table。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoopSpark通过DataSource和DataFrame API访问Iceberg table，或者进行Catalog相关的操作。由于Spark Data Source V2 API还在持续的演进和修改中，所以Iceberg在不同的Spark版本中的使用方式有所不同。版本对比

5年前 (2020-06-10) 10159℃ 0评论4喜欢

HBase

滴滴 HBase 大版本滚动升级之旅

滴滴HBase团队日前完成了0.98版本 -> 1.4.8版本滚动升级，用户无感知。新版本为我们带来了丰富的新特性，在性能、稳定性与易用性方便也均有很大提升。我们将整个升级过程中面临的挑战、进行的思考以及解决的问题总结成文，希望对大家有所帮助。背景目前HBase服务在我司共有国内、海外共计11个集群，总吞吐超过1kw+/s，服务

5年前 (2020-06-10) 1596℃ 0评论6喜欢

Apache Iceberg

基于 Apache Iceberg 打造 T+0 实时数仓

大数据处理技术现今已广泛应用于各个行业，为业务解决海量存储和海量分析的需求。但数据量的爆发式增长，对数据处理能力提出了更大的挑战，同时对时效性也提出了更高的要求。业务通常已不再满足滞后的分析结果，希望看到更实时的数据，从而在第一时间做出判断和决策。典型的场景如电商大促和金融风控等，基于延迟数

5年前 (2020-06-08) 3961℃ 0评论3喜欢

hudi

官宣，Apache Hudi 正式成为 Apache 顶级项目

2020年6月4日，马萨诸塞州韦克菲尔德（Wakefield, MA）—— Apache 软件基金会（ASF），超过350个开源项目和计划的全志愿者开发人员、管理人员和孵化器，正式宣布 Apache Hudi 成为顶级项目（Top-Level Project 、TLP）。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopApache Hudi (Hadoop Upserts delete and Incrementa

5年前 (2020-06-04) 1234℃ 0评论5喜欢

Spark

Spark 3.0 自适应查询优化介绍，在运行时加速 Spark SQL 的执行性能

多年以来，社区一直在努力改进 Spark SQL 的查询优化器和规划器，以生成高质量的查询执行计划。最大的改进之一是基于成本的优化（CBO，cost-based optimization）框架，该框架收集并利用各种数据统计信息（如行数，不同值的数量，NULL 值，最大/最小值等）来帮助 Spark 选择更好的计划。这些基于成本的优化技术很好的例子就是选择正确

5年前 (2020-05-30) 1772℃ 0评论4喜欢

Spark

Apache Spark 3.0 新的 Pandas UDF 及 Python Type Hints

Pandas 用户定义函数（UDF）是 Apache Spark 中用于数据科学的最重要的增强之一，它们带来了许多好处，比如使用户能够使用 Pandas API和提高性能。但是，随着时间的推移，Pandas UDFs 已经有了一些新的发展，这导致了一些不一致性，并在用户之间造成了混乱。即将推出的 Apache Spark 3.0 完整版将为 Pandas UDF 引入一个新接口，该接口利用

5年前 (2020-05-30) 980℃ 0评论1喜欢

HDFS

Ozone：Hadoop 原生分布式对象存储

Hadoop 社区推出了新一代分布式Key-value对象存储系统 Ozone，同时提供对象和文件访问的接口，从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇，抛个砖，介绍Ozone的产生背景，主要架构和功能。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop背景HDFS是业界默认的

5年前 (2020-05-26) 1954℃ 1评论1喜欢

hudi

恭喜，Apache Hudi 即将成为顶级项目

美国当地时间2020年05月11日，Apache Hudi 项目的共同创始人、PMC Vinoth Chandar 给社区发了一封标题为 [DISCUSS] Graduate Apache Hudi (Incubating) as a TLP 的邮件，来投票讨论 Apache Hudi 毕业成为 Apache TLP 项目。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop2020年05月19日共40人投票赞成。不久社区给 Apache 董事

5年前 (2020-05-22) 1211℃ 0评论1喜欢

招聘

【阿里云】数据湖分析DLA 招聘-平台研发技术专家

数据湖分析Data Lake Analytics是阿里云数据库自研的云原生数据湖分析系统，目前已有数千企业在使用，是阿里云库、仓、湖战略高地之一 !!!现紧急招聘【数据湖平台工程师】产品链接：https://www.aliyun.com/product/datalakeanalytics !!!如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop团队内部拥有多

5年前 (2020-05-22) 934℃ 0评论1喜欢

其他