欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

标签:Delta Lake

Delta Lake

Delta Lake 1.0.0 发布,多项新特性重磅发布

Delta Lake 1.0.0 发布,多项新特性重磅发布
赶在 Data + AI Summit 2021 之前,Delta Lake 1.0.0 重磅发布,这个版本是基于 Spark 3.1 的,带来了许多新特性。本文将结合 Michael Armbrust 大牛在 Data + AI Summit 2021 的演讲《Announcing Delta Lake 1.0》来介绍 Delta Lake 1.0.0 版本的一些重要的新特性。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据Delta Lake 0.1

w397090770   3年前 (2021-05-27) 810℃ 0评论1喜欢

Delta Lake

Delta Lake: The Definitive Guide 预览版下载

Delta Lake: The Definitive Guide 预览版下载
本书作者 Denny Lee, Tathagata Das, Vini Jaiswal,预计2022年4月出版,出版社 O'Reilly Media, Inc.,ISBN:9781098104528分析和机器学习模型的好坏取决于它们所依赖的数据。查询处理过的数据并从中获得见解需要一个健壮的数据管道——以及一个有效的存储解决方案,以确保数据质量、数据完整性和性能。本指南向您介绍 Delta Lake,这是一种开

w397090770   3年前 (2021-05-27) 544℃ 0评论2喜欢

Delta Lake

Data Lakehouse 的演变

Data Lakehouse 的演变
本文是 Forest Rim Technology 数据团队撰写的,作者 Bill Inmon 和 Mary Levins,其中 Bill Inmon 被称为是数据仓库之父,最早的数据仓库概念提出者,被《计算机世界》评为计算机行业历史上最具影响力的十大人物之一。原始数据的挑战随着大量应用程序的出现,产生了相同的数据在不同地方出现不同值的情况。为了做出决定,用户必须找

w397090770   3年前 (2021-05-25) 570℃ 0评论0喜欢

Delta Lake

Delta Lake 提供纯 Scala\Java\Python 操作 API,和 Flink 整合更加容易

Delta Lake 提供纯 Scala\Java\Python 操作 API,和 Flink 整合更加容易
最近,Delta Lake 发布了一项新功能,也就是支持直接使用 Scala、Java 或者 Python 来查询 Delta Lake 里面的数据,这个是不需要通过 Spark 引擎来实现的。Scala 和 Java 读取 Delta Lake 里面的数据是通过 Delta Standalone Reader 实现的;而 Python 则是通过 Delta Rust API 实现的。Delta Lake 是一个开源存储层,为数据湖带来了可靠性。Delta Lake 提供 ACID 事务

w397090770   4年前 (2021-01-05) 1053℃ 0评论0喜欢

Delta Lake

Data Lakehouse (湖仓一体) 到底是什么

Data Lakehouse (湖仓一体) 到底是什么
背景数据湖(Data Lake),湖仓一体(Data Lakehouse)俨然已经成为了大数据领域最为火热的流行词,在接受这些流行词洗礼的时候,身为技术人员我们往往会发出这样的疑问,这是一种新的技术吗,还是仅仅只是概念上的翻新(新瓶装旧酒)呢?它到底解决了什么问题,拥有什么样新的特性呢?它的现状是什么,还存在什么问题呢?

w397090770   4年前 (2020-11-28) 5672℃ 0评论7喜欢

Delta Lake

深入理解 Delta Lake 的 DML 实现原理 (Update, Delete, Merge)

深入理解 Delta Lake 的 DML 实现原理 (Update, Delete, Merge)
Delta Lake 支持 DML 命令,包括 DELETE, UPDATE, 以及 MERGE,这些命令简化了 CDC、审计、治理以及 GDPR/CCPA 工作流等业务场景。在这篇文章中,我们将演示如何使用这些 DML 命令,并会介绍这些命令的后背实现,同时也会介绍对应命令的一些性能调优技巧。Delta Lake: 基本原理如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信

w397090770   4年前 (2020-10-12) 1339℃ 0评论0喜欢

Delta Lake

深入理解 Delta Lake:Schema Enforcement & Evolution

深入理解 Delta Lake:Schema Enforcement & Evolution
在实践经验中,我们知道数据总是在不断演变和增长,我们对于这个世界的心智模型必须要适应新的数据,甚至要应对我们从前未知的知识维度。表的 schema 其实和这种心智模型并没什么不同,需要定义如何对新的信息进行分类和处理。这就涉及到 schema 管理的问题,随着业务问题和需求的不断演进,数据结构也会不断发生变化。

w397090770   4年前 (2020-09-12) 554℃ 0评论0喜欢

Delta Lake

在 Delta Lake 中启用 Spark SQL DDL 和 DML

在 Delta Lake 中启用 Spark SQL DDL 和 DML
Delta Lake 0.7.0 是随着 Apache Spark 3.0 版本发布之后发布的,这个版本比较重要的特性就是支持使用 SQL 来操作 Delta 表,包括 DDL 和 DML 操作。本文将详细介绍如何使用 SQL 来操作 Delta Lake 表,关于 Delta Lake 0.7.0 版本的详细 Release Note 可以参见这里。使用 SQL 在 Hive Metastore 中创建表Delta Lake 0.7.0 支持在 Hive Metastore 中定义 Delta 表,而且这

w397090770   4年前 (2020-09-06) 1099℃ 0评论0喜欢

Delta Lake

Delta Lake 第一篇论文发布了

Delta Lake 第一篇论文发布了
最近,数砖大佬们给 VLDB 投了一篇名为《Delta Lake: High-Performance ACID Table Storage overCloud Object Stores》的论文,并且被 VLDB 收录了,这是第一篇比较系统介绍数砖开发 Delta Lake 的论文。随着云对象存储(Cloud object stores)的普及,因为其廉价的成本,越来越多的企业都选择对象存储作为其海量数据的存储引擎。但是由于对象存储的特点

w397090770   4年前 (2020-08-25) 1004℃ 0评论2喜欢

Apache Iceberg

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案
目前市面上流行的三大开源数据湖方案分别为:Delta、Apache Iceberg 和 Apache Hudi。其中,由于 Apache Spark 在商业化上取得巨大成功,所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目,它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中

w397090770   4年前 (2020-03-05) 3880℃ 0评论2喜欢