本书作者 Denny Lee, Tathagata Das, Vini Jaiswal,预计2022年4月出版,出版社 O'Reilly Media, Inc.,ISBN:9781098104528
分析和机器学习模型的好坏取决于它们所依赖的数据。查询处理过的数据并从中获得见解需要一个健壮的数据管道——以及一个有效的存储解决方案,以确保数据质量、数据完整性和性能。
本指南向您介绍 Delta Lake,这是一种开源格式,可以在现有存储系统(如S3、ADLS、GCS 和 HDFS)之上构建 Lake house 架构。Delta Lake 增强了 Apache Spark,通过支持数据完整性、数据质量和性能,使存储和管理大量复杂数据变得更加容易。数据工程师、数据科学家和数据实践者将学习如何利用 Delta Lake 建立可靠的数据湖和大规模数据管道。
- 了解关键的数据可靠性挑战以及如何解决它们
- 了解如何使用 Delta Lake 提高数据可靠性
- 在数据湖上并发地运行流作业和批处理作业
- 在数据湖上执行更新、删除和合并命令
- 使用时间旅行来回滚和检查以前的数据版本
- 学习为真实世界用例构建有效、高质量的端到端数据管道的最佳实践
- 与其他数据技术集成,如 Presto, Athena, Redshift 和其他 BI 工具
- 了解数以千计的公司是如何在他们的 lakehouse 架构中利用 Delta Lake 来处理 EB 级别的数据。
下载地址
关注过往记忆大数据微信公众号,并回复 9970 获取。
图书目录
1. Basic Operations on Delta Lakes What is Delta Lake? How to start using Delta Lake Using Delta Lake via local Spark shells Leveraging GitHub or Maven Using Databricks Community Edition Basic operations Creating your first Delta table Unpacking the Transaction Log What Is the Delta Lake Transaction Log? How Does the Transaction Log Work? Dealing With Multiple Concurrent Reads and Writes Other Use Cases Diving further into the transaction log Table Utilities Review table history Vacuum History Retrieve Delta table details Generate a manifest file Convert a Parquet table to a Delta table Convert a Delta table to a Parquet table Restore a table version Summary 2. Time Travel with Delta Lake Introduction Under the hood of a Delta Table The Delta Directory Delta Logs Directory The files of a Delta table Time Travel Common Challenges with Changing Data Working with Time Travel Time travel use cases Time travel considerations Summary 3. Continuous Applications with Delta Lake Make All Your Streams Come True Spark Streaming Was Built to Unify Batch and Streaming Exactly-Once Semantics Putting Some Structure Around Streaming Streaming with Delta Delta as a Stream Source Ignore Updates and Deletes Delta Table as a Sink Appendix本博客文章除特别声明,全部都是原创!
原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载。
本文链接: 【Delta Lake: The Definitive Guide 预览版下载】(https://www.iteblog.com/archives/9970.html)