[电子书]High Performance Spark完整版PDF下载

如果你使用Apache Spark解决了中等规模数据的问题，但是在海量数据使用Spark的时候还是会遇到各种问题。High Performance Spark将会向你展示如何使用Spark的高级功能，所以你可以超越新手级别。本书适合软件工程师、数据工程师、开发者以及Spark系统管理员的使用。本书全名High Performance Spark：Best Practices for Scaling and Optimizing Apache Spark，作者Holden Karau, Rachel Warren，由O'Reilly于2017年05月出版，全书358页；《[电子书]High Performance Spark下载》文章提供的是本书预览版，只提供前四章，共91页，本文提供了本书的完整版。通过本书你可以学到：

了解如何使Spark作业运行速度更快；
使用Spark探索数据；
使用Spark处理更大的数据集；
减少管道运行时间以获得更快的洞察力。

如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop

本书的章节

Chapter 1 Introduction to High Performance Spark
Chapter 2 How Spark Works
Chapter 3 DataFrames, Datasets & Spark SQL
Chapter 4 Joins (SQL & Core)
Chapter 5 Effective Transformations
Chapter 6 Working with Key/Value Data
Chapter 7 Going Beyond Scala
Chapter 8 Testing & Validation
Chapter 9 Spark Components and Packages
Append ix Spark Tuning and Cluster Sizing