摘要 本书介绍了用作各种机器学习模型输入的数据集加载和处理的Spark API的基础知识。书中有详细的示例和现实世界的用例,并探索常见的机器学习模型,包括推荐系统,分类,回归,聚类和降维。最后涵盖了一些高级主题,如使用大规模文本数据以及使用Spark Streaming进行在线机器学习和模型评估的方法。 通过本书将学习到以下的知识: (1)、Create your first Spark program in Scala, Java, and Python (2)、Set up and configure a development environment for Spark on your own computer, as well as on Amazon EC2 …