Spark – 过往记忆-Page 22

Spark 2.0介绍：Spark SQL中的Time Window使用

　　《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列

w397090770 9年前 (2016-07-12) 9792℃ 4评论11喜欢

Spark

Spark中函数addFile和addJar函数介绍

　　我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上，然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。addFile　　addFile方法可以接收本地文件（或者HDFS上的文件），甚至是文件夹（如果是文件夹，必须是HDFS路径），然后Spark的Driver和Exector

w397090770 9年前 (2016-07-11) 12651℃ 0评论13喜欢

Spark

Spark 2.0介绍：Catalog API介绍和使用

《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介

w397090770 9年前 (2016-07-05) 8932℃ 0评论12喜欢

Spark

通过分区(Partitioning)提高Spark的运行性能

在Sortable公司，很多数据处理的工作都是使用Spark完成的。在使用Spark的过程中他们发现了一个能够提高Spark job性能的一个技巧，也就是修改数据的分区数，本文将举个例子并详细地介绍如何做到的。查找质数比如我们需要从2到2000000之间寻找所有的质数。我们很自然地会想到先找到所有的非质数，剩下的所有数字就是我们要找

w397090770 9年前 (2016-06-24) 23531℃ 2评论45喜欢

Spark

Spark Summit 2016 San Francisco PPT免费下载[共95个]

　　Spark Summit 2016 San Francisco会议于2016年6月06日至6月08日在美国San Francisco进行。本次会议有多达150位Speaker，来自业界顶级的公司。　　由于会议的全部资料存储在http://www.slideshare.net网站，此网站需要翻墙才能访问。基于此本站收集了本次会议的所有PPT资料供大家学习交流之用。本次会议PPT资料全部通过爬虫程序下载，如有问题

w397090770 9年前 (2016-06-15) 3374℃ 0评论9喜欢

Spark

Apache Spark 2.0预览：机器学习模型持久化

　　在即将发布的Apache Spark 2.0中将会提供机器学习模型持久化能力。机器学习模型持久化（机器学习模型的保存和加载）使得以下三类机器学习场景变得容易：　　1、数据科学家开发ML模型并移交给工程师团队在生产环境中发布；　　2、数据工程师把一个Python语言开发的机器学习模型训练工作流集成到一个Java语言开发的机器

w397090770 9年前 (2016-06-04) 3514℃ 3评论3喜欢

Spark

Apache Spark作为编译器：深入介绍新的Tungsten执行引擎

本文原文：Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop Deep dive into the new Tungsten execution engine：https://databricks.com/blog/2016/05/23/apache-spark-as-a-compiler-joining-a-billion-rows-per-second-on-a-laptop.html本文已经投稿自：http://geek.csdn.net/news/detail/77005　　《Spark 2.0技术预览：更容易、更快速、更智能》文中简单地介绍了Spark 2.0相关

w397090770 9年前 (2016-05-27) 6034℃ 1评论16喜欢

Spark

SparkSession：新的切入点

　　在Spark 1.x版本，我们收到了很多询问SparkContext, SQLContext和HiveContext之间关系的问题。当人们想使用DataFrame API的时候把HiveContext当做切入点的确有点奇怪。在Spark 2.0，引入了SparkSession，作为一个新的切入点并且包含了SQLContext和HiveContext的功能。为了向后兼容，SQLContext和HiveContext被保存下来。SparkSession拥有许多特性，下面将展示SparkS

w397090770 9年前 (2016-05-26) 14044℃ 0评论13喜欢

Spark

Spark 2.0技术预览版正式发布下载

　　在过去Spark社区创建了Spark 2.0的技术预览版，经过几天的投票，目前该技术预览版今天正式公布。《Spark 2.0技术预览：更容易、更快速、更智能》文章中详细介绍了Spark 2.0给我们带来的新功能，总体上Spark 2.0提升了下面三点：　　1. 对标准的SQL支持，统一DataFrame和Dataset API。现在已经可以运行TPC-DS所有的99个查询，这99个查

w397090770 9年前 (2016-05-25) 2637℃ 0评论3喜欢

Spark

《Apache Spark 2.0: Faster, Easier, and Smarter》ppt下载

《Spark 2.0技术预览：更容易、更快速、更智能》文章介绍了Spark的三大新特性，本文是Reynold Xin在2016年5月5日的演讲，视频可以到这里看：http://go.databricks.com/apache-spark-2.0-presented-by-databricks-co-founder-reynold-xinPPT下载地址见下面。

w397090770 9年前 (2016-05-24) 3283℃ 0评论4喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Spark

Spark 2.0介绍：Spark SQL中的Time Window使用

Spark中函数addFile和addJar函数介绍

Spark 2.0介绍：Catalog API介绍和使用

通过分区(Partitioning)提高Spark的运行性能

Spark Summit 2016 San Francisco PPT免费下载[共95个]

Apache Spark 2.0预览：机器学习模型持久化

Apache Spark作为编译器：深入介绍新的Tungsten执行引擎

SparkSession：新的切入点

Spark 2.0技术预览版正式发布下载

《Apache Spark 2.0: Faster, Easier, and Smarter》ppt下载