欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

Spark 1.0.0于5月30日正式发布

  Spark 1.0.0于5月30日正式发布,可以到http://spark.apache.org/downloads.html页面下载。Spark 1.0.0是一个主要版本,它标志着Spark已经进入了1.X的时代。这个版本的Spark带来了很多新特性和强API的支持。 Spark 1.0加入了一个主要的组件: Spark SQL,这个组件支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大程度上的增强,对Spark和Python的接口也变得更稳定。最后,Spark 1.0同时带来了操作方面的提升,包括全面支持Hadoop/YARN安全模型和对所有支持cluster managers提供一个统一的提交流程。下面主要介绍Spark 1.0.0带来的新特性:

API稳定性

  Spark 1.0.0是1.X主线的第一个发行版本。Spark保证主API对所有的1.x版本都提供兼容。从历史上看,Spark对API的改变非常保守。

融合YARN的安全机制

  Hadoop有着自己的安全机制,包括认证和授权。Spark现在可以和Hadoop/YARN的安全模型并存,也就是说Spark可以对任务提交(job submission)进行认证,能够使用HDFS的认证机制进行数据的安全传输,各组件之间也增加了互相认证。

改善了任务提交的流程

  这个版本的Spark简化了bundling和提交Spark应用的流。Spark启用新的任务提交工具spark-submit tool,它可以在任何Spark集群上提交任务,有关bundling Spark应用程序的文档已经增加了很多。Spark的UI界面中也增加了历史任务的记录,方便了用户查看已经结束了任务运行情况。

Spark SQL的加入

  Spark SQL作为一个新的alpha版本组件加入到1.0.0版本中,它能够利用Spark进行结构化数据的存储和操作,结构化数据既可以是外部结构化数据源(当前支持Hive和Parquet),也可以对已有的RDD增加相应的schema来得到。
  Spark SQL的API可以操作RDD数据模型,用户可以通过SQL语句来与Spark代码交互。当前Spark SQL使用Catalyst优化器来对SQL语句进行优化从而得到更有效的执行方案,并且可以将结果存储到Parquet格式中,在将来Spark SQL还会兼容其他的存储系统。

MLib的改进

  这个版本的MLib增加了对Scala、Java、Python中特征向量的支持,其主要利用了线性方法、k-means和朴素贝叶斯在存储和计算上的稀疏性。1.0.0的MLib还增加了几个新的算法,包括为分类和回归增加了可扩展的决策树、矩阵算法的分布式实现(包括SVD和PCA)、模型评估函数以及L-BFGS算法。

GraphX和Streaming的改进

  GraphX在图加载、边反转和邻接计算方面对通信的要求更低,产生的RDD图更简单,从而在性能方面得到了很大提升。

扩展对Java和Python的支持

  Spark 1.0.0增加了对Java 8的lambda语法支持。Java 8支持用简洁的语法来编写匿名函数,这个和Scala和Python类似。 这需要对当前的Java API做一点改变,文档里面有说明。Spark的Python API增加了一些新的函数。

Smaller Changes
  1. PySpark now works with more Python versions than before – Python 2.6+ instead of 2.7+, and NumPy 1.4+ instead of 1.7+.
  2. Spark has upgraded to Avro 1.7.6, adding support for Avro specific types.
  3. Internal instrumentation has been added to allow applications to monitor and instrument Spark jobs.
  4. Support for off-heap storage in Tachyon has been added via a special build target.
  5. Datasets persisted with DISK_ONLY now write directly to disk, significantly improving memory usage for large datasets.
  6. Intermediate state created during a Spark job is now garbage collected when the corresponding RDDs become unreferenced, improving performance.
  7. Spark now includes a Javadoc version of all its API docs and a unified Scaladoc for all modules.
  8. A new SparkContext.wholeTextFiles method lets you operate on small text files as individual records.
本博客文章除特别声明,全部都是原创!
原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载。
本文链接: 【Spark 1.0.0于5月30日正式发布】(https://www.iteblog.com/archives/1037.html)
喜欢 (3)
分享 (0)
发表我的评论
取消评论

表情
本博客评论系统带有自动识别垃圾评论功能,请写一些有意义的评论,谢谢!