标签：Spark

Spark函数讲解：aggregateByKey

　　该函数和aggregate类似，但操作的RDD是Pair类型的。Spark 1.1.0版本才正式引入该函数。官方文档定义：Aggregate the values of each key, using given combine functions and a neutral "zero value". This function can return a different result type, U, than the type of the values in this RDD, V. Thus, we need one operation for merging a V into a U and one operation for merging two U's, as in scala.Traversabl

w397090770 10年前 (2015-03-02) 39644℃ 2评论35喜欢

Scala

Spark函数讲解：aggregate

　　我们先来看看aggregate函数的官方文档定义：Aggregate the elements of each partition, and then the results for all the partitions, using given combine functions and a neutral "zero value". This function can return a different result type, U, than the type of this RDD, T. Thus, we need one operation for merging a T into an U and one operation for merging two U's, as in scala.TraversableOnce. Both of these functions

w397090770 10年前 (2015-02-12) 37461℃ 5评论23喜欢

Spark

Learning Spark完整版下载

Learning Spark这本书链接是完整版，和之前的预览版是不一样的，我不是标题党。这里提供的Learning Spark电子书格式是mobi、pdf以及epub三种格式的文件，如果你有亚马逊Kindle电子书阅读器，是可以直接阅读mobi、pdf。但如果你用电脑，也可以下载相应的PC版阅读器。如果你需要阅读器，可以找我。如果想及时了解Spark、Hadoop或者Hbase相

w397090770 10年前 (2015-02-11) 51015℃ 305评论70喜欢

Spark

Spark 1.2.1稳定版本发布(released)

　　美国时间2015年2月09日Spark 1.2.1正式发布了，邮件如下：Hi All,I've just posted the 1.2.1 maintenance release of Apache Spark. We recommend all 1.2.0 users upgrade to this release, as this release includes stability fixes across all components of Spark.- Download this release: http://spark.apache.org/downloads.html- View the release notes: http://spark.apache.org/releases/spark-release-1-2-1.html-

w397090770 10年前 (2015-02-10) 3502℃ 0评论2喜欢

Spark

Spark SQL中对Json支持的详细介绍

　　在这篇文章中，我将介绍一下Spark SQL对Json的支持，这个特性是Databricks的开发者们的努力结果，它的目的就是在Spark中使得查询和创建JSON数据变得非常地简单。随着WEB和手机应用的流行，JSON格式的数据已经是WEB Service API之间通信以及数据的长期保存的事实上的标准格式了。但是使用现有的工具，用户常常需要开发出复杂的程序

w397090770 10年前 (2015-02-04) 14421℃ 1评论16喜欢

Spark

IndexedRDD：高效可更新的Key-value RDD

　　目前的Spark RDD只提供了一个基于迭代器(iterator-based)、批量更新(bulk-updatable)的接口。但是在很多场景下，我们需要扫描部分RDD便可以查找到我们要的数据，而当前的RDD设计必须扫描全部的分区(partition )。如果你需要更新某个数据，你需要复制整个RDD！那么为了解决这方面的问题，Spark开发团队正在设计一种新的RDD：IndexedRDD。它是

w397090770 10年前 (2015-02-02) 6837℃ 0评论7喜欢

Spark

北京第五次Spark meetup会议资料分享

　　《Spark meetup(Beijing)资料分享》　　《Spark meetup(杭州)PPT资料分享》　　《北京第二次Spark meetup会议资料分享》　　《北京第三次Spark meetup会议资料分享》　　《北京第四次Spark meetup会议资料分享》　　《北京第五次Spark meetup会议资料分享》》　　《北京第六次Spark meetup会议资料分享》　　北京第五次Spark meetup会议

w397090770 10年前 (2015-01-31) 3756℃ 0评论4喜欢

Spark

Spark北京Meetup第五次活动(Streaming专题)

活动时间　　1月24日下午14:00活动地点　　地址：海淀区中关村软件园二期，西北旺东路10号院东区，亚信大厦一层会议室　　地图：http://j.map.baidu.com/L_1hq　　为了保证大家乘车方便，特提供活动大巴时间：13:20-13:40位置：http://j.map.baidu.com/SJOLy分享内容:　　邵赛赛 Intel Spark Streaming driver high availability

w397090770 10年前 (2015-01-22) 15594℃ 0评论2喜欢

Spark

Learning Spark pdf下载

　　经过这段时间的整理以及格式调整，以及纠正其中的一些错误修改，整理出PDF下载。下载地址：[dl href="http://download.csdn.net/detail/w397090770/8337439"]CSDN免积分下载[/dl]　　完整版可以到这里下载Learning Spark完整版下载附录：Learning Spark目录Chapter 1 Introduction to Data Analysis with Spark　　What Is Apache Spark?　　A Unified Stack　　Who Us

w397090770 10年前 (2015-01-07) 32584℃ 6评论83喜欢

Spark

Spark解析Json数据(非Sql方式)

　　Spark支持读取很多格式的文件，其中包括了所有继承了Hadoop的InputFormat类的输入文件，以及平时我们常用的Text、Json、CSV (Comma Separated Values) 以及TSV (Tab Separated Values)文件。本文主要介绍如何通过Spark来读取Json文件。很多人会说，直接用Spark SQL模块的jsonFile方法不就可以读取解析Json文件吗？是的，没错，我们是可以通过那个读取Json

w397090770 10年前 (2015-01-06) 26996℃ 10评论15喜欢

上一页
1
···
32
33
34
35
36
37
38
39
40
41
42
...
44
下一页
共 44 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Spark

Spark函数讲解：aggregateByKey

Spark函数讲解：aggregate

Learning Spark完整版下载

Spark 1.2.1稳定版本发布(released)

Spark SQL中对Json支持的详细介绍

IndexedRDD：高效可更新的Key-value RDD

北京第五次Spark meetup会议资料分享

Spark北京Meetup第五次活动(Streaming专题)

Learning Spark pdf下载

Spark解析Json数据(非Sql方式)