欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

标签:Spark

Spark

Spark 1.2.1稳定版本发布(released)

Spark 1.2.1稳定版本发布(released)
  美国时间2015年2月09日Spark 1.2.1正式发布了,邮件如下:Hi All,I've just posted the 1.2.1 maintenance release of Apache Spark. We recommend all 1.2.0 users upgrade to this release, as this release includes stability fixes across all components of Spark.- Download this release: http://spark.apache.org/downloads.html- View the release notes: http://spark.apache.org/releases/spark-release-1-2-1.html-

w397090770   10年前 (2015-02-10) 3437℃ 0评论1喜欢

Spark

Spark SQL中对Json支持的详细介绍

Spark SQL中对Json支持的详细介绍
  在这篇文章中,我将介绍一下Spark SQL对Json的支持,这个特性是Databricks的开发者们的努力结果,它的目的就是在Spark中使得查询和创建JSON数据变得非常地简单。随着WEB和手机应用的流行,JSON格式的数据已经是WEB Service API之间通信以及数据的长期保存的事实上的标准格式了。但是使用现有的工具,用户常常需要开发出复杂的程序

w397090770   10年前 (2015-02-04) 14241℃ 1评论16喜欢

Spark

IndexedRDD:高效可更新的Key-value RDD

IndexedRDD:高效可更新的Key-value RDD
  目前的Spark RDD只提供了一个基于迭代器(iterator-based)、批量更新(bulk-updatable)的接口。但是在很多场景下,我们需要扫描部分RDD便可以查找到我们要的数据,而当前的RDD设计必须扫描全部的分区(partition )。如果你需要更新某个数据,你需要复制整个RDD!那么为了解决这方面的问题,Spark开发团队正在设计一种新的RDD:IndexedRDD。它是

w397090770   10年前 (2015-02-02) 6778℃ 0评论7喜欢

Spark

北京第五次Spark meetup会议资料分享

北京第五次Spark meetup会议资料分享
  《Spark meetup(Beijing)资料分享》  《Spark meetup(杭州)PPT资料分享》  《北京第二次Spark meetup会议资料分享》  《北京第三次Spark meetup会议资料分享》  《北京第四次Spark meetup会议资料分享》  《北京第五次Spark meetup会议资料分享》》  《北京第六次Spark meetup会议资料分享》  北京第五次Spark meetup会议

w397090770   10年前 (2015-01-31) 3723℃ 0评论4喜欢

Spark

Spark北京Meetup第五次活动(Streaming专题)

Spark北京Meetup第五次活动(Streaming专题)
活动时间  1月24日下午14:00活动地点  地址:海淀区中关村软件园二期,西北旺东路10号院东区,亚信大厦 一层会议室  地图:http://j.map.baidu.com/L_1hq  为了保证大家乘车方便,特提供活动大巴时间:13:20-13:40位置:http://j.map.baidu.com/SJOLy分享内容:  邵赛赛 Intel Spark Streaming driver high availability

w397090770   10年前 (2015-01-22) 15584℃ 0评论2喜欢

Spark

Learning Spark pdf下载

Learning Spark pdf下载
  经过这段时间的整理以及格式调整,以及纠正其中的一些错误修改,整理出PDF下载。下载地址:[dl href="http://download.csdn.net/detail/w397090770/8337439"]CSDN免积分下载[/dl]  完整版可以到这里下载Learning Spark完整版下载附录:Learning Spark目录Chapter 1 Introduction to Data Analysis with Spark  What Is Apache Spark?  A Unified Stack  Who Us

w397090770   10年前 (2015-01-07) 32524℃ 6评论83喜欢

Spark

Spark解析Json数据(非Sql方式)

Spark解析Json数据(非Sql方式)
  Spark支持读取很多格式的文件,其中包括了所有继承了Hadoop的InputFormat类的输入文件,以及平时我们常用的Text、Json、CSV (Comma Separated Values) 以及TSV (Tab Separated Values)文件。本文主要介绍如何通过Spark来读取Json文件。很多人会说,直接用Spark SQL模块的jsonFile方法不就可以读取解析Json文件吗?是的,没错,我们是可以通过那个读取Json

w397090770   10年前 (2015-01-06) 26867℃ 10评论15喜欢

Spark

影响到Spark输出RDD分区的操作函数

影响到Spark输出RDD分区的操作函数
  下面的操作会影响到Spark输出RDD分区(partitioner)的:  cogroup, groupWith, join, leftOuterJoin, rightOuterJoin, groupByKey, reduceByKey, combineByKey, partitionBy, sort, mapValues (如果父RDD存在partitioner), flatMapValues(如果父RDD存在partitioner), 和 filter (如果父RDD存在partitioner)。其他的transform操作不会影响到输出RDD的partitioner,一般来说是None,也就是没

w397090770   10年前 (2014-12-29) 16539℃ 0评论5喜欢

Spark

Spark: sortBy和sortByKey函数详解

Spark: sortBy和sortByKey函数详解
  在很多应用场景都需要对结果数据进行排序,Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数,分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序,它是从Spark 0.9.0之后才引入的(可以参见SPARK-1063)。而sortByKey函数是对PairRDD进行排序,也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进行说明。

w397090770   10年前 (2014-12-26) 83625℃ 7评论88喜欢

Akka

Akka学习笔记:子Actor和Actor路径

Akka学习笔记:子Actor和Actor路径
  Akka学习笔记系列文章:  《Akka学习笔记:ACTORS介绍》  《Akka学习笔记:Actor消息传递(1)》  《Akka学习笔记:Actor消息传递(2)》    《Akka学习笔记:日志》  《Akka学习笔记:测试Actors》  《Akka学习笔记:Actor消息处理-请求和响应(1) 》  《Akka学习笔记:Actor消息处理-请求和响应(2) 》  《Akka学

w397090770   10年前 (2014-12-22) 5636℃ 0评论7喜欢