分类：Spark

Spark SQL中对Json支持的详细介绍

　　在这篇文章中，我将介绍一下Spark SQL对Json的支持，这个特性是Databricks的开发者们的努力结果，它的目的就是在Spark中使得查询和创建JSON数据变得非常地简单。随着WEB和手机应用的流行，JSON格式的数据已经是WEB Service API之间通信以及数据的长期保存的事实上的标准格式了。但是使用现有的工具，用户常常需要开发出复杂的程序

w397090770 10年前 (2015-02-04) 14428℃ 1评论16喜欢

IndexedRDD：高效可更新的Key-value RDD

　　目前的Spark RDD只提供了一个基于迭代器(iterator-based)、批量更新(bulk-updatable)的接口。但是在很多场景下，我们需要扫描部分RDD便可以查找到我们要的数据，而当前的RDD设计必须扫描全部的分区(partition )。如果你需要更新某个数据，你需要复制整个RDD！那么为了解决这方面的问题，Spark开发团队正在设计一种新的RDD：IndexedRDD。它是

w397090770 10年前 (2015-02-02) 6841℃ 0评论7喜欢

北京第五次Spark meetup会议资料分享

　　《Spark meetup(Beijing)资料分享》　　《Spark meetup(杭州)PPT资料分享》　　《北京第二次Spark meetup会议资料分享》　　《北京第三次Spark meetup会议资料分享》　　《北京第四次Spark meetup会议资料分享》　　《北京第五次Spark meetup会议资料分享》》　　《北京第六次Spark meetup会议资料分享》　　北京第五次Spark meetup会议

w397090770 10年前 (2015-01-31) 3756℃ 0评论4喜欢

Spark北京Meetup第五次活动(Streaming专题)

活动时间　　1月24日下午14:00活动地点　　地址：海淀区中关村软件园二期，西北旺东路10号院东区，亚信大厦一层会议室　　地图：http://j.map.baidu.com/L_1hq　　为了保证大家乘车方便，特提供活动大巴时间：13:20-13:40位置：http://j.map.baidu.com/SJOLy分享内容:　　邵赛赛 Intel Spark Streaming driver high availability

w397090770 10年前 (2015-01-22) 15594℃ 0评论2喜欢

Learning Spark pdf下载

　　经过这段时间的整理以及格式调整，以及纠正其中的一些错误修改，整理出PDF下载。下载地址：[dl href="http://download.csdn.net/detail/w397090770/8337439"]CSDN免积分下载[/dl]　　完整版可以到这里下载Learning Spark完整版下载附录：Learning Spark目录Chapter 1 Introduction to Data Analysis with Spark　　What Is Apache Spark?　　A Unified Stack　　Who Us

w397090770 10年前 (2015-01-07) 32587℃ 6评论83喜欢

Spark解析Json数据(非Sql方式)

　　Spark支持读取很多格式的文件，其中包括了所有继承了Hadoop的InputFormat类的输入文件，以及平时我们常用的Text、Json、CSV (Comma Separated Values) 以及TSV (Tab Separated Values)文件。本文主要介绍如何通过Spark来读取Json文件。很多人会说，直接用Spark SQL模块的jsonFile方法不就可以读取解析Json文件吗？是的，没错，我们是可以通过那个读取Json

w397090770 10年前 (2015-01-06) 27002℃ 10评论15喜欢

影响到Spark输出RDD分区的操作函数

　　下面的操作会影响到Spark输出RDD分区（partitioner）的：　　cogroup, groupWith, join, leftOuterJoin, rightOuterJoin, groupByKey, reduceByKey, combineByKey, partitionBy, sort, mapValues (如果父RDD存在partitioner), flatMapValues(如果父RDD存在partitioner), 和 filter (如果父RDD存在partitioner)。其他的transform操作不会影响到输出RDD的partitioner，一般来说是None，也就是没

w397090770 10年前 (2014-12-29) 16600℃ 0评论5喜欢

Spark: sortBy和sortByKey函数详解

　　在很多应用场景都需要对结果数据进行排序，Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数，分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序，它是从Spark 0.9.0之后才引入的（可以参见SPARK-1063）。而sortByKey函数是对PairRDD进行排序，也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进行说明。

w397090770 10年前 (2014-12-26) 84137℃ 7评论91喜欢

Akka学习笔记：子Actor和Actor路径

　　Akka学习笔记系列文章：　　《Akka学习笔记：ACTORS介绍》　　《Akka学习笔记：Actor消息传递(1)》　　《Akka学习笔记：Actor消息传递(2)》　　　　《Akka学习笔记：日志》　　《Akka学习笔记：测试Actors》　　《Akka学习笔记：Actor消息处理-请求和响应(1) 》　　《Akka学习笔记：Actor消息处理-请求和响应(2) 》　　《Akka学

w397090770 10年前 (2014-12-22) 5711℃ 0评论8喜欢

Spark 1.2.0发布啦

　　Spark 1.2.0于美国时间2014年12月18日发布，Spark 1.2.0兼容Spark 1.0.0和1.1.0，也就是说不需要修改代码即可用，很多默认的配置在Spark 1.2发生了变化　　1、spark.shuffle.blockTransferService由nio改成netty　　2、spark.shuffle.manager由hash改成sort　　3、在PySpark中，默认的batch size改成0了，　　4、Spark SQL方面做的修改：　　　　spark.sql.parquet.c

w397090770 10年前 (2014-12-19) 4627℃ 1评论2喜欢

上一页
1
···
34
35
36
37
38
39
40
41
42
43
44
...
46
下一页
共 46 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据