2015年03月的内容

Apache Spark 1.3.0正式发布

　　美国时间2015年3月13日Apache Spark 1.3.0正式发布，Spark 1.3.0是1.X版本线上的第四个版本，这个版本引入了DataFrame API，并且Spark SQL已经从alpha工程毕业了。Spark core引擎可用性也有所提升,另外MLlib和Spark Stream也有所扩展。Spark 1.3有来自60个机构的174魏贡献者带来的1000多个patch。Spark Core　　Spark 1.3中的Core模块的可用性得到了提升。

w397090770 10年前 (2015-03-14) 4528℃ 1评论3喜欢

Spark

Storm和Spark Streaming框架对比

　　Storm和Spark Streaming两个都是分布式流处理的开源框架。但是这两者之间的区别还是很大的，正如你将要在下文看到的。处理模型以及延迟　　虽然两框架都提供了可扩展性(scalability)和可容错性(fault tolerance)，但是它们的处理模型从根本上说是不一样的。Storm可以实现亚秒级时延的处理，而每次只处理一条event，而Spark Streaming

w397090770 10年前 (2015-03-12) 16728℃ 1评论6喜欢

Spark

Spark函数讲解：collect

　　将RDD转成Scala数组，并返回。函数原型[code lang="scala"]def collect(): Array[T]def collect[U: ClassTag](f: PartialFunction[T, U]): RDD[U][/code]　　collect函数的定义有两种，我们最常用的是第一个。第二个函数需要我们提供一个标准的偏函数，然后保存符合的元素到MappedRDD中。实例[code lang="scala"]/** * User: 过往记忆 * Date: 15-03-11 * Ti

w397090770 10年前 (2015-03-11) 29924℃ 0评论22喜欢

Spark

Spark多文件输出(MultipleOutputFormat)

　　在本博客的《Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(一)》《Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(二)》两篇文章中我介绍了如何在Hadoop中根据Key或者Value的不同将属于不同的类型记录写到不同的文件中。在里面用到了MultipleOutputFormat这个类。　　因为Spark内部写文件方式其实调用的都是Hadoop那一套东

w397090770 10年前 (2015-03-11) 21034℃ 19评论17喜欢

Spark

Spark函数讲解：cogroup

　　将多个RDD中同一个Key对应的Value组合到一起。函数原型[code lang="scala"]def cogroup[W1, W2, W3](other1: RDD[(K, W1)], other2: RDD[(K, W2)], other3: RDD[(K, W3)], partitioner: Partitioner) : RDD[(K, (Iterable[V], Iterable[W1], Iterable[W2], Iterable[W3]))] def cogroup[W1, W2, W3](other1: RDD[(K, W1)], other2: RDD[(K, W2)], other3: RDD[(K, W3)], numPartitions: Int) : RDD[(K

w397090770 10年前 (2015-03-10) 17579℃ 0评论17喜欢

Mysql

Spark将计算结果写入到Mysql中

　　建议用Spark 1.3.0提供的写关系型数据库的方法，参见《Spark RDD写入RMDB(Mysql)方法二》。　　在《Spark与Mysql(JdbcRDD)整合开发》文章中我们介绍了如何通过Spark读取Mysql中的数据，当时写那篇文章的时候，Spark还未提供通过Java来使用JdbcRDD的API，不过目前的Spark提供了Java使用JdbcRDD的API。　　今天主要来谈谈如果将Spark计算的结果

w397090770 10年前 (2015-03-10) 36957℃ 5评论33喜欢

Spark

Apache Spark相比Hadoop的优势

　　以下的话是由Apache Spark committer的Reynold Xin阐述。　　从很多方面来讲，Spark都是MapReduce 模式的最好实现。比如从程序抽象的角度来看：　　1、他抽象出Map/Reduce两个阶段来支持tasks的任意DAG。大多数计算通过依赖将maps和reduces映射到一起(Most computation maps (no pun intended) into many maps and reduces with dependencies among them. )。而在Spark的RDD

w397090770 10年前 (2015-03-09) 8113℃ 0评论9喜欢

Spark

Spark函数讲解：coalesce

　　对RDD中的分区重新进行合并。函数原型[code lang="scala"]def coalesce(numPartitions: Int, shuffle: Boolean = false)　　　　(implicit ord: Ordering[T] = null): RDD[T][/code]　　返回一个新的RDD，且该RDD的分区个数等于numPartitions个数。如果shuffle设置为true，则会进行shuffle。实例[code lang="scala"]/** * User: 过往记忆 * Date: 15-03-09 * Time: 上午0

w397090770 10年前 (2015-03-09) 14286℃ 1评论5喜欢

Spark

Spark函数讲解序列文章

　　本博客近日将对Spark 1.2.1 RDD中所有的函数进行讲解，主要包括函数的解释，实例以及注意事项，每日一篇请关注。以下是将要介绍的函数，按照字母的先后顺序进行介绍，可以点的说明已经发布了。　　aggregate、aggregateByKey、cache、cartesian、checkpoint、coalesce、cogroup groupWith collect, toArraycollectAsMap combineByKey computecontext, spar

w397090770 10年前 (2015-03-08) 7282℃ 0评论6喜欢

Spark

Spark函数讲解：checkpoint

　　为当前RDD设置检查点。该函数将会创建一个二进制的文件，并存储到checkpoint目录中，该目录是用SparkContext.setCheckpointDir()设置的。在checkpoint的过程中，该RDD的所有依赖于父RDD中的信息将全部被移出。对RDD进行checkpoint操作并不会马上被执行，必须执行Action操作才能触发。函数原型[code lang="scala"]def checkpoint()[/code]实例

w397090770 10年前 (2015-03-08) 60577℃ 0评论7喜欢

上一页
1
2
3
下一页
共 3 页