Spark – 过往记忆-Page 33

Kafka+Spark Streaming+Redis实时系统实践

　　基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时

w397090770 11年前 (2015-05-30) 37658℃ 2评论76喜欢

上海第四次Spark meetup会议资料分享

　　《Spark meetup(Beijing)资料分享》　　《Spark meetup(杭州)PPT资料分享》　　《北京第二次Spark meetup会议资料分享》　　《北京第三次Spark meetup会议资料分享》　　《北京第四次Spark meetup会议资料分享》　　《北京第五次Spark meetup会议资料分享》》　　《北京第六次Spark meetup会议资料分享》　　《杭州第三次Spark meetup会议

w397090770 11年前 (2015-05-29) 5443℃ 0评论3喜欢

如何将MapReduce程序转换为Spark程序

MapReduce和Spark比较　　目前的大数据处理可以分为以下三个类型：　　1、复杂的批量数据处理（batch data processing），通常的时间跨度在数十分钟到数小时之间；　　2、基于历史数据的交互式查询（interactive query），通常的时间跨度在数十秒到数分钟之间；　　3、基于实时数据流的数据处理（streaming data processing），通常的时间

w397090770 11年前 (2015-05-28) 5004℃ 0评论7喜欢

Spark SQL整合PostgreSQL

　　本博客的《Spark与Mysql(JdbcRDD)整合开发》和《Spark RDD写入RMDB(Mysql)方法二》文章中介绍了如何通过Spark读写Mysql中的数据。　　在生产环境下，很多公司都会使用PostgreSQL数据库，这篇文章将介绍如何通过Spark获取PostgreSQL中的数据。我将使用Spark 1.3中的DataFrame（也就是之前的SchemaRDD），我们可以通过SQLContext加载数据库中的数据，

w397090770 11年前 (2015-05-23) 13106℃ 0评论11喜欢

Spark自定义分区(Partitioner)

　　我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略(这两种分区的代码解析可以参见：《Spark分区器HashPartitioner和RangePartitioner代码详解》)，这两种分区策略在很多情况下都适合我们的场景。但是有些情况下，Spark内部不能符合咱们的需求，这时候我们就可以自定义分区策略。为此，Spark提供了相应的接口，我们只

w397090770 11年前 (2015-05-21) 18608℃ 0评论20喜欢

Spark编译错误笔记

　　最近修改了Spark的一些代码，然后编译Spark出现了以下的异常信息：[code lang="scala"]error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters line=279error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters

w397090770 11年前 (2015-05-20) 6226℃ 0评论3喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

分类：Spark

Kafka+Spark Streaming+Redis实时系统实践

上海第四次Spark meetup会议资料分享

如何将MapReduce程序转换为Spark程序

Spark SQL整合PostgreSQL

Spark自定义分区(Partitioner)

Spark编译错误笔记

不要将大型RDD中所有元素发送到Driver端

spark.cleaner.ttl将在Spark 1.4中取消

在Spark中尽量少使用GroupByKey函数

北京第七次Spark meetup会议资料分享