2015年05月的内容

Kafka+Spark Streaming+Redis实时系统实践

　　基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时

w397090770 10年前 (2015-05-30) 37478℃ 2评论76喜欢

Spark

上海第四次Spark meetup会议资料分享

　　《Spark meetup(Beijing)资料分享》　　《Spark meetup(杭州)PPT资料分享》　　《北京第二次Spark meetup会议资料分享》　　《北京第三次Spark meetup会议资料分享》　　《北京第四次Spark meetup会议资料分享》　　《北京第五次Spark meetup会议资料分享》》　　《北京第六次Spark meetup会议资料分享》　　《杭州第三次Spark meetup会议

w397090770 10年前 (2015-05-29) 5405℃ 0评论3喜欢

Hadoop

Hadoop权威指南第四版英文版pdf免费下载

[电子书]Hadoop权威指南第3版中文版PDF下载　　本书英文名是：Hadoop:the Definitive Guide,4rd Edition，中文名：Hadoop权威指南，著名的O'Reilly Media出版社出版，这里提供下载的是2015年3月出版的最终版，电子书756页，9.6MB，非之前网上传的。　　这里提供的是英文写作的，它的内容组织得当，思路清晰，紧密结合实际。但是要把它翻译成

w397090770 10年前 (2015-05-29) 41940℃ 7评论92喜欢

Hadoop

如何将MapReduce程序转换为Spark程序

MapReduce和Spark比较　　目前的大数据处理可以分为以下三个类型：　　1、复杂的批量数据处理（batch data processing），通常的时间跨度在数十分钟到数小时之间；　　2、基于历史数据的交互式查询（interactive query），通常的时间跨度在数十秒到数分钟之间；　　3、基于实时数据流的数据处理（streaming data processing），通常的时间

w397090770 10年前 (2015-05-28) 4935℃ 0评论7喜欢

Hive

Apache Hive 1.0.1和1.1.1两个版本同时发布

　　Apache Hive 1.0.1 和 1.1.1两个版本同时发布，他们分别是基于Hive 1.0.0和Hive 1.1.0，这两个版本都同时修复可同一个Bug：LDAP授权provider的漏洞。如果用户在HiveServer2里面使用到LDAP授权模式（hive.server2.authentication=LDAP），并且LDAP使用简单地未认证模式，或者是匿名绑定(anonymous bind)，在这种情况下未得到合理授权的用户将得到认证（authe

w397090770 10年前 (2015-05-25) 5003℃ 0评论3喜欢

Maven

使用Maven创建Scala工程

　　一般我们都是用SBT来维护Scala工程，但是在国内网络环境下，使用SBT来创建Scala工程一般都很难成功，或者等待很长的时间才创建完成，所以不建议使用。不过我们也是可以使用Maven来创建Scala工程。在命令行使用下面语句即可创建Scala工程：[code lang="bash"]/** * User: 过往记忆 * Date: 2015-05-24 * Time: 上午11:05 * bolg: * 本文地

w397090770 10年前 (2015-05-24) 23423℃ 1评论17喜欢

PostgreSQL

Spark SQL整合PostgreSQL

　　本博客的《Spark与Mysql(JdbcRDD)整合开发》和《Spark RDD写入RMDB(Mysql)方法二》文章中介绍了如何通过Spark读写Mysql中的数据。　　在生产环境下，很多公司都会使用PostgreSQL数据库，这篇文章将介绍如何通过Spark获取PostgreSQL中的数据。我将使用Spark 1.3中的DataFrame（也就是之前的SchemaRDD），我们可以通过SQLContext加载数据库中的数据，

w397090770 10年前 (2015-05-23) 13030℃ 0评论11喜欢

Spark

Spark自定义分区(Partitioner)

　　我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略(这两种分区的代码解析可以参见：《Spark分区器HashPartitioner和RangePartitioner代码详解》)，这两种分区策略在很多情况下都适合我们的场景。但是有些情况下，Spark内部不能符合咱们的需求，这时候我们就可以自定义分区策略。为此，Spark提供了相应的接口，我们只

w397090770 10年前 (2015-05-21) 18478℃ 0评论20喜欢

Spark

Spark编译错误笔记

　　最近修改了Spark的一些代码，然后编译Spark出现了以下的异常信息：[code lang="scala"]error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters line=279error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters

w397090770 10年前 (2015-05-20) 6096℃ 0评论3喜欢

Spark

不要将大型RDD中所有元素发送到Driver端

　　如果你的Driver内存容量不能容纳一个大型RDD里面的所有数据，那么不要做以下操作：[code lang="scala"]val values = iteblogVeryLargeRDD.collect()[/code]　　Collect 操作会试图将 RDD 里面的每一条数据复制到Driver上，如果你Driver端的内存无法装下这些数据，这时候会发生内存溢出和崩溃。　　相反，你可以调用take或者 takeSample来限制数

w397090770 10年前 (2015-05-20) 3153℃ 0评论4喜欢

1
2
3
4
下一页
共 4 页