最新发布第100页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139217)474喜欢
1Hive数据类型转换
浏览 (115723)87喜欢
2Hive常用字符串函数
浏览 (102003)66喜欢
3Hive insert into语句用法
浏览 (92968)179喜欢
4Hive常用函数大全一览
浏览 (92445)128喜欢
5Hive几种数据导入方式
浏览 (90883)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87844)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84661)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83716)73喜欢
9Hive:ORC File Format存储格式详解
浏览 (83657)88喜欢
10Spark: sortBy和sortByKey函数详解

如何将MapReduce程序转换为Spark程序

MapReduce和Spark比较　　目前的大数据处理可以分为以下三个类型：　　1、复杂的批量数据处理（batch data processing），通常的时间跨度在数十分钟到数小时之间；　　2、基于历史数据的交互式查询（interactive query），通常的时间跨度在数十秒到数分钟之间；　　3、基于实时数据流的数据处理（streaming data processing），通常的时间

w397090770 9年前 (2015-05-28) 4847℃ 0评论7喜欢

Hive

Apache Hive 1.0.1和1.1.1两个版本同时发布

　　Apache Hive 1.0.1 和 1.1.1两个版本同时发布，他们分别是基于Hive 1.0.0和Hive 1.1.0，这两个版本都同时修复可同一个Bug：LDAP授权provider的漏洞。如果用户在HiveServer2里面使用到LDAP授权模式（hive.server2.authentication=LDAP），并且LDAP使用简单地未认证模式，或者是匿名绑定(anonymous bind)，在这种情况下未得到合理授权的用户将得到认证（authe

w397090770 9年前 (2015-05-25) 4992℃ 0评论3喜欢

Maven

使用Maven创建Scala工程

　　一般我们都是用SBT来维护Scala工程，但是在国内网络环境下，使用SBT来创建Scala工程一般都很难成功，或者等待很长的时间才创建完成，所以不建议使用。不过我们也是可以使用Maven来创建Scala工程。在命令行使用下面语句即可创建Scala工程：[code lang="bash"]/** * User: 过往记忆 * Date: 2015-05-24 * Time: 上午11:05 * bolg: * 本文地

w397090770 9年前 (2015-05-24) 23382℃ 1评论17喜欢

PostgreSQL

Spark SQL整合PostgreSQL

　　本博客的《Spark与Mysql(JdbcRDD)整合开发》和《Spark RDD写入RMDB(Mysql)方法二》文章中介绍了如何通过Spark读写Mysql中的数据。　　在生产环境下，很多公司都会使用PostgreSQL数据库，这篇文章将介绍如何通过Spark获取PostgreSQL中的数据。我将使用Spark 1.3中的DataFrame（也就是之前的SchemaRDD），我们可以通过SQLContext加载数据库中的数据，

w397090770 9年前 (2015-05-23) 12975℃ 0评论11喜欢

Spark

Spark自定义分区(Partitioner)

　　我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略(这两种分区的代码解析可以参见：《Spark分区器HashPartitioner和RangePartitioner代码详解》)，这两种分区策略在很多情况下都适合我们的场景。但是有些情况下，Spark内部不能符合咱们的需求，这时候我们就可以自定义分区策略。为此，Spark提供了相应的接口，我们只

w397090770 9年前 (2015-05-21) 18287℃ 0评论20喜欢

Spark

Spark编译错误笔记

　　最近修改了Spark的一些代码，然后编译Spark出现了以下的异常信息：[code lang="scala"]error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters line=279error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters

w397090770 9年前 (2015-05-20) 5935℃ 0评论3喜欢

Spark

不要将大型RDD中所有元素发送到Driver端

　　如果你的Driver内存容量不能容纳一个大型RDD里面的所有数据，那么不要做以下操作：[code lang="scala"]val values = iteblogVeryLargeRDD.collect()[/code]　　Collect 操作会试图将 RDD 里面的每一条数据复制到Driver上，如果你Driver端的内存无法装下这些数据，这时候会发生内存溢出和崩溃。　　相反，你可以调用take或者 takeSample来限制数

w397090770 9年前 (2015-05-20) 3061℃ 0评论4喜欢

Python

Newspaper: 新闻文章元数据抽取的开源Python库

　　来自于requests的灵感，因为它很简单；并且由lxml驱动，因为它速度很快。　　Newspaper是一个惊人的新闻、全文以及文章元数据抽取开源的Python类库，这个类库支持10多种语言，所有的东西都是用unicode编码的。我们可以使用下面命令查看：[code lang="python"]/** * User: 过往记忆 * Date: 2015-05-20 * Time: 下午23:14 * bolg: * 本文地

w397090770 9年前 (2015-05-20) 2732℃ 0评论0喜欢

Spark

spark.cleaner.ttl将在Spark 1.4中取消

　　spark.cleaner.ttl参数的原意是清除超过这个时间的所有RDD数据，以便腾出空间给后来的RDD使用。周期性清除保证在这个时间之前的元数据会被遗忘，对于那些运行了几小时或者几天的Spark作业（特别是Spark Streaming）设置这个是很有用的。注意：任何内存中的RDD只要过了这个时间就会被清除掉。官方文档是这么介绍的：Duration (secon

w397090770 9年前 (2015-05-20) 8088℃ 0评论7喜欢

Hive

Apache Hive 1.2.0正式发布

　　Apache Hive 1.2.0于美国时间2015年05月18日正式发布，其中修复了大量大Bug，完整邮件内容如下：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopThe Apache Hive team is proud to announce the the release of Apache Hive version 1.2.0.The Apache Hive (TM) data warehouse software facilitates querying and managing large datasets residin

w397090770 9年前 (2015-05-19) 5392℃ 0评论4喜欢

上一页
1
···
95
96
97
98
99
100
101
102
103
104
105
...
139
下一页
共 139 页