w397090770的文章

SparkR(R on Spark)编程指南

概论　　SparkR是一个R语言包，它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中，SparkR实现了分布式的data frame，支持类似查询、过滤以及聚合的操作（类似于R中的data frames：dplyr)，但是这个可以操作大规模的数据集。SparkR DataFrames　　DataFrame是数据组织成一个带有列名称的分布式数据集。在概念上和关系

10年前 (2015-06-09) 36684℃ 1评论50喜欢

Kafka

Kafka设计解析：Replication工具

《Kafka剖析：Kafka背景及架构介绍》《Kafka设计解析：Kafka High Availability（上）》《Kafka设计解析：Kafka High Availability （下）》《Kafka设计解析：Replication工具》《Kafka设计解析：Kafka Consumer解析》Topic Tool　　$KAFKA_HOME/bin/kafka-topics.sh，该工具可用于创建、删除、修改、查看某个Topic，也可用于列出所有Topic。另外，该工具还

10年前 (2015-06-05) 13939℃ 4评论7喜欢

Kafka

Kafka设计解析：Kafka High Availability （下）

《Kafka剖析：Kafka背景及架构介绍》《Kafka设计解析：Kafka High Availability（上）》《Kafka设计解析：Kafka High Availability （下）》《Kafka设计解析：Replication工具》《Kafka设计解析：Kafka Consumer解析》　　本文在上篇文章（《Kafka设计解析：Kafka High Availability（上）》）基础上，更加深入讲解了Kafka的HA机制，主要阐述了HA相关各种

10年前 (2015-06-04) 4548℃ 0评论6喜欢

Python

Spark1.4中DataFrame功能加强,新增科学和数学函数

　　社区在Spark 1.3中开始引入了DataFrames，使得Apache Spark更加容易被使用。受R和Python中的data frames激发，Spark中的DataFrames提供了一些API，这些API在外部看起来像是操作单机的数据一样，而数据科学家对这些API非常地熟悉。统计是日常数据科学的一个重要组成部分。在即将发布的Spark 1.4中改进支持统计函数和数学函数（statistical and mathem

10年前 (2015-06-03) 14033℃ 2评论3喜欢

Kafka

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现

　　Apache Spark 1.3.0引入了Direct API，利用Kafka的低层次API从Kafka集群中读取数据，并且在Spark Streaming系统里面维护偏移量相关的信息，并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量，而Spark Streaming系统并没有将这个消费的偏移量发送到Zookeeper中，

10年前 (2015-06-02) 25741℃ 36评论22喜欢

Python

使用Spark读写CSV格式文件

　　CSV格式的文件也称为逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的），其文件以纯文本形式存表格数据（数字和文本）。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符

10年前 (2015-06-01) 61301℃ 2评论26喜欢

网络编程

使用HttpClient通过post方式发送json数据

　　有时候我们在发送HTTP请求的时候会使用到POST方式，如果是传送普通的表单数据那将很方便，直接将参数到一个Key-value形式的Map中即可。但是如果我们需要传送的参数是Json格式的，会稍微有点麻烦，我们可以使用HttpClient类库提供的功能来实现这个需求。假设我们需要发送的数据是：[code lang="java"]{ "blog": "",

10年前 (2015-06-01) 84937℃ 0评论73喜欢

Kafka

Kafka+Spark Streaming+Redis实时系统实践

　　基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时

10年前 (2015-05-30) 37525℃ 2评论76喜欢

Spark

上海第四次Spark meetup会议资料分享

　　《Spark meetup(Beijing)资料分享》　　《Spark meetup(杭州)PPT资料分享》　　《北京第二次Spark meetup会议资料分享》　　《北京第三次Spark meetup会议资料分享》　　《北京第四次Spark meetup会议资料分享》　　《北京第五次Spark meetup会议资料分享》》　　《北京第六次Spark meetup会议资料分享》　　《杭州第三次Spark meetup会议

10年前 (2015-05-29) 5414℃ 0评论3喜欢

Hadoop

Hadoop权威指南第四版英文版pdf免费下载

[电子书]Hadoop权威指南第3版中文版PDF下载　　本书英文名是：Hadoop:the Definitive Guide,4rd Edition，中文名：Hadoop权威指南，著名的O'Reilly Media出版社出版，这里提供下载的是2015年3月出版的最终版，电子书756页，9.6MB，非之前网上传的。　　这里提供的是英文写作的，它的内容组织得当，思路清晰，紧密结合实际。但是要把它翻译成

10年前 (2015-05-29) 41989℃ 7评论92喜欢

上一页
1
···
89
90
91
92
93
94
95
96
97
98
99
...
134
下一页
共 134 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

w397090770的文章

SparkR(R on Spark)编程指南

Kafka设计解析：Replication工具

Kafka设计解析：Kafka High Availability （下）

Spark1.4中DataFrame功能加强,新增科学和数学函数

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现

使用Spark读写CSV格式文件

使用HttpClient通过post方式发送json数据

Kafka+Spark Streaming+Redis实时系统实践

上海第四次Spark meetup会议资料分享

Hadoop权威指南第四版英文版pdf免费下载