标签：Spark

SparkR(R on Spark)编程指南

概论　　SparkR是一个R语言包，它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中，SparkR实现了分布式的data frame，支持类似查询、过滤以及聚合的操作（类似于R中的data frames：dplyr)，但是这个可以操作大规模的数据集。SparkR DataFrames　　DataFrame是数据组织成一个带有列名称的分布式数据集。在概念上和关系

w397090770 11年前 (2015-06-09) 36839℃ 1评论50喜欢

Python

Spark1.4中DataFrame功能加强,新增科学和数学函数

　　社区在Spark 1.3中开始引入了DataFrames，使得Apache Spark更加容易被使用。受R和Python中的data frames激发，Spark中的DataFrames提供了一些API，这些API在外部看起来像是操作单机的数据一样，而数据科学家对这些API非常地熟悉。统计是日常数据科学的一个重要组成部分。在即将发布的Spark 1.4中改进支持统计函数和数学函数（statistical and mathem

w397090770 11年前 (2015-06-03) 14140℃ 2评论3喜欢

Kafka

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现

　　Apache Spark 1.3.0引入了Direct API，利用Kafka的低层次API从Kafka集群中读取数据，并且在Spark Streaming系统里面维护偏移量相关的信息，并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量，而Spark Streaming系统并没有将这个消费的偏移量发送到Zookeeper中，

w397090770 11年前 (2015-06-02) 25919℃ 36评论22喜欢

Python

使用Spark读写CSV格式文件

　　CSV格式的文件也称为逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的），其文件以纯文本形式存表格数据（数字和文本）。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符

w397090770 11年前 (2015-06-01) 61415℃ 2评论26喜欢

Kafka

Kafka+Spark Streaming+Redis实时系统实践

　　基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时

w397090770 11年前 (2015-05-30) 37661℃ 2评论76喜欢

Spark

上海第四次Spark meetup会议资料分享

　　《Spark meetup(Beijing)资料分享》　　《Spark meetup(杭州)PPT资料分享》　　《北京第二次Spark meetup会议资料分享》　　《北京第三次Spark meetup会议资料分享》　　《北京第四次Spark meetup会议资料分享》　　《北京第五次Spark meetup会议资料分享》》　　《北京第六次Spark meetup会议资料分享》　　《杭州第三次Spark meetup会议

w397090770 11年前 (2015-05-29) 5446℃ 0评论3喜欢

Hadoop

如何将MapReduce程序转换为Spark程序

MapReduce和Spark比较　　目前的大数据处理可以分为以下三个类型：　　1、复杂的批量数据处理（batch data processing），通常的时间跨度在数十分钟到数小时之间；　　2、基于历史数据的交互式查询（interactive query），通常的时间跨度在数十秒到数分钟之间；　　3、基于实时数据流的数据处理（streaming data processing），通常的时间

w397090770 11年前 (2015-05-28) 5005℃ 0评论7喜欢

PostgreSQL

Spark SQL整合PostgreSQL

　　本博客的《Spark与Mysql(JdbcRDD)整合开发》和《Spark RDD写入RMDB(Mysql)方法二》文章中介绍了如何通过Spark读写Mysql中的数据。　　在生产环境下，很多公司都会使用PostgreSQL数据库，这篇文章将介绍如何通过Spark获取PostgreSQL中的数据。我将使用Spark 1.3中的DataFrame（也就是之前的SchemaRDD），我们可以通过SQLContext加载数据库中的数据，

w397090770 11年前 (2015-05-23) 13113℃ 0评论11喜欢

Spark

Spark自定义分区(Partitioner)

　　我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略(这两种分区的代码解析可以参见：《Spark分区器HashPartitioner和RangePartitioner代码详解》)，这两种分区策略在很多情况下都适合我们的场景。但是有些情况下，Spark内部不能符合咱们的需求，这时候我们就可以自定义分区策略。为此，Spark提供了相应的接口，我们只

w397090770 11年前 (2015-05-21) 18614℃ 0评论20喜欢

Spark

Spark编译错误笔记

　　最近修改了Spark的一些代码，然后编译Spark出现了以下的异常信息：[code lang="scala"]error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters line=279error file=/iteblog/spark-1.3.1/streaming/src/main/scala/org/apache/spark/streaming/StreamingContext.scalamessage=File line length exceeds 100 characters

w397090770 11年前 (2015-05-20) 6233℃ 0评论3喜欢

上一页
1
···
26
27
28
29
30
31
32
33
34
35
36
...
44
下一页
共 44 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Spark

SparkR(R on Spark)编程指南

Spark1.4中DataFrame功能加强,新增科学和数学函数

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现

使用Spark读写CSV格式文件

Kafka+Spark Streaming+Redis实时系统实践

上海第四次Spark meetup会议资料分享

如何将MapReduce程序转换为Spark程序

Spark SQL整合PostgreSQL

Spark自定义分区(Partitioner)

Spark编译错误笔记