分类：Spark

Spark配置属性详解(1)

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 但是Spark官方文档给出的属性只是简单的介绍了一下含义，许多细节并没有涉及到。本文及以后几篇文章将会对Spark官方的各个属性进行说明介绍。以下是根据Spark 1.1.0文档中的属性进行说明。Application相关属性绝大多数的属性控制应用程序的内部设置，并且默认值

w397090770 11年前 (2014-09-25) 18108℃ 1评论20喜欢

随着Spark项目的逐渐成熟, 越来越多的可配置参数被添加到Spark中来。在Spark中提供了三个地方用于配置：Spark properties：这个可以控制应用程序的绝大部分属性。并且可以通过 SparkConf 对象或者Java 系统属性进行设置；环境变量(Environment variables)：这个可以分别对每台机器进行相应的设置，比如IP。这个可以在每台机器的 $SPARK_HOME/co

w397090770 11年前 (2014-09-24) 57261℃ 1评论22喜欢

Spark shuffle：hash和sort性能对比

　　我们都知道Hadoop中的shuffle（不知道原理？可以参见《MapReduce：详细介绍Shuffle的执行过程》），Hadoop中的shuffle是连接map和reduce之间的桥梁，它是基于排序的。同样，在Spark中也是存在shuffle，Spark 1.1之前，Spark的shuffle只存在一种方式实现方式，也就是基于hash的。而在最新的Spark 1.1.0版本中引进了新的shuffle实现（《Spark 1.1.0正式发

w397090770 11年前 (2014-09-23) 15778℃ 3评论15喜欢

Spark1.1.0预览文档(Spark Overview)

　　Apache Spark是快速的通用集群计算系统。它在Java、Scala以及Python等语言提供了高层次的API，并且在通用的图形计算方面提供了一个优化的引擎。同时，它也提供了丰富的高层次工具，这些工具包括了Spark SQL、结构化数据处理、机器学习工具(MLlib)、图形计算(GraphX)以及Spark Streaming。如果想及时了解Spark、Hadoop或者Hbase相关的文章，

w397090770 11年前 (2014-09-18) 3615℃ 0评论6喜欢

用Maven编译Spark 1.1.0

　　Spark 1.1.0已经在前几天发布了（《Spark 1.1.0发布:各个模块得到全面升级》、《Spark 1.1.0正式发布》），本博客对Hive部分进行了部分说明：《Spark SQL 1.1.0和Hive的兼容说明》、《Shark迁移到Spark 1.1.0 编程指南》，在这个版本对Hive的支持更加完善了，如果想在Spark SQL中加入Hive，并加入JDBC server和CLI，我们可以在编译的时候通过加上参

w397090770 11年前 (2014-09-17) 18521℃ 8评论10喜欢

Spark 1.1.0发布:各个模块得到全面升级

如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop　　今天我很激动地宣布Spark 1.1.0发布了，Spark 1.1.0引入了许多新特征（new features）包括了可扩展性和稳定性方面的提升。这篇文章主要是介绍了Spark 1.1.0主要的特性，下面的介绍主要是根据各个特征重要性的优先级进行说明的。在接下来的两个星

w397090770 11年前 (2014-09-12) 4705℃ 2评论8喜欢

Spark 1.1.0正式发布

　　我们期待已久的Spark 1.1.0在美国时间的9月11日正式发布了，官方发布的声明如下：We are happy to announce the availability of Spark 1.1.0! Spark 1.1.0 is the second release on the API-compatible 1.X line. It is Spark’s largest release ever, with contributions from 171 developers!This release brings operational and performance improvements in Spark core including a new implementation of the Spark

w397090770 11年前 (2014-09-12) 3817℃ 0评论2喜欢

Spark SQL 1.1.0和Hive的兼容说明

　　Spark SQL也是可以直接部署在当前的Hive wareHouse。　　Spark SQL 1.1.0的 Thrift JDBC server 被设计成兼容当前的Hive数据仓库。你不需要修改你的Hive元数据，或者是改变表的数据存放目录以及分区。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop　　以下列出来的是当前Spark SQL（1.1.0）对Hive特性的

w397090770 11年前 (2014-09-11) 9466℃ 1评论8喜欢

Shark迁移到Spark 1.1.0 编程指南

　　Spark 1.1.0马上就要发布了（估计就是明天），其中更新了很多功能。其中对Spark SQL进行了增强：　　1、Spark 1.0是第一个预览版本( 1.0 was the first “preview” release)；　　2、Spark 1.1 将支持Shark更新(1.1 provides upgrade path for Shark)，　　　　（1）、Replaced Shark in our benchmarks with 2-3X perfgains；　　　　（2）、Can perform optimizations with 10-

w397090770 11年前 (2014-09-11) 7800℃ 2评论5喜欢

Spark与Mysql(JdbcRDD)整合开发

　　如果你需要将RDD写入到Mysql等关系型数据库，请参见《Spark RDD写入RMDB(Mysql)方法二》和《Spark将计算结果写入到Mysql中》文章。　　Spark的功能是非常强大，在本博客的文章中，我们讨论了《Spark和Hbase整合》、《Spark和Flume-ng整合》以及《和Hive的整合》。今天我们的主题是聊聊Spark和Mysql的组合开发。如果想及时了解Spark、Had

w397090770 11年前 (2014-09-10) 38806℃ 7评论32喜欢

上一页
1
···
38
39
40
41
42
43
44
45
46
下一页
共 46 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据