w397090770的文章

Spark 1.6.1正式发布

　　Spark 1.6.1于2016年3月11日正式发布，此版本主要是维护版本，主要涉及稳定性修复，并不涉及到大的修改。推荐所有使用1.6.0的用户升级到此版本。　　Spark 1.6.1主要修复的bug包括：　　1、当写入数据到含有大量分区表时出现的OOM：SPARK-12546　　2、实验性Dataset API的许多bug修复：SPARK-12478, SPARK-12696, SPARK-13101, SPARK-12932　　

9年前 (2016-03-11) 3976℃ 0评论5喜欢

ScalikeJDBC

ScalikeJDBC：基于SQL的简洁DB访问类库

　　ScalikeJDBC是一款给Scala开发者使用的简洁DB访问类库，它是基于SQL的，使用者只需要关注SQL逻辑的编写，所有的数据库操作都交给ScalikeJDBC。这个类库内置包含了JDBC API，并且给用户提供了简单易用并且非常灵活的API。并且，QueryDSL使你的代码类型安全的并且可重复使用。我们可以在生产环境大胆地使用这款DB访问类库。工作

9年前 (2016-03-10) 4326℃ 0评论4喜欢

Spark

Spark生态系统项目收集

　　现在Apache Spark已形成一个丰富的生态系统，包括官方的和第三方开发的组件或工具。后面主要给出5个使用广泛的第三方项目。Spark官方构建了一个非常紧凑的生态系统组件，提供各种处理能力。下面是Spark官方给出的生态系统组件　　1、Spark DataFrames：列式存储的分布式数据组织，类似于关系型数据表。　　2、Spark SQL：可

9年前 (2016-03-08) 4955℃ 2评论7喜欢

Hadoop

使用MapReduce读取XML文件

　　XML（可扩展标记语言，英语：eXtensible Markup Language，简称: XML）是一种标记语言，也是行业标准数据交换交换格式，它很适合在系统之间进行数据存储和交换（话说Hadoop、Hive等的配置文件就是XML格式的）。本文将介绍如何使用MapReduce来读取XML文件。但是Hadoop内部是无法直接解析XML文件；而且XML格式中没有同步标记，所以并行地处

9年前 (2016-03-07) 5889℃ 1评论7喜欢

Spark

自定义Spark Streaming接收器(Receivers)

　　Spark Streaming除了可以使用内置的接收器（Receivers，比如Flume、Kafka、Kinesis、files和sockets等）来接收流数据，还可以自定义接收器来从任意的流中接收数据。开发者们可以自己实现org.apache.spark.streaming.receiver.Receiver类来从其他的数据源中接收数据。本文将介绍如何实现自定义接收器，并且在Spark Streaming应用程序中使用。我们可以用S

9年前 (2016-03-03) 5987℃ 2评论4喜欢

Kafka

Spark Streaming和Kafka整合是如何保证数据零丢失

　　当我们正确地部署好Spark Streaming，我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性，你需要满足以下几个先决条件：　　1、输入的数据来自可靠的数据源和可靠的接收器；　　2、应用程序的metadata被application的driver持久化了(checkpointed );　　3、启用了WAL特性(Write ahead log)。　　下面我将简单

9年前 (2016-03-02) 17694℃ 16评论50喜欢

Spark

转发微博有机会获取《Spark大数据分析实战》

即日起，关注@Spark技术博客及@ 一位微博好友并转发本文章到微博有机会获取《Spark大数据分析实战》：/archives/1590。3月12日在微博抽奖平台抽取1位同学并赠送此书。本活动已经结束，抽奖信息已经在新浪微博抽奖平台公布　　《Spark大数据分析实战》由高彦杰和倪亚宇编写，通过典型数据分析应用场景、算法与系统架构，结

9年前 (2016-03-02) 8572℃ 0评论44喜欢

wordpress开发

WordPress中如何判断设备的类型

　　在开发Wordpress的时候，我们可能需要获取到设备的类型，比如手机、电脑或者iPad等，然后做出不同的决定，这就要求我们精确地判断出当前设备的类型。熟悉Wordpress的同学会知道，Wordpress中安装目录下的wp-includes/vars.php文件里面有个名为wp_is_mobile的函数，其代码如下：[code lang="php"]function wp_is_mobile() { static $is_mobile = null;

9年前 (2016-03-01) 2344℃ 0评论1喜欢

Arrow

Apache Arrow：一个跨平台的内存数据交换格式

　　Apache Arrow是Apache基金会下一个全新的开源项目，同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。　　用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分

9年前 (2016-03-01) 3950℃ 0评论2喜欢

Git

Window 7(Linux/Unix/Mac)下让git记住帐号和密码

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop在使用Git的时候，比如push操作，需要我们输入用户名和密码，如下：[code lang="bash"]D:\iteblog\spark>git push origin initUsername for 'http://gitlab.iteblog.com': iteblogPassword for 'http://iteblog@gitlab.iteblog.com':[/code]如果频繁地进行push等需要输入用户名和密码

9年前 (2016-02-29) 2848℃ 0评论4喜欢

上一页
1
···
75
76
77
78
79
80
81
82
83
84
85
...
134
下一页
共 134 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

w397090770的文章

Spark 1.6.1正式发布

ScalikeJDBC：基于SQL的简洁DB访问类库

Spark生态系统项目收集

使用MapReduce读取XML文件

自定义Spark Streaming接收器(Receivers)

Spark Streaming和Kafka整合是如何保证数据零丢失

转发微博有机会获取《Spark大数据分析实战》

WordPress中如何判断设备的类型

Apache Arrow：一个跨平台的内存数据交换格式

Window 7(Linux/Unix/Mac)下让git记住帐号和密码