我们是否还需要另外一个新的数据处理引擎?当我第一次听到Flink的时候这是我是非常怀疑的。在大数据领域,现在已经不缺少数据处理框架了,但是没有一个框架能够完全满足不同的处理需求。自从Apache Spark出现后,貌似已经成为当今把大部分的问题解决得最好的框架了,所...... w397090770 9年前 (2016-04-04) 18147℃ 0评论42喜欢
Spark 1.6.1于2016年3月11日正式发布,此版本主要是维护版本,主要涉及稳定性修复,并不涉及到大的修改。推荐所有使用1.6.0的用户升级到此版本。 Spark 1.6.1主要修复的bug包括: 1、当写入数据到含有大量分区表时出现的OOM:SPARK-12546 2、实验性Dataset ...... w397090770 9年前 (2016-03-11) 3960℃ 0评论5喜欢
我们在编写Spark Application或者是阅读源码的时候,我们很想知道代码的运行情况,比如参数设置的是否正确等等。用Logging方式来调试是一个可以选择的方式,但是,logging方式调试代码有很多的局限和不便。今天我就来介绍如何通过IDE来远程调试Spark的Application或者是Spar...... w397090770 10年前 (2014-11-05) 24035℃ 16评论21喜欢
本文详细地介绍了如何将Hadoop上的Mapreduce程序转换成Spark的应用程序。有兴趣的可以参考一下:The key to getting the most out of Spark is to understand the differences between its RDD API and the original Mapper and Reducer API.Venerable MapReduce has ...... w397090770 11年前 (2014-09-07) 6453℃ 1评论9喜欢
为了提高本博客的用户体验,我于去年七月写了一份代码,将博客与微信公共帐号关联起来(可以参见本博客),用户可以在里面输入相关的关键字(比如new、rand、hot),但是那时候关键字有限制,只能对文章的分类进行搜索。不过,今天我修改了自动回复功能相关代码,目前支持对...... w397090770 9年前 (2015-11-07) 2119℃ 0评论8喜欢
过去十年,存储的速度从 50MB/s(HDD)提升到 16GB/s(NvMe);网络的速度从 1Gbps 提升到 100Gbps;但是 CPU 的主频从 2010 年的 3GHz 到现在基本不变,CPU 主频是目前数据分析的重要瓶颈。为了解决这个问题,越来越多的向量化执行引擎被开发出来。比如数砖的 Photon 、Cli...... w397090770 2年前 (2022-09-29) 2155℃ 0评论3喜欢
当前数据湖方向非常热门,市面上也出现了三款开源的数据湖产品:Delta Lake、Apache Hudi 以及 Apache Iceberg。这段时间抽了点时间看了下使用 Apache Spark 读写 Apache Iceberg 的代码。完全看代码肯定有些吃力,所以使用了代码调试功能。由于 Apache Iceberg 支持 Apach...... w397090770 4年前 (2020-10-04) 1910℃ 0评论3喜欢
我们在 《一文了解什么是 Docker》 文章中已经介绍了 Docker 是什么,以及为什么需要 Docker 技术。本文将快速介绍一下如何使用 Docker。安装 DockerDocker 是一个开源的商业产品,支持几乎所有的 Linux 发行版,也支持 Mac 以及 Windows 平台。在各平台上又分为两个版本...... w397090770 5年前 (2020-02-02) 838℃ 0评论3喜欢
最近由于工作方面的原因需要解析 Apache Phoenix 底层的原始文件,也就是存在 HDFS 上的 HFile。但是由于 Phoenix 有自身的一套数据编码方式,但是由于本人对 Phoenix 这套根本就不熟悉,所以只能自己去看相关代码。但是 Apache Phoenix 是个大工程啊,不可能一个一个文件去...... w397090770 5年前 (2019-10-22) 3928℃ 0评论3喜欢
为了让大家更好地学习交流,过往记忆大数据花了一个周末的时间把 Awesome Big Data 里近 600 个大数据相关的调度、存储、计算、数据库以及可视化等介绍全部翻译了一遍,供大家学习交流。关系型数据库管理系统MySQL 世界上最流行的开源数据库。PostgreSQL 世界上最先进的...... w397090770 6年前 (2019-09-23) 12560℃ 0评论34喜欢