Apache CarbonData 1.0.0发布及其新特性介绍

文章目录

1 新的数据加载解决方案
2 支持和Spark 2.1整合
3 支持update/delete SQL
4 int/bigint/decimal类型的数据支持自适应数据压缩来提高压缩比
5 支持为不同的列定义Date/Timestamp格式
6 B-Tree支持LRU缓存
7 CarbonData V2格式提升首次查询性能
8 支持矢量化Reader
9 通过bucket table支持快速Join
10 利用off-heap内存来减少GC
11 支持single-pass数据加载
12 支持为数据加载事先生成字典

大年初二Apache CarbonData迎来了第四个稳定版本CarbonData 1.0.0。CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式，支持索引、压缩以及解编码等，其目的是为了实现同一份数据达到多种需求，而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。CarbonData 1.0.0版本，一共带来了80+ 个新特性，并且有100+ 个bugfixs；以下是本版本的亮点特性：
点击下载Apache CarbonData 1.0.0

如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop

新的数据加载解决方案

旧版本的CarbonData数据加载解决方案依赖了Kettle引擎，然而Kettle引擎并不是为大数据领域而设计的，而且代码的维护非常复杂。所以，在Apache CarbonData 1.0.0版本，引入了新的数据加载解决方案，并且不依赖Kettle！使得功能更加模块化，而且性能得到了提升。

支持和Spark 2.1整合

我们知道，Spark 2.1 （《Apache Spark 2.1.0正式发布》）添加了许多新的功能，而且性能得到了很大的提升；现在我们可以直接在CarbonData中使用到这些新的功能。

支持update/delete SQL

我们可以直接使用标准的SQL语法来删除和更新Carbon表。不过这个功能目前仅仅在Spark 1.5/1.6可用，Spark 2.1的用户需要等待一下。

int/bigint/decimal类型的数据支持自适应数据压缩来提高压缩比

这个特性可以根据数据来选择数据类型，它还支持增量压缩技术来减少存储大小。

支持为不同的列定义Date/Timestamp格式

现在用户可以在加载数据的时候为每列提供Date/Timestamp格式。我们可以在创建表的时候为Timestamp 列定义格式，而且我们还可以定义默认的格式，这样就不需要每次再定义。

B-Tree支持LRU缓存

CarbonData中的BTree保存着块的信息以及内存中Carbon表的blocklets的信息；如果表的数量或者数据增加，很可能会导致内存溢出。B-Tree的LRU功能仅仅在内存中保存最近或者最频繁使用的 block/blocklet 信息，自动清除不使用或者不经常使用的 block/blocklet 信息。