2018年02月的内容

Waterdrop：构建在Spark之上的简单高效数据处理系统

Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处，我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环境落地上做的一些努力。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop一个Spark Streaming读取Kafka

w397090770 7年前 (2018-02-28) 6734℃ 0评论13喜欢

Spark

在 Apache Spark 中使用 UDF

用户定义函数（User-defined functions, UDFs）是大多数 SQL 环境的关键特性，用于扩展系统的内置功能。 UDF允许开发人员通过抽象其低级语言实现来在更高级语言（如SQL）中启用新功能。 Apache Spark 也不例外，并且提供了用于将 UDF 与 Spark SQL工作流集成的各种选项。在这篇博文中，我们将回顾 Python，Java和 Scala 中的 Apache Spark UDF和UDAF（u

w397090770 7年前 (2018-02-14) 15035℃ 0评论21喜欢

CarbonData

Apache CarbonData里程碑式版本1.3发布，多个重要新特性

CarbonData是一种高性能大数据存储方案，支持快速过滤查找和即席OLAP分析，已在20+企业生产环境上部署应用，其中最大的单一集群数据规模达到几万亿。针对当前大数据领域分析场景需求各异而导致的存储冗余问题，业务驱动下的数据分析灵活性要求越来越高，CarbonData提供了一种新的融合数据存储方案，以一份数据同时支持多种应

w397090770 7年前 (2018-02-09) 1832℃ 0评论13喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

2018年02月的内容

Waterdrop：构建在Spark之上的简单高效数据处理系统

在 Apache Spark 中使用 UDF

Apache CarbonData里程碑式版本1.3发布，多个重要新特性