欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

2018年02月的内容

Apache SeaTunnel

Waterdrop:构建在Spark之上的简单高效数据处理系统

Waterdrop:构建在Spark之上的简单高效数据处理系统
Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环境落地上做的一些努力。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop一个Spark Streaming读取Kafka

w397090770   7年前 (2018-02-28) 6726℃ 0评论13喜欢

Spark

在 Apache Spark 中使用 UDF

在 Apache Spark 中使用 UDF
用户定义函数(User-defined functions, UDFs)是大多数 SQL 环境的关键特性,用于扩展系统的内置功能。 UDF允许开发人员通过抽象其低级语言实现来在更高级语言(如SQL)中启用新功能。 Apache Spark 也不例外,并且提供了用于将 UDF 与 Spark SQL工作流集成的各种选项。在这篇博文中,我们将回顾 Python,Java和 Scala 中的 Apache Spark UDF和UDAF(u

w397090770   7年前 (2018-02-14) 15020℃ 0评论21喜欢

CarbonData

Apache CarbonData里程碑式版本1.3发布,多个重要新特性

Apache CarbonData里程碑式版本1.3发布,多个重要新特性
CarbonData是一种高性能大数据存储方案,支持快速过滤查找和即席OLAP分析,已在20+企业生产环境上部署应用,其中最大的单一集群数据规模达到几万亿。针对当前大数据领域分析场景需求各异而导致的存储冗余问题,业务驱动下的数据分析灵活性要求越来越高,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持多种应

w397090770   7年前 (2018-02-09) 1831℃ 0评论13喜欢