欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

2022年03月的内容

Uber

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践
背景我们基于 Apache Hadoop® 的数据平台以最小的延迟支持了数百 PB 的分析数据,并将其存储在基于 HDFS 之上的数据湖中。我们使用 Apache Hudi™ 作为我们表的维护格式,使用 Apache Parquet™ 作为底层文件格式。我们的数据平台利用 Apache Hive™、Apache Presto™ 和 Apache Spark™ 进行交互和长时间运行的查询,满足 Uber 不同团队的各种需求。

w397090770   3年前 (2022-03-13) 2456℃ 0评论1喜欢

ClickHouse

ClickHouse 在网易的实践

ClickHouse 在网易的实践
ClickHouse作为一款开源列式数据库管理系统(DBMS)近年来备受关注,主要用于数据分析(OLAP)领域。作者根据以往经验和遇到的问题,总结出一些基本的开发和使用规范,以供使用者参考。随着公司业务数据量日益增长,数据处理场景日趋复杂,急需一种具有高可用性和高性能的数据库来支持业务发展,ClickHouse是俄罗斯的搜索公

w397090770   3年前 (2022-03-10) 1691℃ 0评论1喜欢

Alluxio

通过 Alluxio 来加速 Uber 的 Presto 集群

通过 Alluxio 来加速 Uber 的 Presto 集群
本资料来自2022年03月03日举办的 Alluxio Day 活动。分享议题 《Speed Up Uber’s Presto with Alluxio》,分享者 Liang Chen 和王北南。Uber 的 Liang Chen 和 Alluxio 的王北南将为大家呈现 Alluxio Local Cache 上线过程中遇到的实际问题和有趣的发现。他们的演讲涵盖了 Uber 的 Presto 团队如何解决 Alluxio 的本地缓存失效的问题。Liang Chen 还将分享他使用定

w397090770   3年前 (2022-03-07) 361℃ 0评论2喜欢

Presto

避免 Presto 中的数据孤岛:从 Raptor 到 RaptorX 的旅程

避免 Presto 中的数据孤岛:从 Raptor 到 RaptorX 的旅程
Raptor 是一个 Presto connector (presto-raptor),用于支持 Meta(以前的 Facebook)中的一些关键的交互式查询工作负载。尽管在 ICDE 2019 年的论文《Presto: SQL on Everything》中提到了这个特性,但对于许多 Presto 用户来说,它仍然有些神秘,因为没有关于这个特性的可用文档。本文将介绍 Raptor 的历史,以及为什么 Meta 最终取代了它,转而支持一种

w397090770   3年前 (2022-03-06) 407℃ 0评论1喜欢

Presto

Presto 常用性能优化技巧

Presto 常用性能优化技巧
Presto 是一个用于分析的开源分布式 ANSI SQL 查询引擎,支持计算和存储的分离。性能对于一些分析查询尤其重要,因此 Presto 有许多设计特性来最大化 Presto 的速度,比如内存中的流水线执行(memory pipelined execution)、分布式的扩展架构和大规模并行处理(MPP)设计。Presto支持的具体性能特性:数据压缩(SNAPPY, LZ4, ZSTD 以及 GZIP)

w397090770   3年前 (2022-03-02) 1593℃ 0评论3喜欢

Apache Pulsar

Apache Pulsar in Action 下载

Apache Pulsar in Action 下载
《Apache Pulsar in Action》于 2021年10月由 Manning 出版, ISBN 为 9781617296888 ,全书 400 页。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop图书介绍《Apache Pulsar in Action》能够无缝地将理论和抽象概念与清晰的循序渐进的实例结合在一起,我愿意向任何人推荐!--- Matteo Merli, co-creator of Apache PulsarDe

w397090770   3年前 (2022-03-02) 892℃ 0评论1喜欢

Kafka

Kafka in Action 下载

Kafka in Action 下载
《Kafka in Action》于 2022年01月由 Manning 出版, ISBN 为 9781617295232 ,全书 272 页。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop图书介绍作者有多年使用 Kafka 的真实世界的经验,这本书的实地感觉真的让它与众不同。---- From the foreword by Jun Rao, Confluent CofounderMaster the wicked-fast Apache Kafka streaming

w397090770   3年前 (2022-03-02) 636℃ 0评论3喜欢

Apache Doris

Apache Doris 向量化设计与实现

Apache Doris 向量化设计与实现
导读:向量化技术带来极致的CPU效率的同时,也已经成为了软件开发的趋势,而数据库的向量化不仅仅是 CPU 指令的向量化,还是一个巨大的性能优化工程。本文从CPU向量化原理出发,通过Cache、虚函数、SIMD等方面讨论CPU的性能优化,介绍了Apache Doris现有列存行式计算结构向列存列式计算结构的转变,同时展示了目前Apache D

w397090770   3年前 (2022-03-01) 1224℃ 0评论3喜欢