欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

 分类:Apache Gluten

深入理解 Gluten 中Table转换的三大 Transformer

深入理解 Gluten 中Table转换的三大 Transformer
在大数据处理领域,数据的高效读取和处理至关重要。Gluten作为一个强大的大数据处理优化框架,在Table转换方面有着精妙的设计。其中,主要有三个关键的Transformer,分别是BatchScanExecTransformer、FileSourceScanExecTransformer和HiveTableScanExecTransformer,它们各自对应着不同的应用场景和实现逻辑,下面我们将深入探讨它们的特性和工作原理。

w397090770   2周前 (02-27) 20℃ 0评论0喜欢

如何调试 Apache Gluten 的 C++ 代码

如何调试 Apache Gluten 的 C++ 代码
Apache Gluten 是一个开源的高性能向量化执行引擎,旨在提升大数据处理框架(如 Apache Spark)的查询性能。其核心目标是通过优化数据处理的底层执行过程,减少 CPU 和内存开销,从而显著加速复杂分析任务。Gluten 通过集成 Velox(Meta 开源的向量化计算库)作为默认后端,利用列式内存格式和 SIMD 指令实现高效计算,同时兼容 Spark 的

w397090770   1个月前 (02-05) 70℃ 0评论1喜欢