Apache Gluten – 过往记忆

深入理解 Gluten 中Table转换的三大 Transformer

在大数据处理领域，数据的高效读取和处理至关重要。Gluten作为一个强大的大数据处理优化框架，在Table转换方面有着精妙的设计。其中，主要有三个关键的Transformer，分别是BatchScanExecTransformer、FileSourceScanExecTransformer和HiveTableScanExecTransformer，它们各自对应着不同的应用场景和实现逻辑，下面我们将深入探讨它们的特性和工作原理。

w397090770 2个月前 (02-27) 67℃ 0评论0喜欢

如何调试 Apache Gluten 的 C++ 代码

Apache Gluten 是一个开源的高性能向量化执行引擎，旨在提升大数据处理框架（如 Apache Spark）的查询性能。其核心目标是通过优化数据处理的底层执行过程，减少 CPU 和内存开销，从而显著加速复杂分析任务。Gluten 通过集成 Velox（Meta 开源的向量化计算库）作为默认后端，利用列式内存格式和 SIMD 指令实现高效计算，同时兼容 Spark 的

w397090770 2个月前 (02-05) 152℃ 0评论1喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

分类：Apache Gluten

深入理解 Gluten 中Table转换的三大 Transformer

如何调试 Apache Gluten 的 C++ 代码