2025年02月的内容

深入理解 Gluten 中Table转换的三大 Transformer

在大数据处理领域，数据的高效读取和处理至关重要。Gluten作为一个强大的大数据处理优化框架，在Table转换方面有着精妙的设计。其中，主要有三个关键的Transformer，分别是BatchScanExecTransformer、FileSourceScanExecTransformer和HiveTableScanExecTransformer，它们各自对应着不同的应用场景和实现逻辑，下面我们将深入探讨它们的特性和工作原理。

w397090770 1个月前 (02-27) 52℃ 0评论0喜欢

Spark

Spark Data Source API V1与V2简介

历史背景与演进动因V1 API的诞生与局限性Spark早期版本（1.x）的**V1 API**基于Hadoop生态构建，核心设计目标是兼容HDFS存储系统和传统MapReduce作业。其核心抽象`HadoopFsRelation`和`RDD`为文件型数据源提供了统一的访问接口，但存在以下问题：接口冗余：开发者需要同时实现`RelationProvider`、`FileFormat`、`HadoopFsRelation`等多个接口。优

w397090770 1个月前 (02-27) 44℃ 0评论0喜欢

jni

深入解析JNI动态注册：JNI_OnLoad的全面指南

引言 Java Native Interface（JNI）是Java与C/C++等本地代码交互的核心技术。在传统的JNI开发中，开发者通常通过“静态注册”方式绑定Java方法与本地函数，但这种方式存在命名冗长、灵活性差等问题。而通过JNI_OnLoad实现的动态注册，则能显著提升代码的可维护性和性能。本文将通过一个完整的实例，详细讲解JNI动态注册的实现方法、

w397090770 2个月前 (02-18) 51℃ 0评论0喜欢

Apache Gluten

如何调试 Apache Gluten 的 C++ 代码

Apache Gluten 是一个开源的高性能向量化执行引擎，旨在提升大数据处理框架（如 Apache Spark）的查询性能。其核心目标是通过优化数据处理的底层执行过程，减少 CPU 和内存开销，从而显著加速复杂分析任务。Gluten 通过集成 Velox（Meta 开源的向量化计算库）作为默认后端，利用列式内存格式和 SIMD 指令实现高效计算，同时兼容 Spark 的

w397090770 2个月前 (02-05) 128℃ 0评论1喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

2025年02月的内容

深入理解 Gluten 中Table转换的三大 Transformer

Spark Data Source API V1与V2简介

深入解析JNI动态注册：JNI_OnLoad的全面指南

如何调试 Apache Gluten 的 C++ 代码