欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

w397090770的文章

jni

深入解析JNI动态注册:JNI_OnLoad的全面指南

深入解析JNI动态注册:JNI_OnLoad的全面指南
引言 Java Native Interface(JNI)是Java与C/C++等本地代码交互的核心技术。在传统的JNI开发中,开发者通常通过“静态注册”方式绑定Java方法与本地函数,但这种方式存在命名冗长、灵活性差等问题。而通过JNI_OnLoad实现的动态注册,则能显著提升代码的可维护性和性能。本文将通过一个完整的实例,详细讲解JNI动态注册的实现方法、

  4天前 8℃ 0评论0喜欢

Apache Gluten

如何调试 Apache Gluten 的 C++ 代码

如何调试 Apache Gluten 的 C++ 代码
Apache Gluten 是一个开源的高性能向量化执行引擎,旨在提升大数据处理框架(如 Apache Spark)的查询性能。其核心目标是通过优化数据处理的底层执行过程,减少 CPU 和内存开销,从而显著加速复杂分析任务。Gluten 通过集成 Velox(Meta 开源的向量化计算库)作为默认后端,利用列式内存格式和 SIMD 指令实现高效计算,同时兼容 Spark 的

  2周前 (02-05) 44℃ 0评论0喜欢

Modern C++ Programming Cookbook

《现代C++编程指南》:理解统一初始化

《现代C++编程指南》:理解统一初始化
花括号初始化是C++11中一种统一的数据初始化方法。因此,它也被称为统一初始化。可以说,这是C++11中开发者应该理解和使用的最重要的特性之一。它消除了之前在初始化基本类型、聚合类型和非聚合类型以及数组和标准容器之间的区别。准备工作要继续本教程,你需要熟悉直接初始化(使用一组显式的构造函数参数来初始化

  4周前 (01-25) 20℃ 0评论1喜欢

Presto

Presto 基于历史的查询优化器

Presto 基于历史的查询优化器
摘要现代查询优化器的一个重要特性是能够生成一个对底层数据集最优的查询计划。这需要估计中间查询计划节点的基数和计算成本,这高度依赖于查询的写法和底层数据分布。传统方法包括在基础表上收集统计数据并在优化器内部实现基数和计算成本的推导,这对于复杂查询容易出错。本文介绍了 Presto 的新颖基于历史的优化框架

  4周前 (01-25) 35℃ 0评论0喜欢

Modern C++ Programming Cookbook

《现代C++编程指南》:创建类型别名和别名模板

《现代C++编程指南》:创建类型别名和别名模板
在C++中,可以创建用作类型名称替代的同义词。这是通过创建 typedef 声明来实现的。这在多种情况下很有用,例如为类型创建更短或更有意义的名称,或者为函数指针命名。然而,typedef声明不能与模板一起使用来创建模板类型别名。例如,std::vector<T> 不是一种类型(std::vector<int> 是一种类型),而是当类型占位符T被替换为

  4周前 (01-24) 20℃ 0评论0喜欢

Apache Parquet

通过 Parquet Page Indexes 加速查询性能

通过 Parquet Page Indexes 加速查询性能
分析型SQL引擎(如Apache Impala)在进行大型表扫描和聚合查询工作负载时非常出色。在大数据生态系统中,单个表的大小可达PB(拍字节)级别,因此要实现快速的查询响应时间,就需要依据WHERE或HAVING子句中的条件对表数据进行智能过滤。通常会使用一个或多个列来对大型表进行分区,这些列能够有效地对数据进行范围过滤。例

  1个月前 (01-13) 36℃ 0评论0喜欢

Modern C++ Programming Cookbook

《现代C++编程指南》:尽可能使用 auto 类型占位符

《现代C++编程指南》:尽可能使用 auto 类型占位符
自动类型推导是现代 C++ 中最重要且广泛使用的特性之一。新的 C++ 标准使得在各种上下文中可以使用 auto 作为类型的占位符,并让编译器推导出实际的类型。在 C++11 中,auto 可用于声明局部变量以及具有尾随返回类型的函数的返回类型。在 C++14 中,auto 可用于无需指定尾随类型的函数的返回类型以及 lambda 表达式中的参数声明。未

  1个月前 (01-13) 31℃ 0评论2喜欢

Spark

Magnet: 基于推送的大规模数据处理 Shuffle 服务

Magnet: 基于推送的大规模数据处理 Shuffle 服务
本文翻译自:《Magnet: Push-based Shuffle Service for Large-scale Data Processing》摘要在过去的十年中,Apache Spark 已成为大规模数据处理的流行计算引擎。与其他基于 MapReduce 计算范式的计算引擎一样,随机Shuffle操作(即中间数据的全部对全部传输)在 Spark 中起着重要作用。在 LinkedIn,随着数据量和 Spark 部署规模的快速增长,随机Shuffle操作

  2个月前 (01-06) 42℃ 0评论0喜欢

Spark

告别 Shuffle!深入探索 Spark 的 Storage Partition Join(SPJ) 技术

告别 Shuffle!深入探索 Spark 的 Storage Partition Join(SPJ) 技术
随着 Spark >= 3.3(在 3.4 中更加成熟)中引入的存储分区连接(Storage Partition Join,SPJ)优化技术,您可以在不触发 Shuffle 的情况下对分区的数据源 V2 表执行连接操作(当然,需要满足一些条件)。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据Shuffle 是昂贵的,尤其是在 Spark 中的连

  2个月前 (01-03) 141℃ 0评论0喜欢

数据库

2024 年数据库回顾:一年综述

2024 年数据库回顾:一年综述
本文原文来自:Databases in 2024: A Year in Review // Blog // Andy Pavlo - Carnegie Mellon University就像一颗子弹击中你的头顶,我回来了,要给你带来我关于数据库领域发生的事情的年度综述。是的,我曾经在OtterTune博客上写过这篇文章,但公司已经倒闭了(安息吧)。我现在在我的教授博客上发表这篇文章。过去的一年有很多值得关注的事情,从

  2个月前 (01-03) 72℃ 0评论1喜欢