过往记忆

最热排行榜

浏览 (139536)481喜欢
1Hive数据类型转换
浏览 (116230)90喜欢
2Hive常用字符串函数
浏览 (102300)70喜欢
3Hive insert into语句用法
浏览 (94066)183喜欢
4Hive常用函数大全一览
浏览 (92755)132喜欢
5Hive几种数据导入方式
浏览 (91090)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88059)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84873)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84165)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (83972)91喜欢
10Spark: sortBy和sortByKey函数详解

Prestissimo

深入了解 Presto 原生 C++ 查询引擎-Presto 2.0

在过去三年中，来自Meta、Ahana（现为IBM）、Intel和字节跳动的工程师团队联手打造了一款名为Velox的先进执行引擎，它的设计目标是可以在各种计算引擎之间灵活组合使用。在这个过程中，他们开发出了基于C++的Presto worker，这是一个全新的查询执行引擎，它基于Velox构建，此前被称为Project Prestissimo，现在则被命名为Presto 2.0。我们

w397090770 6个月前 (06-27) 405℃ 0评论2喜欢

Linux

生成火焰图：Linux 和 Mac 平台的详细指南

火焰图（Flame Graphs）是一种可视化技术，用于展示软件程序的运行时性能。它们可以帮助开发者快速识别程序中的热点（即执行时间最长的部分）。本文将指导您如何在 Linux 和 Mac 平台上生成火焰图。火焰图简介火焰图是由 Brendan Gregg 创建的性能分析工具，它以一种直观的方式展示了程序的调用栈信息。火焰图的每一层代表函

w397090770 9个月前 (04-10) 596℃ 0评论1喜欢

Presto

Presto 超大内存泄漏问题排查

最近有一个线上 Presto 集群的 Coordinator 节点内存一直处于90%以上，如下图所示：如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据日志里面可以看到几乎每分钟都在 Full GC，但是内存仍然占用很高，所以第一个想法就是存在内存泄漏。但是线上的集群内存是180GB，所以分析这些内存就不能用

w397090770 11个月前 (01-31) 353℃ 0评论2喜欢

Prestissimo

使用 Presto + Velox 读取 HDFS 上的数据

当前 velox 支持了 HDFS、S3 以及本地文件系统，其中 HDFS 和 S3 模块是需要在编译的时候显示指定的，比如我们要测试 HDFS 功能，编译 prestissimo 的时候需要显示指定 PRESTO_ENABLE_HDFS=ON，如下：[code lang="bash"]PRESTO_ENABLE_HDFS=ON make release[/code]Velox 解析 HDFS NN endpoint 逻辑核心代码如下：[code lang="CPP"]HdfsServiceEndpoint HdfsFileSystem::getServic

w397090770 2年前 (2023-06-29) 738℃ 0评论3喜欢

Prestissimo

如何构建 Presto、Prestissimo\Velox 镜像

$如何构建 Presto、Prestissimo\Velox 镜像$

为了方便集群的部署，一般我们都会构建出一个 dokcer 镜像，然后部署到 k8s 里面。Presto、Prestissimo 以及 Velox 也不例外，本文将介绍如果构建 presto 以及 Prestissimo 的镜像。构建 Presto 镜像Presto 官方代码里面其实已经包含了构建 Presto 镜像的相关文件，具体参见 $PRESTO_HOME/docker 目录：[code lang="bash"]➜ target git:(velox_docker) ✗ ll ~/

w397090770 2年前 (2023-06-21) 511℃ 0评论8喜欢

Alluxio

Alluxio Local Cache 加速 Presto 查询在 Uber 的应用

背景如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据在 Uber，数据影响着每一个决定。Presto 是推动 Uber 各种数据分析的核心引擎之一。例如，运营团队在仪表盘等服务中大量使用 Presto；Uber Eats 和营销团队依靠这些查询的结果来决定价格。此外， Presto 还被用于 Uber 的合规部门、增长营销部

w397090770 2年前 (2022-11-14) 854℃ 0评论3喜欢

Presto

图文介绍 Presto + Velox 整合

过去十年，存储的速度从 50MB/s（HDD）提升到 16GB/s（NvMe）；网络的速度从 1Gbps 提升到 100Gbps；但是 CPU 的主频从 2010 年的 3GHz 到现在基本不变，CPU 主频是目前数据分析的重要瓶颈。为了解决这个问题，越来越多的向量化执行引擎被开发出来。比如数砖的 Photon 、ClickHouse、Apache Doris、Intel 的 Gazelle 以及 Facebook 的 Velox（参见《Velox 介绍

w397090770 2年前 (2022-09-29) 2109℃ 0评论3喜欢

Presto

Velox 介绍：一个开源的统一执行引擎

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据Velox 利用了大量的运行时优化，例如过滤器和连接的重新排序（conjunct reordering）、数组和基于哈希的聚合和连接的 key 标准化、动态过滤器下推（dynamic filter pushdown）和自适应列预取（adaptive column prefetching）。考虑到从传入的数据批次中提取的

w397090770 2年前 (2022-09-05) 2363℃ 0评论3喜欢

Hadoop

大规模 Hadoop 升级在 Pinterest 的实践

Monarch 是 Pinterest 的批处理平台，由30多个 Hadoop YARN 集群组成，其中17k+节点完全建立在 AWS EC2 之上。2021年初，Monarch 还在使用五年前的 Hadoop 2.7.1。由于同步社区分支（特性和bug修复）的复杂性不断增加，我们决定是时候进行版本升级了。我们最终选择了Hadoop 2.10.0，这是当时 Hadoop 2 的最新版本。本文分享 Pinterest 将 Monarch 升级到 Ha

w397090770 2年前 (2022-08-12) 629℃ 0评论4喜欢

Presto

Presto 里面如何把 array 或 Map 里面的元素由行转成列

在 Spark 或 Hive 中，我们可以使用 LATERAL VIEW + EXPLODE 或 POSEXPLODE 将 array 或者 map 里面的数据由行转成列，这个操作在数据分析里面很常见。比如我们有以下表：[code lang="sql"]CREATE TABLE `default`.`iteblog_explode` ( `id` INT, `items` ARRAY<STRING>)[/code]表里面的数据如下：[code lang="sql"]spark-sql> SELECT * FROM iteblog_explode;1 ["iteblog.co

w397090770 2年前 (2022-08-08) 2028℃ 0评论7喜欢

1
2
3
4
5
6
...
139
下一页
共 139 页