Spark – 过往记忆

图文介绍 Presto + Velox 整合

过去十年，存储的速度从 50MB/s（HDD）提升到 16GB/s（NvMe）；网络的速度从 1Gbps 提升到 100Gbps；但是 CPU 的主频从 2010 年的 3GHz 到现在基本不变，CPU 主频是目前数据分析的重要瓶颈。为了解决这个问题，越来越多的向量化执行引擎被开发出来。比如数砖的 Photon 、ClickHouse、Apache Doris、Intel 的 Gazelle 以及 Facebook 的 Velox（参见《Velox 介绍

w397090770 2年前 (2022-09-29) 2061℃ 0评论3喜欢

Presto

Velox 介绍：一个开源的统一执行引擎

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据Velox 利用了大量的运行时优化，例如过滤器和连接的重新排序（conjunct reordering）、数组和基于哈希的聚合和连接的 key 标准化、动态过滤器下推（dynamic filter pushdown）和自适应列预取（adaptive column prefetching）。考虑到从传入的数据批次中提取的

w397090770 2年前 (2022-09-05) 2328℃ 0评论3喜欢

Presto

Presto 里面如何把 array 或 Map 里面的元素由行转成列

在 Spark 或 Hive 中，我们可以使用 LATERAL VIEW + EXPLODE 或 POSEXPLODE 将 array 或者 map 里面的数据由行转成列，这个操作在数据分析里面很常见。比如我们有以下表：[code lang="sql"]CREATE TABLE `default`.`iteblog_explode` ( `id` INT, `items` ARRAY<STRING>)[/code]表里面的数据如下：[code lang="sql"]spark-sql> SELECT * FROM iteblog_explode;1 ["iteblog.co

w397090770 2年前 (2022-08-08) 2011℃ 0评论7喜欢

Data + AI Summit

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行，中国的小伙伴是可以在线收听的，一共为期四天，第一天是培训，后面几天才是正式会议。本次会议有超过200个议题，演讲嘉宾包括业界、研究和学术界的专家，本次会议主要分为六大块：数据分析, BI 以及可视化：了解最新的数据分析、BI 和可视化技术以及

w397090770 2年前 (2022-07-20) 1358℃ 0评论1喜欢

Data + AI Summit

Data + AI Summit 2022 超清视频下载

Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行，中国的小伙伴是可以在线收听的，一共为期四天，第一天是培训，后面几天才是正式会议。本次会议有超过200个议题，演讲嘉宾包括业界、研究和学术界的专家，本次会议主要分为六大块：数据分析, BI 以及可视化：了解最新的数据分析、BI 和可视化技术以及

w397090770 2年前 (2022-07-10) 638℃ 0评论3喜欢

Spark

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

Apache Spark 3.3.0 从2021年07月03日正式开发，历时近一年，终于在2022年06月16日正式发布，在 Databricks Runtime 11.0 也同步发布。这个版本一共解决了 1600 个 ISSUE，感谢 Apache Spark 社区为 Spark 3.3 版本做出的宝贵贡献。根据经验，这个版本应该不是稳定版，想在线上环境使用的小伙伴们可以再等等。如果想及时了解Spark、Hadoop或者HBase相关

w397090770 3年前 (2022-06-18) 2040℃ 0评论2喜欢

Spark

Spark Structured Streaming 2021年最新进展的总结

本文我们将花点时间来回顾一下 Databricks 和 Apache Spark™ 在流数据处理方面所取得的巨大进步！2021年，工程团队和开源贡献者在以下三个目标取得了一些进展：降低延迟并改进有状态流处理；提高 Databricks 和 Spark Structured Streaming 工作负载的可观测性；改进资源分配和可伸缩性。下面我们来简单地看下这些目标。目标一：

w397090770 3年前 (2022-02-23) 867℃ 0评论6喜欢

Presto

Portable UDF：Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

本文来自 Data + AI Summit 2021 会议中 Facebook 的Rongrong Zhong（Facebook Presto 团队的 TL）和 Tejas Patil（Facebook Spark 团队的 TL）工程师带来的名为《Portable UDFs : Write Once, Run Anywhere》的分享。虽然大多数查询引擎都提供了丰富的内置函数，但它并不能满足用户的所有需求。在这种情况下，用户定义函数（UDF）允许用户表达他们的业

w397090770 3年前 (2021-12-17) 521℃ 0评论2喜欢

Spark

What's new in Spark 3.2.0

本文来自 Kyligence 主办的 Data & AI Meetup（第二期），会议时间为 11月16日。本期会议特别邀请了 Spark 社区大佬范文臣带来 Spark 3.2.0 新特性的首发解读。范文臣，Databricks 开源组技术主管，Apache Spark PMC member，Spark 社区最活跃的贡献者之一，目前主要负责 Spark Core/SQL 的设计开发和开源社区管理。Spark 作为目前大数据领域使用最普及的

w397090770 3年前 (2021-11-30) 678℃ 0评论0喜欢

Presto

Presto on Spark：通过 Spark 来扩展 Presto

概述Presto 最初设计是对数据仓库中的数据运行交互式查询，但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎，用于交互式和批处理工作负载，数据湖上的流行工作负载包括：报告和仪表盘：这包括为内部和外部开发人员提供自定义报告以获取业务洞察力，以及许多使用 Presto 进行交互式 A/B 测试分析的组织

w397090770 3年前 (2021-11-14) 1434℃ 0评论1喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Spark

图文介绍 Presto + Velox 整合

Velox 介绍：一个开源的统一执行引擎

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 超清视频下载

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

Spark Structured Streaming 2021年最新进展的总结

Portable UDF：Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

What's new in Spark 3.2.0

Presto on Spark：通过 Spark 来扩展 Presto