欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

标签:Spark

Presto

图文介绍 Presto + Velox 整合

图文介绍 Presto + Velox 整合
过去十年,存储的速度从 50MB/s(HDD)提升到 16GB/s(NvMe);网络的速度从 1Gbps 提升到 100Gbps;但是 CPU 的主频从 2010 年的 3GHz 到现在基本不变,CPU 主频是目前数据分析的重要瓶颈。为了解决这个问题,越来越多的向量化执行引擎被开发出来。比如数砖的 Photon 、ClickHouse、Apache Doris、Intel 的 Gazelle 以及 Facebook 的 Velox(参见 《Velox 介绍

w397090770   2年前 (2022-09-29) 2037℃ 0评论3喜欢

Presto

Velox 介绍:一个开源的统一执行引擎

Velox 介绍:一个开源的统一执行引擎
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据Velox 利用了大量的运行时优化,例如过滤器和连接的重新排序(conjunct reordering)、数组和基于哈希的聚合和连接的 key 标准化、动态过滤器下推(dynamic filter pushdown)和自适应列预取(adaptive column prefetching)。考虑到从传入的数据批次中提取的

w397090770   2年前 (2022-09-05) 2303℃ 0评论3喜欢

Presto

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Presto 里面如何把 array 或 Map 里面的元素由行转成列
在 Spark 或 Hive 中,我们可以使用 LATERAL VIEW + EXPLODE 或 POSEXPLODE 将 array 或者 map 里面的数据由行转成列,这个操作在数据分析里面很常见。比如我们有以下表:[code lang="sql"]CREATE TABLE `default`.`iteblog_explode` ( `id` INT, `items` ARRAY<STRING>)[/code]表里面的数据如下:[code lang="sql"]spark-sql> SELECT * FROM iteblog_explode;1 ["iteblog.co

w397090770   2年前 (2022-08-08) 2003℃ 0评论7喜欢

Data + AI Summit

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 PPT 下载
Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行,中国的小伙伴是可以在线收听的,一共为期四天,第一天是培训,后面几天才是正式会议。本次会议有超过200个议题,演讲嘉宾包括业界、研究和学术界的专家,本次会议主要分为六大块:数据分析, BI 以及可视化:了解最新的数据分析、BI 和可视化技术以及

w397090770   2年前 (2022-07-20) 1353℃ 0评论1喜欢

Data + AI Summit

Data + AI Summit 2022 超清视频下载

Data + AI Summit 2022 超清视频下载
Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行,中国的小伙伴是可以在线收听的,一共为期四天,第一天是培训,后面几天才是正式会议。本次会议有超过200个议题,演讲嘉宾包括业界、研究和学术界的专家,本次会议主要分为六大块:数据分析, BI 以及可视化:了解最新的数据分析、BI 和可视化技术以及

w397090770   2年前 (2022-07-10) 638℃ 0评论3喜欢

Spark

历时一年 Apache Spark 3.3.0 正式发布,新特性详解

历时一年 Apache Spark 3.3.0 正式发布,新特性详解
Apache Spark 3.3.0 从2021年07月03日正式开发,历时近一年,终于在2022年06月16日正式发布,在 Databricks Runtime 11.0 也同步发布。这个版本一共解决了 1600 个 ISSUE,感谢 Apache Spark 社区为 Spark 3.3 版本做出的宝贵贡献。根据经验,这个版本应该不是稳定版,想在线上环境使用的小伙伴们可以再等等。如果想及时了解Spark、Hadoop或者HBase相关

w397090770   2年前 (2022-06-18) 2022℃ 0评论2喜欢

Spark

Spark Structured Streaming 2021年最新进展的总结

Spark Structured Streaming 2021年最新进展的总结
本文我们将花点时间来回顾一下 Databricks 和 Apache Spark™ 在流数据处理方面所取得的巨大进步!2021年,工程团队和开源贡献者在以下三个目标取得了一些进展:降低延迟并改进有状态流处理;提高 Databricks 和 Spark Structured Streaming 工作负载的可观测性;改进资源分配和可伸缩性。下面我们来简单地看下这些目标。目标一:

w397090770   3年前 (2022-02-23) 863℃ 0评论6喜欢

Presto

Portable UDF:Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

Portable UDF:Facebook 工程师为了解决不同计算引擎 UDF 统一的项目
本文来自 Data + AI Summit 2021 会议中 Facebook 的Rongrong Zhong(Facebook Presto 团队的 TL) 和 Tejas Patil(Facebook Spark 团队的 TL) 工程师带来的名为 《Portable UDFs : Write Once, Run Anywhere》的分享。 虽然大多数查询引擎都提供了丰富的内置函数,但它并不能满足用户的所有需求。在这种情况下,用户定义函数(UDF)允许用户表达他们的业

w397090770   3年前 (2021-12-17) 520℃ 0评论2喜欢

Spark

What's new in Spark 3.2.0

What's new in Spark 3.2.0
本文来自 Kyligence 主办的 Data & AI Meetup(第二期),会议时间为 11月16日。本期会议特别邀请了 Spark 社区大佬范文臣带来 Spark 3.2.0 新特性的首发解读。范文臣,Databricks 开源组技术主管,Apache Spark PMC member,Spark 社区最活跃的贡献者之一,目前主要负责 Spark Core/SQL 的设计开发和开源社区管理。Spark 作为目前大数据领域使用最普及的

w397090770   3年前 (2021-11-30) 675℃ 0评论0喜欢

Presto

Presto on Spark:通过 Spark 来扩展 Presto

Presto on Spark:通过 Spark 来扩展 Presto
概述Presto 最初设计是对数据仓库中的数据运行交互式查询,但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎,用于交互式和批处理工作负载,数据湖上的流行工作负载包括:报告和仪表盘:这包括为内部和外部开发人员提供自定义报告以获取业务洞察力,以及许多使用 Presto 进行交互式 A/B 测试分析的组织

w397090770   3年前 (2021-11-14) 1429℃ 0评论1喜欢