欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

最新发布 第19页

过往记忆专注于大数据技术构架及应用,微信公众号:过往记忆大数据

Presto

Presto 在车好多的实践

Presto 在车好多的实践
本文作者:车好多大数据 OLAP 团队-王培,由车好多大数据 OLAP 团队相关同事投稿。Presto 简介简介Presto 最初是由 Facebook 开发的一个分布式 SQL 执行引擎, 它被设计为用来专门进行高速、实时的数据分析,以弥补 Hive 在速度和对接多种数据源上的短板。发展历史如下:2012年秋季,Facebook启动Presto项目2013年冬季,Presto开源

w397090770   4年前 (2020-12-21) 933℃ 0评论3喜欢

Presto

Presto 在有赞的实践之路

Presto 在有赞的实践之路
一、前言本文主要介绍了 Presto 的简单原理,以及 Presto 在有赞的实践之路。二、Presto 介绍Presto 是由 Facebook 开发的开源大数据分布式高性能 SQL 查询引擎。起初,Facebook 使用 Hive 来进行交互式查询分析,但 Hive 是基于 MapReduce 为批处理而设计的,延时很高,满足不了用户对于交互式查询想要快速出结果的场景。为了解决 Hive

w397090770   4年前 (2020-12-21) 794℃ 0评论2喜欢

Kafka

Twitter 如何将 Kafka 当做一个存储系统

Twitter 如何将 Kafka 当做一个存储系统
前言当开发人员通过我们提供的 API 使用公开的 Twitter 数据时,他们需要可靠性、高效的性能以及稳定性。因此,在前一段时间,我们为 Account Activity API 启动了 Account Activity Replay API ,让开发人员将稳定性融入到他们的系统中。Account Activity Replay API 是一个数据恢复工具,它允许开发人员检索5天前的事件。并且提供了恢复由于各种

w397090770   4年前 (2020-12-17) 557℃ 0评论0喜欢

Data + AI Summit

Spark SQL 查询 Parquet 文件的性能提升 30%,字节是如何做到的?

Spark SQL 查询 Parquet 文件的性能提升 30%,字节是如何做到的?
本文来自11月举办的 Data + AI Summit 2020 (原 Spark+AI Summit),主题为《Improving Spark SQL Performance by 30%: How We Optimize Parquet Filter Pushdown and Parquet Reader》的分享,作者为字节跳动的孙科和郭俊。相关 PPT 可以关注 Java与大数据架构 公众号并回复 9912 获取。Parquet 是一种非常流行的列式存储格式。Spark 的算子下推(pushdown filters)可以利用 P

w397090770   4年前 (2020-12-14) 2417℃ 2评论4喜欢

Data + AI Summit

物化列:字节为解决 Spark 嵌套列查询性能低下的优化

物化列:字节为解决 Spark 嵌套列查询性能低下的优化
本文来自11月举办的 Data + AI Summit 2020 (原 Spark+AI Summit),主题为《Materialized Column- An Efficient Way to Optimize Queries on Nested Columns》的分享,作者为字节跳动的郭俊。本文相关 PPT 可以关注 Java与大数据架构 公众号并回复 ​ 9910 获取。在数据仓库领域,使用复杂类型(如map)中的一列或多列,或者将许多子字段放入其中的场景是非常

w397090770   4年前 (2020-12-13) 858℃ 0评论3喜欢

Idea

IntelliJ IDEA 2020.3 正式版发布,多项超酷新功能

IntelliJ IDEA 2020.3 正式版发布,多项超酷新功能
2020年12月01日,IntelliJ IDEA 2020.3 正式发布,这是2020年的第三个里程碑版本。2020年其他两个版本可以参见IntelliJ IDEA 2020.2 稳定版发布 和 IntelliJ IDEA 2020.1 稳定版发布。本文主要介绍 IntelliJ IDEA 2020.3 的新功能。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop用户体验重新设置欢迎界面这个

w397090770   4年前 (2020-12-10) 1037℃ 0评论0喜欢

Hadoop

恭喜!新一代分布式对象存储 Ozone 成为顶级项目

恭喜!新一代分布式对象存储 Ozone 成为顶级项目
刚刚获悉,Apache基金董事会通过一致表决,正式批准分布式文件对象存储Ozone从Hadoop社区孵化成功,成为独立的Apache顶级开源项目。这意味着,作为腾讯大数据团队首个参与和主导的开源项目,Ozone已得到全球Apache技术专家的一致认可,成为世界顶级的存储开源项目之一。Ozone 是Apache Hadoop社区推出的面向大数据领域的新一代分布

w397090770   4年前 (2020-12-09) 1086℃ 0评论7喜欢

Data + AI Summit

Data + AI Summit 欧洲2020全部超清 PPT 下载

Data + AI Summit 欧洲2020全部超清 PPT 下载
Data + AI Summit Europe 2020 原 Spark + AI Summit Europe 于2020年11月17日至19日举行。由于新冠疫情影响,本次会议和六月份举办的会议一样在线举办,一共为期三天,第一天是培训,第二天和第三天是正式会议。会议涵盖来自从业者的技术内容,他们将使用 Apache Spark™、Delta Lake、MLflow、Structured Streaming、BI和SQL分析、深度学习和机器学习框架来

w397090770   4年前 (2020-12-06) 1179℃ 0评论2喜欢

Apache Iceberg

Apache Iceberg 的时间旅行是如何实现的?

Apache Iceberg 的时间旅行是如何实现的?
为了更好的使用 Apache Iceberg,理解其时间旅行是很有必要的,这个其实也会对 Iceberg 表的读取过程有个大致了解。不过在介绍 Apache Iceberg 的时间旅行(Time travel)之前,我们需要了解 Apache Iceberg 的底层数据组织结构。Apache Iceberg 的底层数据组织我们在 《一条数据在 Apache Iceberg 之旅:写过程分析》 这篇文章中详细地介绍了 Apache I

w397090770   4年前 (2020-11-29) 3616℃ 0评论4喜欢

Delta Lake

Data Lakehouse (湖仓一体) 到底是什么

Data Lakehouse (湖仓一体) 到底是什么
背景数据湖(Data Lake),湖仓一体(Data Lakehouse)俨然已经成为了大数据领域最为火热的流行词,在接受这些流行词洗礼的时候,身为技术人员我们往往会发出这样的疑问,这是一种新的技术吗,还是仅仅只是概念上的翻新(新瓶装旧酒)呢?它到底解决了什么问题,拥有什么样新的特性呢?它的现状是什么,还存在什么问题呢?

w397090770   4年前 (2020-11-28) 5709℃ 0评论7喜欢