w397090770的文章

QQ音乐PB级ClickHouse实时数据平台架构演进之路

OLAP（On-Line Analytical Processing），是数据仓库系统的主要应用形式，帮助分析人员多角度分析数据，挖掘数据价值。本文基于QQ音乐海量大数据实时分析场景，通过QQ音乐与腾讯云EMR产品深度合作的案例解读，还原一个不一样的大数据云端解决方案。一、背景介绍QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品，平台打造了“听

5年前 (2020-10-21) 1232℃ 0评论0喜欢

Delta Lake

深入理解 Delta Lake 的 DML 实现原理 (Update, Delete, Merge)

Delta Lake 支持 DML 命令，包括 DELETE, UPDATE, 以及 MERGE，这些命令简化了 CDC、审计、治理以及 GDPR/CCPA 工作流等业务场景。在这篇文章中，我们将演示如何使用这些 DML 命令，并会介绍这些命令的后背实现，同时也会介绍对应命令的一些性能调优技巧。Delta Lake: 基本原理如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信

5年前 (2020-10-12) 1604℃ 0评论0喜欢

Git

Git 代码回滚

Git 的代码回滚主要有 reset 和 revert，本文介绍其用法如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoopreset一般用法是 [code lang="bash"]git reset --hard commit_id[/code]其中 commit_id 是使用 git log 查看的 id，如下：[code lang="bash"]$ git logcommit 26721c73c6bb82c8a49aa94ce06024f592032d0cAuthor: iteblog <iteblog@iteb

5年前 (2020-10-12) 1287℃ 0评论0喜欢

Flink

Apache Hudi 现在也支持 Flink 引擎了

本文作者：王祥虎，原文链接：https://mp.weixin.qq.com/s/LvKaj5ytk6imEU5Dc1Sr5Q，欢迎关注 Apache Hudi 技术社区公众号：ApacheHudi。Apache Hudi是由Uber开发并开源的数据湖框架，它于2019年1月进入Apache孵化器孵化，次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢

5年前 (2020-10-09) 1875℃ 0评论2喜欢

网站建设

使用 yum 在 CentOS 上安装或升级 PHP 到 7 以上

最近升级了 WordPress，但是出现了以下的异常：[code lang="bash"]Your server is running PHP version 5.4.16 but WordPress 5.4.4 requires at least 5.6.20.[/code]可见 WordPress 5.4.4 版本需要 PHP 5.6.20 及以上才可以正常运行，所以本文记录 PHP 的升级过程。检查当前安装的 PHP我们可以使用下面命令看下当前服务器上的 PHP 版本[code lang="bash"][root@iteblog.com

5年前 (2020-10-06) 401℃ 0评论0喜欢

Apache Iceberg

Apache Iceberg 代码调试技巧

当前数据湖方向非常热门，市面上也出现了三款开源的数据湖产品：Delta Lake、Apache Hudi 以及 Apache Iceberg。这段时间抽了点时间看了下使用 Apache Spark 读写 Apache Iceberg 的代码。完全看代码肯定有些吃力，所以使用了代码调试功能。由于 Apache Iceberg 支持 Apache Spark 2.x 以及 3.x，并在创建了不同的模块。其相当于 Spark 的 Connect。Apache Spa

5年前 (2020-10-04) 1960℃ 0评论3喜欢

Spark

Spark Join Hints 简介及使用

当前 Spark 计算引擎能够利用一些统计信息选择合适的 Join 策略（关于 Spark 支持的 Join 策略可以参见每个 Spark 工程师都应该知道的五种 Join 策略），但是由于各种原因，比如统计信息缺失、统计信息不准确等原因，Spark 给我们选择的 Join 策略不是正确的，这时候我们就可以人为“干涉”，Spark 从 2.2.0 版本开始（参见SPARK-16475），支

5年前 (2020-09-15) 3597℃ 0评论3喜欢

Spark

每个 Spark 工程师都应该知道的五种 Join 策略

数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划（physical plan）阶段，Spark 的 JoinSelection 类会根据 Join hints 策略、Join 表的大小、 Join 是等值 Join（equi-join）还是不等值（non-equi-joins）以及参与 Join 的 key 是否可以排序等条件来选择最终的 Join 策略（join strategies），最后 Spark 会利用选择好的 Join 策略执行最

5年前 (2020-09-13) 5261℃ 0评论13喜欢

Apache Doris

基于 Apache Doris 的小米增长分析平台实践

1、背景随着小米互联网业务的发展，各个产品线利用用户行为数据对业务进行增长分析的需求越来越迫切。显然，让每个业务产品线都自己搭建一套增长分析系统，不仅成本高昂，也会导致效率低下。我们希望能有一款产品能够帮助他们屏蔽底层复杂的技术细节，让相关业务人员能够专注于自己的技术领域，从而提高工作效率。

5年前 (2020-09-13) 1286℃ 0评论2喜欢