最新发布第21页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139361)481喜欢
1Hive数据类型转换
浏览 (115978)90喜欢
2Hive常用字符串函数
浏览 (102127)69喜欢
3Hive insert into语句用法
浏览 (93535)183喜欢
4Hive常用函数大全一览
浏览 (92569)132喜欢
5Hive几种数据导入方式
浏览 (90969)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (87932)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84732)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83940)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (83776)91喜欢
10Spark: sortBy和sortByKey函数详解

Apache Spark 中支持的七种 Join 类型

数据分析中将两个数据集进行 Join 操作是很常见的场景。我在这篇文章中介绍了 Spark 支持的五种 Join 策略，本文我将给大家介绍一下 Apache Spark 中支持的 Join 类型（Join Type）。目前 Apache Spark 3.0 版本中，一共支持以下七种 Join 类型：INNER JOINCROSS JOINLEFT OUTER JOINRIGHT OUTER JOINFULL OUTER JOINLEFT SEMI JOINLEFT ANTI JOIN在实现上

w397090770 4年前 (2020-10-25) 1518℃ 0评论6喜欢

Spark

Apache Spark 3.0 新功能最新分享

本文资料来自2020年9月23日举办的 Apache Spark Bogotá 题为《Apache Spark 3.0: Overview of What’s New and Why Care》的分享。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoopApache Spark 3.0 继续坚持更快、更简单、更智能的目标，这个版本解决了3000多个 JIRAs。在这次演讲中，主要和 Bogota Spark 社区分享 Spark 3.0 的

w397090770 4年前 (2020-10-24) 819℃ 0评论3喜欢

Presto

Presto 在滴滴的探索与实践

Presto在滴滴内部发展三年，已经成为滴滴内部Ad-Hoc和Hive SQL加速的首选引擎。目前服务6K+用户，每天读取2PB ~ 3PB HDFS数据，处理30万亿~35万亿条记录，为了承接业务及丰富使用场景，滴滴Presto需要解决稳定性、易用性、性能、成本等诸多问题。我们在3年多的时间里，做了大量优化和二次开发，积攒了非常丰富的经验。本文分享了滴滴

w397090770 4年前 (2020-10-21) 1295℃ 0评论4喜欢

ClickHouse

QQ音乐PB级ClickHouse实时数据平台架构演进之路

OLAP（On-Line Analytical Processing），是数据仓库系统的主要应用形式，帮助分析人员多角度分析数据，挖掘数据价值。本文基于QQ音乐海量大数据实时分析场景，通过QQ音乐与腾讯云EMR产品深度合作的案例解读，还原一个不一样的大数据云端解决方案。一、背景介绍QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品，平台打造了“听

w397090770 4年前 (2020-10-21) 1168℃ 0评论0喜欢

Delta Lake

深入理解 Delta Lake 的 DML 实现原理 (Update, Delete, Merge)

Delta Lake 支持 DML 命令，包括 DELETE, UPDATE, 以及 MERGE，这些命令简化了 CDC、审计、治理以及 GDPR/CCPA 工作流等业务场景。在这篇文章中，我们将演示如何使用这些 DML 命令，并会介绍这些命令的后背实现，同时也会介绍对应命令的一些性能调优技巧。Delta Lake: 基本原理如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信

w397090770 4年前 (2020-10-12) 1447℃ 0评论0喜欢

Git

Git 代码回滚

Git 的代码回滚主要有 reset 和 revert，本文介绍其用法如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoopreset一般用法是 [code lang="bash"]git reset --hard commit_id[/code]其中 commit_id 是使用 git log 查看的 id，如下：[code lang="bash"]$ git logcommit 26721c73c6bb82c8a49aa94ce06024f592032d0cAuthor: iteblog <iteblog@iteb

w397090770 4年前 (2020-10-12) 1270℃ 0评论0喜欢

Flink

Apache Hudi 现在也支持 Flink 引擎了

本文作者：王祥虎，原文链接：https://mp.weixin.qq.com/s/LvKaj5ytk6imEU5Dc1Sr5Q，欢迎关注 Apache Hudi 技术社区公众号：ApacheHudi。Apache Hudi是由Uber开发并开源的数据湖框架，它于2019年1月进入Apache孵化器孵化，次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢

w397090770 4年前 (2020-10-09) 1841℃ 0评论2喜欢

网站建设

使用 yum 在 CentOS 上安装或升级 PHP 到 7 以上

最近升级了 WordPress，但是出现了以下的异常：[code lang="bash"]Your server is running PHP version 5.4.16 but WordPress 5.4.4 requires at least 5.6.20.[/code]可见 WordPress 5.4.4 版本需要 PHP 5.6.20 及以上才可以正常运行，所以本文记录 PHP 的升级过程。检查当前安装的 PHP我们可以使用下面命令看下当前服务器上的 PHP 版本[code lang="bash"][root@iteblog.com

w397090770 4年前 (2020-10-06) 325℃ 0评论0喜欢

Apache Iceberg

Apache Iceberg 代码调试技巧

当前数据湖方向非常热门，市面上也出现了三款开源的数据湖产品：Delta Lake、Apache Hudi 以及 Apache Iceberg。这段时间抽了点时间看了下使用 Apache Spark 读写 Apache Iceberg 的代码。完全看代码肯定有些吃力，所以使用了代码调试功能。由于 Apache Iceberg 支持 Apache Spark 2.x 以及 3.x，并在创建了不同的模块。其相当于 Spark 的 Connect。Apache Spa

w397090770 4年前 (2020-10-04) 1804℃ 0评论3喜欢

Spark

Spark Join Hints 简介及使用

当前 Spark 计算引擎能够利用一些统计信息选择合适的 Join 策略（关于 Spark 支持的 Join 策略可以参见每个 Spark 工程师都应该知道的五种 Join 策略），但是由于各种原因，比如统计信息缺失、统计信息不准确等原因，Spark 给我们选择的 Join 策略不是正确的，这时候我们就可以人为“干涉”，Spark 从 2.2.0 版本开始（参见SPARK-16475），支

w397090770 4年前 (2020-09-15) 3436℃ 0评论3喜欢

上一页
1
···
16
17
18
19
20
21
22
23
24
25
26
...
139
下一页
共 139 页