欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

w397090770的文章

Hadoop

Apache Hadoop 基础设施容器化在 Uber 的实践

Apache Hadoop 基础设施容器化在 Uber 的实践
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据过往记忆大数据备注:以下的我们均代表 Uber 的 Hadoop 运维团队。介绍随着 Uber 业务的增长,Uber 公司在 5 年内将 Apache Hadoop(本文简称为“Hadoop”)部署扩展到 21000 台以上的节点,以支持各种分析和机器学习用例。我们组建了一支拥有各

  3年前 (2021-08-22) 770℃ 0评论4喜欢

Flink

Apache Flink 在 58 同城的应用与实践

Apache Flink 在 58 同城的应用与实践
摘要:本文整理自 58 同城实时计算平台负责人冯海涛在 Flink Forward Asia 2020 分享的议题《Flink 在 58 同城应用与实践》,内容包括: 实时计算平台架实时 SQL 建设Storm 迁移 Flink 实践一站式实时计算平台后续规划如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据实时计算平台架构

  3年前 (2021-08-17) 310℃ 0评论2喜欢

Presto

Presto 全新的 Parquet Writer 介绍

Presto 全新的 Parquet Writer 介绍
随着越来越多的公司广泛部署 Presto,Presto 不仅用于查询,还用于数据摄取和 ETL 作业。所有很有必要提高 Presto 文件写入的性能,尤其是流行的列文件格式,如 Parquet 和 ORC。本文我们将介绍 Presto 的全新原生的 Parquet writer ,它可以直接将 Presto 的列式数据结构写到 Parquet 的列式格式,最高可提高6倍的吞吐量,并减少 CPU 和内存开销

  3年前 (2021-08-14) 578℃ 0评论2喜欢

Presto

Presto 计算下推原理与实践

Presto 计算下推原理与实践
背景在介绍 Presto 计算下推之前,我们先来回顾一下 Presto 从对应的 Connector 上读取数据的流程,过程如下:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据从上图可以看出,client 提交 SQL 到 Coordinator 上,Coordinator 接收到 SQL 之后,会进行 SQL 语法语义解析,生成逻辑计划树,然后经过 pla

  3年前 (2021-08-12) 1651℃ 0评论4喜欢

Presto

图文介绍 Presto 如何从逻辑计划树到物理计划树

图文介绍 Presto 如何从逻辑计划树到物理计划树
和其他计算引擎一样,一条 SQL 从客户的提交到 Coordinator 端经过 SqlParser 进行词法和语法解析形成 AST 树,然后经过 Analyzer 进行语义分析,生成了逻辑计划(LogicalPlan);接着经过优化器处理(优化规则都是在 PlanOptimizers 里面定义好的,然后在 LogicalPlanner 里面循环遍历每个规则)生成物理计划(PhysicalPlan);最后使用 PlanFragmenter 并

  3年前 (2021-08-08) 1246℃ 0评论3喜欢

hudi

Apache Hudi 是如何处理小文件的

Apache Hudi 是如何处理小文件的
Apache Hudi 是一种数据湖平台技术,它提供了构建和管理数据湖所需的几个功能。hudi 提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。拥有大量的小文件将使计算更难获得良好的查询性能,因为查询引擎不得不多次打开/读取/关闭文件以执行查询。但是对于流数据湖用例来说,可能每次都只会写入很少的

  3年前 (2021-08-03) 1120℃ 0评论1喜欢

Java

Java 中的 jmap 使用介绍

Java 中的 jmap 使用介绍
在安装完 JDK 之后,会自带安装一些常用的小工具,而 jmap 就是其中一个比较常用的。jmap 打印给定进程、core file 或远程调试服务器的共享对象内存映射或堆内存细节。我们可以查看下 jmap 的命令使用:[code lang="bash"]iteblog@iteblog.com:~|⇒ jmapUsage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <co

  3年前 (2021-08-02) 862℃ 0评论0喜欢

Git

Git 合并多个已经提交的 commits

Git 合并多个已经提交的 commits
在实际开发过程中,我们可能会每开发一些代码就会把这些代码进行提交,以防止一些意外;但是随着提交的 commits 数越来越多,一方面维护起来不便,另一方面可能会造成版本控制的混乱,为了解决这个问题,我们可以把多个 commit 合并成一个。比如下面这个 MR 一共提交了两次:如果想及时了解Spark、Hadoop或者HBase相关的文

  3年前 (2021-07-31) 1171℃ 0评论3喜欢

Presto

PrestoCon Day 2021 会议 PPT 下载

PrestoCon Day 2021 会议 PPT 下载
PrestoCon Day 2021 在3月24日于在线的形式举办,会议的议程可以参见这里。这里主要是收集了本次会议的 PPT 和视频等资料供大家学习交流使用。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据下载途径关注微信公众号 过往记忆大数据 或者 Java与大数据架构 并回复 10011 获取。可下载

  3年前 (2021-07-31) 520℃ 0评论4喜欢

Hadoop

字节跳动十万节点 HDFS 集群多机房架构演进之路

字节跳动十万节点 HDFS 集群多机房架构演进之路
背景 现状 HDFS 全称是 Hadoop Distributed File System,其本身是 Apache Hadoop 项目的一个模块,作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来,HDFS 目前依然有着非常广泛的应用,以字节跳动为例,随着公司业务的高速发展,目前 HDFS 服务的规模已经到达“双 10”的级别: 单集群节点 10 万台级别单

  3年前 (2021-07-29) 561℃ 0评论2喜欢