2021年07月的内容

Git 合并多个已经提交的 commits

在实际开发过程中，我们可能会每开发一些代码就会把这些代码进行提交，以防止一些意外；但是随着提交的 commits 数越来越多，一方面维护起来不便，另一方面可能会造成版本控制的混乱，为了解决这个问题，我们可以把多个 commit 合并成一个。比如下面这个 MR 一共提交了两次：如果想及时了解Spark、Hadoop或者HBase相关的文

w397090770 4年前 (2021-07-31) 1181℃ 0评论3喜欢

Presto

PrestoCon Day 2021 会议 PPT 下载

PrestoCon Day 2021 在3月24日于在线的形式举办，会议的议程可以参见这里。这里主要是收集了本次会议的 PPT 和视频等资料供大家学习交流使用。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据下载途径关注微信公众号过往记忆大数据或者 Java与大数据架构并回复 10011 获取。可下载

w397090770 4年前 (2021-07-31) 527℃ 0评论4喜欢

Hadoop

字节跳动十万节点 HDFS 集群多机房架构演进之路

背景现状 HDFS 全称是 Hadoop Distributed File System，其本身是 Apache Hadoop 项目的一个模块，作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来，HDFS 目前依然有着非常广泛的应用，以字节跳动为例，随着公司业务的高速发展，目前 HDFS 服务的规模已经到达“双 10”的级别：单集群节点 10 万台级别单

w397090770 4年前 (2021-07-29) 569℃ 0评论2喜欢

Apache Kudu

Apache Kudu在网易的实践

本次的分享内容分成四个部分：系统概述：认识kudu，理解Kudu的系统设计与定位生产实践：分享网易内部的典型使用场景遇到的问题：实际使用过程中遇到的问题和问题的排障过程功能展望：对Kudu功能特性的展望Kudu定位与架构Kudu是一个存储引擎，可以接入Impala、Presto、Spark等Olap计算引擎进行数据分析,容易融入Hadoop社区

w397090770 4年前 (2021-07-17) 328℃ 0评论1喜欢

Git

Git 删除指定 commit

我们在开发过程中，难免会进行一些误操作，比如下面我们提交 723cc1e commit 的时候把 2b27deb 和 0ff665e 不小心也提交到这个分支了。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据0ff665e 是属于其他还没有合并到 master 分支的 MR，所以我们这里肯定不能把它带上来。我们需要把它删了。值得

w397090770 4年前 (2021-07-09) 612℃ 0评论1喜欢

Hadoop

HDFS RBF 在车好多的应用

背景随着集群规模的不断扩张，文件数快速增长，目前集群的文件数已高达2.7亿，这带来了许多问题与挑战。首先是文件目录树的扩大导致的NameNode的堆内存持续上涨，其次是Full GC时间越来越长，导致NameNode宕机越发频繁。此外，受堆内存的影响，RPC延时也越来越高。针对上述问题，我们做了一些相关工作：控制文件数增长

w397090770 4年前 (2021-07-02) 1368℃ 0评论4喜欢