2022年02月的内容

kubectl 常用命令一览表

本文列出了 kubectl 常用命令。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据Kubectl 自动补全BASH[code lang="bash"]source <(kubectl completion bash) # 在 bash 中设置当前 shell 的自动补全，要先安装 bash-completion 包。echo "source <(kubectl completion bash)" >> ~/.bashrc # 在您的 bash shell 中永久

w397090770 3年前 (2022-02-28) 343℃ 0评论2喜欢

Spark

Spark Structured Streaming 2021年最新进展的总结

本文我们将花点时间来回顾一下 Databricks 和 Apache Spark™ 在流数据处理方面所取得的巨大进步！2021年，工程团队和开源贡献者在以下三个目标取得了一些进展：降低延迟并改进有状态流处理；提高 Databricks 和 Spark Structured Streaming 工作负载的可观测性；改进资源分配和可伸缩性。下面我们来简单地看下这些目标。目标一：

w397090770 3年前 (2022-02-23) 874℃ 0评论6喜欢

公众号转载文章

一文理解实时数据仓库的演进

数据处理现状：当前基于Hive的离线数据仓库已经非常成熟，数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀，业界最近几年就一直聚焦并探索于两个相关的热点问题：实时数仓建设和大数据架构的批流一体建设。实时数仓建设：实时数仓1.0 传统

w397090770 3年前 (2022-02-18) 780℃ 0评论2喜欢

公众号转载文章

数据湖统一存储在 OPPO 的实践

分享嘉宾：Xiaochun He OPPO，编辑整理：门君仪澳洲国立大学导读：OPPO是一家智能终端制造公司，有着数亿的终端用户，手机、IoT设备产生的数据源源不断，设备的智能化服务需要我们对这些数据做更深层次的挖掘。海量的数据如何低成本存储、高效利用是大数据部门必须要解决的问题。目前业界流行的解决方案是数据湖，本次

w397090770 3年前 (2022-02-18) 433℃ 0评论2喜欢

Flink

Flink SQL 在快手的扩展与实践

摘要：本文整理自快手实时计算团队技术专家张静、张芒在 Flink Forward Asia 2021 的分享。主要内容包括： Flink SQL 在快手功能扩展性能优化稳定性提升未来展望一、Flink SQL 在快手经过一年多的推广，快手内部用户对 Flink SQL 的认可度逐渐提高，今年新增的 Flink 作业中，SQL 作业达到了 60%，与去年相比有了一倍的提升，峰值吞吐

w397090770 3年前 (2022-02-18) 1066℃ 0评论4喜欢

Apache Doris

Apache Doris 和 ClickHouse 的深度分析

背景介绍Apache Doris是由百度贡献的开源MPP分析型数据库产品，亚秒级查询响应时间，支持实时数据分析；分布式架构简洁，易于运维，可以支持10PB以上的超大数据集；可以满足多种数据分析需求，例如固定历史报表，实时数据分析，交互式数据分析和探索式数据分析等。 ClickHouse 是俄罗斯的搜索公司Yadex开源的MPP架构的分析引

w397090770 3年前 (2022-02-15) 2811℃ 0评论1喜欢