w397090770的文章

Apache Kafka 2.6.0 有哪些值得关心的变化

Apache Kafka 2.6.0 于2020年08月03日正式发布。在这个版本中，社区做了很多显著的性能改进，特别是当 Broker 有非常多的分区时。Broker 关闭性能得到了显著提高；当生产者使用压缩时，性能也得到了显著提高。ACL 使用的各个方面都有不同程度的提升，并且需要更少的内存。这个版本还增加了对 Java 14 的支持。在过去的几个版本中，社

5年前 (2020-08-23) 944℃ 0评论0喜欢

ElasticSearch

滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析

桔妹导读：滴滴ElasticSearch平台承接了公司内部所有使用ElasticSearch的业务，包括核心搜索、RDS从库、日志检索、安全数据分析、指标数据分析等等。平台规模达到了3000+节点，5PB 的数据存储，超过万亿条数据。平台写入的峰值写入TPS达到了2000w/s，每天近 10 亿次检索查询。为了承接这么大的体量和丰富的使用场景，滴滴ElasticSearch需要

5年前 (2020-08-19) 1522℃ 0评论8喜欢

Presto

Presto on Spark：支持即时查询和批处理

前言Facebook 的数据仓库构建在 HDFS 集群之上。在很早之前，为了能够方便分析存储在 Hadoop 上的数据，Facebook 开发了 Hive 系统，使得科学家和分析师可以使用 SQL 来方便的进行数据分析，但是 Hive 使用的是 MapReduce 作为底层的计算框架，随着数据分析的场景和数据量越来越大，Hive 的分析速度越来越慢，可能得花费数小时才能完成

5年前 (2020-08-09) 1686℃ 0评论4喜欢

Spark

Apache Spark 自定义优化规则：Custom Optimizer Rule

在《Apache Spark 自定义优化规则：Custom Strategy》文章中我们介绍了如何自定义策略，策略是用在逻辑计划转换到物理计划阶段。而本文将介绍如何自定义逻辑计划优化规则，主要用于优化逻辑计划，和前文不一样的地方是，逻辑优化规则只是等价变换逻辑计划，也就是 Logic Plan -> Login Plan，这个是在应用策略前进行的。如果想及时

5年前 (2020-08-07) 1313℃ 0评论2喜欢

Spark

Apache Spark 自定义优化规则：Custom Strategy

这篇文章本来19年5月份就想写的，最终拖到今天才整理出来😂。Spark 内置给我们带来了非常丰富的各种优化，这些优化基本可以满足我们日常的需求。但是我们知道，现实场景中会有各种各样的需求，总有一些场景在 Spark 得到的执行计划不是最优的，社区的大佬肯定也知道这个问题，所以从 Spark 1.3.0 开始，Spark 为我们提供

5年前 (2020-08-05) 1139℃ 2评论3喜欢

其他

微信公众号开发者模式可以支持自动回复回复文本、图片、图文、语音、视频以及音乐（参见被动回复用户消息），下面是回复图片消息的返回结果格式：[code lang="xml"]<xml> <ToUserName><![CDATA[toUser]]></ToUserName> <FromUserName><![CDATA[fromUser]]></FromUserName> <CreateTime>12345678</CreateTime> <MsgType>

5年前 (2020-08-04) 815℃ 0评论1喜欢

Spark

Apache Spark 动态分区 OverWrite 问题

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop假设我们有以下表：[code lang="scala"]scala> spark.sql("""CREATE TABLE iteblog_test (name STRING, id int) using orc PARTITIONED BY (id)""").show(100)[/code]我们往里面插入一些数据：[code lang="sql"]scala> spark.sql("insert into table iteblog_test select

5年前 (2020-08-03) 3419℃ 0评论4喜欢

Spark

如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析

本文为阿里巴巴技术专家余根茂在社区发的一篇文章。Structured Streaming 最初是在 Apache Spark 2.0 中引入的，它已被证明是构建分布式流处理应用程序的最佳平台。SQL/Dataset/DataFrame API 和 Spark 的内置函数的统一使得开发人员可以轻松实现复杂的需求，比如支持流聚合、流-流 Join 和窗口。自从 Structured Streaming 发布以来，社区的开发人

5年前 (2020-07-30) 771℃ 0评论1喜欢

Idea

IntelliJ IDEA 2020.2 稳定版发布

IntelliJ IDEA 2020.2 稳定版已发布，此版本带来了不少新功能，包括支持在 IDE 中审查和合并 GitHub PR、新增加的 Inspections 小组件(Inspections Widget)支持在文件的警告和错误之间快速导航、使用 Problems 工具窗口查看当前文件中的完整问题列表，并在更改会破坏其他文件时收到通知。此外还有针对部分框架和技术的新功能，包括支持使

5年前 (2020-07-29) 416℃ 0评论2喜欢

Spark

Apache Spark 3.0 R 的向量化 IO

R 是数据科学中最流行的计算机语言之一，专门用于统计分析和一些扩展，如用于数据处理和机器学习任务的 RStudio addins 和其他 R 包。此外，它使数据科学家能够轻松地可视化他们的数据集。通过在 Apache Spark 中使用 SparkR，可以很容易地扩展 R 代码。要交互式地运行作业，可以通过运行 R shell 轻松地在分布式集群中运行 R 的作业

5年前 (2020-07-09) 768℃ 0评论2喜欢

上一页
1
···
18
19
20
21
22
23
24
25
26
27
28
...
134
下一页
共 134 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

w397090770的文章

Apache Kafka 2.6.0 有哪些值得关心的变化

滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析

Presto on Spark：支持即时查询和批处理

Apache Spark 自定义优化规则：Custom Optimizer Rule

Apache Spark 自定义优化规则：Custom Strategy

微信公众号开发者模式自动回复图片

Apache Spark 动态分区 OverWrite 问题

如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析

IntelliJ IDEA 2020.2 稳定版发布

Apache Spark 3.0 R 的向量化 IO