最新发布第26页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

每个 Spark 开发者都应该知道的开发技巧

尽量不要把数据 collect 到 Driver 端如果你的 RDD/DataFrame 非常大，drive 端的内存无法放下所有的数据时，千万别这么做[code lang="scala"]data = df.collect()[/code]Collect 函数会尝试将 RDD/DataFrame 中所有的数据复制到 driver 端，这时候肯定会导致 driver 端的内存溢出，然后进程出现 crash。如果想及时了解Spark、Hadoop或者HBase相关的文章，

w397090770 5年前 (2020-06-23) 782℃ 0评论3喜欢

算法

在 Java 实现正确的双重检查锁（Double-Checked Locking）

双重检查锁定模式（也被称为"双重检查加锁优化"，"锁暗示"（Lock hint)）是一种软件设计模式用来减少并发系统中竞争和同步的开销。双重检查锁定模式首先验证锁定条件（第一次检查），只有通过锁定条件验证才真正的进行加锁逻辑并再次验证条件（第二次检查）。该模式在某些语言在某些硬件平台的实现可能是不安全的。有

w397090770 5年前 (2020-06-19) 912℃ 0评论4喜欢

Spark

历时近两年，Apache Spark 3.0.0 正式版终于发布了

原计划在2019年年底发布的 Apache Spark 3.0.0 今天终于赶在下周二举办的 Spark Summit AI 会议之前正式发布了! Apache Spark 3.0.0 自2018年10月02日开发到目前已经经历了近21个月！这个版本的发布经历了两个预览版以及三次投票：2019年11月06日第一次预览版，参见 https://spark.apache.org/news/spark-3.0.0-preview.html2019年12月23日第二次预览版，参见 https

w397090770 5年前 (2020-06-18) 1849℃ 0评论4喜欢

Hive

从行存储到 RCFile，Facebook 为什么要设计出 RCFile？

2010年，Facebook 的工程师在 ICDC（IEEE International Conference on Data Engineering）发表了一篇《RCFile: A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems》的论文，介绍了其为基于 MapReduce 的数据仓库设计的高效存储结构，这就是我们熟知的 RCFile（Record Columnar File）。下面介绍 RCFile 的一些诞生背景和设计。背景早在2010

w397090770 5年前 (2020-06-16) 1363℃ 0评论8喜欢

Spark

来自 Facebook 的 Spark 大作业调优经验

Facebook Spark 的使用情况在介绍下面文章之前我们来看看 Facebook 的 Spark 使用情况：如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop 如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoopSpark 是 Facebook 内部最大的 SQL 查询引擎（按 CPU 使用率计算）在存储计算分

w397090770 5年前 (2020-06-14) 1590℃ 0评论6喜欢

Apache Iceberg

Apache Iceberg 快速入门

导言本文主要介绍如何快速的通过Spark访问 Iceberg table。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoopSpark通过DataSource和DataFrame API访问Iceberg table，或者进行Catalog相关的操作。由于Spark Data Source V2 API还在持续的演进和修改中，所以Iceberg在不同的Spark版本中的使用方式有所不同。版本对比

w397090770 5年前 (2020-06-10) 10131℃ 0评论4喜欢

HBase

滴滴 HBase 大版本滚动升级之旅

滴滴HBase团队日前完成了0.98版本 -> 1.4.8版本滚动升级，用户无感知。新版本为我们带来了丰富的新特性，在性能、稳定性与易用性方便也均有很大提升。我们将整个升级过程中面临的挑战、进行的思考以及解决的问题总结成文，希望对大家有所帮助。背景目前HBase服务在我司共有国内、海外共计11个集群，总吞吐超过1kw+/s，服务

w397090770 5年前 (2020-06-10) 1587℃ 0评论6喜欢

Apache Iceberg

基于 Apache Iceberg 打造 T+0 实时数仓

大数据处理技术现今已广泛应用于各个行业，为业务解决海量存储和海量分析的需求。但数据量的爆发式增长，对数据处理能力提出了更大的挑战，同时对时效性也提出了更高的要求。业务通常已不再满足滞后的分析结果，希望看到更实时的数据，从而在第一时间做出判断和决策。典型的场景如电商大促和金融风控等，基于延迟数

w397090770 5年前 (2020-06-08) 3953℃ 0评论3喜欢

hudi

官宣，Apache Hudi 正式成为 Apache 顶级项目

2020年6月4日，马萨诸塞州韦克菲尔德（Wakefield, MA）—— Apache 软件基金会（ASF），超过350个开源项目和计划的全志愿者开发人员、管理人员和孵化器，正式宣布 Apache Hudi 成为顶级项目（Top-Level Project 、TLP）。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopApache Hudi (Hadoop Upserts delete and Incrementa

w397090770 5年前 (2020-06-04) 1233℃ 0评论5喜欢

Spark

Spark 3.0 自适应查询优化介绍，在运行时加速 Spark SQL 的执行性能

多年以来，社区一直在努力改进 Spark SQL 的查询优化器和规划器，以生成高质量的查询执行计划。最大的改进之一是基于成本的优化（CBO，cost-based optimization）框架，该框架收集并利用各种数据统计信息（如行数，不同值的数量，NULL 值，最大/最小值等）来帮助 Spark 选择更好的计划。这些基于成本的优化技术很好的例子就是选择正确

w397090770 5年前 (2020-05-30) 1766℃ 0评论4喜欢

上一页
1
···
21
22
23
24
25
26
27
28
29
30
31
...
140
下一页
共 140 页