最新发布第16页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

Data + AI Summit 2021 全部超清 PPT 下载

Data + AI Summit 2021 于2021年05月24日至28日举行。本次会议是在线举办的，一共为期五天，第一、二天是培训，第三天到第五天是正式会议。本次会议有超过200个议题，演讲嘉宾包括业界、研究和学术界的专家，会议涵盖来自从业者的技术内容，他们将使用 Apache Spark™、Delta Lake、MLflow、Structured Streaming、BI和SQL分析、深度学习和机器学习

w397090770 4年前 (2021-06-20) 1606℃ 0评论3喜欢

Presto

Presto 在 Pinterest 的实践

作为一家数据驱动型公司，Pinterest 的许多关键商业决策都是基于数据分析做出的。分析平台是由大数据平台团队提供的，它使公司内部的其他人能够处理 PB 级的数据，以得到他们需要的结果。数据分析是 Pinterest 的一个关键功能，不仅可以回答商业问题，还可以解决工程问题，对功能进行优先排序，识别用户面临的最常见问题，

w397090770 4年前 (2021-06-20) 635℃ 0评论0喜欢

分布式系统理论

MPP 和 Batch 架构优缺点对比

Apache HAWQ(incubating)的第一个版本受益于ASF(Apache software foundation)组织，通过将MPP(Massively Parallel Processing)和批处理系统(batch system)有效的结合，在性能上有了很大的提升，并且克服了一些关键的限制问题。一个新的重新设计的执行引擎在以下的几个问题在总体系统性能上有了很大的提高：硬件错误引起的短板问题(straggler)并发限制

w397090770 4年前 (2021-06-18) 1163℃ 0评论0喜欢

数据仓库

实时数仓在有赞的实践

作者：小君，部门：技术中台/数据中台前言随着实时技术的不断发展和商家实时应用场景的不断丰富，有赞在实时数仓建设方面做了大量的尝试和实践。本文主要分享有赞在建设实时数仓过程中所沉淀的经验，内容包括以下五个部分：建设背景应用场景方案设计项目应用未来展望建设背景实时需求日趋迫

zz~~ 4年前 (2021-06-10) 386℃ 0评论0喜欢

Presto

Presto 动态过滤（dynamic filtering）原理与应用

早在2005年，Oracle 数据库就支持比较丰富的 dynamic filtering 功能，而 Spark 和 Presto 在最近版本才开始支持这个功能。本文将介绍 Presto 动态过滤的原理以及具体使用。Apache Spark 的动态分区裁减Apache Spark 3.0 给我们带来了许多的新特性用于加速查询性能，其中一个就是动态分区裁减（Dynamic Partition Pruning，DPP），所谓的动态分区裁剪就

w397090770 4年前 (2021-06-01) 1453℃ 0评论2喜欢

Delta Lake

Delta Lake 1.0.0 发布，多项新特性重磅发布

赶在 Data + AI Summit 2021 之前，Delta Lake 1.0.0 重磅发布，这个版本是基于 Spark 3.1 的，带来了许多新特性。本文将结合 Michael Armbrust 大牛在 Data + AI Summit 2021 的演讲《Announcing Delta Lake 1.0》来介绍 Delta Lake 1.0.0 版本的一些重要的新特性。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据Delta Lake 0.1

w397090770 4年前 (2021-05-27) 887℃ 0评论2喜欢

Delta Lake

Delta Lake: The Definitive Guide 预览版下载

本书作者 Denny Lee, Tathagata Das, Vini Jaiswal，预计2022年4月出版，出版社 O'Reilly Media, Inc.，ISBN：9781098104528分析和机器学习模型的好坏取决于它们所依赖的数据。查询处理过的数据并从中获得见解需要一个健壮的数据管道——以及一个有效的存储解决方案，以确保数据质量、数据完整性和性能。本指南向您介绍 Delta Lake，这是一种开

w397090770 4年前 (2021-05-27) 588℃ 0评论2喜欢

Delta Lake

Data Lakehouse 的演变

本文是 Forest Rim Technology 数据团队撰写的，作者 Bill Inmon 和 Mary Levins，其中 Bill Inmon 被称为是数据仓库之父，最早的数据仓库概念提出者，被《计算机世界》评为计算机行业历史上最具影响力的十大人物之一。原始数据的挑战随着大量应用程序的出现，产生了相同的数据在不同地方出现不同值的情况。为了做出决定，用户必须找

w397090770 4年前 (2021-05-25) 636℃ 0评论0喜欢

Spark

Apache Spark 3.0 是如何提高 SQL 工作负载的性能

在几乎所有处理复杂数据的领域，Spark 已经迅速成为数据和分析生命周期团队的事实上的分布式计算框架。Spark 3.0 最受期待的特性之一是新的自适应查询执行框架(Adaptive Query Execution，AQE)，该框架解决了许多 Spark SQL 工作负载遇到的问题。AQE 在2018年初由英特尔和百度组成的团队最早实现。AQE 最初是在 Spark 2.4 中引入的， Spark 3.0 做

w397090770 4年前 (2021-05-23) 1225℃ 0评论2喜欢

Spark

Apache Spark 3.1 中 Structured Streaming 方面的改进

Apache Spark 3.1.x 版本发布到现在已经过了两个多月了，这个版本继续保持使得 Spark 更快，更容易和更智能的目标，Spark 3.1 的主要目标如下：提升了 Python 的可用性；加强了 ANSI SQL 兼容性；加强了查询优化；Shuffle hash join 性能提升；History Server 支持 structured streaming更多详情请参见这里。在这篇博文中，我们总结了3.1版本中

w397090770 4年前 (2021-05-16) 785℃ 0评论3喜欢

上一页
1
···
11
12
13
14
15
16
17
18
19
20
21
...
140
下一页
共 140 页