标签：Hive

生成 TPCH 数据并导入到 Hive

TPC-H是事务处理性能委员会（ Transaction ProcessingPerformance Council ）制定的基准程序之一，TPC- H 主要目的是评价特定查询的决策支持能力，该基准模拟了决策支持系统中的数据库操作，测试数据库系统复杂查询的响应时间，以每小时执行的查询数(TPC-H QphH@Siz)作为度量指标。我们在很多大数据系统上线或者产品上线的时候一般都会测

w397090770 3年前 (2021-10-29) 1734℃ 0评论6喜欢

Hive

Hive SQL迁移 Spark SQL 在网易传媒的实践

引言：把基于mapreduce的离线hiveSQL任务迁移到sparkSQL，不但能大幅缩短任务运行时间，还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL，这里做个简单的记录和分享，本文偏重于具体条件下的方案选择。迁移背景 SQL任务运行慢Hive SQL处理任务虽然较为稳定，但是其时效性已经达瓶颈，无法再进一

w397090770 3年前 (2021-10-19) 927℃ 0评论2喜欢

Hive

如何彻底解决 Hive 小文件问题

最近发现离线任务对一个增量Hive表的查询越来越慢，这引起了我的注意，我在cmd窗口手动执行count操作查询发现，速度确实很慢，才不到五千万的数据，居然需要300s，这显然是有问题的，我推测可能是有小文件。我去hdfs目录查看了一下该目录：发现确实有很多小文件，有480个小文件，我觉得我找到了问题所在，那么合并一

zz~~ 3年前 (2021-08-20) 1249℃ 0评论4喜欢

Hive

Hive SQL 迁移 Spark SQL 在滴滴的实践

桔妹导读：在滴滴SQL任务从Hive迁移到Spark后，Spark SQL任务占比提升至85%，任务运行时间节省40%，运行任务需要的计算资源节省21%，内存资源节省49%。在迁移过程中我们沉淀出一套迁移流程，并且发现并解决了两个引擎在语法，UDF，性能和功能方面的差异。迁移背景Spark自从2010年面世，到2020年已经经过十年的发展，现在已经发展

w397090770 4年前 (2021-01-28) 2603℃ 0评论10喜欢

Flink

导读：Flink 从 1.9.0 开始提供与 Hive 集成的功能，随着几个版本的迭代，在最新的 Flink 1.11 中，与 Hive 集成的功能进一步深化，并且开始尝试将流计算场景与Hive 进行整合。本文主要分享在 Flink 1.11 中对接 Hive 的新特性，以及如何利用 Flink 对 Hive 数仓进行实时化改造，从而实现批流一体的目标。主要内容包括： Flink 与 Hive 集成的

w397090770 4年前 (2020-11-26) 2382℃ 0评论11喜欢

Hive

从行存储到 RCFile，Facebook 为什么要设计出 RCFile？

2010年，Facebook 的工程师在 ICDC（IEEE International Conference on Data Engineering）发表了一篇《RCFile: A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems》的论文，介绍了其为基于 MapReduce 的数据仓库设计的高效存储结构，这就是我们熟知的 RCFile（Record Columnar File）。下面介绍 RCFile 的一些诞生背景和设计。背景早在2010

w397090770 5年前 (2020-06-16) 1363℃ 0评论8喜欢

Hive

图文介绍 SQL 的三种查询计划处理模型

我已经在之前的《一条 SQL 在 Apache Spark 之旅（上）》、《一条 SQL 在 Apache Spark 之旅（中）》以及《一条 SQL 在 Apache Spark 之旅（下）》这三篇文章中介绍了 SQL 从用户提交到最后执行都经历了哪些过程，感兴趣的同学可以去这三篇文章看看。这篇文章中我们主要来介绍 SQL 查询计划（Query Plan）常见的处理模型（processing model）。数

w397090770 5年前 (2020-05-13) 1782℃ 0评论6喜欢

Hive

在 Hive 中使用 OpenCSVSerde

OpenCSVSerde 使用大家使用 Hive 分析数据的时候，CSV 格式的数据应该是很常见的，所以从 0.14.0 开始（参见 HIVE-7777） Hive 跟我们提供了原生的 OpenCSVSerde 来解析 CSV 格式的数据。从名字可以看出，OpenCSVSerde 是基于 Open-CSV 2.3 类库实现的，其解析 csv 的功能还是很强大的。为了在 Hive 中使用这个 serde，我们需要在建表的时候指定 row form

w397090770 5年前 (2020-05-04) 1902℃ 0评论4喜欢

Hive

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里，用户和产品都得到了增长，使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台（Apache Hive 是 Facebook 在2009年贡献给社区的）和 Corona（ Facebook 内部的 MapReduce 实现）进行的。Facebook 还针对包括 Hive 在内的多个内部数据存储，继续

w397090770 5年前 (2019-12-19) 1784℃ 0评论10喜欢

Alluxio

史上最全的大数据学习资源(Awesome Big Data)

为了让大家更好地学习交流，过往记忆大数据花了一个周末的时间把 Awesome Big Data 里近 600 个大数据相关的调度、存储、计算、数据库以及可视化等介绍全部翻译了一遍，供大家学习交流。关系型数据库管理系统MySQL 世界上最流行的开源数据库。PostgreSQL 世界上最先进的开源数据库。Oracle Database - 对象关系数据库管理系统。T

w397090770 5年前 (2019-09-23) 12544℃ 0评论34喜欢

1
2
3
4
5
6
...
8
下一页
共 8 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Hive

生成 TPCH 数据并导入到 Hive

Hive SQL迁移 Spark SQL 在网易传媒的实践

如何彻底解决 Hive 小文件问题

Hive SQL 迁移 Spark SQL 在滴滴的实践

Flink 1.11 与 Hive 批流一体数仓实践

从行存储到 RCFile，Facebook 为什么要设计出 RCFile？

图文介绍 SQL 的三种查询计划处理模型

在 Hive 中使用 OpenCSVSerde

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

史上最全的大数据学习资源(Awesome Big Data)