标签：Hive的那些事

Hive删除外部表异常(Table metadata not deleted)

问题我们应该知道，Hive中存在两种类型的表：管理表（Managed table,又称Internal tables）和外部表（External tables），详情请参见《Hive表与外部表》。在公司内，特别是部门之间合作，很可能会通过 HDFS 共享一些 Hive 表数据，这时候我们一般都是参见外部表。比如我们有一个共享目录：/user/iteblog_hadoop/order_info，然后我们需要创建一个

w397090770 8年前 (2017-06-27) 4946℃ 1评论16喜欢

Hive

Hive分区修复命令MSCK介绍与使用

　　我们在使用Hive的时候肯定遇到过建立了一张分区表，然后手动（比如使用 cp 或者 mv ）将分区数据拷贝到刚刚新建的表作为数据初始化的手段；但是对于分区表我们需要在hive里面手动将刚刚初始化的数据分区加入到hive里面，这样才能供我们查询使用，我们一般会想到使用 alter table add partition 命令手动添加分区，但是如果初始化

w397090770 8年前 (2017-02-21) 16557℃ 0评论31喜欢

Hive

Hive 数据抽样的几种方法

在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，因此一般情况下只需要抽取一小部分数据进行分析及建模操作。本文就介绍 Hive 中三种数据抽样的方法块抽样（Block Sampling）Hive 本身提供了抽样函数，使用 TABLESAMPLE 抽取指定的行数/比例/大小，举例：[code lang="sql"]CREA

w397090770 8年前 (2017-02-10) 6318℃ 0评论7喜欢

ElasticSearch

通过Hive将数据写入到ElasticSearch

　　我在《使用Hive读取ElasticSearch中的数据》文章中介绍了如何使用Hive读取ElasticSearch中的数据，本文将接着上文继续介绍如何使用Hive将数据写入到ElasticSearch中。在使用前同样需要加入 elasticsearch-hadoop-2.3.4.jar 依赖，具体请参见前文介绍。我们先在Hive里面建个名为iteblog的表，如下：[code lang="sql"]CREATE EXTERNAL TABLE iteblog ( id b

w397090770 9年前 (2016-11-07) 20072℃ 1评论24喜欢

HBase

Hive和HBase整合用户指南

　　本文讲解的Hive和HBase整合意思是使用Hive读取Hbase中的数据。我们可以使用HQL语句在HBase表上进行查询、插入操作；甚至是进行Join和Union等复杂查询。此功能是从Hive 0.6.0开始引入的，详情可以参见HIVE-705。Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信，相互通信主要是依靠hive-hbase-handler-1.2.0.jar工具里面的类实现

w397090770 9年前 (2016-07-31) 17534℃ 0评论42喜欢

Hive

Hive中Reduce个数是如何计算的

　　我们在使用Hive查询数据的时候经常会看到如下的输出：[code lang="java"]Query ID = iteblog_20160704104520_988f81d4-0b82-4778-af98-43cc1950d357Total jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number>In order to limit the maximum number of reducers:

w397090770 9年前 (2016-06-28) 15266℃ 1评论39喜欢

Hive

Hive常用字符串函数

Hive内部提供了很多操作字符串的相关函数，本文将对其中部分常用的函数进行介绍。下表为Hive内置的字符串函数，具体的用法可以参见本文的下半部分。返回类型函数名描述intascii(string str)返回str第一个字符串的数值stringbase64(binary bin)将二进制参数转换为base64字符串

w397090770 9年前 (2016-04-24) 116416℃ 90喜欢

Hive

Spark连接Hive的metastore异常

　　在本博客的《使用Spark SQL读取Hive上的数据》文章中我介绍了如何通过Spark去读取Hive里面的数据，不过有时候我们在创建SQLContext实例的时候遇到类似下面的异常：[code lang="java"]java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient at org.apache.hadoop.hive.ql.session.SessionState.start(Se

w397090770 9年前 (2016-01-11) 16471℃ 5评论14喜欢

Hive

Hive on Spark新增的参数介绍

　　Hive on Spark功能目前只增加下面九个参数，具体含义可以参见下面介绍。hive.spark.client.future.timeout　　Hive client请求Spark driver的超时时间，如果没有指定时间单位，默认就是秒。Expects a time value with unit (d/day, h/hour, m/min, s/sec, ms/msec, us/usec, ns/nsec), which is sec if not specified. Timeout for requests from Hive client to remote Spark driver.hive.spark.job.mo

w397090770 9年前 (2015-12-07) 24660℃ 2评论11喜欢

Hive

Hive常用语句

显示分区[code lang="sql"]show partitions iteblog;[/code]添加分区[code lang="sql"]ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...; partition_spec: : (partition_column = partition_col_value, partition_column = partition_col_value, ...)ALTER TABLE iteblog ADD PARTITION (dt='2008-08-08') location '/path/to/us/part080

w397090770 10年前 (2015-11-27) 9982℃ 0评论18喜欢

上一页
1
2
3
4
5
6
下一页
共 6 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Hive的那些事

Hive删除外部表异常(Table metadata not deleted)

Hive分区修复命令MSCK介绍与使用

Hive 数据抽样的几种方法

通过Hive将数据写入到ElasticSearch

Hive和HBase整合用户指南

Hive中Reduce个数是如何计算的

Hive常用字符串函数

Spark连接Hive的metastore异常

Hive on Spark新增的参数介绍

Hive常用语句