欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

w397090770的文章

Hive

Hive常用语句

Hive常用语句
显示分区[code lang="sql"]show partitions iteblog;[/code]添加分区[code lang="sql"]ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...; partition_spec: : (partition_column = partition_col_value, partition_column = partition_col_value, ...)ALTER TABLE iteblog ADD PARTITION (dt='2008-08-08') location '/path/to/us/part080

  9年前 (2015-11-27) 9967℃ 0评论18喜欢

Spark

Spark Checkpoint写操作代码分析

Spark Checkpoint写操作代码分析
  《Spark RDD缓存代码分析》  《Spark Task序列化代码分析》  《Spark分区器HashPartitioner和RangePartitioner代码详解》  《Spark Checkpoint读操作代码分析》  《Spark Checkpoint写操作代码分析》  上次我对Spark RDD缓存的相关代码《Spark RDD缓存代码分析》进行了简要的介绍,本文将对Spark RDD的checkpint相关的代码进行相关的

  9年前 (2015-11-25) 8935℃ 5评论14喜欢

Hive

Hive中order by,Sort by,Distribute by和Cluster By介绍

Hive中order by,Sort by,Distribute by和Cluster By介绍
  我们在使用Hive的时候经常会使用到order by、Sort by、Distribute by和Cluster By,本文对其含义进行介绍。order by  Hive中的order by和数据库中的order by 功能一致,按照某一项或者几项排序输出,可以指定是升序或者是降序排序。它保证全局有序,但是进行order by的时候是将所有的数据全部发送到一个Reduce中,所以在大数据量的情

  9年前 (2015-11-19) 14218℃ 0评论16喜欢

Hive

Hive:解决Hive创建文件数过多的问题

Hive:解决Hive创建文件数过多的问题
  今天将临时表里面的数据按照天分区插入到线上的表中去,出现了Hive创建的文件数大于100000个的情况,我的SQL如下:[code lang="sql"]///////////////////////////////////////////////////////////////////// User: 过往记忆 Date: 2015-11-18 Time: 23:24 bolg: 本文地址:/archives/1533 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量

  9年前 (2015-11-18) 23025℃ 3评论53喜欢

Spark

Spark RDD缓存代码分析

Spark RDD缓存代码分析
  我们知道,Spark相比Hadoop最大的一个优势就是可以将数据cache到内存,以供后面的计算使用。本文将对这部分的代码进行分析。  我们可以通过rdd.persist()或rdd.cache()来缓存RDD中的数据,cache()其实就是调用persist()实现的。persist()支持下面的几种存储级别:[code lang="scala"]val NONE = new StorageLevel(false, false, false, false)val DISK_ONLY =

  9年前 (2015-11-17) 9730℃ 0评论15喜欢

Spark

Spark Task序列化代码分析

Spark Task序列化代码分析
  Spark的作业会通过DAGScheduler的处理生产许多的Task并构建成DAG图,而分割出的Task最终是需要经过网络分发到不同的Executor。在分发的时候,Task一般都会依赖一些文件和Jar包,这些依赖的文件和Jar会对增加分发的时间,所以Spark在分发Task的时候会将Task进行序列化,包括对依赖文件和Jar包的序列化。这个是通过spark.closure.serializer参数

  9年前 (2015-11-16) 6310℃ 0评论8喜欢

Spark

Spark社区可能放弃Spark 1.7而直接发布Spark 2.x

Spark社区可能放弃Spark 1.7而直接发布Spark 2.x
  最近由Reynold Xin给Spark开发者发布的一封邮件透露,Spark社区很有可能会跳过Spark 1.7版本的发布,而直接转向Spark 2.x。  如果Spark 2.x发布,那么它将:  (1)、Spark编译将默认使用Scala 2.11,但是还是会支持Scala 2.10。  (2)、移除对Hadoop 1.x的支持。不过也有可能移除对Hadoop 2.2以下版本的支持,因为Hadoop 2.0和2.1版本分

  9年前 (2015-11-13) 6991℃ 0评论16喜欢

Hive

Hive 1.2.1源码编译

Hive 1.2.1源码编译
  Hive 1.2.1源码编译依赖的Hadoop版本必须最少是2.6.0,因为里面用到了Hadoop的org.apache.hadoop.crypto.key.KeyProvider和org.apache.hadoop.crypto.key.KeyProviderFactory两个类,而这两个类在Hadoop 2.6.0才出现,否者会出现以下编译错误:[ERROR] /home/q/spark/apache-hive-1.2.1-src/shims/0.23/src/main/java/org/apache/hadoop/hive/shims/Hadoop23Shims.java:[43,36] package org.apache.hadoop.cry

  9年前 (2015-11-11) 13677℃ 11评论6喜欢

Spark

Spark分区器HashPartitioner和RangePartitioner代码详解

Spark分区器HashPartitioner和RangePartitioner代码详解
  在Spark中分区器直接决定了RDD中分区的个数;也决定了RDD中每条数据经过Shuffle过程属于哪个分区;也决定了Reduce的个数。这三点看起来是不同的方面的,但其深层的含义是一致的。  我们需要注意的是,只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区的值是None的。  在Spark中,存在两类分区函数:HashPartitioner

  9年前 (2015-11-10) 18692℃ 2评论40喜欢

算法

水塘抽样(Reservoir Sampling)问题

水塘抽样(Reservoir Sampling)问题
  在高德纳的计算机程序设计艺术中,有如下问题:可否在一未知大小的集合中,随机取出一元素?。或者是Google面试题: I have a linked list of numbers of length N. N is very large and I don’t know in advance the exact value of N. How can I most efficiently write a function that will return k completely random numbers from the list(中文简化的意思就是:在不知道文件总行

  9年前 (2015-11-09) 10343℃ 0评论16喜欢