2014年03月的内容

Hadoop-2.2.0使用lzo压缩文件作为输入文件

　　在《Hadoop 2.2.0安装和配置lzo》文章中介绍了如何基于 Hadoop 2.2.0安装lzo。里面简单介绍了如果在Hive里面使用lzo数据。今天主要来说说如何在Hadoop 2.2.0中使用lzo压缩文件当作的数据。　　lzo压缩默认的是不支持切分的，也就是说，如果直接把lzo文件当作Mapreduce任务的输入，那么Mapreduce只会用一个Map来处理这个输入文件，这显然

w397090770 11年前 (2014-03-28) 20506℃ 7评论8喜欢

Hadoop

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

　　前提条件：　　1、安装好jdk1.6或以上版本　　2、部署好Hadoop 2.2.0（可以参见本博客《Hadoop2.2.0完全分布式集群平台安装与设置》）　　3、安装好ant，这很简单：[code lang="JAVA"]$ wget http://mirrors.cnnic.cn/apache/ant/binaries/apache-ant-1.9.3-bin.tar.gz$ tar -zxvf apache-ant-1.9.3-bin.tar.gz[/code]然后设置好ANT_HOME和PATH就行　　4、安装好相

w397090770 11年前 (2014-03-26) 23837℃ 1评论35喜欢

Hadoop

Hadoop 2.2.0安装和配置lzo

　　Hadoop经常用于处理大量的数据，如果期间的输出数据、中间数据能压缩存储，对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split，目前lzo是最好的选择。LZO（LZO是Lempel-Ziv-Oberhumer的缩写）是一种高压缩比和解压速度极快的编码，它的特点是解压缩速度非常快，无损压缩，压缩后的数据能准确还原，lzo是基于block

w397090770 11年前 (2014-03-25) 17617℃ 4评论10喜欢

Hadoop

Hadoop web页面的授权设定

　　一、相关概念　　在默认情况下，Hadoop相关的WEB页面（JobTracker, NameNode, TaskTrackers and DataNodes）是不需要什么权限验证就可以直接进入的，谁都可以查看到当前集群上有哪些作业在运行，这对安全来说是很不合理的。我们应该限定用户来访问Hadoop相关的WEB页面，只有授权的用户才能看到自己授权的作业等信息，而不应该看到他不

w397090770 11年前 (2014-03-25) 12977℃ 2评论8喜欢

Hadoop

Hadoop服务层授权控制

　　Hadoop在服务层进行了授权（Service Level Authorization）控制，这是一种机制可以保证客户和Hadoop特定的服务进行链接，比如说我们可以控制哪个用户/哪些组可以提交Mapreduce任务。所有的这些配置可以在$HADOOP_CONF_DIR/hadoop-policy.xml中进行配置。它是最基础的访问控制，优先于文件权限和mapred队列权限验证。可以看看下图[caption id="attach

w397090770 11年前 (2014-03-20) 9142℃ 0评论8喜欢

Hadoop

Hadoop作业JVM堆大小设置优化

　　前段时间，公司Hadoop集群整体的负载很高，查了一下原因，发现原来是客户端那边在每一个作业上擅自配置了很大的堆空间，从而导致集群负载很高。下面我就来讲讲怎么来现在客户端那边的JVM堆大小的设置。　　我们知道，在mapred-site.xml配置文件里面有个mapred.child.java.opts配置，专门来配置一些诸如堆、垃圾回收之类的。看

w397090770 11年前 (2014-03-18) 19195℃ 0评论10喜欢

Hadoop

Hadoop小文件优化

　　先来了解一下Hadoop中何为小文件：小文件指的是那些文件大小要比HDFS的块大小(在Hadoop1.x的时候默认块大小64M，可以通过dfs.blocksize来设置；但是到了Hadoop 2.x的时候默认块大小为128MB了，可以通过dfs.block.size设置)小的多的文件。如果在HDFS中存储小文件，那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的

w397090770 11年前 (2014-03-17) 15454℃ 1评论10喜欢

Hadoop

Hadoop日志存放路径详解

　　如果你想知道Spark作业运行日志，可以查看这里《Spark应用程序运行的日志存在哪里》　　Hadoop的日志有很多种，很多初学者往往遇到错而不知道怎么办，其实这时候就应该去看看日志里面的输出，这样往往可以定位到错误。Hadoop的日志大致可以分为两类：（1）、Hadoop系统服务输出的日志；（2）、Mapreduce程序输出来的日志

w397090770 11年前 (2014-03-14) 53101℃ 5评论40喜欢

Hadoop

Hadoop安全模式详解及配置

　　在《Hadoop 1.x中fsimage和edits合并实现》文章中提到，Hadoop的NameNode在重启的时候，将会进入到安全模式。而在安全模式，HDFS只支持访问元数据的操作才会返回成功，其他的操作诸如创建、删除文件等操作都会导致失败。　　NameNode在重启的时候，DataNode需要向NameNode发送块的信息，NameNode只有获取到整个文件系统中有99.9%（可以配

w397090770 11年前 (2014-03-13) 17404℃ 3评论16喜欢

Hadoop

Hadoop 2.x中fsimage和edits合并实现

　　在《Hadoop 1.x中fsimage和edits合并实现》文章中，我们谈到了Hadoop 1.x上的fsimage和edits合并实现，里面也提到了Hadoop 2.x版本的fsimage和edits合并实现和Hadoop 1.x完全不一样，今天就来谈谈Hadoop 2.x中fsimage和edits合并的实现。　　我们知道，在Hadoop 2.x中解决了NameNode的单点故障问题；同时SecondaryName已经不用了，而之前的Hadoop 1.x中是通过Se

w397090770 11年前 (2014-03-12) 12558℃ 0评论20喜欢

1
2
下一页
共 2 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

2014年03月的内容

Hadoop-2.2.0使用lzo压缩文件作为输入文件

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

Hadoop 2.2.0安装和配置lzo

Hadoop web页面的授权设定

Hadoop服务层授权控制

Hadoop作业JVM堆大小设置优化

Hadoop小文件优化

Hadoop日志存放路径详解

Hadoop安全模式详解及配置

Hadoop 2.x中fsimage和edits合并实现