最新发布第123页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

Hadoop优化与调整

io.file.buffer.size　　hadoop访问文件的IO操作都需要通过代码库。因此，在很多情况下，io.file.buffer.size都被用来设置缓存的大小。不论是对硬盘或者是网络操作来讲，较大的缓存都可以提供更高的数据传输，但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数，以byte为单位，默认值是4KB，一般情况下，可以

w397090770 11年前 (2014-04-01) 30377℃ 2评论14喜欢

Hadoop

Hadoop-2.2.0使用lzo压缩文件作为输入文件

　　在《Hadoop 2.2.0安装和配置lzo》文章中介绍了如何基于 Hadoop 2.2.0安装lzo。里面简单介绍了如果在Hive里面使用lzo数据。今天主要来说说如何在Hadoop 2.2.0中使用lzo压缩文件当作的数据。　　lzo压缩默认的是不支持切分的，也就是说，如果直接把lzo文件当作Mapreduce任务的输入，那么Mapreduce只会用一个Map来处理这个输入文件，这显然

w397090770 11年前 (2014-03-28) 20506℃ 7评论8喜欢

Hadoop

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

　　前提条件：　　1、安装好jdk1.6或以上版本　　2、部署好Hadoop 2.2.0（可以参见本博客《Hadoop2.2.0完全分布式集群平台安装与设置》）　　3、安装好ant，这很简单：[code lang="JAVA"]$ wget http://mirrors.cnnic.cn/apache/ant/binaries/apache-ant-1.9.3-bin.tar.gz$ tar -zxvf apache-ant-1.9.3-bin.tar.gz[/code]然后设置好ANT_HOME和PATH就行　　4、安装好相

w397090770 11年前 (2014-03-26) 23837℃ 1评论35喜欢

Hadoop

Hadoop 2.2.0安装和配置lzo

　　Hadoop经常用于处理大量的数据，如果期间的输出数据、中间数据能压缩存储，对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split，目前lzo是最好的选择。LZO（LZO是Lempel-Ziv-Oberhumer的缩写）是一种高压缩比和解压速度极快的编码，它的特点是解压缩速度非常快，无损压缩，压缩后的数据能准确还原，lzo是基于block

w397090770 11年前 (2014-03-25) 17617℃ 4评论10喜欢

Hadoop

Hadoop web页面的授权设定

　　一、相关概念　　在默认情况下，Hadoop相关的WEB页面（JobTracker, NameNode, TaskTrackers and DataNodes）是不需要什么权限验证就可以直接进入的，谁都可以查看到当前集群上有哪些作业在运行，这对安全来说是很不合理的。我们应该限定用户来访问Hadoop相关的WEB页面，只有授权的用户才能看到自己授权的作业等信息，而不应该看到他不

w397090770 11年前 (2014-03-25) 12977℃ 2评论8喜欢

Hadoop

Hadoop服务层授权控制

　　Hadoop在服务层进行了授权（Service Level Authorization）控制，这是一种机制可以保证客户和Hadoop特定的服务进行链接，比如说我们可以控制哪个用户/哪些组可以提交Mapreduce任务。所有的这些配置可以在$HADOOP_CONF_DIR/hadoop-policy.xml中进行配置。它是最基础的访问控制，优先于文件权限和mapred队列权限验证。可以看看下图[caption id="attach

w397090770 11年前 (2014-03-20) 9142℃ 0评论8喜欢

Hadoop

Hadoop作业JVM堆大小设置优化

　　前段时间，公司Hadoop集群整体的负载很高，查了一下原因，发现原来是客户端那边在每一个作业上擅自配置了很大的堆空间，从而导致集群负载很高。下面我就来讲讲怎么来现在客户端那边的JVM堆大小的设置。　　我们知道，在mapred-site.xml配置文件里面有个mapred.child.java.opts配置，专门来配置一些诸如堆、垃圾回收之类的。看

w397090770 11年前 (2014-03-18) 19195℃ 0评论10喜欢

Hadoop

Hadoop小文件优化

　　先来了解一下Hadoop中何为小文件：小文件指的是那些文件大小要比HDFS的块大小(在Hadoop1.x的时候默认块大小64M，可以通过dfs.blocksize来设置；但是到了Hadoop 2.x的时候默认块大小为128MB了，可以通过dfs.block.size设置)小的多的文件。如果在HDFS中存储小文件，那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的

w397090770 11年前 (2014-03-17) 15454℃ 1评论10喜欢

Hadoop

Hadoop日志存放路径详解

　　如果你想知道Spark作业运行日志，可以查看这里《Spark应用程序运行的日志存在哪里》　　Hadoop的日志有很多种，很多初学者往往遇到错而不知道怎么办，其实这时候就应该去看看日志里面的输出，这样往往可以定位到错误。Hadoop的日志大致可以分为两类：（1）、Hadoop系统服务输出的日志；（2）、Mapreduce程序输出来的日志

w397090770 11年前 (2014-03-14) 53101℃ 5评论40喜欢

Hadoop

Hadoop安全模式详解及配置

　　在《Hadoop 1.x中fsimage和edits合并实现》文章中提到，Hadoop的NameNode在重启的时候，将会进入到安全模式。而在安全模式，HDFS只支持访问元数据的操作才会返回成功，其他的操作诸如创建、删除文件等操作都会导致失败。　　NameNode在重启的时候，DataNode需要向NameNode发送块的信息，NameNode只有获取到整个文件系统中有99.9%（可以配

w397090770 11年前 (2014-03-13) 17404℃ 3评论16喜欢

上一页
1
···
118
119
120
121
122
123
124
125
126
127
128
...
140
下一页
共 140 页