标签：Hadoop

如何给运行在YARN上的MapReduce作业配置内存

　　如果你经常写MapReduce作业，你肯定看到过以下的异常信息：[code lang="bash"]Application application_1409135750325_48141 failed 2 times due to AM Container forappattempt_1409135750325_48141_000002 exited with exitCode: 143 due to: Container[pid=4733,containerID=container_1409135750325_48141_02_000001] is running beyond physical memory limits.Current usage: 2.0 GB of 2 GB physical memory used; 6.0 GB of

w397090770 8年前 (2016-12-29) 4276℃ 1评论11喜欢

Hadoop

[电子书]Hadoop Blueprints pdf下载

　　如果你对Hadoop有基本的了解，并希望将您的知识用于企业的大数据解决方案，那你就来阅读本书吧。本书提供了六个使用Hadoop生态系统解决实际问题的例子，使得您的Hadoop知识提升到一个新的水平。本书作者：Anurag Shrivastava，由Packt出版社于2016年9月出版，全书共316页。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关

zz~~ 8年前 (2016-12-20) 3244℃ 1评论6喜欢

Hadoop

[电子书]Hadoop权威指南第3版中文版PDF下载

　　本书是《Hadoop权威指南》第三版，新版新特色，内容更详细。本书是为程序员写的，可帮助他们分析任何大小的数据集。本书同时也是为管理员写的，帮助他们了解如何设置和运行Hadoop集群。　　本书通过丰富的案例学习来解释Hadoop的幕后机理，阐述了Hadoop如何解决现实生活中的具体问题。第3版覆盖Hadoop的新动态，包括新增

zz~~ 8年前 (2016-12-16) 17361℃ 0评论43喜欢

Hadoop

Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍

　　在HDFS中，DataNode 将数据块存储到本地文件系统目录中，具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中，一般都会配置多个目录，并且把这些目录分别配置到不同的设备上，比如分别配置到不同的HDD（HDD的全称是Hard Disk Drive）和SSD（全称Solid State Drives，就是我们熟悉的固态硬盘）上。

w397090770 8年前 (2016-12-13) 5937℃ 0评论13喜欢

Hadoop

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下，所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbas

w397090770 8年前 (2016-11-28) 17931℃ 2评论52喜欢

Hadoop

[电子书]Big Data Analytics pdf下载

本书作者Venkat Ankam，由Packt Publishing出版社在2016年09月发行，全书供326页。本书基于Spark 2.0和Hadoop 2.7版本介绍，是适合数据分析师和数据科学家的参考手册，当然也适合那些想入门的人。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop本书的章节[code lang="bash"]Chapter 1: Big Data Analytics at a 10

zz~~ 9年前 (2016-11-21) 4754℃ 0评论6喜欢

Hadoop

运行Hbase作业出现cannot access its superclass com.google.protobuf.LiteralByteString异常解决

最近写了一个Spark程序用来读取Hbase中的数据，我的Spark版本是1.6.1，Hbase版本是0.96.2-hadoop2，当程序写完之后，使用下面命令提交作业：[code lang="java"][iteblog@www.iteblog.com $] bin/spark-submit --master yarn-cluster --executor-memory 4g --num-executors 5 --queue iteblog --executor-cores 2 --class com.iteblog.hbase.HBaseRead --jars spark-hbase-connector_2.10-1.0.3.jar,hbase-common-0.9

w397090770 9年前 (2016-11-03) 3676℃ 0评论7喜欢

Hadoop

Hadoop&Spark解决二次排序问题(Spark篇)

我在《Hadoop&Spark解决二次排序问题(Hadoop篇)》文章中介绍了如何在Hadoop中实现二次排序问题，今天我将介绍如何在Spark中实现。问题描述二次排序就是key之间有序，而且每个Key对应的value也是有序的；也就是对MapReduce的输出(KEY, Value(v1,v2,v3,......,vn))中的Value(v1,v2,v3,......,vn)值进行排序（升序或者降序），使得Value(s1,s2,s3,......,sn)，si

w397090770 9年前 (2016-10-08) 6268℃ 0评论12喜欢

Hadoop

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍

Apache Hadoop 3.0.0-alpha1相对于hadoop-2.x来说包含了许多重要的改进。这里介绍的是Hadoop 3.0.0的alpha版本，主要是便于检测和收集应用开发人员和其他用户的使用反馈。因为是alpha版本，所以本版本的API稳定性和质量没有保证，如果需要在正式开发中使用，请耐心等待稳定版的发布吧。本文将对Hadoop 3.0.0重要的改进进行介绍。Java最低

zz~~ 9年前 (2016-09-22) 3382℃ 0评论7喜欢

Hadoop

四种常见的MapReduce设计模式

　　使用MapReduce解决任何问题之前，我们需要考虑如何设计。并不是任何时候都需要map和reduce job。MapReduce设计模式(MapReduce Design Pattern)整个MapReduce作业的阶段主要可以分为以下四种：　　1、Input-Map-Reduce-Output　　2、Input-Map-Output　　3、Input-Multiple Maps-Reduce-Output　　4、Input-Map-Combiner-Reduce-Output下面我将一一介绍哪种

w397090770 9年前 (2016-09-01) 5776℃ 0评论16喜欢

上一页
1
2
3
4
5
6
7
8
9
10
11
...
17
下一页
共 17 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Hadoop

如何给运行在YARN上的MapReduce作业配置内存

[电子书]Hadoop Blueprints pdf下载

[电子书]Hadoop权威指南第3版中文版PDF下载

Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

[电子书]Big Data Analytics pdf下载

运行Hbase作业出现cannot access its superclass com.google.protobuf.LiteralByteString异常解决

Hadoop&Spark解决二次排序问题(Spark篇)

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍

四种常见的MapReduce设计模式