HDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/),但从HDFS2.x开始支持给文件追加内容,可以参见https://issues.apache.org/jira/browse/HADOOP-8230。可以再看看http://www.quora.com/HDFS/Is-HDFS-an-append-only-file-system-Then-how-do-people-modify-the-files-stored-on-HDFS。正如HADOOP-8230所述,只需要将hdfs-site.xml中的以下属性修改为true就行。
<property> <name>dfs.support.append</name> <value>true</value> </property>
目前如何在命令行里面给HDFS文件中追加内容我还没找到相应的方法。但是,我们可以通过Hadoop提供的API实现文件内容追加,如何实现?这里我写了一个简单的测试程序:
package com.wyp; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import java.io.*; import java.net.URI; /** * blog: / * Date: 14-1-2 * Time: 下午6:09 */ public class AppendContent { public static void main(String[] args) { String hdfs_path = "hdfs://mycluster/home/wyp/wyp.txt";//文件路径 Configuration conf = new Configuration(); conf.setBoolean("dfs.support.append", true); String inpath = "/home/wyp/append.txt"; FileSystem fs = null; try { fs = FileSystem.get(URI.create(hdfs_path), conf); //要追加的文件流,inpath为文件 InputStream in = new BufferedInputStream(new FileInputStream(inpath)); OutputStream out = fs.append(new Path(hdfs_path)); IOUtils.copyBytes(in, out, 4096, true); } catch (IOException e) { e.printStackTrace(); } } }
将上面的代码打包成jar(这里我取名为hdfs.jar)文件,然后上传到机器中,比如我上传到我的home目录,在程序运行前,我们来看看HDFS中wyp.txt文件中的内容有什么
[wyp@iteblog ~]$ /home/q/hadoop-2.2.0/bin/hadoop fs \ -cat /home/wyp/wyp.txt 123456 [wyp@iteblog ~]$
好,我们再来看看/home/wyp/append.txt文件中的内容:
[wyp@iteblog ~]$ vim append.txt wyp append test
看完代码中所涉及到的两个文件之后,我们再运行hdfs.jar
[wyp@iteblog ~]$ /home/q/hadoop-2.2.0/bin/hadoop jar \ hdfs.jar com.wyp.AppendContent
运行完之后,看看wyp.txt内容
[wyp@iteblog ~]$ /home/q/hadoop-2.2.0/bin/hadoop fs \ -cat /home/wyp/wyp.txt 123456 wyp append test
好了,wyp.txt文件已经追加了append.txt文件中的内容了。
本博客文章除特别声明,全部都是原创!原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载。
本文链接: 【HDFS文件内容追加(Append)】(https://www.iteblog.com/archives/881.html)
不错!假如通过flume来写HDFS,多个sink写的话,会不会出现如“串行”的问题?
多个sink写的时候会加锁。
谢谢回复,我没看过flume源码,白天和同事也讨论过这个问题,觉得是应该通过加锁处理,谢谢了!