在《Hadoop 1.x中fsimage和edits合并实现》文章中提到,Hadoop的NameNode在重启的时候,将会进入到安全模式。而在安全模式,HDFS只支持访问元数据的操作才会返回成功,其他的操作诸如创建、删除文件等操作都会导致失败。
NameNode在重启的时候,DataNode需要向NameNode发送块的信息,NameNode只有获取到整个文件系统中有99.9%(可以配置的)的块满足最小副本才会自动退出安全模式。最小副本和那个99.9%阀值可以通过下面配置来设定:
<property> <name>dfs.namenode.replication.min</name> <value>1</value> <description>Minimal block replication. </description> </property> <property> <name>dfs.namenode.safemode.threshold-pct</name> <value>0.999f</value> <description> Specifies the percentage of blocks that should satisfy the minimal replication requirement defined by dfs.namenode.replication.min. Values less than or equal to 0 mean not to wait for any particular percentage of blocks before exiting safemode. Values greater than 1 will make safe mode permanent. </description> </property>
Hadoop中每个块的默认最小副本为1;dfs.namenode.safemode.threshold-pct参数的意思是指定达到最小副本数的数据块的百分比。这个值小等于0表示无须等待就可以退出安全模式;而如果这个值大于1表示永远处于安全模式。除了上面两个参数对安全模式有影响之外,下面几个参数也会对安全模式有影响
<property> <name>dfs.namenode.safemode.min.datanodes</name> <value>0</value> <description> Specifies the number of datanodes that must be considered alive before the name node exits safemode. Values less than or equal to 0 mean not to take the number of live datanodes into account when deciding whether to remain in safe mode during startup. Values greater than the number of datanodes in the cluster will make safe mode permanent. </description> </property> <property> <name>dfs.namenode.safemode.extension</name> <value>30000</value> <description> Determines extension of safe mode in milliseconds after the threshold level is reached. </description> </property>
dfs.namenode.safemode.min.datanodes的意思指namenode退出安全模式之前有效的(活着的)datanode的数量。这个值小等于0表示在退出安全模式之前无须考虑有效的datanode节点个数,值大于集群中datanode节点总数则表示永远处于安全模式;dfs.namenode.safemode.extension表示在满足dfs.namenode.safemode.threshold-pct值之后,NameNode还需要处于安全模式的时间(单位是秒)。来看看代码是怎么弄的:
/** * Creates SafeModeInfo when the name node enters * automatic safe mode at startup. * * @param conf configuration */ private SafeModeInfo(Configuration conf) { this.threshold = conf.getFloat(DFS_NAMENODE_SAFEMODE_THRESHOLD_PCT_KEY, DFS_NAMENODE_SAFEMODE_THRESHOLD_PCT_DEFAULT); if(threshold > 1.0) { LOG.warn("The threshold value should't be greater than 1, threshold: " + threshold); } this.datanodeThreshold = conf.getInt( DFS_NAMENODE_SAFEMODE_MIN_DATANODES_KEY, DFS_NAMENODE_SAFEMODE_MIN_DATANODES_DEFAULT); this.extension = conf.getInt(DFS_NAMENODE_SAFEMODE_EXTENSION_KEY, 0); this.safeReplication =conf.getInt(DFS_NAMENODE_REPLICATION_MIN_KEY, DFS_NAMENODE_REPLICATION_MIN_DEFAULT); LOG.info(DFS_NAMENODE_SAFEMODE_THRESHOLD_PCT_KEY + " = " + threshold); LOG.info(DFS_NAMENODE_SAFEMODE_MIN_DATANODES_KEY+"="+datanodeThreshold); LOG.info(DFS_NAMENODE_SAFEMODE_EXTENSION_KEY + " = " + extension); this.replQueueThreshold = conf.getFloat(DFS_NAMENODE_REPL_QUEUE_THRESHOLD_PCT_KEY, (float) threshold); this.blockTotal = 0; this.blockSafe = 0; }
上述代码从配置文件中获取dfs.namenode.safemode.min.datanodes、dfs.namenode.safemode.threshold-pct、dfs.namenode.replication.min和dfs.namenode.safemode.extension。
我们需要知道,当Resource is low时,只有Active NameNode才会进入到安全模式(HDFS-2914)。
当然,如果我们也可以手动进入安全模式
hadoop fs –safemode enter
手动进入安全模式对于集群维护或者升级的时候非常有用,因为这时候HDFS上的数据是只读的。手动退出安全模式可以用下面命令:
hadoop fs –safemode leave
如果你想获取到集群是否处于安全模式,可以用下面的命令获取:
hadoop fs –safemode get
当然,你也可以在NameNode的50070端口的WEB页面上看到集群是否处于安全模式。
本博客文章除特别声明,全部都是原创!原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载。
本文链接: 【Hadoop安全模式详解及配置】(https://www.iteblog.com/archives/977.html)
你好,感谢分享,想请教一个问题,您前面说安全模式根据edits恢复fsimages的过程,现在是dataNode向nameNode汇报块信息的过程,所以我有些迷茫了,而且块信息不是应该在fsimages里面吗,为什么nameNode重启的时候还需要dataNode汇报呢?谢谢回答
退出安全模式的时间,应该还需要额外加30秒吧?
“After a configurable percentage of safely replicated data blocks checks in with the NameNode (plus an additional 30 seconds), the NameNode exits the Safemode state”
引自:http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Safemode
上面的文章是基于很早之前版本的Hadoop介绍的,所以安全模式配置请参见最新的Hadoop相关参数。