hadoop归档是一个专用的格式. hadoop归档映射文件系统目录,归档总是用*.har做扩展名.归档目录包含元数据(用_index和_masterindex格式)和数据(part-*)文件. _index文件中包含这部分归档的文件内容和位置.
Usage: hadoop archive -archiveName name -p[-r ] *
# 归档文件 hadoop archive -archiveName input.har –p /input /output # 查看归档 hadoop fs -lsr //output/input.har(看到的索引等信息) hadoop fs -lsr har:output/input.har(看到的归档中的具体文件) # 解归档文件 hdfs dfs -cp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir # 并发解压归档 hadoop distcp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir



