- 占namenode元数据内存(不管文件多小,都要占用150字节),128G内存的namenode能存储(12810241024*1024/150=)约等于9亿个文件块增加切片,进而影响增加maptask个数(默认1g),增加计算内存
将小文件归档,企业用的较多
CombineTextInputformat改变切片,多个文件放在一起切片
VM重用有小文件场景开启JVM重用,没有小文件不要开启,因为会一直占用使用到的task卡槽,知道任务完成才释放。
JVM重用可以使得JVM实例在同一个job中重新使用N次,N的值可以在Hadoop的mapred-sit.xml文件中进行配置,通常在10-20之间



