解决方案是创建自己的FileInputFormat类来执行此操作。您可以从此FileInputFormat接收的FileSplit(getPath)访问输入文件的名称。确保否决FileInputformat的isSplitable以始终返回false。
您还将需要一个自定义的RecordReader,它以单个“ Record”值返回整个文件。
处理太大的文件时要小心。您将有效地将整个文件加载到RAM中,并且任务跟踪器的默认设置是仅具有200MB RAM。

解决方案是创建自己的FileInputFormat类来执行此操作。您可以从此FileInputFormat接收的FileSplit(getPath)访问输入文件的名称。确保否决FileInputformat的isSplitable以始终返回false。
您还将需要一个自定义的RecordReader,它以单个“ Record”值返回整个文件。
处理太大的文件时要小心。您将有效地将整个文件加载到RAM中,并且任务跟踪器的默认设置是仅具有200MB RAM。