我有两个json文件,分别为42mb和16mb,在S3上作为路径分区:
s3://bucket/stg/year/month/_0.json
s3://bucket/stg/year/month/_1.json
我遇到了与您相同的问题,爬虫分类为UNKNOWN。
我能够解决它:
- 您必须使用JSONPath作为“ $ [*]”创建自定义分类器,然后使用分类器创建新的搜寻器。
- 使用S3上的数据运行新的搜寻器,将创建正确的架构。
- 请勿使用分类器更新当前的搜寻器,因为它不会应用更改,我不知道为什么,也许是因为他们的文档中提到了分类器版本化AWS。创建新的搜寻器,使它们正常工作



