我认为原因是JSON阅读器缺少架构。执行时:
sqlContext.read().json(jsonStringRDD);
Spark必须为新创建的推断架构
Dataframe。为此,它具有扫描输入RDD,并且急切地执行此步骤
如果要避免这种情况,则必须创建一个
StructType描述JSON文档形状的:
StructType schema;...
并在创建时使用它
Dataframe:
Dataframe dataSchemaDF = sqlContext.read().schema(schema).json(jsonStringRDD);



