用Apache Spark读取JSON-`corrupt_record`

面试问答更新时间：2026-05-22 00:39:50 发布时间：1657天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

Spark无法将JSON数组读取到顶级记录，因此您必须通过：

{"toid":"osgb4000000031043205","point":[508180.748,195333.973],"index":1} {"toid":"osgb4000000031043206","point":[508163.122,195316.627],"index":2} {"toid":"osgb4000000031043207","point":[508172.075,195325.719],"index":3} {"toid":"osgb4000000031043208","point":[508513,196023],"index":4}

如本教程中所述，您指的是：

首先加载一个JSON文件，其中 每一行 都是一个JSON对象

推理很简单。Spark希望您传递带有很多JSON实体（每行实体）的文件，以便它可以分发它们的处理（按每个实体粗略地说）。

为了进一步阐明它，这是官方文档的报价单

请注意，以json文件形式提供的文件不是典型的JSON文件。每行必须包含一个单独的，自包含的有效JSON对象。因此，常规的多行JSON文件通常会失败。

此格式称为JSONL。基本上，它是CSV的替代方法。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/427555.html

上一篇如何使用GSON在Java中检查JSON是否有效？

下一篇使用JSON.NET序列化/反序列化对象字典

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们