栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

生成的数据集,csv文件列数不同,无法正常读取的解决方法

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

生成的数据集,csv文件列数不同,无法正常读取的解决方法

遇到的问题

由于自己读写文件操作生成的csv格式的数据集,每行的数据长度不一致,导致用pandas读取数据时候报错:
pandas.errors.ParserError: Error tokenizing data. C error: Expected 55 fields in line 5, saw 73
很是心烦,网上查了很久之后找到了大神分享的方法,记录一下!

代码如下
import pandas as pd
csv_file = "../datasets/features/dataset.csv"
largest_column_count =0
with open(csv_file, 'r') as temp_f:
    lines = temp_f.readlines()
    for l in lines:
        column_count = len(l.split(',')) + 1
        largest_column_count = column_count if largest_column_count < column_count else largest_column_count
temp_f.close()
# 这里可以直接定义你想要的列数就可以了(由于我的数据集列数千万级别,有点大,自己尝试了一下直接定义largest_column_count)
column_names = [i for i in range(0, largest_column_count)]

data = pd.read_csv("../datasets/features/dataset.csv", header=None, delimiter=',', names=column_names)
该方法原文链接

https://blog.csdn.net/Kyrie_10/article/details/117367220

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/701317.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号