最近的需求是写一个自动化脚本,自动读取文件夹下的所有文件,然后取其中的表头进行遍历,判断是否需要进行数据的转换。得到判断结果之后,再用selenium对需要的转化的数据进行转换,最后将转换后的数据添加到excel中
目前的思路如下:
os库循环读取文件夹下的文件
- 先写一个循环,遍历文件夹下所有文件的路径生成一个列表,在列表里再进行一次循环,读取每个表在上一个循环中取表的列名对于生成的列表,再次进行一个循环判断,判断是否包含转换后的数据
以上就可以完成数据的判断工作
遇到的bug:
1.路径的问题
文件名和路径是不同的东西,写的时候需要注意
2.csv和xlsx
无论是读取还是生成,都有csv和xlsx两种,其中生成csv时,经常会出现中文乱码的问题,可以采用encode解决 d.to_csv(filepath1,encoding = "utf_8_sig")
知识点:
1.pathDir = os.listdir(filepath)
2.获取列名
b = data.columns.tolist()
个人总结:
总的来说,os库对于python读取大量文件夹非常方便,就是有很多小细节需要注意,希望之后有空能够学习语法点。



