Python便捷数据获取与预处理 quiz
1.pandas模块中的read_csv()函数在日常使用较多,它除了可以读取csv格式的文件并将结果转换成一个Dataframe外,还可以读取其他的格式化文本文件。假设有一个文本文件的每一行均含有相同个数的数值,且数据间都用一个#分隔,形如:
2.完善如下程序,填出程序中缺失的代码,两个答案中用一个#连接。
程序功能为:读取文件score.csv中的成绩数据,计算平均分并统计其中语文成绩大于等于80,英语成绩大于等于85的学生的每门课程的成绩(结果按平均分从大到小排序),将结果输出至文件result.csv中并绘制如图所示的满足条件的学生平均成绩的柱状图。
【测试数据与运行结果】
score.csv的内容:
df.English>=85#plot
3.对于一个Series或Dataframe对象来说,如下选项中说法错误的是哪一个?
4.如果想要快速观察一个Dataframe对象的如下所示形式的简要统计信息,请在横线上写出相应的方法名?describe
5.规范化是数据变换中的重要方式,请选出如下属于常用的规范化方法的选项。
6.数据预处理是数据分析挖掘的重要阶段,sklearn是著名的机器学习模块,请写出sklearn中常用来做数据预处理的模块名。
preprocessing
7.如下规范化结果可能属于经典的最小-最大化规范化,请问这种说法是否正确。
8.请选出以下关于数据规约的两种形式——属性规约和数值规约说法中错误的选项。



