#(1) 直接读取 filename='data.csv' df=pd.read_csv(filename) #(2)有分隔符 ;自己设置列名;读取行数;读取哪几列 df = pd.read_csv(filename, sep=',', nrows=1000, usecols=[0, 2], names=['a', 'b'])2、列名重命名
#rid aid
df = df.rename(columns={'rid':'Rid','aid':'Aid'})
3、是否存在用isin函数
# paper_ids df = df[df.Rid.isin(paper_ids)]4、去重
df = df.drop_duplicates()
5、对含有NaN的行的处理(1)填充值
# 全部填充0 df.fillna(0) # 单列填充 df['A'] = df['A'].fillna(0)
(2)删除所有空行
df = df.dropna()



