栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

pandas自定义函数进行数据清洗

pandas自定义函数进行数据清洗

定义函数
def data_cleaning(arguments):#数据清洗函数
    arguments=str(arguments)
    # arguments=re.sub('[ s]+',' ',arguments)#去掉多余空格,保留一个 ,正则替换

    arguments=arguments.strip(' ,;nt')#去掉首尾空格等

    return arguments
函数应用
clean_columns=['涉及功能','元数据分类','涉及病种','是否治理'] # 需要清洗的字段
for clean_column in clean_columns:
    logging.info('{}-数据清洗中!'.format(clean_column))
    df[clean_column]=df.apply(lambda x:data_cleaning(x[clean_column]),axis=1)
完整代码
df=df.fillna('')

import re
def data_cleaning(arguments):#数据清洗函数
    arguments=str(arguments)
    # arguments=re.sub('[ s]+',' ',arguments)#去掉多余空格,保留一个 ,正则替换

    arguments=arguments.strip(' ,;nt')#去掉首尾空格等

    return arguments


clean_columns=['涉及功能','元数据分类','涉及病种','是否治理']
for clean_column in clean_columns:
    logging.info('{}-数据清洗中!'.format(clean_column))
    df[clean_column]=df.apply(lambda x:data_cleaning(x[clean_column]),axis=1)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/690009.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号