栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

数据预处理——数据清洗

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

数据预处理——数据清洗

预处理文本如下:

          很强势的处理方法,去掉所有非中文字符之外的符号。如果对数据有其它要求,建议换一种方法。

import pandas as pd
import re
import csv
import os
from pandas import DataFrame
#创建一个清洗列表
def cleanlist():
	clean =[line.strip() for line in open('D:待处理文本.csv',enconding='UTF-8').readlines()]
	return clean

def is_chinese(uchar):
    if uchar >= u'u4e00' and uchar <= u'u9fa5':  # 判断一个uchar是否是汉字
        return True
    else:
        return False

def allcontents(contents):
    content = ''
    for i in contents:
        if is_chinese(i):
            content = content + i
    print('n处理后的句子为:n' + content)
    return content

# 给出文档路径
filename = "D:待处理文本.csv"
outfilename = "D:清洗结果.csv"
inputs = open(filename, 'r', encoding='UTF-8')
outputs = open(outfilename, 'w', encoding='gbk')

# 将输出结果写入ou.txt中
for line in inputs:
    line_seg = allcontents(line)
    outputs.write(line_seg + 'n')

outputs.close()
inputs.close()

处理之后的结果,如下图所示:

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/844281.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号