读取word文件中的文本信息

Python 更新时间：2026-05-21 18:23:29 发布时间：1536天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

前言：依次读取某文件夹下的word文件，并将文件名及文本数据写入至xlsx文件

pwd

# 导入库
import os
import docx
import pandas as pd

path = "D:\Code" # word文件所在的文件夹目录
files= os.listdir(path) # 得到文件夹下的所有文件名称

file_str_list = []
for i in range(len(files)): # 遍历目录下的所有文件夹
    file_path = path + '\' + files[i]
    file = docx.document(file_path) # 获取文档对象
    file_str = ''
    # 输出每一段的内容
    for para in file.paragraphs:
        # 去除所有空字符，包括空格、换行(n)、制表符(t)等
        para.text = ''.join(para.text.split())  
        file_str = file_str + para.text
    file_str_list.append(file_str)

print(file_str_list)
print(len(file_str_list))
print(len(file_str_list[1]))

# 将list转为Dataframe结构
df = pd.Dataframe((zip(files, file_str_list)), columns=['title', 'text'])

# 保存到本地excel
df.to_excel("data_zh.xlsx", index=False)

参考文章：python剔除空格

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/755572.html

上一篇 ChromeDriver 设置环境变量后与实际版本不一致

下一篇联邦学习算法FedProx的PyTorch实现

Python相关栏目本月热门文章

关于我们文章归档网站地图联系我们