以.docx文件为例
导入包
import os
指定需要遍历的目录
path = r'F:法律文书Model(1)ModelDataseta'
定义遍历函数
file_paths= []
title=[]
def load(path):
for file in os.listdir(path):
file_path = os.path.join(path, file)
if os.path.splitext(file)[1]=='.docx': #判断文件类型
file_paths.append(os.path.join(file_path)) #文件所在目录
title.append(os.path.splitext(file)[0]) #文件名称
输出指定目录下,目录文件的路径和文件名称
load(path) #调用定义函数 print(file_paths) print(title)
如果目录下有子目录,定义递归函数,同时遍历目录,子目录下的所有指定类型文件
def load(path):
for file in os.listdir(path):
file_path = os.path.join(path, file)
if os.path.isdir(file_path): #判断是否为子目录
load(file_path) # 调用递归函数
else:
if os.path.splitext(file)[1]=='.docx':
file_paths.append(os.path.join(file_path))
title.append(os.path.splitext(file)[0])
函数使用
os.listdir(path): #将Path目录下文件放入list中 os.path.join(path, file) #连接路径和文件名称,得到文件路径 os.path.isdir(file_path): #判断是否为子目录 os.path.splitext(file)[1]=='.docx': #判断文件类型



