栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

子文件夹中的Python随机行

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

子文件夹中的Python随机行

为了在所有这些文件上获得适当的随机分布,您需要将它们视为一大行,并随机选择10条。换句话说,您必须至少读取一次所有这些文件,以至少弄清楚 您有多少行

但是,您不需要将所有行都保留在内存中。您必须分两个阶段执行此操作:为文件建立索引以计算每个文件中的行数,然后从这些文件中选择10条随机行。

第一次索引:

import osroot_path = r'C:Tasks\'total_lines = 0file_indices = dict()# based on https://stackoverflow.com/q/845058, bufcount functiondef linecount(filename, buf_size=1024*1024):    with open(filename) as f:        return sum(buf.count('n') for buf in iter(lambda: f.read(buf_size), ''))for dirpath, dirnames, filenames in os.walk(root_path):    for filename in filenames:         if not filename.endswith('.txt'):  continue         path = os.path.join(dirpath, filename)         file_indices[total_lines] = path         total_lines += linecount(path)offsets = list(file_indices.keys())offsets.sort()

现在我们有了一个偏移量映射,指向文件名和总行数。现在我们选择十个随机索引,并从您的文件中读取这些索引:

import randomimport bisecttasks = list(range(total_lines))task_indices = random.sample(tasks, 10)for index in task_indices:     # find the closest file index     file_index = offsets[bisect.bisect(offsets, index) - 1]     path = file_indices[file_index]     curr_line = file_index     with open(path) as f:         while curr_line <= index:  task = f.readline()  curr_line += 1     print(task)     tasks.remove(index)

注意,只需要索引一次。您可以将结果存储在某处,并且仅在文件更新时才对其进行更新。

还要注意,您的任务现在已“存储”在

tasks
列表中。这些是文件中各行的索引,在打印所选任务时,将从该变量中删除索引。下次运行
random.sample()
选项时,以前选择的任务将不再可用于下次选择。如果文件确实发生更改,则此结构将需要更新,因为必须重新计算索引。该
file_indices
会帮助你完成这项任务,但超出这个答案的范围。:-)

如果您只需要 一个
10个项目的样本,请改用Blckknght的解决方案,因为该解决方案只处理一次文件,而我的则需要额外打开10个文件。如果需要_多个_ 样本,则每次需要样本时,此解决方案仅需要额外打开10个文件,就不会再次扫描所有文件。如果文件少于10个,请仍然使用Blckknght的答案。:-)



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/483837.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号