栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

计算熊猫数据框中的不同单词

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

计算熊猫数据框中的不同单词

使用

set
来创建唯一元素的序列。

进行一些清理

df
以使小写字母的字符串分解:

df['text'].str.lower().str.split()Out[43]: 0  [my, nickname, is, ft.jgt]1    [someone, is, going, to, my, place]

该列中的每个列表都可以传递给

set.update
函数以获取唯一值。使用
apply
这样做:

results = set()df['text'].str.lower().str.split().apply(results.update)print(results)set(['someone', 'ft.jgt', 'my', 'is', 'to', 'going', 'place', 'nickname'])

或与

Counter()
from注释一起使用:

from collections import Counterresults = Counter()df['text'].str.lower().str.split().apply(results.update)print(results)


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/610584.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号