栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

torchtext.data.utils

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

torchtext.data.utils

get_tokenizer(tokenizer, language=‘en’)

功能:使用分词器对句子进行分词。

参数:

  • tokenizer:分词器名称。

    如果传入None,功能相当于simple_space_split(),不会分割标点符号。

    如果传入"basic_english",则会将字母转为小写并按空格分割,会分割标点符号。

    如果传入可调用函数,则会调用并返回相应结果。

    如果传入分词库名称,则会返回相应的结果,分词库有spacy、moses、toktok、revotk,subword等。

  • language:语言名称,默认为en。

示例:

import torchtext
from torchtext.data.utils import get_tokenizer

# 传入None
tokenizer = get_tokenizer(None)
tokens = tokenizer("You can,ttnownninstall TorchText using pip!!!")
print(tokens)

# 传入"basic_english"
tokenizer = get_tokenizer("basic_english")
tokens = tokenizer("You can,ttnownninstall TorchText using pip!!!")
print(tokens)

# 传入可调用函数
def mySplit(text:str):
    return text.split(" ")

tokenizer = get_tokenizer(mySplit)
tokens = tokenizer("You can,ttnownninstall TorchText using pip!!!")
print(tokens)

# 传入分词库名称
tokenizer = get_tokenizer("moses")
tokens = tokenizer("You can,ttnownninstall TorchText using pip!!!")
print(tokens)

示例结果:

['You', 'can,', 'now', 'install', 'TorchText', 'using', 'pip!!!']
['you', 'can', ',', 'now', 'install', 'torchtext', 'using', 'pip', '!', '!', '!']
['You', 'can,ttnownninstall', 'TorchText', 'using', 'pip!!!']
['You', 'can', ',', 'now', 'install', 'TorchText', 'using', 'pip', '!', '!', '!']
ngarms_iterator(token_list, ngrams)

功能:生成ngram词袋分词。

参数:

  • token_list:分词结果列表。
  • ngrams:词袋大小

示例:

import torchtext
from torchtext.data.utils import get_tokenizer, ngrams_iterator

tokenizer = get_tokenizer("basic_english")
tokens = tokenizer("You canttnow")

list(ngrams_iterator(tokens, 3))

示例结果:

['you', 'can', 'now', 'you can', 'can now', 'you can now']
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/329955.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号