快速n-gram计算

面试问答更新时间：2026-06-04 12:05:17 发布时间：1636天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

由于您没有指明是想要单词级还是字符级的n-gram，因此我将假设前者，而不会失去一般性。

我还假设您从以字符串表示的令牌列表开始。您可以轻松地做自己写n-gram提取。

def ngrams(tokens, MIN_N, MAX_N):    n_tokens = len(tokens)    for i in xrange(n_tokens):        for j in xrange(i+MIN_N, min(n_tokens, i+MAX_N)+1): yield tokens[i:j]

然后将替换为

yield

您要对每个n-gram采取的实际操作（将其添加到n-gram，将其

dict

存储在数据库中，无论如何），以消除生成器开销。

最后，如果确实不够快，请将以上内容转换为Cython并进行编译。使用

defaultdict

代替的示例

yield

：

def ngrams(tokens, int MIN_N, int MAX_N):    cdef Py_ssize_t i, j, n_tokens    count = defaultdict(int)    join_spaces = " ".join    n_tokens = len(tokens)    for i in xrange(n_tokens):        for j in xrange(i+MIN_N, min(n_tokens, i+MAX_N)+1): count[join_spaces(tokens[i:j])] += 1    return count

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/651219.html

上一篇不是动态选择字段WTFORMS的有效选择

下一篇在什么情况下我会使用元组作为字典键？

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们