栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

边缘ngram令牌过滤器与ngram令牌过滤器有何不同?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

边缘ngram令牌过滤器与ngram令牌过滤器有何不同?

我认为文档对此非常清楚:

该标记器与nGram非常相似,但仅保留从标记开头开始的n-gram。

nGram
标记器的最佳示例再次来自文档:

curl 'localhost:9200/test/_analyze?pretty=1&analyzer=my_ngram_analyzer' -d 'FC Schalke 04'    # FC, Sc, Sch, ch, cha, ha, hal, al, alk, lk, lke, ke, 04

使用此标记生成器定义:

         "type" : "nGram",         "min_gram" : "2",         "max_gram" : "3",         "token_chars": [ "letter", "digit" ]

简而言之:

  • 令牌生成器将根据令牌的配置来创建令牌。在这个例子中:
    FC
    Schalke
    04
  • nGram
    从输入文本生成最小
    min_gram
    大小和最大
    max_gram
    大小的字符组。基本上,令牌被分成小块,每个块都锚定在一个字符上(这个字符在哪里都无所谓,所有这些都会创建块)。
  • edgeNGram
    所做的相同,但块总是从每个令牌的开头开始。基本上,块固定在令牌的开头。

对于相同的文字的上方,一个

edgeNGram
产生这样的:
FC, Sc, Sch, Scha, Schal,04
。考虑文本中的每个“单词”,对于每个“单词”,第一个字符都是起点(
F
from
FC
S
from
Schalke
0
from
04
)。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/386636.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号