栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

在所有文档中获取前100个最常用的三个单词短语

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

在所有文档中获取前100个最常用的三个单词短语

您正在寻找的被称为 带状疱疹 。带状疱疹就像“单词n-
gram”:字符串中多个项的序列组合。(例如,“我们所有人都生活”,“所有人都生活”,“住在一个”,“一个黄色”,“一个黄色潜水艇”)

在这里看看:https :
//www.elastic.co/blog/searching-with-
shingles

基本上,您需要一个带有带状板分析器的字段,该分析器仅生成三项带状板:

弹性博客文章配置,但具有:

"filter_shingle":{   "type":"shingle",   "max_shingle_size":3,   "min_shingle_size":3,   "output_unigrams":"false"}

在将带状疱疹分析器应用于相关字段(如博客文章中)并 重新索引数据之后
,您应该能够在字段上发出返回简单术语汇总的查询,

body
以查看前一百个3 -词词组。

{  "size" : 0,  "query" : {    "match_all" : {}  },  "aggs" : {    "three-word-phrases" : {      "terms" : {        "field" : "body",        "size"  : 100        }    }  }}


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/403669.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号