栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

我应该在模糊查询字段中包含空格吗?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

我应该在模糊查询字段中包含空格吗?

您可能需要结合使用ngram和模糊匹配查询。如果您需要入门,我写了一篇有关Qbox的ngram的博客文章:https ://qbox.io/blog/an-introduction-to-
ngrams-in-elasticsearch 。我将在帖子结尾处滑动入门代码,以说明我的意思。

另外,我认为您是使用两个字段

name
还是仅使用一个字段都没有多大关系。如果由于其他原因需要两个字段,则可能要在查询中使用该
_all
字段。为简单起见,我在这里只使用一个字段。

这是一个映射,可以让您获得想要的部分单词匹配,假设您只在乎单词开头的标记(否则使用ngrams而不是edge
ngrams
)。使用ngram有很多细微差别,因此如果您需要更多信息,我将参考您的文档和入门。

PUT /test_index{   "settings": {      "number_of_shards": 1,      "analysis": {         "filter": { "edge_ngram_filter": {    "type": "edge_ngram",    "min_gram": 1,    "max_gram": 10 }         },         "analyzer": { "edge_ngram_analyzer": {    "type": "custom",    "tokenizer": "standard",    "filter": [       "lowercase",       "edge_ngram_filter"    ] }         }      }   },   "mappings": {      "doc": {         "properties": { "name": {    "type": "string",    "index_analyzer": "edge_ngram_analyzer",    "search_analyzer": "standard" }         }      }   }}

这里要特别注意的一件事:

"min_gram": 1
。这意味着将从索引值生成单字符令牌。当您查询时,这将产生一个相当宽的网络(例如,许多单词以“
j”开头),因此您可能会得到一些意外的结果,尤其是在与模糊性结合时。但这是使您的“ J Smith”查询正常运行所必需的。因此,需要权衡取舍。

为了说明,我索引了四个文档:

PUT /test_index/doc/_bulk{"index":{"_id":1}}{"name":"John Hancock"}{"index":{"_id":2}}{"name":"John Smith"}{"index":{"_id":3}}{"name":"Bob Smith"}{"index":{"_id":4}}{"name":"Bob Jones"}

您的查询通常有效,但有几点警告。

POST /test_index/_search{    "query": {        "match": {"name": {    "query": "John",    "fuzziness": "AUTO",    "operator": "and"}        }    }}

由于ngrams加上模糊性,此查询返回三个文档:

{   "took": 3,   "timed_out": false,   "_shards": {      "total": 1,      "successful": 1,      "failed": 0   },   "hits": {      "total": 3,      "max_score": 0.90169895,      "hits": [         { "_index": "test_index", "_type": "doc", "_id": "1", "_score": 0.90169895, "_source": {    "name": "John Hancock" }         },         { "_index": "test_index", "_type": "doc", "_id": "2", "_score": 0.90169895, "_source": {    "name": "John Smith" }         },         { "_index": "test_index", "_type": "doc", "_id": "4", "_score": 0.6235822, "_source": {    "name": "Bob Jones" }         }      ]   }}

那可能不是您想要的。另外,

"AUTO"
不适用于“ Jhon Smi”查询,因为“ Jhon”与“ John”的编辑距离为2,而“
AUTO”对3-5个字符的字符串使用的编辑距离为1(请参阅文档有关更多信息)。因此,我必须改用以下查询:

POST /test_index/_search{    "query": {        "match": {"name": {    "query": "Jhon Smi",    "fuzziness": 2,    "operator": "and"}        }    }}...{   "took": 17,   "timed_out": false,   "_shards": {      "total": 1,      "successful": 1,      "failed": 0   },   "hits": {      "total": 1,      "max_score": 1.4219328,      "hits": [         { "_index": "test_index", "_type": "doc", "_id": "2", "_score": 1.4219328, "_source": {    "name": "John Smith" }         }      ]   }}

其他查询按预期方式工作。因此,该解决方案并不完美,但是它将使您接近。

这是我使用的所有代码:

http://sense.qbox.io/gist/ba5a6741090fd40c1bb20f5d36f3513b4b55ac77



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/406260.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号