栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Elasticsearch:如何基于Script实现按照text属性值的字符串长度排序

Elasticsearch:如何基于Script实现按照text属性值的字符串长度排序

文章目录
    • 一、需求说明
    • 二、解决方案
      • 破浪前提:区分text和keyword之间的关系
      • 语法总结
    • 三、踩坑历史
      • 踩坑1:错误使用聚合属性length
      • 踩坑2:keyword值为空异常
    • 四、参考资料

一、需求说明

今天有一个场景,基于企业标签的数量进行排序。我的实现逻辑是按照企业的标签字符串长度进行排序,在es中这也算一种聚合查询的场景。

idvipSignlicenses
11A
20A,C
31A,C

优先按照vip标签排序,然后再按照licenses的长度排序,期望结果应为:3、1、2。

已知,licenses属性的mapping设置为:

{
  "type": "text",
  "fields": {
    "keyword": {
      "type": "keyword",
      "ignore_above": 256
    }
  }
}
二、解决方案 破浪前提:区分text和keyword之间的关系

困难缠身的原因一般是对基础概念或特性的理解不足。

首先text属性的字段在es中存储时,会被自动分词存储;text属性的字段是支持分词,但不支持聚合的。我们可以在kibana的index patterns中可以查看索引属性的特性。

语法总结
  • 数组情形下,既然我们可以通过doc['field_name'].length或者doc['field_name'].size()获取字段长度,那么需要修改mappings该属性的类型;
  • 字符串情形下,doc['field_name.keyword'].value.length(),但是需要注意,如果doc['field_name.keyword'].value的值存在为null的情况,需要使用doc['field_name.keyword'].size()优先判空。

最终的脚本为:

POST /lpm-route-v2/_search
{
    "from": 0,
    "size": 10,
    "query": {
      "terms": {
        "id": [
          "66108",
          "72221"
        ]
      }
    }, 
    "sort": [
        {
            "store.company.vipSign": {
                "order": "desc"
            }
        },
        {
            "_script": {
                "script": {
                    "source": "doc['store.company.licenses.keyword'].size()>0 ?doc['store.company.licenses.keyword'].value.length():0",
                    "lang": "painless"
                },
                "type": "number",
                "order": "desc"
            }
        }
    ]
}
三、踩坑历史 踩坑1:错误使用聚合属性length

错误写法

POST /lpm-route-v2/_search
{
    "from": 0,
    "size": 10,
    "query": {"match_all": {}}, 
    "sort": [
        {
            "store.company.vipSign": {
                "order": "desc"
            }
        },
        {
            "_script": {
                "script": {
                    "source": "doc['store.company.licenses'].length",
                    "lang": "painless"
                },
                "type": "number",
                "order": "desc"
            }
        }
    ]
}

提示信息如下,即默认不支持聚合和排序:

“reason” : “Text fields are not optimised for operations that require per-document field data like aggregations and sorting, so these operations are disabled by default. Please use a keyword field instead. Alternatively, set fielddata=true on [store.company.licenses] in order to load field data by uninverting the inverted index. Note that this can use significant memory.”

脚本表达式正确写法为:
doc['store.company.licenses.keyword'].length,其表达的含义为统计元素的个数,可以理解为数组元素的个数。

命中结果的排序均为:

{
        "_index" : "lpm-company-v1",
        "_type" : "_doc",
        "_id" : "5229",
        "_score" : null,
        "_source" : {
          ...
        },
        "sort" : [
          1,
          1.0
        ]
      },

也就是说,第二个字段doc['store.company.licenses'].length的值为1,同:doc['store.company.licenses'].size(),返回结果为数组的长度,那么如何返回字符串的长度呢?

踩坑2:keyword值为空异常
"caused_by" : {
    "type" : "illegal_state_exception",
    "reason" : "A document doesn't have a value for a field! Use doc[].size()==0 to check if a document is missing a field!"
  }

原因:字符串字段中存储有null值。
解决办法:doc['licenses.keyword'].size() !=0 ?doc['licenses.keyword'].value.length() :0

四、参考资料
  1. 解决 SpringBoot Elasticsearch 7.x 聚合查询遇到的问题
  2. Elasticsearch 按照字段的长度过滤 (该字段必须为keyword 类型)附带api
  3. ElasticSearch通过字段值的长度过滤 7.x不适用
  4. elasticsearch中如何依据字符串长度过滤
  5. ElasticSearch按字符串长度排序

感谢您的赏读~
您还可以关注我的微信公众号回复“es脑图”,获取我的Elasticsearch学习思维导图哦。,就这么“定”了!

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/673408.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号