栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

elasticsearch-ik分词器

elasticsearch-ik分词器

这里用的分词器版本是elasticsearch-analysis-ik-7.16.1.zip,和elasticsearch是相同的版本,这样不容易出错。 每个节点的elasticsearch中都要安装elasticsearch-analysis-ik。
安装过程 1. linux安装zip解压器
yum -y install unzip
2. 在原来的elasticsearch安装目录中的plugins目录下创建一个名为ik的文件夹
mkdir -p /usr/local/elasticsearch-7.16.1/plugins/ik
3. 把elasticsearch-analysis-ik-7.16.1.zip压缩包解压到elasticsearch安装目录ik的文件夹下
unzip elasticsearch-analysis-ik-7.16.1.zip -d /usr/local/elasticsearch-7.16.1/plugins/ik
4. 安装ik完成,启动elasticsearch
设置mapping(给分词器设置分词的规则) Analyzer分词配置解释:

Ik_smart:粗粒度分词,比如中华人民共和国国歌,会拆分为中华人民共和国,国歌;
Ik_max_word:细粒度分词,比如中华人民共和国国歌,会拆分为中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国等各种组合,会穷尽各种可能的组合。

关于字段类型type配置解释:

Text数据类型被用来索引长文本,这些文本会被分析,在建立索引前会将这些文本进行分词,转化为词的组合,建立索引。允许ES来检索这些词语。Text数据类型不能用来排序和聚合。
Keyword数据类型用来建立电子邮箱地址,姓名,邮政编码和标签等数据,不需要进行分词。可以被用来检索过滤,排序和聚合。Keyword类型字段只能用本身来进行检索。
当然还有其他类型,比如Double等

用命令行去创建索引,添加,查询(测试时可以这样写)。 1. 创建索引ik

2. 添加分词规则(设置映射)

3. 在ik索引中添加内容

4. 查询数据

查询出两条符合的记录

注:上面用“中”是查询不到任何记录的。

如果有一些名词,不能让分词器拆分,需要配置一下。 1.打开/usr/local/elasticsearch-7.16.1/plugins/ik/config目录 2.创建custom.dic文件,写入不能拆分的词语 3.打开IKAnalyzer.cfg.xml,将新建的custom.dic配置其中

4.重启elasticsearch服务器。
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/687263.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号