- ik分词器
- 什么是IK分词器 ?
- 安装
- ik分词器增加自己的配置!
- 参考目录
分词:即把一-段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如“我爱狂神”会被分为"我",“爱”,“狂”,“神” ,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。
如果要使用中文,建议使用ik分词器!
IK提供了两个分词算法: ik_ smart和ik_ max_ word ,其中ik_ smart为最少切分, ik_ max _word为最细粒度划分!一会我们测试!
安装1、下载地址: https://github.com/medcl/elasticsearch-analysis-ik
2、下载完毕后,放入到我们的Elasticsearch 插件即可!
3、重启 观察 Elasticsearch,可以看到 ik 分词器被加载了
4、elasticsearch-plugin list 可以通过这个命令来查看加载进来的插件
5、使用 Kibana 测试!
查看不同的分词效果
其中ik_smart 为最少切分
ik_max_word 为最细粒度划分!穷尽词库的可能!字典!
我们输入 超级喜欢狂神说Java
发现问题:狂神说被拆开了!
这种自己需要的词,需要自己加到我们的分词器的字典中!
ik分词器增加自己的配置!重启 Elasticsearch,看细节
再次测试一下 狂神说,看下效果!
以后的话,我们需要自己配置分词,就在自己定义的dic文件中进行配置即可!
6、上面是对于 用户 输入的 词组,来进行分词的。但是,存入的 Elsearch 中的 词组也会进行 分词。
标准字段的分词
但是,对于,字段是 keyword 的 字段,就不会 进行分词。
狂神
https://www.bilibili.com/video/BV17a4y1x7zq?p=5



