栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

中文全文检索技术路线(elasticsearch全文检索、中文分词ik、tika解析文档)

中文全文检索技术路线(elasticsearch全文检索、中文分词ik、tika解析文档)

总体思路就是用docker安装es和tika服务,在cms里上传word之类文档,用tika解析,得到纯文本,提交给es存储。前端检索,在es里查询,返回高亮文本和结果列表,点击定位到文档打开。

es里安装ik插件,用head和postman或curl进行调试。

因为首次使用postman,es总是返回说缺少body……错误。解决办法是勾选上head里的content-length……

 win下的curl命令,也是,要用双引号,不能用单引号。json文件要存成文本文件,在命令里用@文件名.json,不能在命令里直接带上json文件内容提交。

curl -X POST "localhost:9200/customer/_analyze?pretty" -H "Content-Type: application/json" -d@2.json

2.json文件内容: 

{
  "analyzer": "ik_max_word",
  "text": "中华人民共和国国歌"
}

 中文分词ik放插件里即可,版本一一对应和es。其他没啥。

golang开发需要用到go-elasticserach,或olivere的elastic,它们有什么区别呢,issue里有说明,不是很明白。技术选型很重要,涉及将来的修改,前者是官方的,后者是作者个人维护的,star数后者是前者2倍,但都很庞大的star数。

tika继续用docker安装。用go-tika来对接。

docker pull apache/tika
docker run -d -p 9998:9998 apache/tika:

engineercms需要做的就是上传、提交检索数据结构、返回和前端展示……

总之,这块在进展中。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/344603.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号