栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > C/C++/C#

「GoCN酷Go推荐」高性能中文分词库 gojieba

C/C++/C# 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

「GoCN酷Go推荐」高性能中文分词库 gojieba

gojieba 是什么?

gojieba 是 Python 知名分词库结巴 jieba 的 Go 语言实现版本,底层分词算法由 C++ 实现,具备很高的性能;gojieba 解决了在做文本分析,文本搜索相关业务功能时的分词需求。

gojieba 支持多种分词方式:

  • 全模式:把文本中所有可能的词语都扫描出来,存在冗余词汇,存在歧义

  • 精确模式:把文本精准的切分开,不存在冗余词语,适合文本分析

  • 搜索引擎模式:在精准模式挤出上,对长词语再次切分,提高召回率,适合用于搜索引擎分词

  • 最大概率模式:把文本中的句子按概率最大的结果切分

  • HMM 新词发现模式:对于未登录词,采用了基于汉字成词能力的 HMM 模型

怎么使用 gojieba ?

第一步:在项目中安装

go get github.com/yanyiwu/gojieba

第二步:使用

package main

import (
    "fmt"
    "strings"

    "github.com/yanyiwu/gojieba"
)

func main() {
    var s string
    var words []string
    use_hmm := true
    x := gojieba.NewJieba()
    defer x.Free()

    s = "Gojieba 使用示例"
    words = x.CutAll(s)
    fmt.Println(s)
    fmt.Println("全模式:", strings.Join(words, "/"))

    words = x.Cut(s, use_hmm)
    fmt.Println(s)
    fmt.Println("精确模式:", strings.Join(words, "/"))

    s = "比特币"
    words = x.Cut(s, use_hmm)
    fmt.Println(s)
    fmt.Println("精确模式:", strings.Join(words, "/"))

    x.AddWord("比特币")
    s = "比特币"
    words = x.Cut(s, use_hmm)
    fmt.Println(s)
    fmt.Println("添加词典后,精确模式:", strings.Join(words, "/"))

    s = "他来到了网易杭研大厦"
    words = x.Cut(s, use_hmm)
    fmt.Println(s)
    fmt.Println("新词识别:", strings.Join(words, "/"))

    s = "小明硕士毕业于中国科学院计算所,后在日本京都大学深造"
    words = x.CutForSearch(s, use_hmm)
    fmt.Println(s)
    fmt.Println("搜索引擎模式:", strings.Join(words, "/"))

    s = "长春市长春药店"
    words = x.Tag(s)
    fmt.Println(s)
    fmt.Println("词性标注:", strings.Join(words, ","))

    s = "区块链"
    words = x.Tag(s)
    fmt.Println(s)
    fmt.Println("词性标注:", strings.Join(words, ","))

    s = "长江大桥"
    words = x.CutForSearch(s, !use_hmm)
    fmt.Println(s)
    fmt.Println("搜索引擎模式:", strings.Join(words, "/"))

    wordinfos := x.Tokenize(s, gojieba.SearchMode, !use_hmm)
    fmt.Println(s)
    fmt.Println("Tokenize:(搜索引擎模式)", wordinfos)

    wordinfos = x.Tokenize(s, gojieba.DefaultMode, !use_hmm)
    fmt.Println(s)
    fmt.Println("Tokenize:(默认模式)", wordinfos)

    keywords := x.ExtractWithWeight(s, 5)
    fmt.Println("Extract:", keywords)
}

总结

gojieba 是一个高性能的中文分词库,非常适合做文本分析,文本搜索等业务;它的计算分词过程,词典载入过程都非常快;gojieba 底层代码都由 C++ 封装而来,比原生 Go 拥有更高的性能,但在之 gojieba 上二次扩展开发不是很便利,满足需求的情况推荐使用。

参考资料

  • gojieba(https://github.com/yanyiwu/gojieba)

  • jieba Python(https://github.com/fxsjy/jieba)

《酷Go推荐》招募:

各位Gopher同学,最近我们社区打算推出一个类似GoCN每日新闻的新栏目《酷Go推荐》,主要是每周推荐一个库或者好的项目,然后写一点这个库使用方法或者优点之类的,这样可以真正的帮助到大家能够学习到

新的库,并且知道怎么用。

大概规则和每日新闻类似,如果报名人多的话每个人一个月轮到一次,欢迎大家报名!戳「阅读原文」,即可报名

扫码也可以加入 GoCN 的大家族哟~

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/664529.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号