栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

Solr通过特殊字符分词实现自定义分词器详解

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Solr通过特殊字符分词实现自定义分词器详解

前言

我们在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像,于是自己根据Solr源码自定义了分词策略。

业务场景

有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据:


有可能你拿到的是这样的数据,典型的例子就是来自csv文件的数据,格式和下面这种类似:

分词思路

在Solr的schema.xml文件中,有这样的配置


 
  
 

对于字段类型text_ws,指定了一个分词器工厂WhitespaceTokenizerFactory,根据这个类,可以实现通过空格来分词,那么我通过竖线分词的代码应该与之类似。

修改源码

在Java工程中引入如下jar包:


  org.apache.solr
  solr-core
  6.0.0

参照WhitespaceTokenizerFactory的源码,写一个自己的MyVerticalLineTokenizerFactory,内容基本不变:

package com.trainning.project.custom;

import java.util.Arrays;
import java.util.Collection;
import java.util.Map;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;


public class MyVerticalLineTokenizerFactory extends TokenizerFactory{
 public static final String RULE_JAVA = "java";
 public static final String RULE_UNICODE = "unicode";
 private static final Collection RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE);

 private final String rule;

 
 public MyVerticalLineTokenizerFactory(Map args) {
  super(args);

  rule = get(args, "rule", RULE_NAMES, RULE_JAVA);

  if (!args.isEmpty()) {
  throw new IllegalArgumentException("Unknown parameters: " + args);
  }
 }

 @Override
 public Tokenizer create(AttributeFactory factory) {
  switch (rule) {
  case RULE_JAVA:
   return new MyVerticalLineTokenizer(factory);
  case RULE_UNICODE:
   return new UnicodeWhitespaceTokenizer(factory);
  default:
   throw new AssertionError();
  }
 }
}

具体做分词的MyVerticalLineTokenizer代码如下

package com.trainning.project.custom;

import org.apache.lucene.analysis.util.CharTokenizer;
import org.apache.lucene.util.AttributeFactory;


public class MyVerticalLineTokenizer extends CharTokenizer {

 public MyVerticalLineTokenizer() {

 }
 public MyVerticalLineTokenizer(AttributeFactory factory) {
  super(factory);
  }

  
  @Override
  protected boolean isTokenChar(int c) {
  return !(c == 124);
  }
}

这里最主要的方法就是isTokenChar,它控制了分词的字符,如果需要使用逗号分词的话,字需要将这个方法修改成下面这样:

 
  @Override
  protected boolean isTokenChar(int c) {
  return !(c == 44);
  }

整合

代码写好了,怎么使用呢?首先,需要把刚才的java文件打成jar包。我使用的是Eclipse,直接选中两个类文件,右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径,填一个jar名字:MyVerticalLineTokenizerFactory -> Finish

得到的MyVerticalLineTokenizerFactory.jar文件大约3KB,将改文件放置到.solr_homelib下,在shcema.xml中定义自己的field


 
  
 
 
 

注意这里的class是刚才自己写的分词器的完整类名。

打开Solr主页,在Analysis页面测试一下,是否实现了预期?

源码下载:

GitHub:下载地址

本地下载:链接地址

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对考高分网的支持。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/144575.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号