栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

java实现拆词匹配字符串

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

java实现拆词匹配字符串

大家好,最近有个需求,需要将要匹配的字符串拆词匹配目标字符串,并记录匹配上的位置,百度也没找到什么实现,所以自己写了个暴力的版本,分享给大家,希望大家多提意见。

先上一个运行效果吧
new Gson().toJson(splitStrinToMatch.checkStringCode(“你好哟”,“阿斯蒂芬你阿斯蒂芬好阿斯蒂芬你好”))

{“你”:[4],“你好”:[14],“好”:[9]}

首先引用依赖

·	
        com.google.code.gson
        gson
        2.8.5
    

    
        commons-lang
        commons-lang
        2.6
    

下面直接贴代码

import com.google.gson.Gson;
import org.apache.commons.lang.StringUtils;

import java.util.*;


public class SplitStrinToMatch {

    
    public Map> checkStringCode(String source, String targe){
        Map> stringListMap = new HashMap<>();

        List numbers = new LinkedList<>();

        for (int i = 0; i < source.length(); i++) {
            int index = -1;
            String key = String.valueOf(source.charAt(i));
            while((index = targe.indexOf(key,index)) != -1){
                numbers.add(index);
                if(stringListMap.get(key) == null){
                    List integers = new ArrayList<>();
                    integers.add(index);
                    stringListMap.put(key,integers);
                }else{
                    stringListMap.get(key).add(index);
                }
                index++;
            }
        }

        numbers.sort((o1, o2) -> {
                    if (o1.equals(o2)) {
                        return 0;
                    }
                    return o1 > o2 ? 1 : -1;
                }
        );

        int start = 0;
        int end =0;
        //循环targ  将连续数字进行合并
        for (int i = 0; i < numbers.size() -1; i++) {
            if(numbers.get(i) + 1 == numbers.get(i +1)){
                end++;
                if(i == numbers.size() -2 && start != end){
                    mergMap(stringListMap, numbers, start, end);
                }
                continue;
            }else{
                if(start == end){
                    start = i + 1;
                    end = i + 1;
                    continue;
                }
                mergMap(stringListMap, numbers, start, end);
                start = i;
                end = i;
            }
        }
        return stringListMap;
    }


    private void mergMap(Map> stringListMap, List numbers, int start, int end) {
        int size = end - start +1;
        String[] codes = new String[size];
        int checkSize = 0;
        //key合并
        for (Map.Entry> stringListEntry : stringListMap.entrySet()) {
            for (int j = 0; j < codes.length; j++) {
                if (stringListEntry.getValue() != null && stringListEntry.getValue().contains(numbers.get(j + start))) {
                    codes[j] = stringListEntry.getKey();
                    stringListEntry.getValue().remove(numbers.get(j + start));

                    if(stringListEntry.getValue().size() == 0){
                        stringListMap.put(codes[j],null);
                    }
                    checkSize++;
                }
            }

            if (checkSize ==  size){
                break;
            }
        }

        if(stringListMap.get(StringUtils.join(codes)) == null){
            List integers = new LinkedList<>();
            integers.add(numbers.get(start));
            stringListMap.put(StringUtils.join(codes),integers);
        }else{
            stringListMap.get(StringUtils.join(codes)).add(numbers.get(start));
        }
    }

    public static void main(String[] args) {
        SplitStrinToMatch splitStrinToMatch = new SplitStrinToMatch();
        System.out.println(new Gson().toJson(splitStrinToMatch.checkStringCode("你好哟","阿斯蒂芬你阿斯蒂芬好阿斯蒂芬你好")));
    }
}

源码可以转到github获取

获取源码

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/838639.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号