栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

近似字符串匹配-机器学习

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

近似字符串匹配-机器学习

通常,此问题有两个部分:找出哪些项目可能出错,然后进行修复。

如果您假设大多数项目的拼写正确,那么查找可能的错误就非常容易了。修复错误要自动化得多,而且在任何合理的时间长度内100%正确地完成操作可能都是不可能的。但是您可能会发现,如果您能很好地找到错误,则手动修复它们并不重要。

为了发现错误,我建议您列出每个技能的列表,并计算每个技能在整个数据集中被引用多少次。完成后,您将获得类似以下的列表:

MANAGEMENT, 22JAVA, 298HADOOP, 12HADUP, 1SALES, 200SALS, 1

等等。列出了每个技能以及拥有该技能的用户数量。

现在,按频率对它们进行排序,然后选择一个阈值。假设您选择更仔细地检查频率为3或更低的任何事物。这个想法是,相对于其他项目使用很少次数的项目可能是拼写错误。

确定要仔细检查的术语后,您可以确定是否要自动执行更改,或者是否要手动进行更改。当我必须这样做时,我得到了可能的拼写错误的列表,并手动创建了一个包含拼写错误和更正的文件。例如:

SALS,SALESHADUP,HADOOPPREFORMANCE,PERFORMANCE

有数百个,但是手动创建文件比编写程序来确定正确的拼写要快得多。

然后,我加载了该文件并浏览了我的用户记录,并根据需要进行了替换。

节省大量时间的人正在寻找可能的替代人选。在那之后,修复它们几乎是事后的想法。

也就是说,除非您真的想在研究项目上花费数月。然后,您可以玩弄编辑距离算法,语音算法和其他一些 可能 弄清楚“礼节”和“礼节”应该是同一个词的工作,
从而 摆脱困境。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/392355.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号