栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

Java中Tf Idf的任何教程或代码

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Java中Tf Idf的任何教程或代码

术语频率是术语在特定文档中出现的次数的平方根。

反向文档频率是(对数(文档总数除以包含该术语的文档数量))加一,以防该术语出现零次-如果确实如此,显然不要尝试除以零。

如果无法从该答案中得出答案,则每个文档每个术语有一个TF,每个术语有一个IDF。

然后TF-IDF(term,document)= TF(term,document)* IDF(term)

最后,您使用向量空间模型比较文档,其中每个术语是一个新维度,指向该维度的向量部分的“长度”是TF-
IDF计算。每个文档都是一个向量,因此请计算两个向量,然后计算它们之间的距离。

因此,要在Java中执行此操作,请使用FileReader或其他内容一次读取一行文件,然后在空格或任何其他要使用的分隔符上进行分割-
每个单词都是一个术语。计算每个术语在每个文件中出现的次数以及每个术语在其中出现的文件数。然后,您便拥有了进行上述计算所需的一切。

由于没有其他事情可做,因此我查找了矢量距离公式。干得好:

D=sqrt((x2-x1)^2+(y2-y1)^2+...+(n2-n1)^2)

为此,x1是文档1中术语x的TF-IDF。

编辑:针对您对如何计算文档中单词的数量的回答:

  1. 与阅读器逐行阅读文件,例如
    new BufferedReader(new FileReader(filename))
    -您可以调用
    BufferedReader.readLine()
    while循环,每次检查是否为null。
  2. 对于每一行,调用
    line.split("\s")
    -将在空白处分割行并为您提供所有单词的数组。
  3. 对于每个单词,在当前文档的单词计数中加1。这可以使用来完成
    HashMap

现在,在为每个文档计算D之后,您将获得X值,其中X是文档数。要相互比较所有文档,只需要进行X ^
2比较-10,000的时间就不会特别长。请记住,如果两个文档的D值之差的绝对值较小,则它们会更相似。因此,您可以计算每对文档的D之间的差异,并将其存储在优先级队列或其他排序的结构中,以便最相似的文档冒泡到顶部。合理?



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/453708.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号