栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

Spark对HashingTF使用什么哈希函数,如何复制它?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Spark对HashingTF使用什么哈希函数,如何复制它?

如果您有疑问,通常检查来源。给定项的存储区确定如下:

def indexOf(self, term):    """ Returns the index of the input term. """    return hash(term) % self.numFeatures

如您所见,这只是

hash
存储桶的一个普通的旧模块数。

最终哈希只是每个存储区计数的向量(为简便起见,我省略了docstring和RDD的情况):

def transform(self, document):    freq = {}    for term in document:        i = self.indexOf(term)        freq[i] = freq.get(i, 0) + 1.0    return Vectors.sparse(self.numFeatures, freq.items())

如果您想忽略频率,则可以将其

set(document)
用作输入,但是我怀疑这里有很多好处。要创建
set
hash
无论如何都要计算每个元素。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/386217.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号