栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

如何在非常大的数据集上训练Word2vec?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何在非常大的数据集上训练Word2vec?

有许多机会可以大规模创建Word2Vec模型。如您所指出,候选解决方案是分布式(和/或多线程)或GPU。这不是一个详尽的清单,但是希望您对如何进行操作有一些想法。

分布式/多线程选项:

  • Gensim在重要的地方使用Cython,并且与C实现相当,或不慢于C实现。Gensim的多线程运行良好,并且使用具有足够内存和大量内核的计算机会大大减少向量生成时间。您可能要使用Amazon EC2 16或32核心实例进行调查。
  • Deepdist可以利用gensim和Spark在整个集群中分配gensim工作负载。Deepdist还具有一些巧妙的SGD优化,可在节点之间同步梯度。如果将多核计算机用作节点,则可以同时利用群集和多线程。

存在许多Word2Vec GPU实现。鉴于数据集很大,GPU内存有限,您可能必须考虑集群策略。

  • Bidmach显然非常快(但是缺少文档,并且坦率地说我一直在努力使其工作)。
  • DL4J具有Word2Vec实现,但是该团队尚未实现cuBLAS gemm,并且与CPU相比相对较慢。
  • Keras是利用Theano的Python深度学习框架。尽管它本身并没有实现word2vec,但它确实实现了嵌入层,可用于创建和查询单词向量。

Word2Vec还有许多其他CUDA实现,它们具有不同程度的成熟度和支持:

  • https://github.com/whatupbiatch/cuda-word2vec [虽然没有关于如何创建数据集的文档,但是内存mgmt看起来很棒,]
  • https://github.com/fengChenHPC/word2vec_cbow [超快速,但大型数据集上的GPU内存问题]

我相信SparkML团队最近开始使用基于cuBLAS的Word2Vec实现原型。您可能要对此进行调查。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/647244.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号