栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

Spark的KMeans是否无法处理大数据?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Spark的KMeans是否无法处理大数据?

我认为“悬空”是因为您的执行者不断死亡。正如我在边聊中提到的那样,此代码在本地和群集中的Pyspark和Scala中对我来说运行良好。但是,它花费的时间比应该花费的时间长得多。几乎所有时间都花在k均值上||
初始化。

我打开了https://issues.apache.org/jira/browse/SPARK-17389,以跟踪两项主要改进,您可以立即使用其中一项。编辑:真的,另请参阅https://issues.apache.org/jira/browse/SPARK-11560

首先,有一些代码优化可以将初始化速度提高约13%。

但是,最大的问题是它默认为5步k-均值||。init,似乎2几乎总是一样好。您可以将初始化步骤设置为2,以查看加速情况,尤其是在目前处于挂起状态的阶段。

在我的笔记本电脑上(较小)测试中,初始化时间从5:54变为1:41,并且两者都有变化,这主要是由于设置了初始化步骤。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/638075.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号