栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 其他

微信大数据挑战赛决赛方案:微信视频号推荐算法

其他 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

微信大数据挑战赛决赛方案:微信视频号推荐算法

结束了深圳腾讯滨海大厦之行,回来忙完手头的工作,写一写这次参赛的解决方案。参加这次比赛,一方面是题目比较有意思,在微信视频号场景下的多目标预测(推荐)问题,跟真实工作场景比较匹配,另一方面,源于对清华大学刘强老师的无条件支持。这次故地重游,见到了老友,感慨颇多。

不废话了,接下来由我来分享一下我在微信大数据挑战赛中方案。

我将从赛题理解、模型设计、创新与实用、总结与思考等方面进行介绍。

那么,在我们看到赛题时,我们首先要搞清楚我们的模型是哪个场景之下,实现什么样的目标。

在视频号场景下,我们要实现对多个用户主动行为的预测,当我们仔细分析这几个目标时,我们能够发现,各个目标之间具有层次关系。

纵向来看,有两层,比如只有查看了评论才能发表评论。

横向来看,根据用户的左右手使用习惯,每个位置也都存在差异。

同时,在数据层面,我们从用户和视频两个角度去思考数据中少了些什么?

那么用户侧,我们发现用户缺少用户画像,同时用户行为表中缺少与视频对应的描述。

在视频侧,文字信息是经过脱敏的,且视频存在冷启动问题。

当然,有问题就会有对应的解决方案,用户画像我们可以通过聚合去构造,用户兴趣可以通过行为去挖掘。

因为考虑到数据量级和推理时间的限制,所以在模型设计时,我们就尽量减少对内存的过渡依赖,直接由<用户、视频、作者>3个ID各自组成长度为1的序列,将随机初始化改为利用预训练向量进行初始化,模型采用了构建多任务的方式,去挖掘用户不同目标之前的潜在联系。

MMOE模型等多任务模型的对比、分析,炼丹笔记之前写过好多篇了,有兴趣的同学可以搜一下,在这里就不赘述了。

由于之前的模型存在这各种问题,所以本着“不破不立,大破大立”,放弃了初赛模型,重写了并设计了上述模型之后,排行榜上的GAUC成绩来到了0.718+。

因为在设计时,我们没有使用传统意义上的特征工程,所以我们对3个ID使用了两种方式得到embedding层的初始化权重。

而在这3个ID中,作者又是其中较为特殊的一种存在,特殊的点有两个,

  • 从数据逻辑层面,他可以理解为是对底层信息的聚合
  • 从产品层面,作者可能是自然人账号、主题账号、甚至搬运工账号等。

因此,对于3ID中间的相互表示,我们使用了两种不同原理的方法。

整体框架确定之后,我们重点去优化其中的几个细节。

那么在前面数据理解时我们也提到了,赛题中存在视频冷启动和缺少用户画像的问题,那么这里我们通过内容的标签和关键词去描述用户感兴趣的内容、同时构造作者画像。

然后,我们将这些画像来初始化embedding层,有些人喜欢作者而评论,有些人喜欢内容而点赞,有些仅仅是因为喜欢背景音乐而点,因此,我们用注意力机制来捕捉这种关系,为每个人在模型中划上兴趣重点。

在理解整个业务场景时,我们思考了这么一个问题,什么指标可以很好的体现用户的兴趣呢?

从产品的角度,这个指标是停留时长,从单个视频的角度,这个指标是完播率。

因此,相比于把它做成特征,我们选择在7个目标之外构建第8个任务,更好的去利用mmoe在多任务框架下,通过学习不同任务的联系和差异,从而提高每个任务的学习效率和质量。

因为完播率不是最终的评价指标,所以我们给予辅助任务一个较小的权重。

因为在设计整个架构时,我们以落地为目标,所以多任务的框架可以在时间上保障了模型在训练和推理阶段的高效。

采用embedding+多样初始化的方式解决了内存空间在训练阶段的可能不足的问题。

最后多GPU并行推理去解决线上推理对时延的要求。

最终模型经过调参、优化之后,分数来到了0.721+。后续就是一些无关痛痒的小调整了,同时,由于只有一个模型,所以经过测试,使用多种子融合的方式,对模型的提升极其有限,大约有+0.001的提升。

业务角度:

进一步挖掘其它字段

  • 文本类信息(配文、图像、语音识别信息)、用户停留时长、背景音乐等。

算法角度:

模型优化

  • 在构建模型时,可以使用蒸馏、模型压缩等技术来进一步降低模型的资源使用情况。

感谢

感谢微信团队和清华大学刘强老师在大赛期间的组织与协调工作,一次非常棒的竞赛体验。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/279435.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号