栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

CSDN指数

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

CSDN指数

CSDN指数的由来

csdn目前积累了大量的数据,包括博客,问答,社区,下载以及搜索,近几个月以来,我们AI团队致力于结构化这部分数据,做了很多的努力,最先是统一了全站的标签,形成了CSDN自己的统一标签,之后清洗存量数据,对数据标统一标签,打通结构化数据的路子,完成了首版python技能树。

而在此基础之上,我们想发布一个指数数据,统计的是标签下面的内容数量,例如标签相关的创作内容数和相关的搜索数,对他们进行加权计算形成CSDN指数,形如百度的搜索指数和谷歌的搜索趋势。以此来展示热门的标签和技术,更可以以图表的方式展示相关IT技术的发展趋势。

CSDN指数的计算

按照原方案,是要对所有存量的数据进行清洗打统一标签(基于前面介绍的博客标签的多标签分类器),时间范围是从2000年至今,由于数据存储等原因,还没有完成对存量历史数据的清洗,所以这里采用了一个简单粗略的方案,后续随清洗的进度进行迭代更新。

首先,整理标签的同义词。搜索和统计都会用到标签同义词。

其次,统计数量。下载所有存量数据的标题和内容,包括博客,问答,社区帖子,下载和搜索关键词,将标签及其同义词添加自定义分词词典,然后对数据进行分词,按照天统计内容里面出现标签或者标签同义词的次数。

最后,计算指数。采用的是创作和搜索加权相加的方案,例如,标签java某一天的csdn总创作数为a,同一天的搜索数为b,创作和搜索的权重分别为x和y,标签java当天的指数为:

index = math.ceil(x*a+y*b)

x和y是为了平衡创作和搜索的权重用的,如果有一方的数据偏大或者缺失可以通过权重参数进行平衡,避免数据断崖式上升或者下降。

写在最后

CSDN指数将会是一个很有意义的指标,可以用来展示IT行业技术的发展方向,追踪热门技术。随着统一标签的不断完善,数据处理进度的推进,其版本也会不断迭代。若您对我们的工作有任何疑问,随时欢迎反馈。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/336431.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号