栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

搜索引擎(一)原理

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

搜索引擎(一)原理

1.搜集网页

给爬虫一组优质种子网页的链接,爬取这些网页链接到的其他网页。使用布隆过滤器避免重复爬取网页。

2.对网页进行预处理并对网页建立索引

去除html标签,留下网页内容。去除网页内容中的停用词后,将网页内容分词并建立倒排索引,倒排索引指key为单词,value为该单词出现过的所有网页id。

3.对网页进行排名

谷歌使用了PageRank算法对网页进行排名。

4.用户查询

用户输入搜索内容后,搜索引擎对其进行分词,从索引中找到相应网页,并按权重大小排列网页。

5.参考资料

搜索引擎背后的经典数据结构和算法-阿里云开发者社区

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/743662.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号