1.搜集网页
给爬虫一组优质种子网页的链接,爬取这些网页链接到的其他网页。使用布隆过滤器避免重复爬取网页。
2.对网页进行预处理并对网页建立索引
去除html标签,留下网页内容。去除网页内容中的停用词后,将网页内容分词并建立倒排索引,倒排索引指key为单词,value为该单词出现过的所有网页id。
3.对网页进行排名
谷歌使用了PageRank算法对网页进行排名。
4.用户查询
用户输入搜索内容后,搜索引擎对其进行分词,从索引中找到相应网页,并按权重大小排列网页。
5.参考资料
搜索引擎背后的经典数据结构和算法-阿里云开发者社区



