参考资料:尚硅谷
尚硅谷2021版Python爬虫教程小白零基础速通(含python基础+爬虫案例)_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Db4y1m7Ho?p=52
spider
核心:
1.获取整个网页的内容
2.解析数据★
3.反爬
1)UA 用户代理
2)代理IP
3)验证码
4)动态加载
5)数据加密
用途
1.数据分析
2......
分类:
通用
搜索引擎
pagerank算法排名/竞价排名
聚焦
设计思路
1.确定url
2.模拟浏览器通过http协议访问
3.解析html字符串(只提取需要的数据)



