栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

关于爬虫的一些想法

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

关于爬虫的一些想法

1.学号爬虫需要的知识。

1.计算机网络(http/https协议,tcp/ip协议,socket编程)。因为很多时候我们需要对协议很清楚。这样才能模拟出需要的请求。

2.前端的基础。(html+css+js)内容的获取和解析,需要前端的知识。xpath和bs4,都是要有一定的前端知识作为铺垫。

3.正则表达式(用于内容解析)

4.数据存储技术(分布式存储)当数据量达到很大的级别。需要对存储这块深入。

5.并发处理技术(多线程,多进程,线程池,协程)

6.图像识别(处理反爬,验证码),机器学习算法(验证码,数据解析)。

2.爬虫中要解决的问题

1.爬虫的采集和更新策略。

2.解决反爬。

3.数据解析

4.数据存储

5.模拟登录(验证码识别)

6.爬虫的监控和部署

7.数据的去重(url去重,内容去重)

3.正确的看待爬虫

1.爬虫不应该毫无节制。

2.robots协议的遵循

3.法律问题。

4.爬虫不能抓取页面上看不到的数据。爬虫是做一些重复的工作。

5.目标网站不会让我们随便爬取数据,需要有一定的反爬技术。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/498914.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号