栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python爬虫核心技巧(仅供参考)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python爬虫核心技巧(仅供参考)

技巧一:请求库

请求库有:requests、selenium、urllib、aiohttp,我个人比较推荐新手小白掌握urllib和requests请求库。

urllib库

是Python内置的HTTP请求库,不需要额外安装即可使用,包含以下4个模块:

request 打开和读取 URL,最基本的HTTP请求模块,可以用来模拟发送请求

error 包含 urllib.request 抛出的异常,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止。

parse 用于解析 URL,比如拆分、解析、合并等。

robotparser 用于解析 robots.txt 文件,主要是用来识别网站的robots.txt文件,然后判断哪些网站可以爬,哪些网站不可以爬。

 if__name ==  main :

#百度贴吧的url
url= https://tieba.baidu.comf?
#防止ip被禁,重新指定User-Agent字段信息

headers =[
'lser-Agent : Moilla/5.0 (Windows NT 10.0;Win64: x64) AppleWebKit/537.36(KHTML like Gecko) Chrome/62.0.3202.62 Safar/537.367
#通过输入关键字查询
keyword = input(请输入关键字:”
#输入的文字(如:中文)进行urlencode编码

keyword = urllib.request.quote(keyword)

#拼接url
fullUrl- url + kw=” + keyword

#输入起始页
startPage - int(input(“输入起始页:》

#输入结束页
endPage = int(input('输入结束页:》

#开始抓取页面
spider(fullUrl,headers, startPage, endPage)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/503471.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号