栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python爬虫——链接爬虫

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python爬虫——链接爬虫

1、原理介绍 2、代码实现 3、总结 4、结果展示 1、原理介绍

跟踪网页中的链接,利用正则表达式只访问感兴趣的内容。其实就是获取起始页面中的所有链接,通过正则表达式过滤出我们感兴趣的链接访问,再新打开的页面中再做同样的事情,从而追踪下去。

通过跟踪每个链接的方式,能够很容易地下载整个网站的页面。但是,这种方法可能会下载很多并不需要的网页。例如,当我们从一个在线论坛抓取用户账号的详细页,那么此时我们只需要下载下载账号页,而不需要下载讨论贴的页面。(本节使用的链接爬虫将使用正则表达式来确定应当下载哪些页面)

2、代码实现
import re
from urllib.parse import urljoin
import urllib.request
from urllib.error import URLError, HTTPError, ContentTooShortError


# 以Chrom为默认代理,默认重试两次的爬取网页封装函数;获取网页指定的解码格式,否则使用默认的'utf-8'格式
def GetData(url, proxy='', retry=2, charset='utf-8'):
    print('download : ' + url)
    if proxy == '':
        proxy = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/295778.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号