栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫基础入门(2)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫基础入门(2)

在爬虫中找到了源代码以后那么如何取实现在pycharm中去获取到网页内容呢?
这里就需要我们导入request库
对于request库的安装 直接用后台输入
pip install request
具体获取源码代码如下

from urllib import request
resp=request.urlopen('http://sougou.com/')
print(resp.read(10))

此处我们以搜狗网为例子,读取源代码的前十行。

然后我们介绍如何使用爬虫实现照片的下载。
首先我们先找到一个图片,这里以吴彦祖为例子:
其中照片的url为

https://p1.ssl.qhimg.com/dr/705_705_/t015419c9c94c2d752b.png

我们知道了url之后,这里就需要导入一个函数。具体如下:

from urllib import request
url='https://p1.ssl.qhimg.com/dr/705_705_/t015419c9c94c2d752b.png'
request.urlretrieve(url,'成龙.png')
#这里面第一个元素就是照片的网址,第二个元素为下载之后存储的名字。

最后我们会发现运行结束之后会在该列表下呈现出来下载后的图片。这样下载过程就大功告成了!

对于一些网址例如说:

https://www.baidu.com/s?wd=%E7%9F%B3%E5%8E%9F%E9%87%8C%E7%BE%8E

这种wd后面的明显就是加码的,为了能够清晰且明了的看到到底是什么我们开始学习编码和解码

from urllib import parse
data={'name':'爬虫基础入门'}
gs=parse.urlencode(data)
#这里parse中的urlencode就是编码
print(gs)
print(parse.parse_qs(gs))
#这里的parse_qs表示将编码的进行解码
#以上指对于字典的操作

a='吴彦祖'
b=parse.quote(a)
print(b)
#对字符串进行编码

然后我们在简单的学习一下 如何将一个网页url进行分离:

from urllib import parse
url='https://www.baidu.com/'
#这里我们以百度为例
l=parse.urlparse(url)
print(l)
b=parse.urlsplit(url)
print(b)
#注意这里两个都是将网址进行分离的操作
#不同的地方在于对于urlparse会多返回一个params的参数
#而urlsplit则没有

对于今日爬虫的基础学习就进行到这里,我们在学习过程中,要有动手能力,勤能补拙。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/857763.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号