栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python-爬虫案例

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python-爬虫案例

本文写作目的是为了了解一下爬虫的原理,好了,新手的我,要开始了!!!!


案例一 爬取豆瓣评分最高250部电影

本次爬虫分为以下步骤:

(1)环境搭建

(2)代码解释

(3)得到结果

(1)环境搭建:

需要的环境有: pycharm + 库 requests + 库 bs4

1.对于pycharm安装大家自行百度,这里介绍一下 库的安装!

2.打开pycharm,按图片顺序操作如下:

 这里补充一下:第三步是点击 “+”,然后最好你先创建好工程+python文件

 

 (2)代码解释

到目前位置,我们需要的环境就搭建好了,现在我们可以把代码放进去了。代码如下:

import requests        #导入requests包
import bs4
res=requests.get('https://movie.douban.com/top250',headers={'user-agent':'Mozilla/5.0'})
soup = bs4.BeautifulSoup(res.text, "html.parser")
targets = soup.find_all("div", class_="hd")
for each in targets:
    print(each.a.span.text)

代码解释:

(1)(2)行是 调用库

(3)利用 requests 库读取 网址数据,后面的headers是进行防伪,简单理解为豆瓣有防爬取,我们加这句是为了反防爬取

(4)利用 bs4 调用 BeautifulSoup 把读取的 res文档读取为 文档对象,后面那个是默认参数

(5)查找标签“div”,类型为class “hd”

(6)通过一个 for循环遍历

(7)因为名字在 a span 里面的一个文档

(3)得到结果

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/754026.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号