栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python 爬虫笔记(1)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python 爬虫笔记(1)

任务:爬取豆瓣电影Top250的基本信息,包括电影的名称、豆瓣评分、评价数、电影概况、电影链接等。

https://movie.douban.com/top250

 爬虫基本知识

是什么?

爬虫就是按照一定的规则,自动抓取互联网信息的程序或者脚本。

做什么?

可以通过浏览器访问的数据(视频,照片等)都可以通过爬虫获取。

爬虫的本质?

模拟浏览器打开网页,获取网页中我们想要的那部分数据(数据解析)。将浏览器展示出来的信息选择部分我们感兴趣、对我们有价值的东西保存起来。

基本流程:

准备:通过浏览器查看分析目标网页、

获取数据(核心):通过第三方库HTTP库向目标站点发起请求(包含header等信息),返回一个Respose对象(所需获取的页面内容)

解析内容:得到的内容有不同的格式(HTML、json等),用页面分析库、正则表达式等解析

保存数据:最后保存数据(形势多样:文本、数据库、excel等特定格式文件)

原理:

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/348518.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号