栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python爬虫学习笔记

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python爬虫学习笔记

1.导入所需要的包

十个页面电影,每个页面有25个电影,构造分页数字列表

 r:伪装身份,伪装成豆瓣链接可识别的浏览器

url:获取需要爬取的网站

 解析HTML得到数据

 

 

 

爬取自己想要的信息,导入excel文件中,存储地址可以根据自己的需要更改

导入excel结果如图

 

 

爬取东方财富数据

爬取网站神州高铁(000008)资金流向 _ 数据中心 _ 东方财富网

 

1.导入所需要的包,与爬豆瓣电影不同,这里将爬取数据存入MySQL中,这里最后两行包导入是为了不影响代码最终结果时消除无关紧要的警告

 

二.连接mysql建立数据库


游标功能执行这个SQL语句,提供存储数据的一个游标接口,通过游标获取数据
使用sql语句,这里要接收的参数都用%s占位符。注意:无论插入的数据是什么类型,占位符都用%s

 

三.获取网页

循环提取所以文本,并作最后的处理,关闭游标,链接,网站

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/339682.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号