栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫->TpImgspider

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫->TpImgspider

        爬虫其实在电商算法从业人员的应用中,其实是很广泛的,爬虫本身作为一门技术,是具有很强使用价值的。我觉得作为算法工程师,一定要会爬虫,至少基本的网页要会爬,其实爬虫本身也很简单,过于复杂的网页爬取,我自己也很少爬,基本就是二大类,一类是静态网页爬取,一类是动态ajax爬取,我自己随便写了个点代码,做视觉创意这块场爬的几个网站。

GitHub - leeguandong/TpImgspider: 爬图片工具爬图片工具. Contribute to leeguandong/TpImgspider development by creating an account on GitHub.https://github.com/leeguandong/TpImgspider        技术这块,主要就是requests和xpath。一般的步骤就是先看network,network这块主要看xhr,xhr是异步ajax的标题,现在的一些素材网站也基本都切到ajax上面了,爬一些缩略图的有的时候静态页面也行,加上cookie之后也能爬完,做训练基本是够了,xhr中一般找到返回json的链接,preview中一般会隐藏一些参数,这些参数和主要的xhr链接进行拼接能拿到返回json的链接。对于前后端框架来说,一般进行数据交互的就是json数据格式,但是这是比较理想的方式。

         当然现在很多网站一般看不出来有啥拼接链接的规律,所以一般通过selenium渲染网页来爬去,渲染网页之后通过find_elements_by_xpath拿到元素的链接,再通过requests爬取,selenium这块目前已经不支持phamejs了,无头的chorme也必须得匹配上webdriver了,chorme的webdriver我一直匹配不上,我用的是Firefox,这块也不复杂,直接把webdriver写到具体的链接上。

driver = webdriver.Firefox(executable_path=r'F:Datasetqiantugeckodriver-v0.31.0-win64geckodriver.exe')
driver.get(self.url)

        此外一般爬网站最好把cookie加上,否则会限制爬取,至于存储,一般就是存图片和链接。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/1026741.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号