爬虫-＞TpImgspider

爬虫其实在电商算法从业人员的应用中，其实是很广泛的，爬虫本身作为一门技术，是具有很强使用价值的。我觉得作为算法工程师，一定要会爬虫，至少基本的网页要会爬，其实爬虫本身也很简单，过于复杂的网页爬取，我自己也很少爬，基本就是二大类，一类是静态网页爬取，一类是动态ajax爬取，我自己随便写了个点代码，做视觉创意这块场爬的几个网站。

GitHub - leeguandong/TpImgspider: 爬图片工具爬图片工具. Contribute to leeguandong/TpImgspider development by creating an account on GitHub.https://github.com/leeguandong/TpImgspider 技术这块，主要就是requests和xpath。一般的步骤就是先看network，network这块主要看xhr，xhr是异步ajax的标题，现在的一些素材网站也基本都切到ajax上面了，爬一些缩略图的有的时候静态页面也行，加上cookie之后也能爬完，做训练基本是够了，xhr中一般找到返回json的链接，preview中一般会隐藏一些参数，这些参数和主要的xhr链接进行拼接能拿到返回json的链接。对于前后端框架来说，一般进行数据交互的就是json数据格式，但是这是比较理想的方式。

当然现在很多网站一般看不出来有啥拼接链接的规律，所以一般通过selenium渲染网页来爬去，渲染网页之后通过find_elements_by_xpath拿到元素的链接，再通过requests爬取，selenium这块目前已经不支持phamejs了，无头的chorme也必须得匹配上webdriver了，chorme的webdriver我一直匹配不上，我用的是Firefox，这块也不复杂，直接把webdriver写到具体的链接上。

driver = webdriver.Firefox(executable_path=r'F:Datasetqiantugeckodriver-v0.31.0-win64geckodriver.exe')
driver.get(self.url)

此外一般爬网站最好把cookie加上，否则会限制爬取，至于存储，一般就是存图片和链接。

爬虫-＞TpImgspider

Python相关栏目本月热门文章