爬虫 - WebScraper

WebScraper

文章目录

仅供学习交流

关于 WebScraper

官网： https://www.webscraper.io/web-scraper-first-time-install

一、下载安装

方式一：google 应用商店

https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn

方式二：crxdl 搜索下载 WebScraper

1、下载

crxdl 是一个下载Chrome扩展插件Crx离线安装包的网站；
在 https://crxdl.com 输入 Web Scraper 搜索下载
可以发现存在 Web Scraper 和 Scheduled Web Scraper

2、安装

将上述下载的安装包解压后，可以看到 .crx 文件。
双击此文件，chrome 将会自动读取；点击继续，就会安装。

也可以在进入扩展程序面板，将 crx 文件拖拽到这个面板上。

调整为，检查内容布局在下面

二、简单爬取 1、添加站点

2、添加 selector

以爬取标题为例

选中一个标题后，选择下方标题，默认选中下方所有标题；上方没有被选上；
所以一开始就选择第一个第二个比较好

勾选 multiple

点击 scrape 开始抓取

会提示你设置延时

最低是 2000，50

点击抓取后，会弹出浏览器；

这个浏览器爬取结束后，将自动关闭；结束前，不能手动关闭；

我们会看到原来的操作台，会显示 no data scraped yet

点击 refresh data 可以刷新，看到爬取到的数据；

点击 export data as csv 可以导出数据为 csv 文件。

三、爬取更多页面

可以观察到，页数是有规律的

https://www.zhihu.com/people/li-gang-44-11/posts
https://www.zhihu.com/people/li-gang-44-11/posts?page=4

创建站点时，改为这个

https://www.zhihu.com/people/li-gang-44-11/posts?page=[1-20]

规则为 [首页-末页:差值]，差值为1 时可省略。可以理解为正则。

模拟器将自动翻页，抓取信息

四、爬取详情页内容

selector 选择 element

进入整体的那个 selector，再添加子 seletor

如果爬取这个页面的特定内容（如标题、发布时间，而非列表数据），就不需要勾选 multiple

五、复制规则代码

点击进入 selector，点击 export sitemap

去新的 site 下面，点击导入 import Sitemap

复制 json 进去，修改相关 url 等。

伊织 21-09-24