栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫 - WebScraper

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫 - WebScraper

WebScraper

文章目录
  • WebScraper
    • 关于 WebScraper
    • 一、下载安装
      • 方式二:crxdl 搜索下载 WebScraper
    • 二、简单爬取
      • 1、添加站点
      • 2、添加 selector
    • 三、爬取更多页面
    • 四、爬取详情页内容
    • 五、复制规则代码


仅供学习交流


关于 WebScraper

官网 : https://www.webscraper.io/web-scraper-first-time-install


一、下载安装

方式一:google 应用商店

https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn


方式二:crxdl 搜索下载 WebScraper

1、下载

crxdl 是一个 下载Chrome扩展插件Crx离线安装包 的网站;
在 https://crxdl.com 输入 Web Scraper 搜索下载
可以发现存在 Web Scraper 和 Scheduled Web Scraper


2、安装

将上述下载的安装包解压后,可以看到 .crx 文件。
双击此文件,chrome 将会自动读取;点击继续,就会安装。


也可以在进入扩展程序面板,将 crx 文件拖拽到这个面板上。


调整为,检查内容布局在下面


二、简单爬取 1、添加站点


2、添加 selector


以爬取标题为例

选中一个标题后,选择下方标题,默认选中下方所有标题;上方没有被选上;
所以一开始就选择第一个第二个比较好


勾选 multiple


点击 scrape 开始抓取


会提示你设置延时


最低是 2000,50

点击抓取后,会弹出浏览器;

这个浏览器 爬取结束后,将自动关闭;结束前,不能手动关闭;

我们会看到原来的操作台,会显示 no data scraped yet

点击 refresh data 可以刷新,看到爬取到的数据;

点击 export data as csv 可以导出数据为 csv 文件。


三、爬取更多页面

可以观察到,页数是有规律的

https://www.zhihu.com/people/li-gang-44-11/posts
https://www.zhihu.com/people/li-gang-44-11/posts?page=4


创建站点时,改为这个

https://www.zhihu.com/people/li-gang-44-11/posts?page=[1-20]

规则为 [首页-末页:差值], 差值为1 时可省略。可以理解为正则。


模拟器将自动翻页,抓取信息


四、爬取详情页内容

selector 选择 element


进入整体的那个 selector,再添加 子 seletor

如果爬取这个页面的特定内容(如 标题、发布时间,而非列表数据),就不需要勾选 multiple


五、复制规则代码

点击进入 selector,点击 export sitemap


去新的 site 下面,点击导入 import Sitemap

复制 json 进去,修改相关 url 等。


伊织 21-09-24

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/689141.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号