栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

scrapy基本使用

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

scrapy基本使用

1.scrapy安装

-pip install scrapy

2.创建爬虫项目

(1)win + R 打开cmd

 

(2)进入创建项目的文件夹

 

(3)scrapy startproject 项目的名字

注意:项目的名字不允许使用数字开头,切不能包含中文

例: scrapy startproject scrapy_baidu_34

 

3.创建爬虫文件

(1)在spiders文件夹下创建爬虫文件

cd 项目的名字项目的名字spiders

例:cd scrapy_baidu_34scrapy_baidu_34spiders

(2)创建爬虫文件

scrapy genspider 爬虫文件的名字 要爬取的网页

例:scrapy genspider baidu www.baidu.com

注意:网页网址前不要添加http协议

           因为start_urls的值是根据allowed_domains修改的,会自动添加http:/

           如果写了http协议,在程序中手动删掉即可

3.运行爬虫代码

scarpy crawl 爬虫的名字

例:scrapy crawl baidu

此时运行会发现打印语句没有执行

这是因为爬虫遵循君子协议

我们需要在项目中找到settings文件,并找到如下语句,将其注释或将ROBOTSTXT_OBEY的值改为false

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

此时重新运行

 

发现已成功打印

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/822216.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号