2021SC@SDUSC
professor给的任务:选课同学每人每周要发布一篇技术博客,那么我就爬取同学们发布的博客。
计划采取的是java的gecco爬虫框架开发,但考虑到java语言对于爬虫的支持不如python的全面,以及在数据分析层面上python语言的充分支持,还是考虑采用python的scarpy爬虫对数据进行抓取。
安装scrapy时,(windows系统,python3.9)采用pip install scarpy 命令
报错1:10061由于目标计算机积极拒绝,无法连接
大概率是使用了网络代理所致
在浏览器(以chrome为例)设置里找到代理
打开
关闭使用代理服务器
pip安装报错的问题解决
错误2:安装scrapy报超时错误
解决:pip安装采用清华镜像
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
即可解决问题。
tips:
windows下,直接在 %userprofile% 目录中创建一个 pip目录,再新建文件 pip.ini
写入[global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple [install] trusted-host=mirrors.aliyun.com
一劳永逸
错误3:安装scrapy结束时报错:
WARNING: Failed to write executable - trying to use .deleteme logic
ERROR: Could not install packages due to an OSError: [WinError 2] 系统找不到指定的文件。: 'c:\python39\scripts\automat-visualize.exe' -> 'c:\python39\scripts\automat-visualize.exe.deleteme'
解决:缺啥安啥
- 安装twisted,下载地址 -https://pypi.python.org/packages/2.7/T/Twisted/Twisted-13.0.0.win32-py2.7.msi#md5=c2d453a344f56cf6f77204c5769288c0
- 安装 zope 接口:zope.interface · PyPI 选择倒数第二个 zope.interface-4.1.0.win32-py2.7.exe
- 安装 lxml ,版本要选对应系统,错误的是用不了的。下载地址: lxml · PyPI
最后安装时出现
问题解决,成功安装!
此外各位如果遇到其他问题,可以参考安装指南 — Scrapy 2.5.0 文档 (osgeo.cn)



