1.安装scrapy_splash
pip install scrapy_splash
2.在自己爬虫的settings文件中进行spalsh配置
# 使用splash解析,要在配置文件中设置splash服务器地址 确保配置的splash服务已开启,开启的具体方法可查看使用docker启动splash服务_xutengfei999的博客-CSDN博客
SPLASH_URL = 'http://xxx.xxx.xxx.xxx:8050/'
# 将splash middleware添加到DOWNLOADER_MIDDLEWARE中
SPIDER_MIDDLEWARES = {
'scrapy_splash.SplashDeduplicateArgsMiddleware':100
}
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashcookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810
}
# 这个中间件需要支持cache_args功能; 它允许通过不在磁盘请求队列中多次存储重复的Splash参数来节省磁盘空间。如果使用Splash 2.1+,则中间件也可以通过不将这些重复的参数多次发送到Splash服务器来节省网络流量
# 配置消息队列所使用的过滤类
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
# 配置消息队列需要使用的类
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
3.在自己的爬虫中进行使用
from scrapy_splash import SplashRequest



