如果我们需要浏览器处理网页,可以使用PhantomJS爬虫爬取网页数据。使用PhantomJS爬虫在多线程方面有bug,所以最好使用多进程,本文简单向大家介绍PhantomJS及多进程调用代码。
1、PhantomJS介绍
是一个基于webkit的Javascript API,是一个可编程的无头浏览器。
无头浏览器:一个完整的浏览器内核,包括js解析引擎,渲染引擎,请求处理等,但是不包括显示和用户交互页面的浏览器。
2、PhantomJS多进程调用:使用multiprocessing库
from multiprocessing import Pool pool = Pool(8) data_list = pool.map(get, url_list) pool.close() pool.join()
以上代码便实现了多进程并发调用,简洁且高效,快尝试用起来吧~



