栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

多线程爬取

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

多线程爬取

```python
from threading import Thread

from threading import Thread
from fake_useragent import UserAgent
import requests
from time import sleep
from queue import Queue
def spider():
    while not url_queue.empty(): #调用Queue中的empty方法,回传回True 或 False 
        url = url_queue.get()   #调用get方法,得到队列中的目标网站       
        headers = {'User-Agent' : UserAgent().chrome}
        resp = requests.get(url,headers = headers)
        #处理响应结果
        for d in resp.json().get('data'):
            print(f'tid:{d.get("tid")} topic:{d.get("topicName")} content:{d.get("content")}')           
            sleep(3)    
        

if __name__ == '__main__':
    #将目标网站扔进队列
    #目标网站
    url_queue = Queue()
    for i in range (1,11):
        url = f'https://www.hupu.com/home/v1/news?pageNo={i}&pageSize=50'
        url_queue.put(url)
    for i in range(2):    #开启两个线程
        t1 = Thread(target = spider)
        t1.start()    #开启线程
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/822655.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号