栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python > python爬虫

python3爬虫进阶:多线程的使用

python爬虫 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python3爬虫进阶:多线程的使用

在python爬虫编程中,创建进程必须为该进程分配独立的内存空间,并分配大量的相关资源,这个过程很麻烦,但创建线程则简单得多。本文向大家介绍python爬虫中多线程的使用介绍。

一、Python的多线程爬虫介绍:

1、Python的多线程并不如java的多线程,其差异在于当python解释器开始执行任务时,受制于GIL(全局解释所),Python 的线程被限制到同一时刻只允许一个程执行这样一个执行模型。

GIL介绍:

Python代码的执行由Python虚拟机(解释器)来控制,同时只有一个线程在执行。对Python虚拟机的访问由全局解释器锁(GIL)来控制,正是这个锁能保证同时只有一个线程在运行。

GIL功能:

为了线程间数据的一致性和状态同步的完整性。

例如:线程2需要线程1执行完成的结果,然而线程2又比线程1执行时间短,线程2执行完成,线程1仍然还在执行,这就是数据的同步性。

2、Python 的线程更适用于处理 I/O 和其他需要并发行的阻塞操作(比如等待 I/O、等待从数据库获取数据等等),而不是需要多处理器行的计算密集型任务。幸运的是,爬虫大部分时间在网络交互上,所以可以使用多线程来编写爬虫。

二、多线程适用场景

在一个程序进程中,有些操作是比较耗时或者需要等待的。比如:等待数据库的查询结果的返回等待网页结果的响应。

使用单线程:

处理器必须要等到这些操作完成之后才能继续往下执行其他操作,而这个线程在等待的过程中,处理器明显是可以来执行其他操作的。

使用多线程:

处理器就可以在某个线程等待时,去执行其他的线程,从而从整体上提高执行效率。

三、多线程爬虫使用方法

t1 = threading.Thread(targe=func,args=(,))
t1.setDaemon(True)
t1.start() #此时线程才会启动

threading模块是python中专门提供用来做多线程编程的模块。threading模块中最常用的类是Thread。

    import threading
    import time
    
    def coding():
        for x in range(3):
            print('%s正在写代码' % x)
            time.sleep(1)
    
    def drawing():
        for x in range(3):
            print('%s正在画图' % x)
            time.sleep(1)
    
    
    def single_thread():
        coding()
        drawing()
    
    def multi_thread():
        t1 = threading.Thread(target=coding)
        t2 = threading.Thread(target=drawing)
    
        t1.start()
        t2.start()
    
    if __name__ == '__main__':
        multi_thread()

以上就是python爬虫中多线程的具体介绍,希望能帮助你使用哦~更多python爬虫学习推荐:python爬虫。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/12532.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号