栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python 爬虫实战 — 模拟登陆 bilibili【点触验证码对抗】

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python 爬虫实战 — 模拟登陆 bilibili【点触验证码对抗】


项目概述

  • 项目目标:模拟登陆 bilibili.com ,对抗点触验证码
  • 涉及知识:selenium、Javascript 语句、PIL 库、对接超级鹰识别平台
  • 完整代码:GitHub - Shawshank-LIUYU/Python3-Crawler-projects

文章目录

# 1. 思维导图

# 2. 超级鹰打码平台介绍

# 3. 初始化模块

## 3.1 初始化函数

## 3.2 账号密码登录

# 4. 验证码处理模块

## 4.1 验证码图片裁剪

# 4.2 调用超级鹰接口

# 4.3 验证码坐标解析

# 4.4 模拟点击验证码

# 5. 登录模块

## 5.1 点击验证按钮

## 5.2 获取验证成功标识

## 5.3 登陆失败处理

# 6.  最终效果

# 7. 心路历程


# 1. 思维导图


# 2. 超级鹰打码平台介绍

超级鹰验证码识别-专业的验证码云端识别服务,让验证码识别更快速、更准确、更强大

  • 用户充值题分,1 块钱 1000 题分
  • 用户通过 chaojiying.post_pic 调用平台接口传入图片
  • 平台智能分配任务,人工识别返回坐标,一次花费 15 题分左右
  • 若错误,可以调用 chaojiying.report_error 接口返回错误,返回题分

# 3. 初始化模块

## 3.1 初始化函数
USERNAME = 'xxxxxxxxxx'
PASSWORD = 'xxxxxxxxxx'
# 超级鹰用户名、密码、软件 ID、验证码类型
CHAOJIYING_USERNAME = 'xxxxx'
CHAOJIYING_PASSWORD = 'xxxxx'
CHAOJIYING_SOFT_ID = 893590
CHAOJIYING_KIND = 9004

class CrackTouClick:
    def __init__(self):
        self.url = 'https://passport.bilibili.com/login?from_spm_id=333.1007.top_bar.login'
        s = Service("D:Softwarewebdriverschromedriver.exe")
        options = Options()
        options.add_argument('--start-maximized')
        self.browser = webdriver.Chrome(service=s,options=options)
        self.wait = WebDriverWait(self.browser, 5)
        self.username = USERNAME
        self.password = PASSWORD
        self.chaojiying = Chaojiying(CHAOJIYING_USERNAME, CHAOJIYING_PASSWORD, CHAOJIYING_SOFT_ID)

初始化 bilibili 账号(USERNAME)、密码(PASSWORD)、超级鹰用户名(CHAOJIYING_USERNAME)、超级鹰登录密码(CHAOJIYING_PASSWORD)、超级鹰软件 ID(CHAOJIYING_SOFT_ID)、验证码类型(CHAOJIYING_KIND),webdriver 初始化

 self.wait = WebDriverWait(self.browser, 5):显示等待列入类变量里,在后面可以直接 self.wait.until(EC.presence_of_element_located((By.ID, 'login-username'))) ,方便了很多


## 3.2 账号密码登录

def open(self):
    """
    打开网页输入用户名密码
    :return: None
    """
    self.browser.get(self.url)
    self.browser.execute_script('document.body.style.zoom="0.667"')
    username = self.wait.until(EC.presence_of_element_located((By.ID, 'login-username')))
    password = self.wait.until(EC.presence_of_element_located((By.ID, 'login-passwd')))
    username.send_keys(self.username)
    password.send_keys(self.password)

def get_touclick_button(self):
    """
    获取初始验证按钮
    :return: 登录按钮对象
    """
    button = self.wait.until(EC.element_to_be_clickable((By.XPATH, '//a[contains(@class,"btn btn-login")]')))
    return button

 self.browser.execute_script('document.body.style.zoom="0.667"') 是对 Javascript 代码的执行,是为了把屏幕分辨率从 150% 缩小到 100%,这样才不会导致截图截出来是完全错位的,详情可见文章 验证码对抗 - 解决 PIL.Image 库 crop 函数截取图片不准确的问题

 在 Xpath 时,若一个属性对应的值有空格,则 @xxx='xx xx' 的方式会选择不到结果,这时候用 contains 函数是可以解决这个问题


# 4. 验证码处理模块

## 4.1 验证码图片裁剪

>  bilibili 将验证码的图片分为两个部分,验证码在 geetest_head ,图片在 geetest_item_img,需要将他们两个分别获取,然后进行 position 以及 size 的拼接

  获取验证码的 geetest_head

def get_geetest_head(self):
    """
    获取验证码区域头部:含验证码
    :return: 验证码对象
    """
    element = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_head')))
    return element

  获取验证码的 geetest_item_img

def get_touclick_element(self):
    """
    获取验证图片对象
    :return: 图片对象
    """
    element = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_item_img')))
    return element

  对极验验证码的头部和图片本身进行拼接,这样才能把全部验证码信息截取下来

def get_position(self):
    """
    获取验证码位置
    :return: 验证码位置元组
    """
    head_element = self.get_geetest_head()
    touclick_element = self.get_touclick_element()

    head_location = head_element.location
    touclick_location = touclick_element.location
    size = touclick_element.size

    top = head_location['y']
    bottom = touclick_location['y'] + size['height']
    left = touclick_location['x']
    right = touclick_location['x'] + size['width']

    return (top, bottom, left, right)

  调用 webdriver 自带的截图函数 get_screenshot_as_png(),BytesIO 转为字节对象,因为超级鹰的接口要求传入的是图片的字节

def get_screenshot(self):
    """
    获取网页截图
    :return: 截图对象
    """
    screenshot = self.browser.get_screenshot_as_png()
    screenshot = Image.open(BytesIO(screenshot))
    return screenshot

  这是一个对之前函数的调用函数,同时想 save 图片到指定路径,我们查看 Image 类的 save 函数,发现可以传入 pathlib 对象来指定路径,为了记录测试的时间,我同时调用了 datetime 库的 datetime.now.strftime("%H_%M_%S") 函数生成当前时间,用 pathlib.Path() 对象在文件名加入当前时间,方便查看每一次的保存结果

def get_touclick_image(self, name='0_bilibiliTouClick'):
    """
    获取验证码图片
    :return: 图片对象
    """
    now = datetime.now() # current date and time
    now_time = now.strftime("%H_%M_%S")

    top, bottom, left, right = self.get_position()
    screenshot = self.get_screenshot()

    p = pathlib.Path(r'D:SOPCrawlerDemosVerificationCodedemoHandleBilibiliTouclickscreenshot & captcha')
    screenshot_name = '0_screenshot__{}.png'.format(now_time)
    screenshot_pathlib_object = p/screenshot_name
    screenshot.save(screenshot_pathlib_object)

    captcha = screenshot.crop((left, top, right, bottom))
    captcha_name = name+'__{}.png'.format(now_time)
    captcha_pathlib_object = p/captcha_name
    captcha.save(captcha_pathlib_object)
    return captcha

到此为止,我们获得了超级鹰平台需要格式的 9004 图片!


# 4.2 调用超级鹰接口

>  查看超级鹰提供的 Python 官方文档,要求用 字节 形式传入

image = self.get_touclick_image()
bytes_array = BytesIO()
image.save(bytes_array, format='PNG')
result = self.chaojiying.post_pic(bytes_array.getvalue(),CHAOJIYING_KIND)

# 4.3 验证码坐标解析

>  超级鹰在 get_touclick_image() 调用后几秒内,用 json 的形式返回转化后的坐标值,这里则是将 json 形式转为更易于读写的 list 形式

def distinguish_locations(self, captcha_result):
    """
    解析识别结果
    :param captcha_result: 识别结果
    :return: 转化后的结果
    """
    groups = captcha_result.get('pic_str').split('|')
    locations = [[int(number) for number in group.split(',')] for group in groups]
    return locations

# 4.4 模拟点击验证码

>  将 distinguish_locations() 传回的验证字的位置列表,逐个解析出验证字的页面横纵坐标,进行点击,注意 休息的时间不能太长或者太均匀,bilibili 检测到就会立即换图

def touch_click_words(self, locations):
    """
    点击验证图片
    :param locations: 点击位置
    :return: None
    """
    for location in locations:
        print(location)
        ActionChains(self.browser).move_to_element_with_offset(self.get_touclick_element(), location[0],location[1]).click().perform()
        time.sleep(random.random())

 .click().perform() 是一种可以显示点击的点击方式


# 5. 登录模块

## 5.1 点击验证按钮
def get_geetest_commit(self):
    """
    获取验证码界面的 '确定'
    :return: 确定按钮对象
    """
    button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'geetest_commit_tip')))
    return button

## 5.2 获取验证成功标识
def touch_click_verify(self):
    """
    点击验证按钮
    :return: None
    """
    button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'geetest_commit_tip')))
    button.click()

## 5.3 登陆失败处理

>  失败 3 次以内,点击  按钮;失败次数 > 3,再次 crack()

  获得  按钮

def get_geetest_refresh(self):
    """
    获取刷新按钮对象
    :return: 刷新按钮对象
    """
    element = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_refresh')))
    return element

   登陆失败处理

refresh_time = 0
while 1:

    image = self.get_touclick_image()
    bytes_array = BytesIO()
    image.save(bytes_array, format='PNG')
    result = self.chaojiying.post_pic(bytes_array.getvalue(),CHAOJIYING_KIND)
    locations = self.distinguish_locations(result)
    self.touch_click_words(locations)
    self.login()

    try:
        success = self.wait.until(EC.text_to_be_present_in_element((By.CLASS_NAME, 'geetest_panel_success_title'), '通过验证'))
        print(success)
        self.login()
        break

    except TimeoutException:
        self.chaojiying.report_error(result['pic_id'])
        if refresh_time <= 2:
            refresh_time += 1
            continue
        else:
            time.sleep(random.random()*3)
            self.crack()

print("Success!!!")
time.sleep(10)
self.browser.close()

# 6.  最终效果

>  最终效果的呈现,并不是每次都验证成功,经过多次实验,大概三次之内一定会成功 (在循环之内),会失败的原因可能是在拼接 geetest_head 和 geetest_item_img 的时候,让他们完全上下边完全重合了 —— 实际的网页里,两个元素还是相差了一个指甲盖左右的距离,事实上,可以不用拼接,而是直接截取外框,效果也是一样的。

不过这个动图截得很不错,所以就用这个动图展现啦!


# 7. 心路历程

首先感谢大家读到这里!

这次的项目,本来是想做 bilibili 的滑动验证码的,但是发现 bilibili 改成了点触验证码,于是就先做了这么一个点触验证码的项目,这个项目开始,我开始做版本管理,并给自己制定了版本管理的一些标准,在做项目的时候很开心,觉得自己在解决一个又一个的问题且在记录,不像之前,可能改了这里那里又没改,结果就一下乱了,和大家分享一下我这次项目的文件夹!

这篇文章主要总结了自己的思路,完整的代码在:GitHub - Shawshank-LIUYU/Python3-Crawler-projects: Python3 爬虫实战项目,Python 3 practice of spiders.

再次感谢大家的阅读! 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/347927.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号