栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

page

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

page

爬页面源码(page_source)

一般来说,selenium的page_source方法可以直接返回页面源代码

爬取网页ICP号:

from selenium import webdriver
import re

html_list=[
    "http://anzhuo.paojiao.cn/",
    "http://sj.zol.com.cn/android_app/",
    "https://appgallery.huawei.com/#/Apps",
]
for url in html_list:
    browser = webdriver.Chrome()
    browser.set_page_load_timeout(20)       # 网页超时加载时间
    try:
        browser.get(url)
        result = browser.page_source
    except:
        print("{}超时".format(url))
        browser.quit()
    else:
        icp_name = ""
        icp_list = re.findall("([京津冀晋苏浙皖闽豫鄂湘粤桂琼川蜀蒙辽吉黑沪赣鲁贵黔云滇渝藏陕秦新甘陇青宁港澳台]ICP[备|证]d{6,8}号*(?:-[1-9]d?)?)", result)
        if icp_list:
            icp_name = icp_list[0]
            print(url, icp_name)
        browser.quit()

如上,给了三个网页:

第一个网页超时,

第二个网

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/504002.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号