栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫小例子之菜鸟教程100例

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫小例子之菜鸟教程100例

'''
 爬取菜鸟100例 https://www.runoob.com/python/python-100-examples.html 标题,题目,分析

该网站多模板  题目分析可能在不同的P标签内 也可能在同一标签内
'''
'''
该网站采用urllib 和 xpath 来爬取
'''
import urllib.request as request
import urllib.error
from lxml import etree
import MySQLdb



def get_html(url):
    '''
    获得页面的response
    :param url:
    :return:
    '''
    try:
        res = request.urlopen(url)
    except urllib.error.HTTPError as e:
        print(e.reason)
    except urllib.error.URLError as e:
        print(e.reason)
    except Exception as e:
        print(e)
    else:
        return res.read().decode('utf-8')


def get_urllist(html):
    '''
    获取每一个例子的url
    :param html:
    :return:
    '''
    html = etree.HTML(html)
    url_list = html.xpath('//li/a[@target="_blank"]/@href')
    return ['https://www.runoob.com'+i for i in url_list]

def get_data(html):
    '''
    获取具体的数据
    :param html:
    :return:
    '''
    html = etree.HTML(html)
    title_and_fen_xi = html.xpath('//div[@id="content"]/p')
    result = [i.xpath('string(.)') for i in title_and_fen_xi]
    index = -2
    for i,j in enumerate(result):
        if '程序源代码' in j:
            index = i
    result = "".join(result[1:index])
    result = result.split('程序分析:')
    title = ''
    fenxi = '无'
    if len(result) >1:
        title,fenxi = result[0].strip(),result[1].strip()
    else:
        title = result[0]
    return title,fenxi
    # print(title_and_fen_xi)


def save_to_mysql(args):
    '''
    存入数据库中
    :param args:
    :return:
    '''
    # print(type(args[0]),type(args[1]))
    sql = 'insert into example values(%s,%s)'
    try:
        cursor.execute(sql,args)
    except Exception as e:
        print("存入数据库错误",e)
        conn.rollback()
    else:
        print('存入数据库')
    conn.commit()
    
    
    
    

if __name__ == '__main__':
    url = 'https://www.runoob.com/python/python-100-examples.html'
    orgin_html = get_html(url)
    # 注意一点  当存入中文时 需要加charset = utf8
    conn = MySQLdb.Connection(
            host='localhost',
            user='root',
            password='123456',
            port=3306,
            db='testdata',
            charset = 'utf8' # 存入中文
    )
    cursor = conn.cursor()

    for url in get_urllist(orgin_html):
        print(url)
        save_to_mysql(get_data(get_html(url)))
    cursor.close()
    conn.close()
        

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/339705.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号