栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

数据爬取-历史上的今天

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

数据爬取-历史上的今天

数据爬取-历史上的今天 前情提要

之前做的摸鱼邮件提醒,由于过了国庆假期,今年就没有假期了,倒计时部分就没有了盼头,得加点东西,看不见未来那就看看历史吧,加个历史上的今天部分。

关于数据源:百度有提供历史上的今天,那么爬一下再处理一下就完事了。看了一下内容也很简单,也不需要cookie啥的。

然后,日常逛github中,看到了一个gopup的项目,提供了一些公开的数据源,发现里面就有提供历史上的今天的数据,直接提供Dataframe,刚好之前也学过pandas 和nump库,对这个格式也不陌生,那这不就很方便,就处理一下就行了。

就开始写了起来。

代码部分
# encoding=utf-8
import gopup as gp
import re
import datetime


def history_today():
    df_index = gp.history_daily()
    f = open("./histroy-today" + datetime.datetime.now().strftime('%Y-%m-%d') + ".txt", "w", encoding='UTF-8')
    title = df_index['title']
    cl_title = []
    cl_year = []
    for x in title:
        # 正则表达式去掉标签
        result = re.split('', x)
        m = result[0]
        m = re.split('', m)
        outstr = ""
        for n in m:
            outstr += n
        outstr += result[1]
        cl_title.append(outstr)
    for y in df_index['year']:
        # 处理年份数字
        if y[0] == '-':
            daystr = "公元前" + y[1:] + "年"
        else:
            daystr = y + "年"
        cl_year.append(daystr)
    for z in range(len(df_index['year'])):
        # 生成最终语句
        finalcontent = cl_year[z] + ',' + cl_title[z] + 'n'
        f.write(finalcontent)
    f.close()


if __name__ == "__main__":
    history_today()
成果
histroy-today2021-09-30.txt
1147年,南宋皇帝宋光宗赵惇出生
1626年,清朝创始人爱新觉罗·努尔哈赤逝世
1862年,德国首任宰相俾斯麦实行“铁血政策”
1895年,苏联元帅华西列夫斯基出生
1911年,意大利土耳其争夺的黎波里
1917年,大韩民国总统朴正熙出生
1920年,中国现代著名作家张爱玲出生
1924年,美国作家杜鲁门·卡波特出生
1938年,中华民国国务总理唐绍仪逝世
1941年,第二次世界大战,莫斯科保卫战开始
1949年,人民英雄纪念碑奠基
1955年,美国知名电影演员詹姆斯·迪恩逝世
1965年,印度尼西亚发生印尼九·三〇事件
1973年,故宫博物院创建人李石曾逝世
1990年,澳洲著名小说家帕特里克·怀特逝世
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/280424.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号