栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

初识爬虫与相关案例

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

初识爬虫与相关案例

        本次爬虫以东方财富网中某企业的资金流向为目标。

        在爬虫前首先打开网页寻找到自己的目标网页。我随便挑选了一个企业,进入其资金流向的界面,检查查看源代码,找到需要提取的表格的区域代码。

        我使用jupter notebook进行爬虫。

        首先导包,以下是我的代码。

import re
import requests
from bs4 import BeautifulSoup
import pandas as pd

        使用函数定义读取其中tbody部分并进行处理,想以此来得到数据。但发现直接使用无法得到tbody,在查阅资料后发现源代码并没有tbody,实际上并没有读取到。此时我选择再次回到页面查看代码。

        由于资金流向是随着时间更新的,所以先在源代码界面进行部分处理。点开元素旁边的加号找到网络打开,使用CTRL+r进行刷新,找到资金流向对应的部分。

         打开表头得到对应的URL,即所爬目标的内容的网址,以此网址来进行处理。以下附上处理代码。

dict1=eval(str1[41:-2])#转化为字典
dict2=dict1['data']['klines']
list1=list(dict1['data']['klines'])#提取字典中的'klines',将数据转换为list
split=re.split('[,]',dict2[1])
print(split)
dict1=eval(str1[41:-2])#转化为字典
dict2=dict1['data']['klines']
list1=list(dict1['data']['klines'])#提取字典中的'klines',将数据转换为list
split=re.split('[,]',dict2[1])
print(split)
i=0
list1=[]
for i in range(len(dict2)):
    i=1+i
    split=re.split('[,]',dict2[i])
    list1.append(split)
    print(list1)

        之后将数据整理成图表输出为表格即可。 

df1=pd.Dataframe(list1)
df1.columns=['日期','主力净流入-净额','小单净流入-净额','中单净流入-净额','大单净流入-净额','超大单净流入-净额','主力净流入-净占比','小单净流入-净占比','中单净流入-净占比','大单净流入-净占比','超大单净流入-净占比','收盘价','涨跌幅','0','0']
print(df1)
df1.to_excel('C:\Users\76813\Desktop\资金流向.xlsx')#输出到所需要的具体地址

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/331402.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号