栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

如何用python爬虫(python爬虫菜鸟教程)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何用python爬虫(python爬虫菜鸟教程)

       话不多说直接上代码:

from wsgiref import headers
import requests
from bs4 import BeautifulSoup
import re

#证卷日报爬取标题,日期,内容
header={
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43"
}

request_url="http://search.zqrb.cn/search.php?src=https://www.mshxw.com/skin/sinaskin/image/nopic.gif"
page_content=requests.get(url=request_url,headers=header).text
#正则表达式匹配
page_href=' .*? '
page_title='(.*?)'
page_time='时间:(.*?)'

page_href=re.findall(page_href,page_content)
page_title=re.findall(page_title,page_content)
page_time=re.findall(page_time,page_content)

for i in range(len(page_title)):
   #数据清洗
   page_title[i]=re.sub('<.*?>','',page_title[i])
   print("链接为:"+page_href[i]+" 标题为:"+page_title[i]+" 时间为"+page_time[i]+"n")


header={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43"
 }
request_url="http://search.zqrb.cn/search.php?src=https://www.mshxw.com/skin/sinaskin/image/nopic.gif"
page_content=requests.get(url=request_url,headers=header).text

soup=BeautifulSoup(page_content,"html.parser")
a=soup.select(".result-list dt a")
for i in range(len(a)):
   print("网址为:"+a[i]['href']+" 内容为:"+a[i].text)


#中证网爬取标题,日期,内容
header={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43"
 }
request_url="http://search.cs.com.cn/search?searchword=%E8%B4%B5%E5%B7%9E%E8%8C%85%E5%8F%B0&channelid=215308"
page_content=requests.get(url=request_url,headers=header).text

patern_href='.*?'
patern_title='(.*?)'
patern_time="  .*? (.*?)"

page_href=re.findall(patern_href,page_content)
page_title=re.findall(patern_title,page_content)
page_time=re.findall(patern_time,page_content,re.S)

for i in range(len(page_href)):
   print("链接为:"+page_href[i]+" "+"题目为:"+page_title[i]+" 时间:"+page_time[i])

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/772940.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号