栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

首次学习python爬虫的练习(爬取神社的链接,题目和图片)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

首次学习python爬虫的练习(爬取神社的链接,题目和图片)

import requests 
from bs4 import BeautifulSoup
import re
import io
import sys

  
URL = "https://*******************"#不提供网址

for num in range(1,5):
    l = URL+str(num)

    req = requests.get(url=l)
    print(req.status_code)
    req.encoding = "utf-8"
        
    if(req.status_code == 200):
        
            #print(req.text)
        html = req.text
        
        bf = BeautifulSoup(html,"lxml")
            
        main = bf.select(".post")
        name = bf.select(".entry-title")
        for i in range(0,10):   
            Name = name[i].string
        
            Main = main[i]
            Http=re.findall(r"href="https://www.mshxw.com/skin/sinaskin/image/nopic.gif" rel=",Main.encode("utf-8").decode("utf-8"))[0]
            Tag =re.findall(r"tag">https://www.mshxw.com/skin/sinaskin/image/nopic.gif<",Main.encode("utf-8").decode("utf-8")) 
            Image =re.findall(r"src="https://www.mshxw.com/skin/sinaskin/image/nopic.gif"",Main.encode("utf-8").decode("utf-8"))
            ImHttp="".join(Image)
            Content = re.findall(r"https://www.mshxw.com/skin/sinaskin/image/nopic.gif
",Main.encode("utf-8").decode("utf-8"))
            
            #print(Http)
            Hreq = requests.get(url=Http)
            if(Hreq.status_code == 200):
               
                Hhtml =Hreq.text
                #print(Hhtml)
                Hbf = BeautifulSoup(Hhtml,"lxml")
                Hmain = Hbf.select(".entry-content")
                Hmain1 = Hmain[0]
                #print(Hmain1)
                Hcontent=re.findall(r"https://www.mshxw.com/skin/sinaskin/image/nopic.gif
",Hmain1.encode("utf-8").decode("utf-8"))
                Hcode = '#'
                for i in range(0,len(Hcontent)):
                    l = len(Hcontent[i])
                    
                    if (l==40 and (Hcontent[i][1].islower() or Hcontent[i][1].isdigit() )):
                        Hcode = Hcontent[i]
                        break
                print(Hcode)
                #print(Hcontent)
            else:print("网络异常")
            
            print(Tag)
            print(ImHttp)
            print(Name)
  
           
            if(Name==None or ImHttp==None):
                print(ImHttp)
                
            else: 
                imurl = requests.get(ImHttp)
                img  = imurl.content
                try:
                    with open(r"F:liuli%s.jpg"%Name,"wb")as file:
                        file.write(img)
                    
                except FileNotFoundError:
                    print("名字不合法")
                    
                else:print("成功")
              

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/290753.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号