栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python爬虫练习

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python爬虫练习

爬取豆瓣TOP250练习

代码

# -*- coding = utf-8 -*-
# @Time : 2022/2/21 16:29
# @Author : G
# @File : spider.py
# @Software: PyCharm

from bs4 import BeautifulSoup       #网页解析 获取数据
import re                           #正则表达式  进行文字匹配
import urllib.request,urllib.error  #制定URL 获取网页数据
import xlwt        #进行excel操作
import sqlite3     #进行SQlite数据库操作


#创建正则对象,表示规则
findlink=re.compile(r'')                   #电影链接
findimg=re.compile(r'')              #图片链接
findtitle=re.compile(r'(.*?)')  #电影名
findrating=re.compile(r'(.*?)')  #评分
findjudge=re.compile(r'(.*人评价)')#(r'(d*)人评价')       #评价人数
findinq=re.compile(r'(.*?)')      #简介
findbd=re.compile(r'

(.*?)

',re.S) #re.S表示忽略转义字符换行 导演等信息 def main(): baseurl = "https://movie.douban.com/top250?start=" # 爬取网络数据 datalist = getData(baseurl) # 储存数据到excel savepath = "doubanTOP250_1.xls" # .表示当前文件的目录 saveData(savepath, datalist) # 存储数据到数据库中 dbpath = "movietop.db" saveDataDB(datalist, dbpath) #爬取网页获取数据存储在datalist中 def getData (baseurl): datalist = [] for i in range(0,10): #调用获取页面信息的函数10次获取所有信息 url=baseurl+str(i*25) html=askurl(url) # 逐一解析数据 一定要在for循环里解析,不然数据会被覆盖!!!!!! soup=BeautifulSoup(html,"html.parser") for item in soup.find_all('div',class_="item"): # print(item) #用于验证 data=[] #保存一部电影的所有信息 item=str(item) #转化为字符串进行处理 link=re.findall(findlink,item)[0] #通过正则表达式找到匹配的字符串 以list存储 data.append(link) #逐一添加数据 imagescr=re.findall(findimg,item)[0] data.append(imagescr) Title=re.findall(findtitle,item) if len(Title)!=1 : data.append(Title[0]) #中文名和外文名 data.append(re.sub('/','',Title[1])) #替换掉/ else: data.append(Title[0]) data.append('') rating=re.findall(findrating,item)[0] data.append(rating) judge=re.findall(findjudge,item)[0] data.append(judge) inq=re.findall(findinq,item) if len(inq)!=0: inq=inq[0].replace('。','') data.append(inq) else: data.append('') bd=re.findall(findbd,item)[0] bd =re.sub('
(.*?)'," ",bd) #对字符串处理 bd =re.sub(r'xa0'," ",bd) data.append(bd.rstrip()) datalist.append(data) #将每一部电影的信息添加到datalist形成二维数组 # print(datalist) print('get data successfully') return datalist #请求一个链接获取一个界面的html def askurl (url): head={"User-Agent":" Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:97.0) Gecko/20100101 Firefox/97.0"} req=urllib.request.Request(url= url,headers= head) #伪装成浏览器发送的请求 html="" try: response=urllib.request.urlopen(req) #发送请求得到的反馈网页句柄 html = response.read().decode('utf-8') #读取网页的信息 字符串 # print(html) #验证是否爬取到 except Exception as e: if hasattr(e,"code"): #用于判断对象是否包含某一属性 print(e.code) if hasattr(e,"reason"): print(e.reason) return html #excel储存数据 def saveData (savepath,datalist): book=xlwt.Workbook(encoding='utf-8',style_compression=0) #无压缩 sheet=book.add_sheet('豆瓣电影TOP250',cell_overwrite_ok=True) #内容可覆盖 col=["电影链接","图片","中文名","外文名","评分","评价人数","概述","导演信息和分类"] for i in range(0,8): #在第一行填充类别 sheet.write(0,i,col[i]) for i in range(0,250): item=datalist[i] # print("%d"%(i+1)) for content in range(0,8): sheet.write(i+1,content,item[content]) #对250个电影数据进行保存 book.save(savepath) print("保存完毕") #初始化数据库 不可重复创建同一数据库 def init_db (dbpath): sql=''' create table movieTOP_250 ( id integer primary key autoincrement, info_link text, img_link text, chinaName varchar, foreignName varchar, sorce numeric, rated varchar, introduction text, info text ) ''' conn=sqlite3.connect(dbpath) c=conn.cursor() c.execute(sql) conn.commit() conn.close() print("成功创建数据库") #保存数据到数据库 def saveDataDB (datalist,dbpath): init_db(dbpath) conn=sqlite3.connect(dbpath) c=conn.cursor() for data in datalist: for index in range(len(data)): data[index]='"'+data[index]+'"' # 给字符串加上双引号 sql=''' insert into movieTOP_250( info_link,img_link,chinaName,foreignName,sorce,rated,introduction,info) values(%s)'''%','.join(data) #join 以,为节点连接字符 c.execute(sql) conn.commit() conn.close() print("insert successfully") if __name__=="__main__": #运行main main()

运行结果

数据表


excel表

遇到的问题

社区版pycharm无数据库
在settings中的plugins下载Database Navigator插件,重启pycharm后顶端菜单栏会出现DB Navigator

出现database is locked的提示
在DB Navigator中打开settings,在界面的左边选择当前使用的数据库,在数据库的菜单栏选择Details
做如下修改并Apply:

导入数据库时无法导入250个数据
同样在DB Navigator中打开settings,选择Data Editor,做如下修改并Apply:

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/744169.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号