代码
# -*- coding = utf-8 -*- # @Time : 2022/2/21 16:29 # @Author : G # @File : spider.py # @Software: PyCharm from bs4 import BeautifulSoup #网页解析 获取数据 import re #正则表达式 进行文字匹配 import urllib.request,urllib.error #制定URL 获取网页数据 import xlwt #进行excel操作 import sqlite3 #进行SQlite数据库操作 #创建正则对象,表示规则 findlink=re.compile(r'') #电影链接 findimg=re.compile(r'') #图片链接 findtitle=re.compile(r'(.*?)') #电影名 findrating=re.compile(r'(.*?)') #评分 findjudge=re.compile(r'(.*人评价)')#(r'(d*)人评价') #评价人数 findinq=re.compile(r'(.*?)') #简介 findbd=re.compile(r'(.*?)
',re.S) #re.S表示忽略转义字符换行 导演等信息 def main(): baseurl = "https://movie.douban.com/top250?start=" # 爬取网络数据 datalist = getData(baseurl) # 储存数据到excel savepath = "doubanTOP250_1.xls" # .表示当前文件的目录 saveData(savepath, datalist) # 存储数据到数据库中 dbpath = "movietop.db" saveDataDB(datalist, dbpath) #爬取网页获取数据存储在datalist中 def getData (baseurl): datalist = [] for i in range(0,10): #调用获取页面信息的函数10次获取所有信息 url=baseurl+str(i*25) html=askurl(url) # 逐一解析数据 一定要在for循环里解析,不然数据会被覆盖!!!!!! soup=BeautifulSoup(html,"html.parser") for item in soup.find_all('div',class_="item"): # print(item) #用于验证 data=[] #保存一部电影的所有信息 item=str(item) #转化为字符串进行处理 link=re.findall(findlink,item)[0] #通过正则表达式找到匹配的字符串 以list存储 data.append(link) #逐一添加数据 imagescr=re.findall(findimg,item)[0] data.append(imagescr) Title=re.findall(findtitle,item) if len(Title)!=1 : data.append(Title[0]) #中文名和外文名 data.append(re.sub('/','',Title[1])) #替换掉/ else: data.append(Title[0]) data.append('') rating=re.findall(findrating,item)[0] data.append(rating) judge=re.findall(findjudge,item)[0] data.append(judge) inq=re.findall(findinq,item) if len(inq)!=0: inq=inq[0].replace('。','') data.append(inq) else: data.append('') bd=re.findall(findbd,item)[0] bd =re.sub('
(.*?)'," ",bd) #对字符串处理 bd =re.sub(r'xa0'," ",bd) data.append(bd.rstrip()) datalist.append(data) #将每一部电影的信息添加到datalist形成二维数组 # print(datalist) print('get data successfully') return datalist #请求一个链接获取一个界面的html def askurl (url): head={"User-Agent":" Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:97.0) Gecko/20100101 Firefox/97.0"} req=urllib.request.Request(url= url,headers= head) #伪装成浏览器发送的请求 html="" try: response=urllib.request.urlopen(req) #发送请求得到的反馈网页句柄 html = response.read().decode('utf-8') #读取网页的信息 字符串 # print(html) #验证是否爬取到 except Exception as e: if hasattr(e,"code"): #用于判断对象是否包含某一属性 print(e.code) if hasattr(e,"reason"): print(e.reason) return html #excel储存数据 def saveData (savepath,datalist): book=xlwt.Workbook(encoding='utf-8',style_compression=0) #无压缩 sheet=book.add_sheet('豆瓣电影TOP250',cell_overwrite_ok=True) #内容可覆盖 col=["电影链接","图片","中文名","外文名","评分","评价人数","概述","导演信息和分类"] for i in range(0,8): #在第一行填充类别 sheet.write(0,i,col[i]) for i in range(0,250): item=datalist[i] # print("%d"%(i+1)) for content in range(0,8): sheet.write(i+1,content,item[content]) #对250个电影数据进行保存 book.save(savepath) print("保存完毕") #初始化数据库 不可重复创建同一数据库 def init_db (dbpath): sql=''' create table movieTOP_250 ( id integer primary key autoincrement, info_link text, img_link text, chinaName varchar, foreignName varchar, sorce numeric, rated varchar, introduction text, info text ) ''' conn=sqlite3.connect(dbpath) c=conn.cursor() c.execute(sql) conn.commit() conn.close() print("成功创建数据库") #保存数据到数据库 def saveDataDB (datalist,dbpath): init_db(dbpath) conn=sqlite3.connect(dbpath) c=conn.cursor() for data in datalist: for index in range(len(data)): data[index]='"'+data[index]+'"' # 给字符串加上双引号 sql=''' insert into movieTOP_250( info_link,img_link,chinaName,foreignName,sorce,rated,introduction,info) values(%s)'''%','.join(data) #join 以,为节点连接字符 c.execute(sql) conn.commit() conn.close() print("insert successfully") if __name__=="__main__": #运行main main()
运行结果
数据表
excel表
遇到的问题
社区版pycharm无数据库
在settings中的plugins下载Database Navigator插件,重启pycharm后顶端菜单栏会出现DB Navigator
出现database is locked的提示
在DB Navigator中打开settings,在界面的左边选择当前使用的数据库,在数据库的菜单栏选择Details
做如下修改并Apply:
导入数据库时无法导入250个数据
同样在DB Navigator中打开settings,选择Data Editor,做如下修改并Apply:



