Python实战—抓取58租房信息并存入Mysql数据库

Python操作数据库相对于其它语言要简单不少

Mysql的安装以及建库建表操作就不说了我这里本地创建了一个数据库py 以及表tb_py_test

create table tb_py_test
 id int auto_increment
 primary key,
 url text null,
 content varchar(255) null,
 price double null

接下来安装py的mysql连接工具 pymysql pip install pymysql

安装成功后书写连接程序

pymysql.connect(host localhost , user root , password root , database py )

它返回的是数据库对象然后通过数据库对象获取到游标cursor 再通过cursor执行sql语句并获取结果

import pymysql
db pymysql.connect(host localhost , user root , password root , database py )
cursor db.cursor()
 sql select * from tb_py_test 
 cursor.execute(sql)
 results cursor.fetchall()
 for result in results:
 print(result[0], result[1], result[2])
except Exception as e:
 print( fail: str(e))
 db.rollback()
db.close()

我们先手动向数据库中插入一条数据

然后执行py

证明数据库连接及操作没有问题

那么接下来本篇博客所要实现的功能就是爬取58同城租房信息价格 2000的前300条信息!

打开58首页 https://zz.58.com/分析

我们需要获取到“租房按钮”并自动点击当然你也可以跳过这一步直接获取租房连接

driver webdriver.Firefox(executable_path r C:geckodriver.exe )
driver.get( https://zz.58.com )
zf driver.find_element_by_xpath( //a[ tongji_tag pc_home_dh_zf ] )
zf.click()

注意find_element_by_xpath用法 //a[ tongji_tag ‘pc_home_dh_zf’] 意思是查找出a标签中属性名为tongji_tag 属性值为’pc_home_dh_zf’的element 自动点击后进入租房信息页

继续分析按需求我们需要获取三个字段租房信息的标题链接价钱

这里我们需要注意的是租房信息是一个列表 ul li 我们获取到的是一个集合所以i我们要首先获取到ul 然后再获取的li表最后循环遍历li 并从每个item中提取信息

driver webdriver.Firefox(executable_path r C:geckodriver.exe )
driver.get( https://zz.58.com )
zf driver.find_element_by_xpath( //a[ tongji_tag pc_home_dh_zf ] )
zf.click()
time.sleep(2)
driver.switch_to.window(driver.window_handles[len(driver.window_handles) - 1])
ul driver.find_element_by_css_selector( ul.house-list )
lis ul.find_elements_by_tag_name( li )
for i in range(len(lis) - 1):
 price lis[i].find_element_by_class_name( money ).find_element_by_tag_name( b ).text # 价格
 if int(price) 2000:
 des lis[i].find_element_by_class_name( des )
 a des.find_element_by_tag_name( a )
 title a.text # 标题
 url a.get_attribute( href ) # 链接
 print(title, 租金 price, 链接 url)

但实际上我们再仔细看以下li元素

最后一条是页码并不是我们要的数据所以需要过滤掉这一条我们可以在循环时直接-1即可

driver.switch_to.window(driver.window_handles[len(driver.window_handles) - 1])

这句话的意思是获取到新窗口的句柄并切换到新窗口否则 driver查找的还是旧窗口的元素

打印结果

是不是结束了当然没有我们的的需求是获取300条而上面的代码仅仅是获取了第一页的数据所以我们需要在第一页数据获取完毕后自动获取下一页数据直到获取满足300条

第一种方法分析每一页网页url链接

你会发现在切换下一页时这个参数会跟随页码数变为pn2 pn3… 所以在当前页面数据提取完毕后你可以直接修改url并转到下一页

第二种方法模拟点击“下一页”按钮

也是本篇博客所使用的方法

nextBtn driver.find_element_by_css_selector( div.pager ).find_element_by_css_selector( a.next )
nextBtn.click()

当循环遍历每条数据时再插入到数据库即可

sql insert into tb_py_test (url, content, price) VALUE ( , , ) 
cursor.execute(sql)
db.commit()

完整py代码

import time
from selenium import webdriver
import pymysql

Python实战—抓取58租房信息并存入Mysql数据库

Python相关栏目本月热门文章