1、找到自己想爬取的网页内容
这是我从链家网上找的某个小区的页面网址,接下来就爬取这上面的房源信息
url = 'https://sh.lianjia.com/chengjiao/c5011000012404/?sug=%E5%A4%A9%E9%A6%A8%E8%8A%B1%E5%9B%AD%28%E5%85%AC%E5%AF%93%29'
直接开始操作,先导入一些需要的python库
import requests as rq import numpy as np from bs4 import BeautifulSoup
然后就可以直接开始爬取数据了
r = rq.get(url,headers = headers)
html = r.text
#用bs4处理爬取的数据
doc = BeautifulSoup(html,'html.parser')
#找到需要的数据部分,找到对应的div
ul_data = doc.find_all('div',class_ = 'info')
数据弄下来了,就可以对它操作处理了,把数据转换成自己想要的格式
for item in ul_data:
#获取小区基本信息
ti


