f open( data.csv , mode w ) #创建打开csv文件
csvwriter csv.writer(f) #向文件中写入数据方法
proxy {
https : 175.7.199.68:3256 #代理设置可用可不用
while True:
url f https://movie.douban.com/top250?start {start} #url请求地址 start是用来自动换页的
resp requests.get(url, headers headers, proxies proxy) #模拟浏览器请求页面
page_content resp.text
result obj.finditer(page_content) #正则解析过滤数据
for i in result: #循环把数据封装成字典
dic i.groupdict()
dic[ year ] dic[ year ].strip()
csvwriter.writerow(dic.values()) #向文件中写入数据
print(i.group( name ))
print( 第{}页已完成.... .format(s))
time.sleep(1) #睡眠一秒避免请求速度过快
start 25 #换页方法
if start 225: #最后一页跳出循环
break
f.close() #关闭读写文件
resp.close() #相当于关闭模拟浏览器窗口
print( 程序完成自动退出 )
获取到的数据如下图所示 截取部分
好了一个简单的爬虫小程序就完成了 大家可以尝试一下 也可以给初学者一个参考 再见