Python爬虫案例-豆瓣Top250

Python 更新时间：2026-06-04 04:57:52 发布时间：1675天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

import requests
import re
import csv

n=0

for i in range(0,10):
    url = "https://movie.douban.com/top250?start=" + str(n) + "&filter="
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.38"
    }
    resp = requests.get(url, headers=headers)
    n=n+25

    # 页面源码
    page_content = resp.text

    # 解析数据re.s在整个不换行的字符串中匹配
    obj = re.compile(r'.*?.*?(?P.*?)'
                     r'.*?.*?
(?P.*?) '
                     r'.*?(?P.*?)'
                     r'.*?(?P.*?)人评价', re.S)
    result = obj.finditer(page_content)
    f = open("data.csv", mode="a")
    csvwriter = csv.writer(f)

    for it in result:
        # print(it.group("name"),end=" ")
        # print(it.group("score"),end=" ")
        # print(it.group("year").strip(),end=" ")
        # print(it.group("num"))
        dic = it.groupdict()
        dic['year'] = dic['year'].strip()
        csvwriter.writerow(dic.values())

    f.close()
    print(url)

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/360372.html

上一篇 git 获取指定历史版本代码，并拉取下来（超详细）

下一篇 django 访问不到页面时显示404页面

Python相关栏目本月热门文章

关于我们文章归档网站地图联系我们