极简爬虫：Python学习笔记

爬取豆瓣电影排名Top250

一、爬虫四大步骤：

1.获取页面源代码

2.获取标签

3.正则表达式

4.输出数据

二、源代码：

import requests
from bs4 import BeautifulSoup

# 确定要爬取的网址
url = 'https://movie.douban.com/top250'

# 确定请求头
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
                         'AppleWebKit/537.36 (KHTML, like Gecko)'
                         'Chrome/80.0.3987.132 Safari/537.36','Host':'movie.douban.com'}

# 从网页获取数据
r = requests.get(url,headers = headers)

# 解析获得的网页数据
soup = BeautifulSoup(r.text,"html.parser")

# 初始化一个列表，用来存放电影的名字
movie_list = []

# 定位需要的内容
m_list = soup.findAll("div", {'class': 'hd'})

# 遍历m_list
for m in m_list:
    movie = m.a.span.text #解析得到我们需要的电影的名字
    movie_list.append(movie)    # 将电影的名字添加到列表中

# 换行输出
for i in movie_list:
    print(i)

三、详细说明

编写爬虫的库有很多，本文只需要用到两个：requests 和 BeautifulSoup4；

1. 获取整个网页的数据：r是requests的Response回复对象，从中可以获取需要的信息，r.text是网页内容。

# 从网页获取数据
r = requests.get(url,headers = headers)

使用requests的headers可以伪装成浏览器访问获取页面源代码；

2.获取标签，通过BeautifulSoup进一步解析页面源代码，并且通过标签定位需要的内容

# 解析获得的网页数据
soup = BeautifulSoup(r.text,"html.parser")

# 定位需要的内容
m_list = soup.findAll("div", {'class': 'hd'})

3.正则表达式

本文分析情况比较简单，并未使用正则表达式；

4.输出数据，将得到的数据输出。同样可以保存到数据库或者写入文件。

运行环境：Python 3.7

参考地址：

1. 最简单的Python爬虫，仅3步11行代码爬取豆瓣电影排名

2. Python爬虫入门笔记

极简爬虫：Python学习笔记

Python相关栏目本月热门文章