栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python > python爬虫

python爬虫爬取新闻的简单实现

python爬虫 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python爬虫爬取新闻的简单实现

我们通常是使用爬虫爬取网站信息,其实网络爬虫是一种应用于搜索引擎的程序。使用python爬虫可以将一个网站的所有内容与链接进行阅读。例如我们每日都要获取新闻信息,利用python爬虫就可以帮助我们爬取我们需要的信息内容。下面我们一起来实战练习吧。

1、爬虫思路:

定义编码形式并引入模块;

请求新闻网站URL,获取其text文本并解析;

通过select选择器定位解析文件指定的元素,返回一个列表并遍历;

获取相关内容。

2、具体实现

第一步:使用UTF-8编码形式定义文件(避免一些编码错误导致中文乱码),并引入相关模块。

# coding:utf-8
# 引入相关模块
import requests
from bs4 import BeautifulSoup
url = "http://news.qq.com/"

第二步:请求新闻网站URL,获取其text文本

wbdata = requests.get(url).text

第三步:解析获取到的文本

soup = BeautifulSoup(wbdata,'lxml')

第四步:通过select选择器定位解析文件指定的元素,返回一个列表

从解析文件中通过select选择器定位指定的元素,返回一个列表
news_titles = soup.select("div.text > em.f14 > a.linkto")

第五步:遍历返回的列表

for n in news_titles:

第六步:获取新闻标题及信息

 # 提取出标题和链接信息
    title = n.get_text()
    link = n.get("href")
    data = {
        '标题':title,
        '链接':link
    }
    print(data)

以上就是python爬虫爬取新闻的简单实现,大家可以尝试看看哦~更多python爬虫学习推荐:python爬虫教程。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/12547.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号