栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Scrapy选择器XPath和CSS

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Scrapy选择器XPath和CSS

Scrapy选择器XPath和CSS XPath选择器
XPath使用路径选择器选取节点。
表达式含义
/选取此节点的所有子节点
//从匹配选择的当前节点选择选择文档中的节点,不考虑他们的位置
.选取当前节点
选取当前节点的父亲节点
@选取属性
*匹配任何元素节点
@*匹配任何属性节点
Node匹配任何类型的节点

示例

// superhero.xml


     Tony Stark 
     Tron Man 
    male 
     1969 
     47 


    Peter Benjamin Parker 
     Spider Man 
     male 
     unkonwn 
     unknown 


     Steven Rogers 
     Caption America 
     male 
    19200704 
     Captain America 
     male 
     96 


使用XPath提取

from scrapy.selector import Selector
with open('./superhero.xml','r') as fp:
    body=fp.read()
Selector(text=body).xpath('/*').extract()
CSS选择器
	CSS规则=构成器+声明
选择器含义
.class.intro选择class=“intro”的所有元素
#id#firstname选择id-=“firstname”的所有元素
**选择所有元素
elementp选择所有p元素
element,elementdiv,p选择所有div元素和p元素
attribute[target]选择带有target属性的所有元素
attribute=value[target=_blank]选择target="_blank"的所有元素

Scrapy中CSS的基本用法
①response.css(‘a’)返回的是selector对象,
②response.css(‘a’).extract()返回的是a标签对象
③response.css(‘a::text’).extract_first()返回的是第一个a标签中文本的值
④response.css(‘a::attr(href)’).extract_first()返回的是第一个a标签中href属性的值
⑤response.css(‘a[href*=image]::attr(href)’).extract()返回所有a标签中href属性包含image的值
⑥response.css(‘a[href*=image] img::attr(src)’).extract()返回所有a标签下image标签的src属性

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/283529.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号