- python爬虫学习35
- 九、parsel 库的使用 其二
- 9-4 提取属性
- 9-5正则提取
今天接着学习parsel库,昨天我们学习了parsel中的初始化和提取文本,那么如何提取属性呢?
与我们之前学习的一致,直接放到Xpath或CSS中就行了
因为不怎么会CSS所以就主要以Xpath为例子了。。。
from parsel import Selector
html = """
hello
- 首页
- 我的书架
- 玄幻小说
- 修真小说
- 都市小说
- 穿越小说
- 网游小说
- 科幻小说
- 排行榜单
- 完本小说
- 全部小说
运行结果:
9-5正则提取还记得我们那年一起学过的正则表达式吗?这里也可以用上:
from parsel import Selector
html = """
hello
- 首页
- 我的书架
- 玄幻小说
- 修真小说
- 都市小说
- 穿越小说
- 网游小说
- 科幻小说
- 排行榜单
- 完本小说
- 全部小说
运行结果:
也可以使用 re_first 返回第一个符合的结果:
from parsel import Selector
html = """
hello
- 首页
- 我的书架
- 玄幻小说
- 修真小说
- 都市小说
- 穿越小说
- 网游小说
- 科幻小说
- 排行榜单
- 完本小说
- 全部小说
运行结果:
至此parsel库就已经被我们基本掌握了,实际上它是结合Xpath、CSS选择器和正则表达式的一个题提取库,所以有相关的基础掌握起来就非常快啦!
今日结束,未完待续…



