栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python之去掉爬取内容中的xa0字符

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python之去掉爬取内容中的xa0字符

如果前端使用 添加空格,则Python爬虫获取到的数据中常常出现xa0。需要把起去除。可以在爬取获取值时使用字符串的strip()方法将字符串两边的空格去掉。这样就没有xa0了
前端代码:


   姓名
  指纹

Python爬虫代码:

soup = BeautifulSoup(html, 'lxml')
tagsTd = soup.find_all('td')
a = tagsTd[0].get_text()
b = tagsTd[0].get_text().strip()
print(a, b) # 'xa0姓名' '姓名'

其他:

  1. 字符串去掉空格的方法
    string.strip([chars]) 去掉两端字符
    string.lstrip([chars]) 去掉左边字符
    string.rstrip([chars]) 去掉右边字符
    参数chars:可选,
    当chars为空,默认删除string头尾的空白符(包括n、r、t、’ ')
    当chars不为空时,chars看成一个的字符的列表,是否会删除的前提是从字符串最开头和最结尾是不是包含要删除的字符,如果有就会继续处理,没有的话是不会删除中间的字符的。
    返回值:去除头尾字符(或空白符)的string副本,string本身不会发生改变。

  2. xa0介绍
    xa0 是不间断空白符  ,自己做前端页面的时候也会经常用到这个符号。
    通常我们所用的空格的ASCII码是 x20 ,在标准ASCII可见字符 0x20~0x7e 范围内。而 xa0 属于 latin1 (ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking space)。latin1 字符集可向下兼容 ASCII ( 0x20~0x7e )

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/503594.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号