如果前端使用 添加空格,则Python爬虫获取到的数据中常常出现xa0。需要把起去除。可以在爬取获取值时使用字符串的strip()方法将字符串两边的空格去掉。这样就没有xa0了
前端代码:
 姓名 指纹
Python爬虫代码:
soup = BeautifulSoup(html, 'lxml')
tagsTd = soup.find_all('td')
a = tagsTd[0].get_text()
b = tagsTd[0].get_text().strip()
print(a, b) # 'xa0姓名' '姓名'
其他:
-
字符串去掉空格的方法
string.strip([chars]) 去掉两端字符
string.lstrip([chars]) 去掉左边字符
string.rstrip([chars]) 去掉右边字符
参数chars:可选,
当chars为空,默认删除string头尾的空白符(包括n、r、t、’ ')
当chars不为空时,chars看成一个的字符的列表,是否会删除的前提是从字符串最开头和最结尾是不是包含要删除的字符,如果有就会继续处理,没有的话是不会删除中间的字符的。
返回值:去除头尾字符(或空白符)的string副本,string本身不会发生改变。 -
xa0介绍
xa0 是不间断空白符  ,自己做前端页面的时候也会经常用到这个符号。
通常我们所用的空格的ASCII码是 x20 ,在标准ASCII可见字符 0x20~0x7e 范围内。而 xa0 属于 latin1 (ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking space)。latin1 字符集可向下兼容 ASCII ( 0x20~0x7e )



