//h1[@]
在上面的xpath中,你正在选择
h1具有
class属性的标签
state
所以这就是为什么它选择所有进入的东西
h1 element
如果你只想选择
h1标签文本,则只需
//h1[@]/text()
如果要选择
h1标签的文本及其子标签,则必须使用
//h1[@]//text()
因此区别在于
/text()特定标签的文本,特定标签的文本
//text()及其子标签
下面提到的代码为你工作
site = ''.join(hxs.select("//h1[@]/text()").extract()).strip()


