爬虫li中部分有空值,结果list缺失数值,记录的字段错位。
解决方案:提前将值补齐,然后进行规则提取。
html = requests.get(row['url'],headers=headers)
html=html.text.replace('', '无名称')
info3 = etree.HTML(html)

爬虫li中部分有空值,结果list缺失数值,记录的字段错位。
解决方案:提前将值补齐,然后进行规则提取。
html = requests.get(row['url'],headers=headers)
html=html.text.replace('', '无名称')
info3 = etree.HTML(html)