我想我记得曾经处理过这样的网站-IP地址是通过多个HTML元素在内部表示的,其中一些是通过
display:none样式隐藏的,有些则具有使它们不可见的适当CSS类。从这个混乱中获得真正的IP地址
BeautifulSoup是非常困难的。
好消息是,
selenium实际上处理这种使用情况下,只要你得到
.text的
WebElement-它会返回你一个
元素的可见文本 是需要的到底是什么。
演示:
In [1]: from selenium import webdriverIn [2]: driver = webdriver.Firefox()In [3]: driver.get("http://proxylist.hidemyass.com/")In [4]: for row in driver.find_elements_by_css_selector("section.proxy-results table#listable tr")[1:]: ...: cells = row.find_elements_by_tag_name("td") ...: print(cells[1].text.strip()) ...: 101.26.38.162120.198.236.10213.85.92.10...216.161.239.51212.200.111.198


