我就废话不多说啦,大家还是直接看代码吧!
import requests,random
from lxml import etree
import threading
import time
angents = [
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
"Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
"Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
"Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
"Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
"Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
"Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
"Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
]
def get_all_xici_urls(start_num,stop_num):
xici_urls = []
for num in range(start_num,len(stop_num)+1):
xici_http_url = 'http://www.xicidaili.com/wt/'
xici_http_url += str(num)
xici_urls.append(xici_http_url)
print('获取所有待爬取xici url 已完成...')
return xici_urls
def get_all_http_ip(xici_http_url,headers,proxies_list):
try:
all_ip_xpath = '//table//tr/child::*[2]/text()'
all_prot_xpath = '//table//tr/child::*[3]/text()'
response = requests.get(url=xici_http_url,headers=headers)
html_tree = etree.HTML(response.text)
ip_list = html_tree.xpath(all_ip_xpath)
port_list = html_tree.xpath(all_prot_xpath)
# print(ip_list)
# print(prot_list)
new_proxies_list = []
for index in range(1,len(ip_list)):
# print('http://{}:{}'.format(ip_list[index],port_list[index]))
proxies_dict = {}
proxies_dict['http'] = 'http://{}:{}'.format(str(ip_list[index]),str(port_list[index]))
new_proxies_list.append(proxies_dict)
proxies_list += new_proxies_list
return proxies_list
except Exception as e:
print('发生了错误:url为 ',xici_http_url,'错误为 ',e)
if __name__ == '__main__':
start_num = int(input('请输入起始页面:').strip())
stop_num = int(input('请输入结束页面:').strip())
print('开始爬取...')
t_list = []
# 容纳需要使用的西刺代理ip
proxies_list = []
# 使用多线程
xici_urls = get_all_xici_urls(start_num,stop_num)
for xici_get_url in xici_urls:
#随机筛选一个useragent
headers = {'User-Agent': random.choice(angents)}
t = threading.Thread(target=get_all_http_ip,args=(xici_get_url,headers,proxies_list))
t.start()
t_list.append(t)
for j in t_list:
j.join()
print('所有需要的代理ip已爬取完成...')
print(proxies_list)
print(len(proxies_list))
补充知识:python爬取xici的免费代理、并验证(重点、清楚)
网上爬取xici的帖子很多,但是验证都说的不是很清楚,这里我会认真给大家解释
这里我写了一个代理类proxy,写了四个方法(个人写法不必在意),get_user_agent(得到随机use-agent,请求头中最重要的一个)、get_proxy(爬取代理IP)、test_proxy(验证代理可用性)、store_txt(将可用的代理保存到txt文件中。
1.爬取:headers是请求头,choice是可以选择是爬取Http代理还是https代理,first、end为开始和结束的页码(结束不包含最后一页)
def get_proxy(self, headers, choice='http', first=1, end=2):
"""
获取代理
:param choice:
:param first: 开始爬取的页数
:param end: 结束爬取的后一页
:return:
"""
ip_list = []
base_url = None
# 选择爬取的网站,一个是http、一个是https的
if choice == 'http':
base_url = 'http://www.xicidaili.com/wt/'
elif choice == 'https':
base_url = 'http://www.xicidaili.com/wn/'
# 控制页码用正则匹配,并将爬取的IP和端口号用:链接
for n in range(first, end):
actual_url = base_url + str(n)
html = requests.get(url=actual_url, headers=headers).text
pattern = '(d+.d+.d+.d+)s*(d+)'
re_list = re.findall(pattern, html)
for ip_port in re_list:
ip_port = ip_port[0] + ':' + ip_port[1]
ip_list.append(ip_port)
return ip_list
2. 验证:网上大部分是用request直接请求一个网址看是否通过或者看状态码是否是200, 但是有一个问题是即使你设置了代理IP。可能会通过,但通过的不是用你设置的代理IP而是用你自己公网下的IP(大部分时候我们用ifconfig查询的是我们所在局域网下的IP,及私网IP)。
linux下你可以用这些命令的其中任何一个查看你的公网IP:
curl icanhazip.com
curl ifconfig.me
curl curlmyip.com
curl ip.appspot.com
curl ipinfo.io/ip
curl ipecho.net/plain
curl www.trackip.net/i
注意:那这样要怎么办,其实我们可以向上述命令一样先用你爬下的代理IP访问 http://icanhazip.com/, 它可以返回你电脑发送请求时的公网IP(此时如果你设置代理IP了就会是返回你所发送请求的代理IP),然后你将它爬取下来(直接获取返回的值的文本就可以了),并和你发送请求时的代理IP作比较,如果不相等说明此代理IP不能用,因为虽然你设置了代理Ip,但是电脑在你代理IP请求不同的情况下,直接又使用了你公网的IP去请求,当然成功了,但不代表你的代理IP可以用。如果相等,那就证明此网站就是你所用的代理IP访问请求成功的,所以此IP可用。
def test_proxy(self, ip_port, choice='http'):
"""
测试代理是否能用
:param ip_port:
:param choice:
:return:
"""
proxies = None
# 这个网站可以返回你公网下的IP,如果你加代理请求后,返回的就是你代理的IP(这样做是防止你虽然用的是代理IP,但实际是用你自己的公网IP访问的请求)
tar_url = "http://icanhazip.com/"
# 获取随机User-agent
user_agent = self.get_user_agent()
# 将user-agent放在headers中
headers = {'User-Agent': user_agent}
# 选择验证的是http、还是https
if choice == 'http':
proxies = {
"http": "http://"+ip_port,
}
elif choice == 'https':
proxies = {
"https": "https://" + ip_port,
}
try:
# 将IP从IP和端口号连起来的分出来
thisIP = "".join(ip_port.split(":")[0:1])
res = requests.get(tar_url, proxies=proxies, headers=headers, timeout=8)
# 爬取下来返回的值,一定要用strip去除空格
proxyIP = res.text.strip()
# 三个状态,如过直接通不过,那就返回false,如果通过但是不是代理的IP,也返回false
if proxyIP == thisIP:
return proxyIP
else:
return False
except:
return False
最后附上整段代码:
import requests
import re
import random
import codecs
from urllib import parse
class proxy:
"""
代理类
"""
def __init__(self):
pass
def get_user_agent(self):
"""
得到随机user-agent
:return:
"""
user_agents = [
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
"Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
"Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
"Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
"Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
"Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
"Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
"Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
"Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
"Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
]
user_agent = random.choice(user_agents)
return user_agent
def get_proxy(self, headers, choice='http', first=1, end=2):
"""
获取代理
:param choice:
:param first: 开始爬取的页数
:param end: 结束爬取的后一页
:return:
"""
ip_list = []
base_url = None
if choice == 'http':
base_url = 'http://www.xicidaili.com/wt/'
elif choice == 'https':
base_url = 'http://www.xicidaili.com/wn/'
for n in range(first, end):
actual_url = base_url + str(n)
html = requests.get(url=actual_url, headers=headers).text
pattern = '(d+.d+.d+.d+) s*(d+)'
re_list = re.findall(pattern, html)
for ip_port in re_list:
ip_port = ip_port[0] + ':' + ip_port[1]
ip_list.append(ip_port)
return ip_list
def test_proxy(self, ip_port, choice='http'):
"""
测试代理是否能用
:param ip_port:
:param choice:
:return:
"""
proxies = None
# 这个网站可以返回你公网下的IP,如果你加代理请求后,返回的就是你代理的IP(这样做是防止你虽然用的是代理IP,但实际是用你自己的公网IP访问的请求)
tar_url = "http://icanhazip.com/"
user_agent = self.get_user_agent()
headers = {'User-Agent': user_agent}
if choice == 'http':
proxies = {
"http": "http://"+ip_port,
}
elif choice == 'https':
proxies = {
"https": "https://" + ip_port,
}
try:
thisIP = "".join(ip_port.split(":")[0:1])
res = requests.get(tar_url, proxies=proxies, headers=headers, timeout=8)
proxyIP = res.text.strip()
if proxyIP == thisIP:
return proxyIP
else:
return False
except:
return False
def store_txt(self, choice='http', first=1, end=2):
"""
将测试通过的ip_port保存为txt文件
:param choice:
:param first:
:param end:
:return:
"""
user_agent = self.get_user_agent()
headers = {'User-Agent': user_agent}
ip_list = self.get_proxy(headers=headers, choice=choice, first=first, end=end)
with codecs.open("Http_Agent.txt", 'a', 'utf-8') as file:
for ip_port in ip_list:
ip_port = self.test_proxy(ip_port, choice=choice)
print(ip_port)
if ip_port:
file.write(''' + ip_port + "'n")
以上这篇Python使用requests xpath 并开启多线程爬取西刺代理ip实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持考高分网。
Python相关栏目本月热门文章
- 1【Linux驱动开发】设备树详解(二)设备树语法详解
- 2别跟客户扯细节
- 3Springboot+RabbitMQ+ACK机制(生产方确认(全局、局部)、消费方确认)、知识盲区
- 4【Java】对象处理流(ObjectOutputStream和ObjectInputStream)
- 5【分页】常见两种SpringBoot项目中分页技巧
- 6一文带你搞懂OAuth2.0
- 7我要写整个中文互联网界最牛逼的JVM系列教程 | 「JVM与Java体系架构」章节:虚拟机与Java虚拟机介绍
- 8【Spring Cloud】新闻头条微服务项目:FreeMarker模板引擎实现文章静态页面生成
- 9JavaSE - 封装、static成员和内部类
- 10树莓派mjpg-streamer实现监控及拍照功能调试
- 11用c++写一个蓝屏代码
- 12从JDK8源码中看ArrayList和LinkedList的区别
- 13idea 1、报错java: 找不到符号 符号: 变量 log 2、转换成Maven项目
- 14在openwrt使用C语言增加ubus接口(包含C uci操作)
- 15Spring 解决循环依赖
- 16SpringMVC——基于MVC架构的Spring框架
- 17Andy‘s First Dictionary C++ STL set应用
- 18动态内存管理
- 19我的创作纪念日
- 20Docker自定义镜像-Dockerfile
热门相关搜索
路由器设置
木托盘
宝塔面板
儿童python教程
心情低落
朋友圈
vim
双一流学科
专升本
我的学校
日记学校
西点培训学校
汽修学校
情书
化妆学校
塔沟武校
异形模板
西南大学排名
最精辟人生短句
6步教你追回被骗的钱
南昌大学排名
清朝十二帝
北京印刷学院排名
北方工业大学排名
北京航空航天大学排名
首都经济贸易大学排名
中国传媒大学排名
首都师范大学排名
中国地质大学(北京)排名
北京信息科技大学排名
中央民族大学排名
北京舞蹈学院排名
北京电影学院排名
中国戏曲学院排名
河北政法职业学院排名
河北经贸大学排名
天津中德应用技术大学排名
天津医学高等专科学校排名
天津美术学院排名
天津音乐学院排名
天津工业大学排名
北京工业大学耿丹学院排名
北京警察学院排名
天津科技大学排名
北京邮电大学(宏福校区)排名
北京网络职业学院排名
北京大学医学部排名
河北科技大学排名
河北地质大学排名
河北体育学院排名



