您可以执行以下操作:
from __future__ import print_functionimport urllib2baseURL = "http://www.website.com/page/"for n in xrange(100): fullURL = baseURL + str(n) #print fullURL try: req = urllib2.Request(fullURL) resp = urllib2.urlopen(req) if resp.getpre() == 404: #Do whatever you want if 404 is found print ("404 Found!") else: #Do your normal stuff here if page is found. print ("URL: {0} Response: {1}".format(fullURL, resp.getpre())) except: print ("Could not connect to URL: {0} ".format(fullURL))这会遍历整个范围,并尝试通过连接到每个URL
urllib2。我不知道
scapy或您的示例函数如何打开URL,但这是一个有关如何通过进行操作的示例
urllib2。
请注意,大多数利用这种URL格式的站点通常都在运行CMS,该CMS可以自动将不存在的页面重定向到自定义
404 - NotFound页面,该页面仍将显示为HTTP状态代码200。在这种情况下,最好的查找方式对于可能显示但实际上只是自定义404页面的页面,您应该进行一些屏幕抓取,并寻找在“正常”页面返回期间可能不会出现的所有内容,例如显示“找不到页面”的文本或类似内容并且是自定义404页所独有的。



