根据您对上一个问题的评论:
即使在即时通讯指定协议之后…仅google和aol无法正常工作,雅虎,必应和ask仍在使用…。我的项目是实现元搜索引擎....我能够从yahoo提取链接,bing和ask
…但是google和aol不能正常使用…这可能是原因。
他们阻止了您的请求,因为您扮演的机器人/窃贼可能违反了他们的服务条款。他们的网站经常被要求访问,他们不想不必要地将带宽浪费在实际上只需要响应的一小部分的机器人/抓取者身上。
使用其公共Web服务API而不是解析整个网站的HTML。对于Google,例如“
Google自定义搜索API
”。其他搜索引擎提供商也提供类似的Web服务。请注意,这些Web服务不会返回肿的HTML,而是紧凑的JSON或XML数据,使用JSON /
XML解析器更容易解析/提取。



