栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

从python调用url时获取“错误”页面源

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

从python调用url时获取“错误”页面源

这里有几个问题。根本原因是您要抓取的网站知道您不是真实的人,并且正在阻止您。许多网站只是通过检查标头以查看请求是否来自浏览器(机器人)来执行此操作。但是,此站点看起来像他们在使用Incapsula,旨在提供更复杂的保护。您可以尝试通过设置标头来不同地设置您的请求,以欺骗页面上的安全性-
但我怀疑这样做是否可行。

import requestsdef get_page_source(n):    url = 'https://www.whoscored.com/Matches/' + str(n) + '/live'    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}    response = requests.get(url, headers=headers)    return response.textn = 1006233text = get_page_source(n)print text

该网站似乎还使用了验证码-旨在防止网页抓取。如果网站正在努力防止刮擦-这很可能是因为它们提供的数据是专有数据。我建议您找到另一个提供此数据的站点-
或尝试使用官方API。

不久前即可查看此答案。好像whoscored.com使用OPTAAPI来提供信息。您也许可以跳过中间人,直接进入数据源。祝好运!

UEFA或FIFA似乎没有提供任何API来获取您想要的信息。但是,有一些第三方服务支持该功能:

OPTA-商业和免费。他们有关于比赛的不可思议的数据库。Whoscored.com当前正在使用它。

其他:排行榜,xmlsoccer,…



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/659657.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号