栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > C/C++/C# > C#教程

c# Selenium爬取数据时防止webdriver封爬虫的方法

C#教程 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

c# Selenium爬取数据时防止webdriver封爬虫的方法

背景

大家在使用Selenium + Chromedriver爬取网站信息的时候,以为这样就能做到不被网站的反爬虫机制发现。但是实际上很多参数和实际浏览器还是不一样的,只要网站进行判断处理,就能轻轻松松识别你是否使用了Selenium + Chromedriver模拟浏览器。其中

window.navigator.webdriver

就是很重要的一个。

问题窥探

正常浏览器打开是这样的

 模拟器打开是这样的 

ChromeOptions options = null;
      IWebDriver driver = null;
      try
      {
 options = new ChromeOptions();
 options.AddArguments("--ignore-certificate-errors");
 options.AddArguments("--ignore-ssl-errors");

 // options.AddExcludedArgument("enable-automation");
 // options.AddAdditionalCapability("useAutomationExtension", false);

 var listcookie = cookieHelp.Getcookie();
 if (listcookie != null)
 {
   // options.AddArgument("headless");
 }

 // string ss = @"{ ""source"": ""Object.defineProperty(navigator, 'webdriver', { get: () => undefined})""}";
 //  options.AddUserProfilePreference("Page.addscriptToevaluateOnNewdocument", new ssss() { source = " Object.defineProperty(navigator, 'webdriver', {  get: () => undefined }) " });

 ChromeDriverService service = ChromeDriverService.CreateDefaultService(System.Environment.CurrentDirectory);
 service.HideCommandpromptWindow = true;
 driver = new ChromeDriver(service, options, TimeSpan.FromSeconds(120));

 ////session.Page.AddscriptToevaluateonNewdocument(new OpenQA.Selenium.DevTools.Page.AddscriptToevaluateonNewdocumentCommandSettings()
 ////{
 ////  Source = @"Object.defineProperty(navigator, 'webdriver', { get: () => undefined })"
 ////}
 //// );

所以,如果网站通过js代码获取这个参数,返回值为undefined说明是正常的浏览器,返回true说明用的是Selenium模拟浏览器。

解决办法

那么对于这种情况,在爬虫开发的过程中如何防止这个参数告诉网站你在模拟浏览器呢?执行对应的js,改掉它的值。

 IJavascriptExecutor js = (IJavascriptExecutor)driver;
 string returnjs = (string)js.Executescript("Object.defineProperties(navigator, {webdriver:{get:()=>undefined}});");
运行效果

 完美,达到预期效果。

以上就是c# Selenium爬取数据时防止webdriver封爬虫的方法的详细内容,更多关于c# 防止webdriver封爬虫的资料请关注考高分网其它相关文章!

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/121478.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号