栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > C/C++/C# > C#教程

C# 爬虫简单教程

C#教程 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

C# 爬虫简单教程

1、使用第三方类库 HtmlAgilityPack

官方网址:https://html-agility-pack.net/?z=codeplex、

// From File 从文件获取html信息
var doc = new Htmldocument();
doc.Load(filePath);

// From String 从字符串获取html信息
var doc = new Htmldocument();
doc.LoadHtml(html);

// From Web  从网址获取html信息
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
1.1、这里介绍一下最后一种用法
var web = new HtmlWeb();
var doc = web.Load(url);

在 web 中我们还可以设置cookie、headers等信息,来处理一些特定的网站需求,比如需要登陆等。

1.2 用法解释

网页在你查看网页源代码之后只是一段字符串,而爬虫所做的就是在这堆字符串中,查询到我们想要的信息,挑选出来。
以往的筛选方法:正则 (太麻烦了,写起来有些头疼)
HtmlAgilityPack 支持通过XPath来解析我们需要的信息。

1.2.1 在哪里找XPath?

网页右键检查

通过XPath就可以准确获取你想要元素的全部信息。

1.2.2 获取选中Html元素的信息?

获取选中元素

var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.documentNode?.SelectSingleNode("/html/body/header")

获取元素信息

htmlnode.InnerText;
htmlnode.InnerHtml;
//根据属性取值
htmlnode?.GetAttributevalue("src", "未找到")
2、自己封装的类库
 /// 
  /// 下载HTML帮助类
  /// 
  public static class LoadHtmlHelper
  {
    /// 
    /// 从Url地址下载页面
    /// 
    /// 
    /// 
    public async static ValueTask LoadHtmlFromUrlAsync(string url)
    {
      HtmlWeb web = new HtmlWeb();
return await
  web?.LoadFromWebAsync(url);
    }

    /// 
    /// 获取单个节点扩展方法
    /// 
    /// 文档对象
    /// xPath路径
    /// 
    public static HtmlNode GetSingleNode(this Htmldocument htmldocument, string xPath)
    {
     return htmldocument?.documentNode?.SelectSingleNode(xPath);
    }

    /// 
    /// 获取多个节点扩展方法
    /// 
    /// 文档对象
    /// xPath路径
    /// 
    public static HtmlNodeCollection GetNodes(this Htmldocument htmldocument, string xPath)
    {
      return htmldocument?.documentNode?.SelectNodes(xPath);
    }

   

    /// 
    /// 获取多个节点扩展方法
    /// 
    /// 文档对象
    /// xPath路径
    /// 
    public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectNodes(xPath);
    }


    /// 
    /// 获取单个节点扩展方法
    /// 
    /// 文档对象
    /// xPath路径
    /// 
    public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectSingleNode(xPath);
    }

    /// 
    /// 下载图片
    /// 
    /// 地址
    /// 文件路径
    /// 
    public async static ValueTask DownloadImg(string url ,string filpath)
    {
      HttpClient httpClient = new HttpClient();
      try
      {
 var bytes = await httpClient.GetByteArrayAsync(url);
 using (FileStream fs = File.Create(filpath))
 {
   fs.Write(bytes, 0, bytes.Length);
 }
 return File.Exists(filpath);
      }
      catch (Exception ex)
      {

 throw new Exception("下载图片异常", ex);
      }
      
    }
  }
3、自己写的爬虫案例,爬取的网站https://www.meitu131.com/

数据存储层没有实现,懒得写了,靠你们喽,我是数据暂时存在了文件中
GitHub地址:https://github.com/ZhangQueque/quewaner.Crawler.git

以上就是C# 爬虫简单教程的详细内容,更多关于c# 爬虫的资料请关注考高分网其它相关文章!

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/121535.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号