栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > C/C++/C# > C#教程

C#使用正则表达式抓取网站信息示例

C#教程 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

C#使用正则表达式抓取网站信息示例

本文实例讲述了C#使用正则表达式抓取网站信息的方法。分享给大家供大家参考,具体如下:

这里以抓取京东商城商品详情为例。

1、创建JdRobber.cs程序类

public class JdRobber
{
  /// 
  /// 判断是否京东链接
  /// 
  /// 
  /// 
  public bool ValidationUrl(string url)
  {
    bool result = false;
    if (!String.IsNullOrEmpty(url))
    {
      Regex regex = new Regex(@"^http://item.jd.com/d+.html$");
      Match match = regex.Match(url);
      if (match.Success)
      {
 result = true;
      }
    }
    return result;
  }
  /// 
  /// 抓取京东信息
  /// 
  /// 
  /// 
  public void GetInfo(string url)
  {
    if (ValidationUrl(url))
    {
      string htmlStr = WebHandler.GetHtmlStr(url, "Default");
      if (!String.IsNullOrEmpty(htmlStr))
      {
 string pattern = "";     //正则表达式
 string sourceWebID = "";   //商品关键ID
 string title = "";      //标题
 decimal price = 0;      //价格
 string picName = "";     //图片
 //提取商品关键ID
 pattern = @"http://item.jd.com/(?d+).html";
 sourceWebID = WebHandler.GetRegexText(url, pattern);
 //提取标题
 pattern = @"[sS]*(?.*?)";
 title = WebHandler.GetRegexText(htmlStr, pattern);
 //提取图片
 int begin = htmlStr.IndexOf("", begin + 1);
 if (begin > 0 && end > 0)
 {
   string subPicHtml = htmlStr.Substring(begin, end - begin);
   pattern = @".*?)"".*/>";
   picName = WebHandler.GetRegexText(subPicHtml, pattern);
 }
 //提取价格
 if (sourceWebID != "")
 {
   string priceUrl = @"http://p.3.cn/prices/get?skuid=J_" + sourceWebID + "&type=1";
   string priceJson = WebHandler.GetHtmlStr(priceUrl, "Default");
   pattern = @"""p"":""(?d+(.d{1,2})?)""";
   price = WebHandler.GetValidPrice(WebHandler.GetRegexText(priceJson, pattern));
 }
 Console.WriteLine("商品名称:{0}", title);
 Console.WriteLine("图片:{0}", picName);
 Console.WriteLine("价格:{0}", price);
      }
    }
  }
}



2、创建WebHandler.cs公共方法类

/// 
/// 公共方法类
/// 
public class WebHandler
{
  /// 
  /// 获取网页的HTML码
  /// 
  /// 链接地址
  /// 编码类型
  /// 
  public static string GetHtmlStr(string url, string encoding)
  {
    string htmlStr = "";
    try
    {
      if (!String.IsNullOrEmpty(url))
      {
 WebRequest request = WebRequest.Create(url); //实例化WebRequest对象
 WebResponse response = request.GetResponse(); //创建WebResponse对象
 Stream datastream = response.GetResponseStream(); //创建流对象
 Encoding ec = Encoding.Default;
 if (encoding == "UTF8")
 {
   ec = Encoding.UTF8;
 }
 else if (encoding == "Default")
 {
   ec = Encoding.Default;
 }
 StreamReader reader = new StreamReader(datastream, ec);
 htmlStr = reader.ReadToEnd(); //读取数据
 reader.Close();
 datastream.Close();
 response.Close();
      }
    }
    catch { }
    return htmlStr;
  }
  /// 
  /// 获取正则表达式中的关键字
  /// 
  /// 文本
  /// 表达式
  /// 
  public static string GetRegexText(string input, string pattern)
  {
    string result = "";
    if (!String.IsNullOrEmpty(input) && !String.IsNullOrEmpty(pattern))
    {
      Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
      Match match = regex.Match(input);
      if (match.Success)
      {
 result = match.Groups["Object"].Value;
      }
    }
    return result;
  }
  /// 
  /// 返回有效价格
  /// 
  /// 
  /// 
  public static decimal GetValidPrice(string strPrice)
  {
    decimal price = 0;
    try
    {
      if (!String.IsNullOrEmpty(strPrice))
      {
 Regex regex = new Regex(@"^d+(.d{1,2})?$", RegexOptions.IgnoreCase);
 Match match = regex.Match(strPrice);
 if (match.Success)
 {
   price = decimal.Parse(strPrice);
 }
      }
    }
    catch { }
    return price;
  }
}

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

Javascript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

更多关于C#相关内容感兴趣的读者可查看本站专题:《C#正则表达式用法总结》、《C#编码操作技巧总结》、《C#中XML文件操作技巧汇总》、《C#常见控件用法教程》、《WinForm控件用法总结》、《C#数据结构与算法教程》、《C#面向对象程序设计入门教程》及《C#程序设计之线程使用技巧总结》

希望本文所述对大家C#程序设计有所帮助。

转载请注明:文章转载自 www.mshxw.com
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号