C#正则表达式匹配HTML中的图片路径，图片地址代码

一般来说一个 HTML 文档有很多标签，比如“”、“”、“”等，想把文档中的 img 标签提取出来并不是一件容易的事。由于 img 标签样式变化多端，使提取的时候用程序寻找并不容易。于是想要寻找它们就必须写一个非常健全的正则表达式，不然有可能会找得不全，或者找出来的不是正确的 img 标签。
我们可以从 HTML 标签的格式去想应该怎么建这个正则表达式。首先要想一下 img 标签有几种写法，忽略大小写不看的话，下面列出 img 标签可能出现的几种情况。

这一些标签不用考虑，因为没有图片资源地址。

这一些标签都有图片资源地址，另外还有一个特点就是有引号对，可能为单引号，也可能为双引号。因为不需要同时匹配引号对，所以正则表达式可以这么写：@"]*)s*/?s*>"

因为 img 和 src 之间可能会有其他的参数，所以“”这样的符号，所以要改写前面的正则表达式：@"]*?bsrcs*=s*[""']?s*(?[^s""'<>]*)[^<>]*?/?s*>"
/images/pic.jpg" />
像这种可能会用回车符折行的问题有时候会出现，所以在有空格分开的地方要包含回车换行和 TAB 字符，另外在图片地址中不能出现空格、TAB、回车和换行字符。所以上面的正则表达式可以改成：@"]*?bsrc[strn]*=[strn]*[""']?[str n]*(?[^strn""'<>]*)[^<>]*?/?[strn]*>"
下面写出取得HTML中所有图片地址的静态方法。

复制代码代码如下:
///

/// 取得HTML中所有图片的 URL。
///

         /// HTML代码         /// 图片的URL列表         public static string[] GetHtmlImageUrlList(string sHtmlText)
        {
            // 定义正则表达式用来匹配 img 标签             Regex regImg = new Regex(@"]*?bsrc[strn]*=[strn]*[""']?[strn]*(?[^strn""'<>]*)[^<>]*?/?[strn]*>", RegexOptions.IgnoreCase);

// 搜索匹配的字符串 MatchCollection matches = regImg.Matches(sHtmlText);

int i = 0;
string[] sUrlList = new string[matches.Count];

// 取得匹配项列表 foreach (Match match in matches)
sUrlList[i++] = match.Groups["imgUrl"].Value;

return sUrlList;
}

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/126784.html

上一篇字符串内存驻留机制详解示例

下一篇 c#操作xml帮助类分享(xml增删改查)

C#教程相关栏目本月热门文章

关于我们文章归档网站地图联系我们