栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

IronPython和BeautifulSoup,win32应用程序

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

IronPython和BeautifulSoup,win32应用程序

我一直在问自己同样的问题,在努力遵循这里和其他地方的建议以使IronPython和BeautifulSoup与我现有的代码很好地配合使用后,我决定寻找替代的本机.NET解决方案。BeautifulSoup是一段很棒的代码,起初它看起来似乎没有可与.NET相提并论的东西,但是后来我找到了HTML
Agility
Pack,

并且我认为我确实比BeautifulSoup获得了一些可维护性。它采用干净或简洁的HTML,并从中生成优雅的XML
DOM,可以通过XPath查询。使用几行代码,您甚至可以取回原始Xdocument,然后在LINQ to
XML中编写查询。老实说,如果您要进行网络抓取,那么这就是您可能会找到的最干净的解决方案。

编辑

这是一个简单的示例(阅读:一点也不鲁棒),它解析了美国众议院的假期时间表:

using System;using System.Collections.Generic;using HtmlAgilityPack;namespace GovParsingTest{    class Program    {        static void Main(string[] args)        { HtmlWeb hw = new HtmlWeb(); string url = @"http://www.house.gov/house/House_Calendar.shtml"; Htmldocument doc = hw.Load(url); HtmlNode docNode = doc.documentNode; HtmlNode div = docNode.SelectSingleNode("//div[@id='primary']"); HtmlNodeCollection tableRows = div.SelectNodes(".//tr"); foreach (HtmlNode row in tableRows) {     HtmlNodeCollection cells = row.SelectNodes(".//td");     HtmlNode dateNode = cells[0];     HtmlNode eventNode = cells[1];     while (eventNode.HasChildNodes)     {         eventNode = eventNode.FirstChild;     }     Console.WriteLine(dateNode.InnerText);     Console.WriteLine(eventNode.InnerText);     Console.WriteLine(); } //Console.WriteLine(div.InnerHtml); Console.ReadKey();        }    }}


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/652057.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号