栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

Node.js上的HTML解析器

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Node.js上的HTML解析器

如果要构建DOM,可以使用jsdom。

还有cheerio,它具有jQuery接口,并且比旧版本的jsdom快很多,尽管如今它们的性能相似。

您可能想看一下htmlparser2,它是一个流解析器,根据它的基准,它似乎比其他解析器快,并且默认情况下没有DOM。它也可以生成DOM,因为它还与创建DOM的处理程序捆绑在一起。这是cheerio使用的解析器。

parse5看起来也不错。它相当活跃(自此更新以来的最后一次提交以来,是11天),符合WHATWG,并且在jsdom,Angular和Polymer中使用。

如果要解析HTML以进行Web抓取,则可以使用YQL 1。有一个节点模块。如果您的HTML来自静态网站,我认为YQL是最好的解决方案,因为您依赖的是服务而不是自己的代码和处理能力。尽管请注意,如果网站的robot.txt禁止该页面,则该按钮将无法使用,但YQL不能使用该页面。

如果您要抓取的网站是动态的,那么您应该使用无头浏览器,例如phantomjs。也看看casperjs,如果你正在考虑phantomjs。您可以使用SpookyJS从node控制casperjs。

在phantomjs旁边有zombiejs。与无法嵌入到nodejs中的phantomjs不同,zombiejs只是一个节点模块。

后一种解决方案有一个nettuts + turtural。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/670560.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号