栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

从Ruby到Python:Crawlers [关闭]

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

从Ruby到Python:Crawlers [关闭]

主要是,您必须将“抓取器”
/抓取器(将从Web服务器下载文件/数据的python库/程序/函数)和将读取此数据并解释数据的解析器分开。就我而言,我必须抓取并获得一些“公开”的政府信息,但这些信息对下载/数据不友好。对于这个项目,我使用了scrapy
[1]。

主要是设置“ starter_urls”,即我的机器人将抓取/获取的URL,并在使用函数“解析器”检索/解析此数据之后。

对于解析/检索,您将需要一些html,lxml提取器,因为90%的数据就是这样。

现在关注您的问题:

用于数据爬网

  1. cra草
  2. 请求[2]
  3. Urllib [3]

用于解析数据

  1. Scrapy / lxml或scrapy + other
  2. lxml [4]
  3. 美丽汤[5]

并且请记住“抓取”,抓取不仅适用于网络,也适用于电子邮件。您可以在此处查看有关此问题的另一个问题[6]

[1] = http://scrapy.org/

[2] -http://docs.python-requests.org/en/latest/

[3]
-http://docs.python.org/library/urllib.html

[4] -http://lxml.de/

[5]
-http://www.crummy.com/software/BeautifulSoup/

[6]
-Python读取我的Outlook电子邮件邮箱并解析消息



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/625594.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号