- 第一章节:入门前准备
- 1.为什么学爬虫(Why?)
- 2.什么是爬虫(What?)
- 3.爬虫的来源与价值
- 企业的数据来源
- 爬虫的价值
- 4.爬虫道德(如何避免进局子)
- 5.爬虫在使用场景中的分类
- 6.爬虫机制
- 7. http/https协议
- http协议:服务器和客户端进行数据交互的一种形式
- https协议:(安全的超文本传输协议)
在数据量爆发式增长的互联网时代,网站与用户的沟通本质上是数据的交换:搜索引擎从数据库中提取搜索结果,将其展现在用户面前;这些数据如果得以分析利用,不仅能够帮助第一方企业(拥有这些数据的企业)做出更好的决策,对于第三方企业也是有益的。而网络爬虫技术,则是大数据分析领域的
2.什么是爬虫(What?)一句话概括:通过编写程序,模拟浏览器上网,让后让其去互联网上抓取数据的过程。
3.爬虫的来源与价值 企业的数据来源1、数据库(这里的数据库是泛指,有可能是文件,关系型数据库或列存储数据)里数据,包括自己的业务数据,价值密度应该最高的。
2、埋点数据,当前以友盟,百度,talkingdata等为首的web或者app埋点数据厂商,当然也可以自己开发埋点数据工具来收集数据。
3、日志数据,包括系统,应用,网络等数据,价值密度相对较小,这里也涉及到很多技术,后面公司会单独来聊聊。
4、爬虫或者外部采集数据,对,网络采集数据作为企业内部数据一个很好的补充,也是有相当价值的,这也是为什么很多公司有专门的爬虫公司一职。
1、搜索引擎公司,不得不说,谷歌百度等搜索引擎公司是最大的爬虫公司,只不过别人找到了目前截止目前信息时代数据最好的变现商业产品而已。
2、舆情分析与数据挖掘,这绝对是爬虫数据被综合利用设计后很好的实现场景之二,比如百度,谷歌,搜狗,微博等排行榜或者舆情分析产品。
3、买数据的公司,或者数据聚合的公司,比如天眼查,企查查,西瓜数据等等。
4、导购,价格监测,运营助手,或者横向数据聚合的公司等,以此为生的产品衍生的小公司就不一一列举了。
5、黑产,灰产,刷量,排行榜,搬砖等,比如前期被判刑的美剧天堂还是什么公司就是这样的,这样的个人,团伙也是不少的。
6、广告公司,比如新榜,清博数据等围绕微信,微博等社交媒体的公司。
编写爬虫程序爬取数据之前,为了避免某些有版权的数据后期带来的诸多法律问题。
1.爬虫是合法的还是违法的?
- 在法律中是不被禁止的
- 具有违法风险
- 爬虫干扰了被访问网站的正常运行
- 爬虫抓取了收到法律保护的特定类型的数据或者信息
- 善意爬虫 恶意爬虫
2.如何在编写爬虫过程中避免“入局”的局面呢?- 时常优化自己的程序,避免干扰被访问网站的正常行。
- 在使用、传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户隐私商业机密等敏感内容需要及时停止爬取或者传播。
可以通过查看网站的robots.txt文件来避免爬取某些网页。
- 通用爬虫:
抓取系统重要组成部分。抓取的是一整张页面数据。 - 聚焦爬虫
是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。 - 增量式爬虫:
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据
- 反爬机制:门户网站,可以通过指定相应的策略或者技术手段。防止爬虫程序进行网站数据的爬取
- 反反爬机制:爬虫程序可以制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网页。
- robots.txt协议:
规定了网站中哪些数据可以被爬取那些不可以被爬取。
- 常用请求头信息:
- User-Agent:请求载体的身份标识
- Connection:请求完毕后,是断开连接还是保持连接
- 常用的响应头信息:
- Content-Type:服务器响应回客户端的数据类型。
- 加密方式:(知道即可)
- 对称密钥加密
- 非对称密钥加密
- 证书密钥加密(常用)



