栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

2.2大数据采集技术

2.2大数据采集技术

大数据采集处于大数据生命周期的第一个环节,对于大数据分析和应用起着至关重要的作用

大数据采集是指从传感器和智能设备,以及企业系统、社交网络和互联网平台等渠道获取数据的过程。

这些数据来源广泛、种类繁多、数据量巨大且产生速度快、传统数据采用方法难以胜任,因此产生了新的数据采集方式----基于大数据的采集技术。除解决上述传统数据采集方法难以解决的问题以外,大数据采集技术还要保证数据采集的可靠性、高效性,而且要避免重复数据。

根据数据源的不同,发数据采集通常可以分为以下3类

1.系统日志采集

系统日志采集主要是收集企业业务平台日常产生的大量日志数据,以供后续离线和在线大数据分析系统使用。高可用性、高可靠性和可扩展性是日志收集系统所具有的基本特征

目前,常用的开源日志采集系统有Flume、Scribe和Kafka等。

其中,Flume是Cloudera提供的一个高可用、高可靠、分布式的日志采集、聚合和传输系统。Scribe是Facebook开源的日志收集系统,为日志的分布式收集和统一处理提供可扩展、高容错的解决方案

Kafka是Apache开源的一种高吞吐量的分布式发布订阅消息系统,使用于大流量的日志采集

2.网络技术采集

网络爬虫

3.其他数据采集

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/706460.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号