栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据中的各个组件

大数据中的各个组件

数据产生是数据平台的源头,没有数据就没有大数据平台(数据产生传输处理) 数据的产生:

一.数据产生的来源分为以下几种:

1.业务系统:来自企业IT系统存储在数据库的数据
eg:POS销售系统、EPR系统、CRM系统

2.Web系统:日志文件
eg:访问了哪些网页、点击了哪些按钮、停留了多长时间

3.手机App:传感器
eg:指纹识别、人脸识别、位置、WIFI

4.外部系统:爬虫数据或外部购买
eg:舆情数据
二.数据按照结构分为以下几种:
1.结构化数据:格式非常规范,比较容易处理
eg:数据库

2.半结构数据:格式比较规范,处理稍微麻烦和繁琐
eg:日志文件,XML/JSON

3.非结构化数据:没有格式,无法直接处理
eg:图片,语音,视频

数据的采集传输

1.离线(时间跨度数十分钟到数十小时)
Sqoop 同步 MySQL 数据
DataX 同步 Mongo 数据
2.实时(时间跨度数百毫秒到数秒)
Flume 采集 Web 的日志
Canal 采集 MySQL 的 binlog

数据的存储处理

存储、管理和分析数据
1.分布式文件存储系统(存储和管理存储任意数据)
HDFS
2.数据仓库(存储和管理结构化数据或者半结构化数据)
Hive
3.分布式数据库(存储和管理存储结构化数据)
Hbase

存储:HDFS、Hbase
处理:MapReduce、Hive

数据应用

数据发挥价值的环节
报表展示,数据挖掘,机器学习等

从业方面:

数据平台开发、运维工程师
数据平台的研发、部署和维护

数据分析工程师
使用数据平台进行数据分析

算法工程师
数据分析算法的研发和调整

业务员
数据分析平台的产出使用者
等等。。。。。。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/467351.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号