栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据GP

大数据GP

目录

一、概念

二、主要解决

三、特征(4V)

四、应用场景

五、技术体系

1.数据采集

Sqoop

Flume

Kafka

2.数据存储

Hdfs

Hbase

Redis

Kafka

3.资源管理

YARN

4.通用计算

MapReduce

Spark Core

5.数据分析

Hive

Spark

Storm

Spark Streaming

6.任务调度

Azkaban

7.数据可视化

Superset


一、概念

        传统数据处理应用软件不足以处理(存储和计算)它们的大而复杂的数据集。

二、主要解决

        海量数据的存储和运算问题。

三、特征(4V)

        容量大、种类多、速度快、价值高

        1.容量(volume):数据的大小决定所考虑的数据的价值和潜在的信息

        2.种类(variety):数据类型的多样性,包括:文本、图片、视频、音频
                结构化数据:可以用二维数据库表来抽象,抽取数据规律;
                半结构化数据:介于结构化和非结构化之前,主要指XML、HTML等;
                非结构化数据:不可用二维表抽象,如:图片、图像、音频、视频等

        3.速度(velocity):指获取数据的速度以及处理数据的速度
                数据的生产呈指数式爆炸式增长;
                处理数据要求的延时越来越低

        4.价值(value):合理运用大数据,一低成本创造高价值
                综合价值大,隐含价值大;
                单条数据记录无价值,无用数据多

四、应用场景

        待补充

五、技术体系

       待补充细节

 

1.数据采集

        Sqoop

        Flume

        Kafka

2.数据存储

        Hdfs

        Hbase

        Redis         Kafka

3.资源管理

        YARN

4.通用计算

        MapReduce

        Spark Core

5.数据分析

        Hive

        Spark

        Storm

        Spark Streaming

6.任务调度

        Azkaban

7.数据可视化

        Superset

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/613204.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号