栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

再度学习大数据技术与应用(厦门大学林子雨)

再度学习大数据技术与应用(厦门大学林子雨)

再度学习大数据技术与应用(厦门大学林子雨) 4V概念

大数据 -结构化数据与非结构化数据组成

  1. 数据量大
  2. 处理速度快 (秒级决策)
  3. 价值密度低 商业价值高
大数据概念和影响

以数据为驱动去发现和解决问题,颠覆传统的方式
全样非抽样
精度非效率
相关非因果

大数据的应用

纸牌屋的拍成电视剧-大数据应用
谷歌的预测流感

大数据的关键技术

1.数据存储
分布式存储
google 技术

2.数据处理
分布式处理
不同的需要:

批处理
   mapreduce / spark
实时计算

流计算(实时) S4

图计算
   Pregel Graphx
交互式计算 (查询计算)

google Dremel hive

大数据与云计算
 **虚拟化与按需服务**
 公有云
 私有云
 混合云
 **三个层次:**
 Iaas Paas Saas
二大数据处理架构 hadoop

apache 项目
使用java语言开发的
两大核心 源于谷歌提供的技术
HDFS + Mapreduce
高可靠性
高效性 集群
高扩展性
高容错性
成本低
High performance computing

数据分析 实时查询 数据挖掘

2.2 hadoop 项目结构

  1. HDFS 分布式文件存储

  2. YARN 资源管理和调

  3. MapReduce 离线处理

  4. Tez (DAG 有向图计算, 运行在yarn上面,查询处理框架)

  5. sprk 在内存中进行计算加快数据读取计算速度

  6. Hive 数据仓库 用于企业决策分析 大量历史数据
    将SQL语句转化为Mapreduce作业

  7. pig 流数据处理

    pig 简化处理使用一条语句代替多条mapreduce语句

  8. Oozie 作业流调度系统

  1. Zookeeper 分布式协调服务

    分布式锁
    集群管理

  2. Hbase Hadoop上非关系型分布式数据库

  3. Flume 日志收集分析

  4. Sqoop 用于在Hadoop与传统数据库之间进行数据传输

  5. Ambari 部署工具

2.3 Linux与Hadoop的安装


workstation 12(以上版本) + unbantu 16.04-destop-am 版本(用高的版本极大概率会出现 mysql等诸多软件版本不兼容的情况,太多报错问题,不要问我为什么知道)
workstation教程自己百度

从优麒麟传送门网址官网上找到16.04的版本

下载完成后使用workstation开始创建新的虚拟机

  1. 创建典型就可以

  2. 使用光盘映像文件 ubantukylin-16.4版本(图片版本请忽略)

  3. 设置名字账号密码相关内容

  4. 虚拟机名称

  5. 设置大小 建议为40或者更大, 设置为单个文件方便删除

  6. 完成安装,安装虚拟机,确认硬件相关,优麒麟相关的内容耗费时间比较长。

2.3.2接Hadoop安装

安装hadoop3.1.3步骤传送门

2.4 Hadoop集群的部署和使用

为了照顾作业完成部署集群

集群硬件配置 NameNode 与 DataNode
NameNode相当于目录
datanode 存储数据

MapReduce作业
jobTracker 对整个作业拆分处理多个小作业然后协调处理
taskTracker部署在不同的机器上 对小作业,对于JobTracker布置的小作业进行跟踪和执行


Secondary冷备份

大部分机器是 Datanode与 TaskTracker进行数据处理,需要配置如下

NameNode 总管家 管理各种元数据并提供服务,很多数据保存在内存中。

所需要的配置更高

Hadoop集群工作状态
集群的搭建原则

集群的网络拓扑
机架之间连接, 机架之间连接

在云平台上部署服务

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/327170.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号