大数据是一个描述大量高速,复杂和可变数据的术语,需要先进的技术来实现信息的捕获,存储,分发,管理和分析。大数据包含四个特性(4v),体量(Volume)、速度(Velocity)、多样性(Variety)、真实性(Variety)。
体量(Volume):数据每天源源不断地从不同的数据源产出,比如社交平台、用户日志、运营商日志等数据。速度(Velocity):数据生成,分析,移动的速度。多样性(Variety):数据来自于不同的数据源的多种格式,通过组合的方式让数据形成有意义的输出。真实性(Variety):真实性定义了数据的输入和输出正确性,数据的输入保证数据尽可能的完整,也可以是一个可接受的误差精度的输入,数据输出,通过对数据进行加工处理,分析得到的高精度的估算结果,而非100%正确的值。 二、什么是Hadoop?
Apache Hadoop 是一个可靠的,可伸缩的,开源的分布式计算软件。Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。本身的设计目的是在应用层检测和处理故障,而不是依赖硬件来提供高可用性,因此在计算机集群之上提供高可用性服务。 三、OLAP和OLTP的区别
联机分析处理 OLAP(On-LineAnalytical Processing):是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
联机事务处理 OLTP((on-line transaction processing):P是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
四、Hadoop Architecture(hadoop架构) Hadoop Common: (Hadoop公共框架):Common Utilities that supports all other modules. (支持所有其他模块的Common Utilities) Hadoop Distributed File System (HDFS):
File system that spans all the nodes in a Hadoop cluster for data storage. – links the file systems on local nodes to make them into one big file system. (跨越Hadoop集群中所有节点以进行数据 存储的文件系统,链接本地节点上的文件系统,使它们成为一个大文件系统) Hadoop MapReduce:
Core computing framework available since Hadoop 1.x (自Hadoop 1.x以来可用的核心计算框 架)1.x版本的mapreudce需要负责处理业务逻辑,还要负责资源管理和任务调度 Hadoop YARN: (资源管理器):
New distributed processing framework on Hadoop 2.x. (Hadoop 2.x上的新分布式处理框架)Addresses multiple limitations of MR 1.0 (解决了MR 1.0的多种限制)2.x资源管理和任务调度由YARN来管理hadoop2.x版本出现了新的应用模型Tez Hadoop Ecosystem: (hadoop生态圈):
Open-source Apache projects (开源的Apache项目集合) 纠错码技术
纠删码技术(Erasure coding)简称EC,是一种编码容错技术。最早用于通信行业,数据传输中的数 据恢复。它通过对数据进行分块,然后计算出校验数据,使得各个部分的数据产生关联性。当一部分数 据块丢失时,可以通过剩余R的数据块和校验块计算出丢失的数据块。 五、HDFS
NameNode (NN)
Manages the File System's namespace/meta-data/file blocks (管理文件系统命名空间/元数据/文 件块)Runs on 1 machine to several machines (在一台机器上运行到几台机器)
Secondary NameNode (SNN)(了解)
Performs house keeping work so NameNode doesn’t (执行备份工作,因此NameNode不会)Requires similar hardware as NameNode machine (需要与NameNode机器类似的硬件)Not used for high-availability – not a backup for NameNode (不用于高可用性 - 不是NameNode的 备份)
DataNode (DN)
Stores and retrieves data blocks (存储和处理数据)Reports to NameNode (报告给NameNode)Runs on many machines (在许多机器上运行) 六、HDFS组件(Hadoop (HDFS) Components 组件)
Client
User/App interface to interact with cluster, DN (用户/应用程序界面与群集,DN进行交互)
Namespace
Files/Directories - Same to the regular file systems split into blocks (文件/目录 - 与拆分为块的 常规文件系统相同)
Blocks
Default: 64M (v1); 128M (v2)Blocks meta data kept in NN – Small files issue (阻止在NN中保存的元数据 - 小文件问题)
Block Storage:
Replications
Default 3 and rebalanced for new added nodes (默认值为3,并为新添加的节点重新 平衡)1st replica on the local. 2nd on the local but different node. 3rd on the different rack(当 地的第一个复制品。 在本地但不同的节点上排名第二。 第三个在不同的机架上) 七、Hadoop High Availability 高可用性
HDFS联合通过在多个分隔的NameNode上对文件系统命名空间进行分区。
Active and Standby NNs share the storage for edit logs; (共享存储以进行编辑日志)



