栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据技术要点归纳

大数据技术要点归纳

大数据技术原理与应用

  1. 大数据的4V特征
    数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)。

  2. HDFS 各个版本中,名称节点的数量
    1个

  3. 负责 HDFS 数据存储的程序
    数据节点(DataNode)

  4. Hbase的表索引
    行键(Row Key)

  5. Region服务器中的Store
    Region服务器是Hbase的核心模块,而Store是Region服务器的核心。
    每个Region对象由多个Store组成,每个Store对应表中的一个列族的存储。每个Store又包含一个MemStore和若干个StoreFile。
    (MemStore是内存中的缓存,保存最近更新的数据;StoreFile是磁盘中的文件,这些文件都是B树结构,方便快速读取。)

  6. 键值数据库的典型产品
    Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached

  7. NoSQL数据库的三大理论基石
    CAP(Consistency:一致性;Availability:可用性;Tolerance of Network Partition:分区容忍性)、
    base(Basically Available:基本可用;Soft-state:软状态;Eventual consistency:最终一致性)、
    最终一致性

  8. Reduce函数

函数输入输出说明
Reduce输入的中间结果中的List(value1)表示一批属于同一个key1的value

Reduce函数的任务就是输入的一系列具有相同键的键值对以某种方式组合起来。输出处理后的键值对。输出结果会合并成一个文件。用户可以指定Reduce任务的个数(如n个),并通知实现系统。然后主控进程通常会选择一个Hash函数,Map任务输出的每个键都会经过Hash函数计算,并根据哈希结果将该键值对输入相应的Reduce任务来处理。例如处理键为k的Reduce任务的输入形式为>,输出为

  1. 数据仓库产品的典型代表
    传统数据仓库:Oracle、BusinessObjects、IBM Informix、Sybase、NCR、Microsoft、SAS等。
    新型数据仓库:Hive。

  2. Hive 的特点
    可伸缩(在Hadoop的集群上动态添加设备)、可扩展、容错、输入格式的松散耦合。

  3. Impala 系统架构
    Impala和Hive、HDFS、Hbase等工具是统一部署在一个Hadoop平台上的。
    Impala主要由Impalad、State Store和CLI三部分组成。
    (Impalad:Impalad是Impala的一个进程,负责协调客户端提交的查询的执行,给其他Impalad分配任务以及收集起他Impalad的执行结果进行汇总。
    State Store:负责收集分布在集群中各个Impalad进程的资源信息,用于查询的调度。
    CLI:CLI给用户提供了执行查询的命令行工具,同时,Impala提供了Hue、JDBC及ODBC使用接口。)

  4. Spark 的特点
    运行速度快、容易使用、通用性、运行模式多样。

  5. Flink 主要特性
    批流一体化、精密的状态管理、事件时间支持以及精确一次(Exactly-once)的状态一致性保障等。

  6. 可视化的地图工具
    Google Fusion Tables、Modest Maps、Leaflet。

  7. 大数据时代新兴的技术
    医疗健康大数据集成、存储和处理技术;基于大数据的健康评估技术、基于大数据的个性化诊疗技术。

  8. 大数据计算模式
    批处理计算、流计算、图计算、查询分析计算。

  9. Hadoop 的特点
    高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux操作系统上、支持多种编程语言。

  10. HDFS 通信协议
    HDFS通信协议都是构建在TCP/IP基础之上的。客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互。名称节点和数据节点之间则使用数据节点协议进行交互。客户端与数据节点的交互通过远程过程调用来实现。在设计上,名称节点不会主动发起RPC,而是响应来自客户端和数据节点的RPC请求。

  11. Hbase 系统架构组成部分
    客户端、Zookeeper服务器、Master服务器、Region服务器。

  12. 客户端首次查询 Hbase 数据库时先查找什么
    -ROOT-表

  13. NoSQL 数据库和关系数据库的比较

比较标准RDBMSNoSQL
数据库原理完全支持部分支持
数据规模超大
数据库模式固定灵活
查询效率可以实现高效的简单查询,但是不具备高度结构化查询等特性,复杂查询等性能不尽人意
一致性强一致性弱一致性
数据完整性容易实现很难实现
扩展性一般
可用性很好
标准化
技术支持
可维护性复杂复杂
  1. MapReduce 中 Shuffle 操作的具体内容
    Map端端Shuffle过程:(1)输入数据和执行Map任务(2)写入缓存(3)溢写(分区、排序和合并)(4)文件归并
    Reduce端端Shuffle过程:(1)“领取”数据(2)归并数据(3)把数据输入给Reduce任务
  2. 典型的数据仓库产品(重复题)
  3. Hive 用户接口模块
    CLI、Hive网页接口(Hive Web Interface,HWI)、JDBC、ODBC、Thrift Server等。
  4. Impala 系统架构的组成部分
    Impala主要由Impalad、State Store和CLI三部分组成。
  5. 对 RDD 的描述
    RDD:是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。
  6. Apache 软件基金会最重要的三大分布式计算系统开源项目
    Hadoop、Spark、Storm。
  7. Flink 应用场景
    事件驱动型应用、数据分析应用、数据流水线应用。
  8. HDFS 默认块大小
    128MB
  9. 计算机集群中与存储相关的两类节点
    名称节点NameNode和数据节点DataNode
  10. Hbase 表的“四维坐标”
    【“行键”,“列族”,“列限定符”,“时间戳”】
  11. 图数据库典型产品
    Neo4J、OrientDB、InfoGrid、Infinite Graph、GraphDB
  12. CAP 的含义
    C(Consistency):一致性;
    A(Availability):可用性;
    P(Tolerance of Network Partition):分区容忍性
  13. Spark 生态系统主要组成部分
    Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习)、GraphX(图计算)。
  14. Flink 核心组件栈层次
    物理部署层、Runtime核心层、API&Libraries层。
  15. 可视化中信息图表工具
    Google Chart API、D3、Visual.ly、Tableau、大数据魔镜。
  16. 三次信息化浪潮的标志
    第一次:个人计算机
    第二次:互联网
    第三次:大数据、云计算和物联网
  17. 启动 hadoop 所有进程的命令
cd /usr/local/hadoop
./sbin/start-all.sh
  1. HDFS 名称节点功能
    名称节点记录了每个文件中各个块所在的数据节点的位置信息,但是并不持久化地存储这些信息,而是在系统每次启动时扫描所有数据节点并重构,得到这些信息。

  2. Map 函数技术细节
    Map函数的输入来自分布式文件系统的文件块,这些文件块的格式是任意的,可以是文档格式,也可以是二进制格式。文件块是一系列元素的集合,这些元素也是任意类型的,同一个元素不能跨文件块存储。Map函数将输入的元素转换成形式的键值对,键和值的类型也是任意的,其中,键没有唯一性,不能作为输出的身份标识,即使是同一输入元素,也可通过一个Map任务生成具有相同键的多个

  3. 负责 MapReduce 任务调度的进程
    JobTracker

  4. 采用多副本冗余存储的优势
    加快数据传输速度、容易检查数据错误、保证数据的可靠性。

  5. Hbase 的特性
    高可靠性、高性能、面向列、可伸缩的。

  6. 文档数据库的典型产品
    CouchDB、MongoDB、Terrastore、ThruDB、RavenDB、SisoDB、RaptorDB、CloudKit、Persevere、Jackrabbit。

  7. RDD 的技术特点和细节
    (1)高效的容错性
    (2)中间结果持久化到内存
    (3)存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化开销。

  8. 大数据关键技术中的数据采集范畴
    利用ETL工具将分布在异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘到基础;也可以;利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统等输入,进行实时处理分析。

  9. HDFS 局限性
    (1)命名空间等限制
    (2)性能的瓶颈
    (3)隔离问题
    (4)集群的可用性

  10. 云计算中的 IaaS,PaaS,SaaS
    IaaS:基础设施即服务,将基础设施(计算资源和存储)作为服务出租。
    PaaS:平台即服务,把平台作为服务出租。
    SaaS:软件即服务,把软件作为服务出租。

  11. 云计算关键技术
    虚拟化、分布式存储、分布式计算、多租户等。

  12. NoSQL 数据库的理论内容
    NoSQL是一种不同于关系数据库等数据库管理系统设计方式,是对非关系数据库等统称。它所采用的数据模型并非传统关系数据库的关系模型,而是类似键值、列族、文档等非关系模型。NoSQL数据库没有固定的表结构,通常也不存在连接操作,也没有严格遵守ACID约束。

  13. RDD 操作
    RDD提供了两类操作:
    行动(Action):count、collect
    转换(Transformation):map、filter、groupBy、join

  14. 图计算
    在实际应用中,存在许多图计算问题,如最短路径、集群、网页排名、最小切割、连通分支等。

  15. 图计算框架 Pregel 的应用
    解决单源最短路径问题和二分匹配问题。

  16. 大数据技术的"数据存储和管理"技术层面的功能
    利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理。

  17. IT 领域最新的技术发展趋势
    基于大数据的技术。

  18. Hadoop 集群中,SecondaryNameNode的功能
    首先,它可以完成EditLog与FsImage的合并操作,减小EditLog文件大小,缩短名称节点重启时间;其次,它可以作为名称节点的“检查点”,保存名称节点中的元数据信息。

  19. Hadoop 中,访问层的功能(???)

  20. 分布式文件系统的定义
    分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。

  21. 在 HDFS 中,NameNode 的主要功能
    记录每个文件中各个块所在的数据节点的信息位置。

  22. NoSQL 的四大类型
    键值数据库、列族数据库、文档数据库、图数据库。

  23. MapReduce 体系结构主要部分
    Client、JobTracker、TaskTracker、Task

  24. 在 Hbase 中的数据操作
    put:向表、行、列指定的单元格添加数据
    get:通过指定表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值
    scan:浏览表的相关信息
    delete:删除指定单元格的数据

  25. Spark 生态系统组件 MLlib 的应用场景
    基于历史数据的数据挖掘

  26. BigTable 的特性
    高可靠性、高性能、可伸缩等特性

  27. 计算机存储容量单位
    Byte(字节)、KB(千字节)、MB(兆字节)、GB(吉字节)、TB(太字节)、PB(拍字节)、EB(艾字节)、ZB(泽字节)。

  28. 大数据的发展历程

阶段时间内容
第一阶段:萌芽期20世纪90年代~21世纪初随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。
第二阶段:成熟期21世纪前10年Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始盛行
第三阶段:大规模应用期2010年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高
  1. Hadoop 的特性(重复题)
    高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux操作系统上、支持多种编程语言。
  2. 计算机集群中的节点(重复题)
    名称节点、数据节点
  3. HDFS 采用抽象的块概念带来的好处
    支持大规模文件存储、
    简化系统设计、
    适合数据备份。
  4. 键值数据库的特点
    扩展性好、灵活性好、大量写操作时性能高
  5. UMP 系统功能
    容灾、读写分离、分库分表、资源管理、资源调度、资源隔离、数据安全。
  6. MapReduce 模型的描述
    待处理等数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。
  7. 分布式并行编程的描述
    分布式并行程序可以运行在由大量计算机构成的集群上,从而可以利用集群的并行处理能力,同时通过向集群中增加新的计算节点,可以很容易地实现集群计算能力的扩充。
  8. JobTracker 的构成(???)
    JobTrack三大功能:资源管理、任务调度、任务监控
  9. 大数据产业
    大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层。
  10. FsImage 的描述
    FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。
  11. 数据库事务的 ACID 四性
    原子性、一致性、隔离性、持久性
  12. UMP 系统中的角色
    Controller服务器、Web控制台、Proxy服务器、Agent服务器、日志分析服务器、信息统计服务器、愚公系统。
  13. MapReduce 体系结构中,JobTracker 的主要任务
    JobTracker是整个MapReduce计算框架中的主服务,相当于集群的“管理者”,负责整个集群的作业控制和资源管理。
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/681473.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号