栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

python+大数据学习day3

python+大数据学习day3

Hadoop介绍:

狭义上Hadoop指的是Apache软件基金会的一款开源软件。 用java语言实现,开源 允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件: Hadoop HDFS(分布式文件存储系统):解决海量数据存储 Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度 Hadoop MapReduce(分布式计算框架):解决海量数据计算

Hadoop特性优点:扩容能力强、成本低、效率高、可靠性强

Hadoop 集群整体概述: Hadoop集群包括两个集群:HDFS集群、YARN集群 两个集群逻辑上分离、通常物理上在一起 两个集群都是标准的主从架构集群 Hadoop集群web UI: HDFS集群: http://namenode_host:9870   其中namenode_host是namenode运行所在机器的主机名或者ip YARN集群: http://resourcemanager_host:8088     其中resourcemanager_host是resourcemanager运行所在机器的主机名或者ip shell命令操作 hadoop fs -mkdir /itcast              创建新文件 hadoop fs -put zookeeper.out /itcast          上传文件 hadoop fs -ls /          列出 hdfs文件系统根目录下的目录和文件 hadoop fs -get /         下载文件 求π的值Hadoop初体验: cd /export/server/hadoop-3.3.0/share/hadoop/mapreduce 转到MP文件下 start-yarn.sh   shell脚本一键启动 hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 2 2        开始执行求π 上图是运行记录的web页面 分布式文件系统: 文件系统定义: 文件系统是一种存储和组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作,使得用户对文件访问 和查找变得容易;

元数据:

元数据(metadata)又称之为解释性数据,记录数据的数据; 文件系统元数据一般指文件大小、最后修改时间、底层存储位置、属性、所属用户、权限等信息。 分布式存储的优点: 多机横向扩展:机器不够加机器,理论上无限扩展
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/758444.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号