python+大数据学习day3

Hadoop介绍：

狭义上Hadoop指的是Apache软件基金会的一款开源软件。用java语言实现，开源允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件： Hadoop HDFS（分布式文件存储系统）：解决海量数据存储 Hadoop YARN（集群资源管理和任务调度框架）：解决资源任务调度 Hadoop MapReduce（分布式计算框架）：解决海量数据计算

Hadoop特性优点：扩容能力强、成本低、效率高、可靠性强

Hadoop 集群整体概述： Hadoop集群包括两个集群：HDFS集群、YARN集群两个集群逻辑上分离、通常物理上在一起两个集群都是标准的主从架构集群 Hadoop集群web UI： HDFS集群： http://namenode_host:9870 其中namenode_host是namenode运行所在机器的主机名或者ip YARN集群： http://resourcemanager_host:8088 其中resourcemanager_host是resourcemanager运行所在机器的主机名或者ip shell命令操作 hadoop fs -mkdir /itcast 创建新文件 hadoop fs -put zookeeper.out /itcast 上传文件 hadoop fs -ls / 列出 hdfs文件系统根目录下的目录和文件 hadoop fs -get / 下载文件求π的值Hadoop初体验： cd /export/server/hadoop-3.3.0/share/hadoop/mapreduce 转到MP文件下 start-yarn.sh shell脚本一键启动 hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 2 2 开始执行求π 上图是运行记录的web页面分布式文件系统：文件系统定义：文件系统是一种存储和组织数据的方法，实现了数据的存储、分级组织、访问和获取等操作，使得用户对文件访问和查找变得容易；

元数据：

元数据（metadata）又称之为解释性数据，记录数据的数据；文件系统元数据一般指文件大小、最后修改时间、底层存储位置、属性、所属用户、权限等信息。分布式存储的优点：多机横向扩展：机器不够加机器，理论上无限扩展

python+大数据学习day3

大数据系统相关栏目本月热门文章