栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

python+大数据学习day4

python+大数据学习day4

HDFS HDFS(Hadoop Distributed File System ),意为: Hadoop 分布式文件系统 。 是Apache Hadoop核心组件之一,作为 大数据生态圈最底层 的分布式存储服务而存在。也可以说大数据首先要解 决的问题就是海量数据的存储问题。 HDFS主要是 解决大数据如何存储问题的。分布式意味着是HDFS是横跨在多台计算机上的存储系统。 HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错的,适应于具有大数据集的应用程序,它非 常适于存储大型数据 (比如 TB 和 PB)。 HDFS使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。 适用场景: 大文件、 数据流式访问、 一次写入多次读取、 低成本部署、廉价PC、 高容错 HDFS shell操作 hadoop fs [generic options] hadoop fs -ls file:/// # 操作本地文件系统 hadoop fs -ls hdfs://node1:8020/ # 操作 HDFS 分布式文件系统 hadoop fs -ls / # 直接根目录,没有指定协议 将加载读取 fs.defaultFS hadoop fs -mkdir [-p] ...   -p会沿着路径创建父目录 hadoop fs -ls [-h] [-R] [ ...]     -h 人性化显示文件大小   -R递归查看指定目录及其子目录 hadoop fs -put [-f] [-p] ...    -f 覆盖目标文件(已存在下)   -p 保留访问和修改时间,所有权和权限。    上传 hadoop fs -cat ...   查看hdfs文件内容,对于大文件读取要慎重 hadoop fs -get [-f] [-p] ...    -f 覆盖目标文件(已存在下)    -p 保留访问和修改时间,所有权和权限。    下载    hadoop fs -cp [-f] ...   -f覆盖     拷贝 hadoop fs -appendToFile ...     追加   小文件合并 hadoop fs -mv ...     移动    重命名  HDFS工作流程与机制 主角色:namenode: NameNode是Hadoop分布式文件系统的核心,架构中的主角色。 NameNode维护和管理文件系统元数据,包括名称空间目录树结构、文件和块的位置信息、访问权限等信息。 从角色: datanode: DataNode是Hadoop HDFS中的从角色,负责具体的数据块存储。 DataNode的数量决定了HDFS集群的整体数据存储能力。通过和NameNode配合维护着数据块 核心概念 --Pipeline 管道 核心概念 --ACK 应答响应

核心概念--默认3副本存储策略

 第一块副本:优先客户端本地,否则随机  第二块副本:不同于第一块副本的不同机架。  第三块副本:第二块副本相同机架不同机器。

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/758410.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号