根据全国职业院校技能大赛2022年大数据技术与应用规程整理大数据平台搭建部分,如果有错误指出请提出改正,谢谢
资料赛程文件
链接:https://pan.baidu.com/s/1TAygWqDkYOW9TDn-3HnHzA
提取码:yikm
ubantu镜像
链接:https://pan.baidu.com/s/14A2gsG857p8PO3NpiOcEnQ
提取码:yikm
平台搭建组件包
链接:https://pan.baidu.com/s/1vNBF0JTKo2g5IpweyyM9Cw
提取码:yikm
竞赛内容
竞赛软件环境
技能要求依据大数据平台的技术特点独立解压、安装、配置。对不同的组件 4 进行文件参数配置,日志查看、状态查看、服务启动、组件部署等。
赛题及解析大数据平台搭建(容器环境)
环境说明服务端登录地址详见各模块服务端说明。
补充说明:宿主机可通过Asbru工具或SSH客户端进行SSH访问;
相关软件安装包在宿主机的/opt目录下,请选择对应的安装包进行 安装,用不到的可忽略;
所有模块中应用命令必须采用绝对路径;
从本地仓库中拉取镜像,并启动3个容器
进入Master节点的方式为
docker exec –it master /bin/bash
进入Slave1节点的方式为
docker exec –it slave1 /bin/bash
进入Slave2节点的方式为
docker exec –it slave2 /bin/bash
同时将/opt目录下的所有安装包移动到3个容器节点中。
任务一:Hadoop 完全分布式安装配置本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境。命令 中要求使用绝对路径,具体要求如下:
1. 将Master节点JDK安装包解压并移动到/usr/java路径(若路径不存在,则需新 建),将命令复制并粘贴至对应报告中;
2. 修改/root/profile文件,设置JDK环境变量,配置完毕后在Master节点分别执 行“java”和“javac”命令,将命令行执行结果分别截图并粘贴至对应报告中;
3. 请完成host相关配置,将三个节点分别命名为master、slave1、slave2,并做 免密登录,使用绝对路径从master复制JDK解压后的安装文件到slave1、slave2 节点,并配置相关环境变量,将全部复制命令复制并粘贴至对应报告中;
4. 在Master将Hadoop解压到/opt目录下,并将解压包分发至slave1.slave2中,配 33 置好相关环境,初始化Hadoop环境namenode,将初始化命令及初始化结果复制 粘贴至对应报告中;
5. 启动hadoop集群,查看master节点jps进程,将查看结果复制粘贴至对应报告中。
任务二:Spark on Yarn安装配置本环节需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境, 具体要求如下:
1. 将scala包解压到/usr/路径,配置环境变量使其生效,将完整命令复制粘贴至 对应报告中(若已安装,则可跳过);
2. 配置/root/profile文件,设置Spark环境变量,并使环境变量生效将环境变量 配置内容复制粘贴至对应报告中;
3. 完 成 on yarn 相 关 配 置 , 使 用 spark on yarn 的 模 式 提 交 $SPARK_HOME/examples/jars/spark-examples_2.11-2.1.1.jar 运行的主类为 org.apache.spark.examples.SparkPi,将运行结果粘贴至对应报告中。
任务三:Flink on Yarn安装配置本环节需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境, 具体要求如下:
1. 将Flink包解压到路径/opt目录下,将完整命令复制粘贴至对应报告中;
2. 修改/root/profile文件,设置Flink环境变量,并使环境变量生效将环境变量 配置内容复制粘贴至对应报告中;
3. 开启Hadoop集群,在yarn上以per job模式(即Job分离模式,不采用Session模 式)运行 $Flink_HOME/examples/batch/WordCount.jar,将运行结果最后10行 复制粘贴至对应报告中。 示例 : flink run -m yarn-cluster -p 2 -yjm 2G -ytm 2G $Flink_HOME/examples/batch/WordCount.jar



