关于虚拟机_大数据系统

Vm虚拟机想要在windows电脑上操作linux操作系统需要安装这个软件
CentOS 是linux操作系统
配置
linux里面创建文件夹
1.在/opt文件下分贝=别创建两个文件夹（software和module）
注.Software里面存放我们解压前的文件
Module里面存放我们解压后的文件

2.解压jdk到module文件夹里命令：tar
（1）需要切换到software文件夹下
命令：cd /opt/software
（2）解压文件
tar -zxvf （文件名） -C /etc/profile
4.配置JDK的环境变量
（1）命令输入：vi /etc/profile
<%--comment--%>注释
多行注释<%>
单行注释<%//注释语句%>
HTML注释时间的显示 <%@ include file="文件名" %>

2021年10月13日星期三，课堂笔记
一、本地模式
hadoop去操作
目标1：利用本地hadoop实现单词个数的统计
（1）需要包含内容的文件（统计单词个数的文件）
（2）在hadoop中执行文件（3）查看执行结果。
二.、伪分布部署
命令：hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordocunt(操作) /opt/text/input/(操作那个文件) /opt/text/output/count.txt（执行后的结果存放位置）删除文件夹的命令：rm-R 目录名称
移动的命令
1.安装虚拟机，镜像（CentOS）
2.修改主机名，ip地址
3、ip地址和主机名映射
4、网络配置{1、虚拟机 2、windows}
5、moba 安装连接
6、安装hadoop 、jdk
7、配置环境变量
8、hadoop布置{1、本地布置 2、伪分布式， 3、安全分布式}

伪分布式布署：
课堂预习：
core-site-xml
hafs-site.xml
这节课：yarn-site.xml
mapred -site.xml
#jps
7340 jps
#hdfs --daemon start namenode (yps 查看进程）
#jps
7393 NameNode
7458 Jps
#hdfs --daemon start datanode
# jps
7393 NameNode
7572 Jps
7512
DataNode
#cd / opt/module/hadoop -3.1.3/etc/hadoop/
#pwd pwd(查看当前所在位置)
/opt/module/hadoop -3.1.3/etc/hadoop/
#ll
# vi yarn -site.xml

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.resourcemanager.hostname
*调整的内容是你的是100就是多少hadoop100

yarn.nodemanager.env-whitelist JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

退出
#vi mapred -site.xml

mapreduce.framework.name
yarn

退出
#yarn --daemon start resourcemanager
#jps
7393 NameNode
7636 ResourceManager
7512 DataNode
7854 Jps cd . . 返回上一层
ll 查看文件
cd logs 切换到logs文件里面
cat 查看文件内容删除文件 rm -r

上课笔记
HDFS是进行存储的，YARN是进行调度的。
1.切换到hadoop下面的etc（配置文件都在etc下面）
2.在hadoop中配置core-site.xml
Vi core-site.xml
指定HDFS中namenode的地址。将命令放到configuration标签中

fs.defaultFS
hdfs://hadoop100:9820

hadoop.tmp.dir
/opt/module/hadoop-3.1.3/data/tmp

3.在hadoop中配置hdfs-site.xml
命令：vi hdfs-site.xml
在configuration中指定HDFS的数量

dfs.replication
1

4.格式化NameNode（第一次启动时格式化，以后就不要总格式化）
格式化命令：hdfs namenode –format
5.启动namenode
命令：hdfs - -daemon start namenode
6.启动datanode
命令：hdfs --daemon start datanode
7.配置yarn-site.xml
命令：vi yarn-site.xml

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.resourcemanager.hostname
hadoop100

yarn.nodemanager.env-whitelist JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

8.配置mapred-site.xml
命令：[root@hadoop100 hadoop]# vi mapred-site.xml

mapreduce.framework.name
yarn

9.启动resourcemanager
命令：[root@hadoop100 hadoop]# yarn --daemon start resourcemanager
10.启动nodemanager
命令：[root@hadoop100 hadoop]# yarn --daemon start nodemanager
11.Jsp查看java进程
命令：jsp
12.在HDFS中创建文件夹/user/input
命令：hdfs dfs -mkdir -p /user/input
13.将文件上传到HDFS
命令：hdfs dfs –put 要上传的文件名上传的地址
案例: hdfs dfs -put wcinput/wc.input /user/input/
14.查看hdfs的文件目录
命令：Hdfs dfs –ls 文件路径
注意，这里面的根目录不是linux的根目录
案例：hdfs dfs -ls /user/input/
15.查看hdfs中文件内容
命令：hdfs dfs –cat 文件名
案例：hdfs dfs -cat /user/input/wc.input
16.执行文件
命令：hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount 执行的文件位置输出的文件位置
案例：hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /user/input /user/output 17.查看执行后的结果
命令：hdfs dfs -cat 输出文件路径/*
案例：hdfs dfs -cat /user/output/*
18.停止进程 hdfs –daemon stop namenode
Hdfs维护了一个抽象的目录命令：hdfs dfs -mkdir -p（可写可不写）目录名
将文件上传到hdfs上，命令hdfs dfs -put 上传的文件路径从头到尾的目录
要上传到hdfs的位置
完全分布式平台搭建
1； 3台虚拟机
2；jdk hadoop已搭建

一；集群配置
克隆完，设ip，设主机名主机名修改： ip修改：（自己填）
hadoop100 hadoop101 hadoop102
HDFS: nomenode datawode datanode second datanade
YARN: nodemarager res nodemanager

1 vi hadoop-env.sh 2.vi core-site.xml

就【
fs.defaultFS
hdfs://hadoop100:9820

hadoop.data.dir
/opt/module/hadoop-3.1.3/data

1.相对路径（相对于当前路径）
（cd ./sbin/）
2.绝对路径（从根目录开始）
log（日志文件）
share（编程）做一些脚本
ll（读取文件夹）
启动文件：（vi start-dfs.sh）进入后台
加上下面这些：
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
然后：wq！退出
（vi stop-dfs.sh）进入后台
加上下面这些
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
然后：wq！退出
（vi start-yarn.sh）进入后台
加上下面这些
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
然后：wq！退出
（vi start-yarn.sh）加上后台
加上下面这些
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
然后退出
# cd /opt/module/hadoop-3.1.3/etc/hadoop
# vi workers 查看主机名
#scp -r /workers hadoop101:/opt/module/hadoop-3.1.3/etc/hadoop/
会出来一个workers
#按上键把hadoop101改成hadoop102就可以了
还是会出来一个workers
# scp -r /opt/module/hadoop-3.1.3/sbin/ hadoop101:/opt/module/hadoop-3.1.3/
全部成功是所有的都是100%
#cd. . （返回上一层）
#cd. .
#LL
#rm -rf data
删除:rm
rm -rf 文件名：删除文件

在/opt/software下

将apche-hive拖拽到/opt/saftware下
将其解压到/opt/moudle中
解压方式：tar:-zxvf/opt/software/apache-hive-3.1.2-bin.tar.gz -C /opt/moudle/
# cd /opt/moudle/spache-hive-3.1.2-bin/conf/
# vi hive-site.xml

javax.jdo.option.ConnectionURL
jdbc:mysql://192.168.1.5(本机的ip地址):3306/hive?useSSL=fals
e&characterEncoding=utf8&serverTimezone=UTC

javax.jdo.option.ConnectionDriverName
com.mysql.cj.jdbc.Driver

javax.jdo.option.ConnectionUserName
root

javax.jdo.option.ConnectionPassword
520999hy

hive.metastore.schema.verification
false

hive.metastore.event.db.notification.api.auth
false

hive.metastore.uris
thrift://localhost:9083

hive.server2.thrift.bind.host
localhost

hive.server2.thrift.port
10000

hive.cli.print.header
true

hive.cli.print.current.db
true


然后:wq退出保存

在魔霸里面搜索/opt/module/apache-hive-3.1.2-bin/lib里面加上微信上的文件
#cd /opt/moudle/spache-hive-3.1.2-bin/lib
#ls /opt/moudle/apache-live-3.1.2-bin/lib/ | grep mysql
# cp /opt/moudle/hadoop-3.1.3/share/hadoop/common/lib/guava-27.0-jre.jar /opt/module/apache=hive-3.1.2-bin/lib/
#ls /opt/moudle/apache-live-3.1.2-bin/lib/ | grep guava
# /opt/moudle/apache-hive-3.1.2-bin/
# bin/schematiil -dbType mysql -initSchema
# ls /opt/moudle/apache-live-3.1.2-bin/lib/ | grep guava
# rm -rf guava-19.0.jar
11月16号
把今天下载的虚拟机文件传到/opt/software文件中
接着以下的代码
#cd /opt/module/
#ll
#tar -xf /opt/software/mysql-5..7.36-1.el7.x86_64.rpm-bundle.tar -C /opt/module/mysql/
#cd mysql/
#ll
#rpm -ivf mysql-common-5.7.36-1.el7.x86_64.rpm
#yum install -y libaio
#sudo rpm -ivh --nodeps mysql-common-5.7.36-1.el7.x86_64.rpm
#sudo rpm -ivh --nodeps mysql-community-libs-5.7.36-1.el7.x86_64.rpm
#sudo rpm -ivh --nodeps mysql-community-libs-compat-5.7.36-1.el7.x86_64.rpm
#sudo rpm -ivh --nodeps mysql-community-client-5.7.36-1.el7.x86_64.rpm
#sudo rpm -ivh --nodeps mysql-community-server-5.7.36-1.el7.x86_64.rpm
#cd /etc(切换到根目录下的etc下面)
#cat my_cnf
#cd /var/lib/mysql
#rpm -qa|grep mariadb
#sudo rpm ivi --nodeps mysql

11月18号笔记：
#mysql -uroot -p123456 (登录mysql的命令密码：123456）
然后回车
在末尾处加：show databases 然后回车
在末尾处加上 mysql> create database hive
在输入 show databasses
输入exit 退出mysql
# cd /opt/moudle/
#cd apache-hive-3.1.2-bin/conf
#ll
#vi hive-site.xml
里面有一个ip地址改成：192.168.1.100
退出
#vi /etc/profile
到最后一行添加
export HIVE_HOME=/opt/moudle/apache-hive-3.1.2-bin
export PATH=$PATH:$HADOOP_HOME/sbin:$HIVE_HOME/bin
# source /etc/profile
# cd ..
#cd bin
# vi hive-canfig.sh
新增加内容：export JAVA_HOME=/opt/moudle/jdk1.8.0_212
export HIVE_HOME=/opt/moudle/apache-hive-3.1.2-bin
export HADOOP_HOME=/opt/moudle/apache-hive-3.1.3
export HIVE_CONF_DIR=/opt/moudle/apache-hive-3.1.1-bin/conf
#sourse /etc/profile

11月13号
#mysql #jps
在101上 #jsp
#start-yarn.sh
#jsp

转到102上
#hdfs
show databases
11月25号
把apche-zookeeper
安装部署到
/opt/sofwove
#cd /opt/moufle/
#cd..
#ll
#tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz -C /opt/moudle/
#cd /opt/software/apache-zookeeper-3.5.7-bin/conf/
#mkdir data
#mkdir log
#cd conf
# ll
#cp zoo_sample,cfg zoo.cfg
# vi zoo.cfg
11月28号
# 把今天的文件下载
然后拉到/opt/softwove
中
然后解压到moudle
#cd/opt/software/
#tar -zxvf hbase-2.2.0-bin.tar.gz -C /opt/moudle/
# vi /etc/profile
export Hbase_HOME=/opt/module/hbase-2.2.0
export PATH=$PATH:$Hbase_HOME/bin
退出
#source /etc/profile
#cd /opt/moudle/hbase-2.2.0/conf
#ll
#vi hbase-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_212/
export Hbase_MANAGES_ZK=false

关于虚拟机

在/opt/software下

大数据系统相关栏目本月热门文章