大数据平台搭建_大数据系统

一、安装前准备

1、查看防火墙状态

2、关闭防火墙

[root@slave2 ~]# systemctl status firewalld.service
● firewalld.service - firewalld - dynamic firewall daemon
   Loaded: loaded (/usr/lib/systemd/system/firewalld.service; disabled; vendor preset: enabled)
   Active: active (running) since 四 2021-09-30 23:26:22 CST; 6h left
     Docs: man:firewalld(1)
 Main PID: 6124 (firewalld)
   CGroup: /system.slice/firewalld.service
           └─6124 /usr/bin/python -Es /usr/sbin/firewalld --nofork --nopid

9月 30 23:26:21 slave2 systemd[1]: Starting firewalld - dynamic firewall daemon...
9月 30 23:26:22 slave2 systemd[1]: Started firewalld - dynamic firewall daemon.
[root@master ~]# systemctl stop firewalld.service
[root@slave2 ~]# systemctl disable firewalld.service
[root@slave2 ~]# systemctl status firewalld.service
● firewalld.service - firewalld - dynamic firewall daemon
   Loaded: loaded (/usr/lib/systemd/system/firewalld.service; disabled; vendor preset: enabled)
   Active: inactive (dead)
     Docs: man:firewalld(1)

9月 30 23:26:21 slave2 systemd[1]: Starting firewalld - dynamic firewall daemon...
9月 30 23:26:22 slave2 systemd[1]: Started firewalld - dynamic firewall daemon.
9月 30 17:24:52 slave2 systemd[1]: Stopping firewalld - dynamic firewall daemon...
9月 30 17:24:52 slave2 systemd[1]: Stopped firewalld - dynamic firewall daemon.

3、配置hosts映射

[root@master ~]# vi /etc/hosts
192.168.204.111 master
192.168.204.122 slave1
192.168.204.133 slave2

[root@master ~]# ping slave1
PING slave1 (192.168.204.122) 56(84) bytes of data.
64 bytes from slave1 (192.168.204.122): icmp_seq=1 ttl=64 time=0.397 ms
64 bytes from slave1 (192.168.204.122): icmp_seq=2 ttl=64 time=0.277 ms
[root@master ~]# ping slave2
PING slave2 (192.168.204.133) 56(84) bytes of data.
64 bytes from slave2 (192.168.204.133): icmp_seq=1 ttl=64 time=0.434 ms
64 bytes from slave2 (192.168.204.133): icmp_seq=2 ttl=64 time=0.344 ms
64 bytes from slave2 (192.168.204.133): icmp_seq=3 ttl=64 time=0.377 ms

4、ssh服务配置

1）查看ssh服务是否开启

查看当前机器是否安装了SSH服务：rpm -qa |grep ssh            
查看SSH服务是否启动:ps -e | grep sshd

2）ssh免密登录设置（分别在三台虚拟机上操作）

[root@master ~]# ssh-keygen

连续按Enter键确认。

在root目录下输入：ll-a 可以查看当前目录下的所有文件（包含隐藏文件）。

然后进入.ssh隐藏目录，输入ls 命令，如图所示：

在master节点上执行如下两行命令：

ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave2

执行时，到了红色框区域，需要输入yes

3）测试是否成功

为了测试免密设置是否成功，可执行如下命令：

ssh master
ssh slave1
ssh slave2

4）为了规范后续Hadoop集群相关软件和数据的安装配置，这里在虚拟机的根目录下建一些文件夹作为约定，具体如下：

文件夹名	作用
/export/data/	存放数据文件
/export/servers/	存放服务类文件
/export/software/	存放安装包文件

具体需要执行下面3条命令：

mkdir -p /export/data/
mkdir -p /export/servers/
mkdir -p /export/software/

进入export目录下，执行ls命令，如图所示即为成功。

一、jdk安装及配置

1、下载安装包

2、上传安装包

3、解压安装包

[root@master1 ~]# tar -zxvf jdk-8u161-linux-x64.tar.gz

4、移动到指定路径下

[root@master1 ~]# mv jdk1.8.0_161 /export/software

5、配置环境变量

[root@master1 ~]# vi /etc/profile
[root@master1 ~]# source /etc/profile

export JAVA_HOME=/export/software/jdk1.8.0_161
export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.ja
r
export PATH=$PATH:${JAVA_HOME}/bin

6、验证是否完成安装

[root@master1 ~]# java -version
java version "1.8.0_161"
Java(TM) SE Runtime Environment (build 1.8.0_161-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

二、hadoop安装及配置

1、下载安装包

2、上传安装包

3、解压安装包

[root@master ~]# tar -zxvf hadoop-2.4.1.tar.gz

4、移动到指定路径下

[root@master ~]# mv hadoop-2.4.1 /export/software/

5、配置环境变量

[root@master ~]# vi /etc/profile
[root@master ~]# source /etc/profile

export HADOOP_HOME=/export/software/hadoop-2.4.1
export PATH=$PATH:${JAVA_HOME}/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

6、验证是否完成安装

[root@master ~]# hadoop version
Hadoop 2.4.1
Subversion http://svn.apache.org/repos/asf/hadoop/common -r 1604318
Compiled by jenkins on 2014-06-21T05:43Z
Compiled with protoc 2.5.0
From source with checksum bb7ac0a3c73dc131f4844b873c74b630
This command was run using /export/software/hadoop-2.4.1/share/hadoop/common/hadoop-common-2.4.1.jar

7、hadoop集群配置

配置文件	功能描述
hadoop.env.sh	配置Hadoop运行所需的环境变量
yarn.env.sh	配置Yarn运行所需的环境变量
core-site.xml	Hadoop核心全局配置文件，可在其他配置文件中引用此该文件
hdfs-site.xml	HDFS配置文件，继承core-site.xml配置文件
mapred-site.xml	MapReduce配置文件，继承core-site.xml配置文件
yarn-site.xml	Yarn配置文件，继承core-site.xml配置文件

在表中，前2个配置文件都是用来指定Hadoop 和YARN所需运行环境，hadoop.env.sh用来保证Hadoop系统能够正常运行HDFS的守护进程NameNode、SecondaryNameNode和DataNode；而yarn.env.sh用来保证YARN的守护进程ResourceMananger和NodeManager能正常启动。
8、配置hadoop集群主节点

1）修改hadoop-env.sh和yarn.env.sh

修改hadoop-env.sh文件的27行内容为图片所示。

27 export JAVA_HOME=/export/software/jdk1.8.0_161

修改yarn.env.sh的23行如图片所示：

23 export JAVA_HOME=/export/software/jdk1.8.0_161

2）修改core-site.xml

在末尾的标签中间加入下面属性的设置：


        
                fs.defaultFS
                hdfs://master:9000
        
        
                hadoop.tmp.dir
                /export/software/hadoop-2.4.1/tmp

3）修改hdfs-site.xml

在末尾的标签中间加入下面属性的设置：


        
        
                dfs.replication
                3
        
        
        
                dfs.namenode.secondary.http-address
                slave1:50090

4）修改mapred-site.xml

在末尾的标签中间加入下面属性的设置：


   
        mapreduce.framework.name
        yarn

5）修改yarn-site.xml

在末尾的标签中间加入下面属性的设置：




        
                yarn.resourcemanager.hostname
                master
        
        
                yarn.nodemanager.aux-services
                mapreduce_shuffle

6）修改slaves文件

vi编辑slaves文件，将原有的localhost删掉，然后加入如图所示的内容

master
slave1
slave2

9、将集群主节点的配置文件分发到其他子节点

并且分别在其他节点配置环境变量

scp -r /export/software/hadoop-2.4.1 slave1:/export/software/
scp -r /export/software/hadoop-2.4.1 slave2:/export/software/

10、Hadoop集群测试

格式化文件系统

[root@master hadoop]# hadoop namenode -format

11、启动和关闭Hadoop集群

start-dfs.sh
start-yarn.sh

start-all.sh

12、通过UI查看Hadoop运行状态
Hadoop 集群正常启动后，它默认开放了50070和8088两个端口，分别用于监控HDFS集群和YARN集群。
输入网址192.168.233.131:50070,可查看HDFS管理界面，其中192.168.233.131为master的ip地址

三、zookeeper安装及配置

1.下载安装包

2.上传安装包

3.解压安装包，移动到指定位置

解压：

tar -zxvf apache-zookeeper-3.5.9-bin.tar.gz

移动到指定位置：

mv apache-zookeeper-3.5.9-bin.tar.gz /export/software/

修改名字：

mv apache-zookeeper-3.5.9-bin zookeeper-3.5.9

4.Zookeeper的相关配置

（1）配置zoo.cfg文件（进入到zookeeper目录下：bin里面是一些启动的命令，要在conf里面配置，lib可用的jar包，logs是日志文件）

[root@master software]# cd /export/software/zookeeper-3.5.9/conf/

改名：

mv zoo_sample.cfg zoo.cfg

配置：

底部输入 :set nu -------显示行号

a.设置文件目录及数据持久化路径

b.配置Zookeeper集群的服务器编号及对应的主机名、选举端口号和通信端口号

（注意此处必须与自己的虚拟机名称对应）

[root@master conf]# vi zoo.cfg

12 dataDir=/export/data/zookeeper/zkdata

29 server.1=192.168.204.111:2888:3888
30 server.2=192.168.204.112:2888:3888
31 server.3=192.168.204.113:2888:3888

c.将master里的zookeeper传给其他俩节点

[root@master zkdata]# scp -r /export/software/zookeeper-3.5.9 slave1:/export/software/
[root@master zkdata]# scp -r /export/software/zookeeper-3.5.9 slave2:/export/software/

2）创建myid文件

a.创建数据文件目录：mkdir -p /export/data/zookeeper/zkdata

[root@master conf]# mkdir -p /export/data/zookeeper/zkdata
[root@master conf]# cd /export/data/zookeeper/zkdata
[root@master zkdata]# vi myid

b.vi一个myid文件，文件内容为(slave1 为2 ，slave2 为3)

（3）配置环境变量（注意是在系统变量里）

[root@slave1 zkdata]# vi /etc/profile

export ZK_HOME=/export/software/zookeeper-3.5.9
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$ZK_HOME/bin:$PATH

传向其他俩节点

[root@master zkdata]# scp -r /etc/profile slave1:/etc/
[root@master zkdata]# scp -r /etc/profile slave2:/etc/

source /etc/profile

5.启动和关闭Zookeeper

启动Zookeeper：（分别在master、slave1、slave2里面输入）

注意：将master、slave1和slave2的Zookeeper全部开启，再分别查看Zookeeper的状态

[root@master zkdata]# zkServer.sh start

查看Zookeeper状态：

[root@master zkdata]# zkServer.sh status

master：follower

slave1：leader

slave2：follower

四、hadoop高可用集群搭建

1、修改各配置文件,所有的配置文件在/export/software/hadoop-2.4.1/etc/hadoop目录下

a.修改core-site.xml,内容如下：配置hdfs的端口和zookeeper的地址和端口

[root@master zkdata]# cd /export/software/hadoop-2.4.1/etc/hadoop
[root@master hadoop]# vi core-site.xml


        
        
                fs.defaultFS
                hdfs://cluster
        
        
                hadoop.tmp.dir
                /export/software/hadoop-2.4.1/tmp
        
        
                hadoop.native.lib
                false
        
        
        
                 ha.zookeeper.quorum
                 master:2181,slave1:2181,slave2:2181
        
        
    
        ipc.client.connect.max.retries
        100
        Indicates the number of retries a client will make to establish a server connection.
    
    
        ipc.client.connect.retry.interval
        10000
        Indicates the number of milliseconds a client will wait for before retrying to establish a server connection.

b.修改hdfs-site.xml，内容如下：

vi hdfs-site.xml


        
        
                dfs.replication
                3
        
        
        
                dfs.nameservices
                cluster
        
        
        
                dfs.ha.namenodes.cluster
                nn01,nn02
        
        
                master:9000
        
        
        
                dfs.namenode.http-address.cluster.nn01
                master:50070
        
        
        
                dfs.namenode.rpc-address.cluster.nn02
                slave1:9000
        
        
        
                dfs.namenode.http-address.cluster.nn02
        
        
                dfs.namenode.shared.edits.dir                qjournal://master:8485;slave1:8485;slave2:8485/cluster
        
        
        
                dfs.journalnode.edits.dir
                /export/data/hadoop/journaldata
        
        
        
                dfs.ha.automatic-failover.enabled
                true
        
        
        
                dfs.client.failover.proxy.provider.cluster


        
        
        
                  dfs.ha.fencing.methods
                  sshfence
                        shell(/bin/true)
                  
        
        
        
                dfs.ha.fencing.ssh.private-key-files
                /root/.ssh/id_rsa
        
        
        
                dfs.ha.fencing.ssh.connect-timeout
                30000
        
        
                dfs.name.dir
                /export/software/hadoop-2.4.1/tmp/dfs/name
        
        
                dfs.data.dir
                /export/software/hadoop-2.4.1/tmp/dfs/data
        
        
                dfs.webhdfs.enabled
                true

c.修改yarn-site.xml,内容如下：

vi yarn-site.xml


 

        
        
                yarn.resourcemanager.ha.enabled
                true
        
        
        
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
        
        
                yarn.resourcemanager.cluster-id
                yrc
        
        
        
                yarn.resourcemanager.ha.rm-ids
                rm1,rm2
        
        
        
                yarn.resourcemanager.hostname.rm1
                master
        
        
        
                yarn.resourcemanager.hostname.rm2
                slave1
        
        
        
                yarn.resourcemanager.zk-address
                master:2181,slave1:2181,slave2:2181

d.修改mapred-site.xml(该文件不存在，需要手动创建),cp mapred-site.xml.template mapred-site.xml,内容如下：


   
        mapreduce.framework.name
        yarn

e.修改slaves文件，内容如下:

master
slave1
slave2

（2）拷贝复制到其它机器（hadoop2、hadoop3）

[root@master hadoop]# scp -r /export/software/hadoop-2.4.1/etc/hadoop slave1:/export/software/hadoop-2.4.1/etc/
[root@master hadoop]# scp -r /export/software/hadoop-2.4.1/etc/hadoop slave2:/export/software/hadoop-2.4.1/etc/

（3）进入：

[root@master data]# cd /export/data/
[root@master data]# ls
hadoop  zookeeper
[root@master data]# hdfs zkfc -formatZK

ls 查看是否有zookeeper（即进行过格式化zookeeper），若没有则进行格式化zookeeper：

命令行输入： hdfs zkfc -formatZK

（3）启动Zookeeper（三台虚拟机都进行）

[root@hadoop1 data]# zkServer.sh start
[root@hadoop1 data]# zkServer.sh stop

（4）进入

[root@master data]# cd /export/data/
[root@master data]# ls
hadoop  zookeeper
[root@master data]# cd hadoop/
[root@master hadoop]# ls
journaldata
[root@master hadoop]# rm -rf journaldata/

（5）启动journalnode

[root@master hadoop]# hadoop-daemon.sh start journalnode
[root@master hadoop]# hadoop-daemon.sh stop journalnode

（6）进入

[root@master hadoop]# cd /export/software/hadoop-2.4.1/tmp/

删除文件

[root@master tmp]# rm -rf *

进入

[root@master tmp]# cd /export/software/hadoop-2.4.1/

ls 查看是否有dfs，有则进行删除：（三台虚拟机都需操作）

[root@master hadoop-2.4.1]# rm -rf dfs

（6）格式化hadoop

[root@master tmp]# hadoop namenode -format

ls 查看tmp下是否有dfs，将有dfs的tmp文件拷贝到hadoop2虚拟机上

[root@slave1 tmp]# scp -r /export/software/hadoop-2.4.1/tmp master:/export/software/hadoop-2.4.1/

（7）启动hadoop

[root@master tmp]# start-all.sh
[root@master tmp]# stop-all.sh

（8）查看每台节点的进程

五、scala安装及配置 1.启动hadoop（搭建高可用集群的一起启动）

（1）启动Zookeeper（三台虚拟机都进行）

[root@master ~]# zkServer.sh start

（2）启动journalnode（三台虚拟机都进行）

[root@master ~]# hadoop-daemon.sh start journalnode

（3）启动Hadoop

[root@master ~]# start-all.sh

2.scala的安装与配置

（1）安装包的解压（并移动到指定位置）

[root@master ~]# tar -zxvf scala-2.12.14.tgz
[root@master ~]# mv scala-2.12.14 /export/software/

2）环境变量的配置

在命令行中输入如下命令，打开profile配置文件

[root@master ~]# vi /etc/profile

export SCALA_HOME=/export/software/scala-2.12.14
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$ZK_HOME/bin:$PATH

source /etc/profile

测试scala安装 scala -version

在命令行输入scala，能进入scala命令行说明安装成功.

[root@master ~]# scala -version
Scala code runner version 2.12.14 -- Copyright 2002-2021, LAMP/EPFL and Lightbend, Inc.
[root@master ~]# scala
Welcome to Scala 2.12.14 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_161).
Type in expressions for evaluation. Or try :help.

scala> :quit

注意！：退出Scala的命令为 :quit

六、spark安装及配置 1.spark的安装与配置

和Scala的安装与配置一样，先进行解压（并移动到指定位置），然后打开profie文件配置环境变量

[root@master ~]# tar -zxvf spark-2.1.0-bin-hadoop2.4.tgz
[root@master ~]# mv spark-2.1.0-bin-hadoop2.4 /export/software/

2.配置conf/spark-env.sh 文件

进入到conf目录下会发现spark-env.sh为临时文件，须重命名为spark-env.sh
执行如下命令：

[root@master ~]# cd /export/software/spark-2.1.0-bin-hadoop2.4/conf/
[root@master conf]# ls
docker.properties.template  metrics.properties.template   spark-env.sh.template
fairscheduler.xml.template  slaves.template
log4j.properties.template   spark-defaults.conf.template
[root@master conf]# mv spark-env.sh.template spark-env.sh
[root@master conf]# vi spark-env.sh

export SCALA_HOME=/export/software/scala-2.12.14
export JAVA_HOME=/export/software/jdk1.8.0_161
export HADOOP_HOME=/export/software/hadoop-2.4.1
export HADOOP_CONF_DIR=/export/software/hadoop-2.4.1/etc/hadoop
export SPARK_WORK_MEMORY=4g
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077

配置conf/slaves 文件将节点的主机名加入到slaves文件中

[root@master conf]# mv slaves.template slaves
[root@master conf]# vi slaves

slave1
slave2

3.启动Spark集群

在启动前，将scala文件、spark文件以及etc目录下的profile文件传给slave1和slave2，并在slave1和slave2命令行中输入source /etc/profile使环境变量生效
进入spark目录下，输入如下命令：

[root@master conf]# scp -r /export/software/spark-2.1.0-bin-hadoop2.4 slave1:/export/software/
[root@master conf]# scp -r /export/software/spark-2.1.0-bin-hadoop2.4 slave2:/export/software/
[root@master conf]# scp -r /etc/profile slave1:/etc/
[root@master conf]# scp -r /etc/profile slave2:/etc/

[root@master spark-2.1.0-bin-hadoop2.4]# sbin/start-all.sh

5.配置HistoryServer
（1）默认情况下，Spark程序运行完毕后，就无法再查看运行记录的WebUI，通过HistoryServer可以提供一个服务，通过读取日志文件，使得我们可以在程序运行结束后，依然能够查看运行过程。
（2）复制spark-defaults.conf,以供修改
（3）将以下内容复制到spark-default.conf末尾处，通过这段配置，可以指定spark将日志输入到HDFS中

[root@master spark-2.1.0-bin-hadoop2.4]# cd conf/
[root@master conf]# ls
docker.properties.template  metrics.properties.template   spark-env.sh
fairscheduler.xml.template  slaves
log4j.properties.template   spark-defaults.conf.template
[root@master conf]# mv spark-defaults.conf.template spark-defaults.conf
[root@master conf]# vi spark-defaults.conf

spark.eventLog.enabled  true
//日志的存储路径
spark.eventLog.dir      hdfs://master:8020/spark_log
//日志是否压缩
spark.eventLog.compress true

（4）将以下内容复制到spark-env.sh的末尾，配置HistoryServer启动参数，使得HistoryServer在启动的时候读取HDFS中写入的spark日志

[root@master conf]# vi spark-env.sh

//指定HIstoryServer运行参数
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://master:9000/history"

七、hbase安装及配置

先进行解压（并移动到指定位置），然后打开profie文件配置环境变量

[root@master ~]# tar -zxvf hbase-1.2.4-bin.tar.gz
[root@master ~]# mv hbase-1.2.4 /export/software/
[root@master ~]# vi /etc/profile

export Hbase_HOME=/export/software/hbase-1.2.4
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$ZK_HOME/bin:$Hbase_HOME/bin:$SPARK_HOME/bin:$PATH

[root@master ~]# source /etc/profile

[root@master ~]# hbase version
Hbase 1.2.4
Source code repository git://asf-dev/home/busbey/projects/hbase revision=67592f3d062743907f8c5ae00dbbe1ae4f69e5af
Compiled by busbey on Tue Oct 25 18:10:20 CDT 2016
From source with checksum b45f19b5ac28d9651aa2433a5fa33aa0

八、mysql安装及配置

1、yum install wget命令安装wget

[root@master ~]# yum install wget
[root@master ~]# rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-7

2、下载mysql

wget http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm

[root@master ~]# wget http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm

3、安装mysql的依赖包

[root@master ~]# yum -y install mysql57-community-release-el7-10.noarch.rpm

4、安装mysql数据库

[root@master ~]# yum -y install mysql-community-server

5、完成安装，重启mysql

[root@master ~]# systemctl restart mysqld
[root@master ~]# netstat -anplt

6、重启服务后，直接使用root账户登录：

命令：mysql -u root 直接登陆

出现

则需要重置密码：

第一步就是跳过MySQL的密码认证过程，方法如下：

在[mysqld]后面任意一行添加“skip-grant-tables”用来跳过密码验证的过程

vi /etc/my.cnf

[mysqld]
skip-grant-tables

mysql -u root -p

此时会显示让你输入密码，直接回车，就可以成功连接Mysql

7、进去MySQL后修改root账户密码

use mysql; // 打开系统数据库mysql

update user set password=password('new password') where user='root'; //修改密码为new password

出现

mysql> update user set password=password('277877061#xyl') where user='root';
ERROR 1054 (42S22): Unknown column 'password' in 'field list'
mysql> update mysql.user set authentication_string=password('277877061#xyl') where user=='root';
Query OK, 1 row affected, 1 warning (0.00 sec)
Rows matched: 1  Changed: 1  Warnings: 1
mysql> flush privileges;
Query OK, 0 rows affected (0.00 sec)

8、退出mysql：

mysql> quit
Bye

9、将之前修改vi /etc/my.cnf里面的skip-grant-tables删除并保存退出

退出，重新输密码进入

九、hive安装及配置 1.下载hive压缩包

2.上传到虚拟机

3.解压（并移动到指定位置）

[root@master ~]# tar -xzvf apache-hive-2.1.1-bin.tar.gz
[root@master ~]# mv apache-hive-2.1.1-bin /export/software/

4.配置环境变量

[root@master ~]# vi /etc/profile

export HIVE_HOME=/export/software/apache-hive-2.1.1-binexport PATH=$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$SCALA_HOME/bin:$ZK_HOME/bin:$Hbase_HOME/bin:$SPARK_HOME/bin:$PATH
[root@master ~]# source /etc/profile

5.配置文件管理

首先进入hive下的conf目录把所有带template后缀的文件移除后缀。

示例：$ cp hive-env.sh.template hive-env.sh

[root@master ~]# cd /export/software/apache-hive-2.1.1-bin/
[root@master apache-hive-2.1.1-bin]#  cd conf/
[root@master conf]# ls
beeline-log4j2.properties.template    ivysettings.xml
hive-default.xml.template             llap-cli-log4j2.properties.template
hive-env.sh.template                  llap-daemon-log4j2.properties.template
hive-exec-log4j2.properties.template  parquet-logging.properties
hive-log4j2.properties.template
[root@master conf]# cp hive-env.sh.template hive-env.sh

其中hive-default.xml移除后缀后，需要修改名为hive-site.xml。

$mv hive-default.xml hive-site.xml

[root@master conf]# cp hive-default.xml.template hive-default.xml
[root@master conf]# mv hive-default.xml hive-site.xml

A.编辑 hive-env.sh文件

因为Hive使用了 Hadoop, 需要在 hive-env.sh 文件中指定 Hadoop 安装路径：

[root@master conf]# vi hive-env.sh

export JAVA_HOME=/export/software/jdk1.8.0_161
export HADOOP_HOME=/export/software/hadoop-2.4.1
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HIVE_HOME=/export/software/apache-hive-2.1.1-bin
export HIVE_CONF_DIR=$HIVE_HOME/conf
export HIVE_AUX_JARS_PATH=$HIVE_HOME/lib

B.修改hive-log4j2.properties，配置hive的log

[root@master conf]# cp hive-log4j2.properties.template hive-log4j2.properties
[root@master conf]# vi hive-log4j2.properties

property.hive.log.dir=/export/software/apache-hive-2.1.1-bin/logs
property.hive.log.file=hive.log

C.修改hive-site.xml

在/export/software/apache-hive-2.1.1-bin/下新建一个tmp目录，在tmp/下新建一个hduser目录

mkdir tmp

mkdir tmp/hduser

[root@master conf]# mkdir tmp
[root@master conf]# mkdir tmp/hduser
[root@master conf]# cd tmp/
[root@master tmp]# ls
hduser

将hive-site.xml文件中：

-- 凡是${system:java.io.tmpdir}都替换成:/export/software/apache-hive-2.1.1-bin/tmp

-- 凡是${system:user.name}都替换为hduser

D.配置Hive metastore

默认情况下, Hive的元数据保存在了内嵌的derby数据库里, 但一般情况下生产环境使用MySQL来存放Hive元数据。

1) 将 mysql-connector-java-5.1.40.jar 放入 $HIVE_HOME/lib 下。（mysql jdbc驱动程序）

十、kafka的安装及配置

大数据平台搭建

大数据系统相关栏目本月热门文章