大数据笔记_大数据系统

Linux 配置 vim编辑器中

:/name   #高亮某个词
:noh    #取消所有高亮

#-y 是默认安装过程中全部选择y
yum -y install lrzsz
yum -y install net-tools

Centos7安装步骤中的分区

creat--Standard Partition--creat--mount point（挂载点）和File System Type（系统文件类型）分别创建/boot区、swap交换分区、根分区/

注释：Linux系统最简单的分区方案：

1、分/boot区，给200M，/boot放启动文件。

2、分交换分区（交换空间）swap，看内存总大小，如果内存足够大，这个空间就要设置太大了。如果内存小于2G。那么这个空间设置成内存的2倍大小。

3、所有空间给/（根分区）

更换镜像

安装镜像插件

yum install -y wget

配置方法

# 1.备份
mv /etc/yum.repos.d/CentOS-base.repo /etc/yum.repos.d/CentOS-base.repo.backup

# 2.下载新的 CentOS-base.repo 到 /etc/yum.repos.d/
# CentOS 6
wget -O /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-6.repo
# 或者
curl -o /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-6.repo

# CentOS 7
wget -O /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-7.repo
#或者
curl -o /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-7.repo

# CentOS 8
wget -O /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-8.repo
# 或者
curl -o /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-8.repo

# 3.生成缓存
yum makecache

#4. 其他
#非阿里云ECS用户会出现 Couldn't resolve host 'mirrors.cloud.aliyuncs.com' 信息，不影响使用。用户也可自行修改相关配置: eg:
sed -i -e '/mirrors.cloud.aliyuncs.com/d' -e '/mirrors.aliyuncs.com/d' /etc/yum.repos.d/CentOS-base.repo

集群防火墙设置

# 查看防火墙
systemctl status firewalld.service
# 关闭防火墙
systemctl stop firewalld.service
# 永久关闭防火墙
systemctl disable firewalld.service
# vim /etc/selinux/config
SELINUX=disabled

# 当所有命令失效时，以绝对命令打开profile
/bin/vi  /etc/profile
# 在后面添加一下命令，最后保存
export PATH=$PATH:/usr/bin:/usr/sbin:/bin:/sbin

关于Linux环境变量

使用":"来进行分割
在PATH后追加JAVA_HOME时，应该为：PATH=$PATH:$JAVA_HOME，也就是说，必须加上“$PATH:”，然后在追加新值，否则就会覆盖掉PATH，导致vim，ls，等基本命令失效。

软件配置

export JAVA_HOME=/root/program/jdk1.8.0_291
export HADOOP_HOME=/root/program/hadoop-3.3.0
export HIVE_HOME=/root/program/apache-hive-3.1.2-bin
export ZOOKEEPER_HOME=/root/program/apache-zookeeper-3.7.0
export MAVEN_HOME=/root/program/apache-maven-3.6.3

网络设置

#在路径	vim /etc/sysconfig/network-scripts/ifcfg-ens33
BOOTPROTO=static
ONBOOT=yes
IPADDR=192.168.30.128
NETMASK=255.255.255.0
GATEWAY=192.168.30.2
DNS1=8.8.8.8

重启网络

service network restart

建立主机名和ip的映射

192.168.30.128 hadoop01
192.168.30.129 hadoop02
192.168.30.130 hadoop03

免密登录（启动hadoop集群）

（1）生成公钥

ssh-keygen -t rsa

cd .ssh

（3）将公钥文件拷贝成authorized_keys，即可无需密码登录

cp id_rsa.pub authorized_keys

Hadoop

创建数据存储目录：
mkdir -p /root/program/hadoop-3.3.0/data/name
mkdir -p /root/program/hadoop-3.3.0/data/secondary
mkdir -p /root/program/hadoop-3.3.0/data/datad
mkdir -p /root/program/hadoop-3.3.0/data/tmp

配置hadoop-env.sh

export HADOOP_CONF_DIR=/root/program/hadoop-3.3.0/etc/hadoop
export JAVA_HOME=/root/program/jdk1.8.0_291

配置yarn-env.sh

export JAVA_HOME=/root/program/jdk1.8.0_291

配置core-site.xml

  
    fs.defaultFS
    hdfs://hadoop01:9000
    hdfs内部通讯访问地址
  
  
    hadoop.tmp.dir
    /root/program/hadoop-3.3.0/data/
    hadoop数据存放

配置hdfs-site.xml

# replication 副本数量
# 因为是伪分布式 设置为1
# 新版本的 hadoop 块默认大小为128mb

  dfs.name.dir
  /root/program/hadoop-3.3.0/data/name
  namenode上存储hdfs名字空间元数据  


    dfs.data.dir
    /root/program/hadoop-3.3.0/data/datad
    datanode上数据块的物理存储位置


    dfs.replication
    1
    副本个数，配置默认是3,应小于datanode机器数量

配置mapred-site.xml

# yarn 集群
mv mapred-site.xml.template mapred-site.xml


    mapreduce.framework.name
    yarn

yarn.resourcemanager.hostname yarn集群的老大
配置yarn-site.xml


    yarn.resourcemanager.hostname
    hadoop01

 
    yarn.nodemanager.aux-services 
    mapreduce_shuffle

格式化hadoop文件系统

./bin/hdfs namenode -format

启动hadoop

./sbin/start-dfs.sh

访问hdfs

# hadoop 3.x
192.168.30.128:9870

如果运行脚本报如下错误：

ERROR: Attempting to launch hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting launch. Starting datanodes ERROR: Attempting to launch hdfs datanode as root ERROR: but there is no HDFS_DATANODE_USER defined. Aborting launch. Starting secondary namenodes [localhost.localdomain] ERROR: Attempting to launch hdfs secondarynamenode as root ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting launch.

解决方案

（缺少用户定义而造成的）因此编辑启动和关闭

$ vim sbin/start-dfs.sh 
$ vim sbin/stop-dfs.sh

在/hadoop/sbin路径下：
将start-dfs.sh，stop-dfs.sh两个文件顶部添加以下参数

#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs 
HDFS_NAMENODE_USER=root 
HDFS_SECONDARYNAMENODE_USER=root

如果启动时报如下错误，

Starting resourcemanager ERROR: Attempting to launch yarn resourcemanager as root ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting launch.

解决方案

（也是由于缺少用户定义）

是因为缺少用户定义造成的，所以分别编辑开始和关闭脚本

 $ vim sbin/start-yarn.sh 
 $ vim sbin/stop-yarn.sh

start-yarn.sh，stop-yarn.sh顶部添加以下：

#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

mysql 下载官方mysql的rpm包

wget https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm

卸载原生的mariadb

yum remove mariadb-libs -y

查看原装mysql

rpm -qa|grep mysql

安装mysql

# 安装MySQL源
yum localinstall mysql57-community-release-el7-8.noarch.rpm
# 检查MySQL源是否安装成功
yum repolist enabled | grep "mysql.*-community.*"

yum install -y mysql-community-server

启动服务

systemctl start mysqld

查看mysql状态

systemctl status mysqld

获取第一次登录密码

grep 'temporary password' /var/log/mysqld.log

修改密码强度

set global validate_password_policy=0;
set global validate_password_length=1;

修改密码

ALTER USER 'root'@'localhost' IDENTIFIED BY 'root';

修改密码

alter user 'root'@'localhost' identified by 'root';

开启远程访问

update mysql.user set host = '%' where user = 'root';

查看密码规则

show variables like 'validate_password%';

更改mysql的编码

status
vim /etc/my.cnf

[client]
default-character-set=utf8
[mysqld]
character-set-server=utf8

重启mysql

systemctl restart mysqld.service

hive

Hive是一个仓储结构的工具，能对hadoop中的文件以类 sql的方式查询出来，也可以让熟悉mapper/reduce的开发者进行自定义操作，单总归而言，它只是一个解析引擎，将HiveQL语句解析成job任务让hadoop执行操作；

HDFS的目录/文件，按表名把文件夹分开。如果是分区表，则分区值是子文件夹，可以直接在M/R Job里使用这些数据

特别注意：包含 * 的查询，比如 select * from tbl 不会生成 MapRedcue 任务

数据类型
l 基本数据类型
tinyint/smallint/int/bigint
float/double
boolean
string

ll 复杂数据类型
Array/Map/Struct

注意：没有date/datetime类型

进入解压好的apache-hive-3.1.2-bin目录找到conf目录，将hive-default.xml.template文件拷贝一份，并且重命名为hive-site.xml,将一下配置加入到hive-site.xml 文件中开头（标签中的内容自己定义）

配置hive-site.xml


    system:java.io.tmpdir
    /root/apache-hive-3.1.2/tmpdir


    system:user.name
    root

再次进入到hive目录中的conf文件中，配置hive-site.xml文件，利用vi编辑器中的搜索功能(Esc模式下输入 / )，分别找到
javax.jdo.option.ConnectionURL
javax.jdo.option.ConnectionDriverName
javax.jdo.option.ConnectionUserName
javax.jdo.option.ConnectionPassword
这四项配置，其中这四项的分别填：

jdbc:mysql://192.168.30.128:3306/hive?characterEncoding=utf8&useSSL=false
com.mysql.jdbc.Driver
root
root（注：这里的192.168.30.128是服务器的地址）

进入hive目录的bin文件中进行元数据库初始化

./schematool -dbType mysql -initSchema

初始化完成后，使用./hive命令启动hive，出现hive>的时候，就可以使用了。

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G
查找：Ctrl/Command + F
替换：Ctrl/Command + G

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片:

带尺寸的图片:

居中的图片:

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	'Isn't this fun?'	‘Isn’t this fun?’
Quotes	"Isn't this fun?"	“Isn’t this fun?”
Dashes	-- is en-dash, --- is em-dash	– is en-dash, — is em-dash

创建一个自定义列表

Markdown

Text-to- HTML conversion tool

Authors

John

Luke

如何创建一个注脚

一个具有注脚的文本。¹

注释也是必不可少的

Markdown将文本转换为 HTML。

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N Gamma(n) = (n-1)!quadforall ninmathbb N Γ(n)=(n−1)!∀n∈N 是通过欧拉积分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . Gamma(z) = int_0^infty t^{z-1}e^{-t}dt,. Γ(z)=∫0∞tz−1e−tdt.

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能，丰富你的文章

关于甘特图语法，参考这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图：

这将产生一个流程图。:

关于 Mermaid 语法，参考这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图：

关于 Flowchart流程图语法，参考这儿.

导出与导入导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到文章导出，生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件，在上方工具栏可以选择导入功能进行对应扩展名的文件导入，
继续你的创作。

注脚的解释 ↩︎

大数据笔记

大数据系统相关栏目本月热门文章