栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据笔记

大数据笔记

Linux 配置 vim编辑器中
:/name   #高亮某个词
:noh    #取消所有高亮

#-y 是默认安装过程中全部选择y
yum -y install lrzsz
yum -y install net-tools
Centos7安装步骤中的分区

creat--Standard Partition--creat--mount point(挂载点)和File System Type(系统文件类型) 分别创建/boot区、swap交换分区、根分区/

注释:Linux系统最简单的分区方案:

1、分/boot区,给200M,/boot放启动文件。

2、分交换分区(交换空间)swap,看内存总大小,如果内存足够大,这个空间就要设置太大了。如果内存小于2G。那么这个空间设置成内存的2倍大小。

3、所有空间给/(根分区)

更换镜像

安装镜像插件

yum install -y wget
配置方法
# 1.备份
mv /etc/yum.repos.d/CentOS-base.repo /etc/yum.repos.d/CentOS-base.repo.backup

# 2.下载新的 CentOS-base.repo 到 /etc/yum.repos.d/
# CentOS 6
wget -O /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-6.repo
# 或者
curl -o /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-6.repo

# CentOS 7
wget -O /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-7.repo
#或者
curl -o /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-7.repo

# CentOS 8
wget -O /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-8.repo
# 或者
curl -o /etc/yum.repos.d/CentOS-base.repo https://mirrors.aliyun.com/repo/Centos-8.repo

# 3.生成缓存
yum makecache

#4. 其他
#非阿里云ECS用户会出现 Couldn't resolve host 'mirrors.cloud.aliyuncs.com' 信息,不影响使用。用户也可自行修改相关配置: eg:
sed -i -e '/mirrors.cloud.aliyuncs.com/d' -e '/mirrors.aliyuncs.com/d' /etc/yum.repos.d/CentOS-base.repo
集群防火墙设置
# 查看防火墙
systemctl status firewalld.service
# 关闭防火墙
systemctl stop firewalld.service
# 永久关闭防火墙
systemctl disable firewalld.service
# vim /etc/selinux/config
SELINUX=disabled

# 当所有命令失效时,以绝对命令打开profile
/bin/vi  /etc/profile
# 在后面添加一下命令,最后保存
export PATH=$PATH:/usr/bin:/usr/sbin:/bin:/sbin

关于Linux环境变量

使用":"来进行分割
在PATH后追加JAVA_HOME时,应该为:PATH=$PATH:$JAVA_HOME,也就是说,必须加上“$PATH:”,然后在追加新值,否则就会覆盖掉PATH,导致vim,ls,等基本命令失效。
软件配置
export JAVA_HOME=/root/program/jdk1.8.0_291
export HADOOP_HOME=/root/program/hadoop-3.3.0
export HIVE_HOME=/root/program/apache-hive-3.1.2-bin
export ZOOKEEPER_HOME=/root/program/apache-zookeeper-3.7.0
export MAVEN_HOME=/root/program/apache-maven-3.6.3
网络设置
#在路径	vim /etc/sysconfig/network-scripts/ifcfg-ens33
BOOTPROTO=static
ONBOOT=yes
IPADDR=192.168.30.128
NETMASK=255.255.255.0
GATEWAY=192.168.30.2
DNS1=8.8.8.8

重启网络

service network restart
建立主机名和ip的映射
192.168.30.128 hadoop01
192.168.30.129 hadoop02
192.168.30.130 hadoop03
免密登录(启动hadoop集群)

(1)生成公钥

ssh-keygen -t rsa

(2)打开用户目录下的.ssh目录

cd .ssh

(3)将公钥文件拷贝成authorized_keys,即可无需密码登录

cp id_rsa.pub authorized_keys
Hadoop
创建数据存储目录:
mkdir -p /root/program/hadoop-3.3.0/data/name
mkdir -p /root/program/hadoop-3.3.0/data/secondary
mkdir -p /root/program/hadoop-3.3.0/data/datad
mkdir -p /root/program/hadoop-3.3.0/data/tmp

配置hadoop-env.sh

export HADOOP_CONF_DIR=/root/program/hadoop-3.3.0/etc/hadoop
export JAVA_HOME=/root/program/jdk1.8.0_291

配置yarn-env.sh

export JAVA_HOME=/root/program/jdk1.8.0_291

配置core-site.xml

  
    fs.defaultFS
    hdfs://hadoop01:9000
    hdfs内部通讯访问地址
  
  
    hadoop.tmp.dir
    /root/program/hadoop-3.3.0/data/
    hadoop数据存放
  

配置hdfs-site.xml

# replication 副本数量
# 因为是伪分布式 设置为1
# 新版本的 hadoop 块默认大小为128mb

  dfs.name.dir
  /root/program/hadoop-3.3.0/data/name
  namenode上存储hdfs名字空间元数据  


    dfs.data.dir
    /root/program/hadoop-3.3.0/data/datad
    datanode上数据块的物理存储位置


    dfs.replication
    1
    副本个数,配置默认是3,应小于datanode机器数量

配置mapred-site.xml

# yarn 集群
mv mapred-site.xml.template mapred-site.xml


    mapreduce.framework.name
    yarn

yarn.resourcemanager.hostname yarn集群的老大
配置yarn-site.xml


    yarn.resourcemanager.hostname
    hadoop01

 
    yarn.nodemanager.aux-services 
    mapreduce_shuffle 
 

格式化hadoop文件系统

./bin/hdfs namenode -format

启动hadoop

./sbin/start-dfs.sh

访问hdfs

# hadoop 3.x
192.168.30.128:9870

如果运行脚本报如下错误:

ERROR: Attempting to launch hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting launch. Starting datanodes ERROR: Attempting to launch hdfs datanode as root ERROR: but there is no HDFS_DATANODE_USER defined. Aborting launch. Starting secondary namenodes [localhost.localdomain] ERROR: Attempting to launch hdfs secondarynamenode as root ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting launch.

解决方案

(缺少用户定义而造成的)因此编辑启动和关闭

$ vim sbin/start-dfs.sh 
$ vim sbin/stop-dfs.sh

在/hadoop/sbin路径下:
将start-dfs.sh,stop-dfs.sh两个文件顶部添加以下参数

#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs 
HDFS_NAMENODE_USER=root 
HDFS_SECONDARYNAMENODE_USER=root

如果启动时报如下错误,

Starting resourcemanager ERROR: Attempting to launch yarn resourcemanager as root ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting launch.

解决方案

(也是由于缺少用户定义)

是因为缺少用户定义造成的,所以分别编辑开始和关闭脚本

 $ vim sbin/start-yarn.sh 
 $ vim sbin/stop-yarn.sh

start-yarn.sh,stop-yarn.sh顶部添加以下:

#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
mysql 下载官方mysql的rpm包
wget https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm
卸载原生的mariadb
yum remove mariadb-libs -y
查看原装mysql
rpm -qa|grep mysql
安装mysql
# 安装MySQL源
yum localinstall mysql57-community-release-el7-8.noarch.rpm
# 检查MySQL源是否安装成功
yum repolist enabled | grep "mysql.*-community.*"

yum install -y mysql-community-server

启动服务

systemctl start mysqld

查看mysql状态

systemctl status mysqld

获取第一次登录密码

grep 'temporary password' /var/log/mysqld.log

修改密码强度

set global validate_password_policy=0;
set global validate_password_length=1;

修改密码

ALTER USER 'root'@'localhost' IDENTIFIED BY 'root';

修改密码

alter user 'root'@'localhost' identified by 'root';

开启远程访问

update mysql.user set host = '%' where user = 'root';

查看密码规则

show variables like 'validate_password%';

更改mysql的编码

status
vim /etc/my.cnf

[client]
default-character-set=utf8
[mysqld]
character-set-server=utf8

重启mysql

systemctl restart mysqld.service
hive

Hive是一个仓储结构的工具,能对hadoop中的文件以类 sql的方式查询出来,也可以让熟悉mapper/reduce的开发者进行自定义操作,单总归而言,它只是一个解析引擎,将HiveQL语句解析成job任务让hadoop执行操作;

HDFS的目录/文件,按表名把文件夹分开。如果是分区表,则分区值是子文件夹,可以直接在M/R Job里使用这些数据

特别注意:包含 * 的查询,比如 select * from tbl 不会生成 MapRedcue 任务

数据类型
l 基本数据类型
tinyint/smallint/int/bigint
float/double
boolean
string

ll 复杂数据类型
Array/Map/Struct

注意:没有date/datetime类型

进入解压好的apache-hive-3.1.2-bin目录找到conf目录,将hive-default.xml.template文件拷贝一份,并且重命名为hive-site.xml,将一下配置加入到hive-site.xml 文件中开头(标签中的内容自己定义)

配置hive-site.xml

    system:java.io.tmpdir
    /root/apache-hive-3.1.2/tmpdir


    system:user.name
    root

再次进入到hive目录中的conf文件中,配置hive-site.xml文件,利用vi编辑器中的搜索功能(Esc模式下输入 / ),分别找到
javax.jdo.option.ConnectionURL
javax.jdo.option.ConnectionDriverName
javax.jdo.option.ConnectionUserName
javax.jdo.option.ConnectionPassword
这四项配置,其中这四项的分别填:

jdbc:mysql://192.168.30.128:3306/hive?characterEncoding=utf8&useSSL=false
com.mysql.jdbc.Driver
root
root(注:这里的192.168.30.128是服务器的地址)

进入hive目录的bin文件中进行元数据库初始化

./schematool -dbType mysql -initSchema

初始化完成后,使用./hive命令启动hive,出现hive>的时候,就可以使用了。

撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G

合理的创建标题,有助于目录的生成

直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H2O is是液体。

210 运算结果是 1024.

插入链接与图片

链接: link.

图片:

带尺寸的图片:

居中的图片:

居中并且带尺寸的图片:

当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';
生成一个适合你的列表
  • 项目
    • 项目
      • 项目
  1. 项目1
  2. 项目2
  3. 项目3
  • 计划任务
  • 完成任务
创建一个表格

一个简单的表格是这么创建的:

项目Value
电脑$1600
手机$12
导管$1
设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列第二列第三列
第一列文本居中第二列文本居右第三列文本居左
SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

TYPEASCIIHTML
Single backticks'Isn't this fun?'‘Isn’t this fun?’
Quotes"Isn't this fun?"“Isn’t this fun?”
Dashes-- is en-dash, --- is em-dash– is en-dash, — is em-dash
创建一个自定义列表
Markdown
Text-to- HTML conversion tool
Authors
John
Luke
如何创建一个注脚

一个具有注脚的文本。1

注释也是必不可少的

Markdown将文本转换为 HTML。

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N Gamma(n) = (n-1)!quadforall ninmathbb N Γ(n)=(n−1)!∀n∈N 是通过欧拉积分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t   . Gamma(z) = int_0^infty t^{z-1}e^{-t}dt,. Γ(z)=∫0∞​tz−1e−tdt.

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能,丰富你的文章
  • 关于 甘特图 语法,参考 这儿,
UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:

这将产生一个流程图。:

  • 关于 Mermaid 语法,参考 这儿,
FLowchart流程图

我们依旧会支持flowchart的流程图:

  • 关于 Flowchart流程图 语法,参考 这儿.
导出与导入 导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。


  1. 注脚的解释 ↩︎

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/680444.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号