- 前言
- 一、准备
- 安装htop指令
- 下载目标文件
- 查看目标文件
- 二、Page view
- PV分析
- PV分组
- 分析UV
前言
文章的内容来源拉钩教育上的课程学习,通过写博客的方式,更好的提高对该知识的掌握。
一、准备 安装htop指令
sudo yum install htop下载目标文件
#centos #安装git sudo yum install git #下载access.log资源 git clone https://github.com/nickwang6/pv.git查看目标文件
- 查看大小
ls -l access.log --block-size=M
- 查看文件
- less access.log
- 相关参数
- IP地址
- 时间
- HTTP请求方法、路径、协议版本、返回状态码
- User Agent
- 所谓PV分析(Page view),用户每访问一个页面就是一次Page View 对于nginx的access_log来说,分析PV非常简单
- wc -l access.log
-
通常一个日志可能有几天的PV,为了数据直观,有时候需要按天进行分组,为了简化这个问题,查看日志有哪些天的日志。
-
使用awk ‘{print $4}’ access.log | less可以看到如下结果。
-
awk是一个处理文本的领域专有语言。这里就牵扯到领域专有语言这个概念,英文是Domain Specific Language。领域专有语言,就是为了处理某个领域专门设计的语言。比如awk是用来分析处理文本的DSL,html是专门用来描述网页的DSL,SQL是专门用来查询数据的DSL……
-
awk '{print $4}' access.log | less
-
按天统计awk '{print substr($4,2,11)} ' access.log | head -n 10
上图中,我们使用awk的substr函数,数字2代表从第 2 个字符开始,数字11代表截取 11 个字符。 -
awk '{print substr($4,2,11)} ' access.log | sort | uniq -c
可以看出18号的pv量为11347,19号的pv量为3272
-
UV(uniq visitor),也就是统计访问人数,可以通过IP访问来统计UV
-awk '{print $1 } ' access.log | sort |uniq | wc -l
可以得出日志文件中一共有1050个IP -
分组分析UV
- 创建 sum.sh文件
#!/usr/bin/bash
awk '{print substr($4, 2, 11) " " $1}' access.log |
sort | uniq |
awk '{uv[$1]++;next}END{for (ip in uv) print ip, uv[ip]}'
- 文件首部使用#! 表示我们将使用后面的 /usr/bin/bash执行这个文件
- 第一次awk 我们将第四列日期和第一列的IP地址拼接起来
- sort 把整个文件进行一次排序,相当根据日期排序,再根据IP排序
- 接下来我们用uniq去重,日期+ip相同的就只保留一个
- 最后的awk我们再根据第 1 列的时间和第 2 列的 IP 进行统计。
awk本身是逐行进行处理的。因此我们的next关键字是提醒awk跳转到下一行输入。 对每一行输入,awk会根据第 1 列的字符串(也就是日期)进行累加。之后的END关键字代表一个触发器,就是 END 后面用 {} 括起来的语句会在所有输入都处理完之后执行——当所有输入都执行完,结果被累加到uv中后,通过foreach遍历uv中所有的key,去打印ip和ip对应的数量。
#终端输入该命令 bash sum.sh



