目的:及时发现异常,找到数据之间的因果关系
一、观测——通过技术手段获取数据,并对数据进行分析和测量,即获取数据制作报表、图表、仪表盘观察:采集、储存、展示数据
【采集数据】
1.解析系统日志
2.埋点
3.通过传感器采集
4.爬虫
解析别人的网站,抓取别人的数据
5.API(Application Programming Interface)
【储存数据】
各种数据库,hive, MySQL, PostgreSQL, SQLServer, Presto, Impala
连接数据库取数
【展现数据】
可视化数据
测量:设定标准、发现异常及原因、研究关系
例:便利贴
二、实验——发现规律、提出并验证假设所有未经事实数据验证的想法都是假设
A/B测试:即做实验,测试每组数据结果,根据哪个版本数据更好用哪个
三、应用——将实验得到的新方法应用到生产中基于数据反馈不断迭代产品和业务策略
基于数据训练算法,让机器自动化地完成工作
【拆解业务目标】符合MECE,即相互独立,完全穷尽
流程拆解法
二分法:
二分法在日常生活中比较常见,其实就是把事物分成 A 和非 A 两个部分,如“白天、黑夜”、“男人、女人”、“国内、国外”、“内部、外部”等等。
象限拆解法:
1.找到问题的共性原因;通过象限分析法,将有相同特征的事件进行归因分析,总结其中的共性原因。例如案例中第一象限的事件可以提炼出有效的推广渠道与推广策略,第三和第四象限可以排除一些无效的推广渠道;
2.建立分组优化策略;针对投放的象限分析法可以针对不同象限建立优化策略,例如提升象限二的投放创意,象限四的投放渠道。
杜邦分析法:
是利用几种主要的财务比率之间的关系来综合地分析企业的财务状况。具体来说,它是一种用来评价公司盈利能力和股东权益回报水平,从财务角度评价企业绩效的一种经典方法。其基本思想是将企业净资产收益率逐级分解为多项财务比率乘积,这样有助于深入分析比较企业经营业绩。
AARRR:
用户获取(Acquisition)、用户激活(Activation)、用户留存(Retention)、获得收益(Revenue)、推荐传播(Referral)
PEST:
从政治(Politics)、经济(Economic)、社会(Society)、技术(Technology)四个方面,基于公司战略的眼光来分析企业外部宏观环境的一种方法
RFM:
RFM 是指根据客户活跃程度和交易金额贡献,进行客户价值细分的一种方法。
SWOT
5W1H:
Who 分析谁?确定分析主题。
Where 取哪里的数据?进行数据集成。
When 取什么时间段的数据?
What 用什么分析方法?
Why 是什么原因导致的问题?
How 如何呈现分析结果
Excel入门 一、基础业务概念以及数据透视表
结果指标:最终做的好不好(减肥,瘦多少斤)
过程指标:怎么做的好(减肥,运动了多少,控制了多少热量摄入)
表头+该列数据称为字段
拿到源数据先备份并隐藏该工作表
ctrl +shift +L : 进入筛选模式(对行列多数据进行筛选操作,且可以有笼统情况的了解)
gmv(Gross Merchandise Volume):商品营业总额 ≠ 商家实收
UV (Unique visitors) :指通过互联网访问、浏览这个网页的自然人。访问网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。
PV (Page View) : 指页面浏览量或点击量,用户每1次对网站中的每个网页访问均被记录1个PV。用户对同一页面的多次访问,PV会积累。
CPC (Cost per click)
插入-数据透视表
数据透视表分析-字段、项目和集-插入计算字段
插入切片器 连接报表(切片器可以在透视表外的地方进行筛选)
透视表内置筛选只能在透视表内进行
数据透视表分析-数据透视图(插入图表)——此处有各种柱状图折线图等图表可创建,可视化数据透视表
二、函数excel函数可以跨工作表引用数据
视图-新建窗口(此操作可以将整个excel文件多建一个窗口出来,便于函数操作时引用数据,但同时并不产生新文件)
win + 方向键 :分屏显示,也可以将其中一个拖到边边
筛选只是显示想看的部分,实际数据还是存在在所选之间的,因此不能通过筛选来直接求某些区间的和或其它操作
视图-冻结(选择b2格-冻结窗格,即可同时冻结首行和首列)
SUMIF(range,criteria,[sum_range])
SUMIF(判断条件所处范围,判断条件,取值范围)
例:=sumif(日期列,2020-07-01单元格,GMV列)
fn + f4:锁定不能引用,即快速加美元号,锁定行和列
SUMIFS(sum_range, [criteria_range1], [criteria1], [criteria_range2], [criteria2], ...)
如果是自己输入中文条件在函数内,需用英文双引号括起来
例:SUMIFS(GMV, 时间列, 2020-07-01, 平台i, "美图") 当满足时间为2020-07-01且平台i是美团时的GMV总和
日期的本质是数字,例如2020-7-1然后减1,那么就能得到2020-6-30
YEAR(格子序号):提取日期的年
MonTH(格子序号):提取日期的月
DAY(格子序号):提取日期的天
DATE( year, month, day )
例:DATE(YEAR(B30),MonTH(B30)-1,DAY(B30)) 这样就可以求一个日期的同比日期
EDATE( start_date, months)
例:EDATE( 2020-7-30, -2) 即代表此日期前的两个月
永远不要用excel的日期格式去存储日期,要弄成字符串
每个月第一天:DATE( YEAR(完整日期), MonTH(完整日期), 1 )
每个月最后一天:DATE( YEAR(完整日期), MonTH(完整日期)+1, 1 ) -1
DATE( YEAR(完整日期), MonTH(完整日期), 0 )
运算符要加双引号且后面跟&(非if函数中)
例:B32">="&C40
SUBTOTAL( function num, ref 1, ...)
subtotal的sum功能:可以根据源数据的筛选进行求和,就是把你能看到的东西求和
IF (logical_test, value_if_true, [value_if_false])
IF (逻辑比较条件, 结果成立时返回的值, [结果不成立时返回的值])
IF(C64>100000,"达标","不达标")
[value_if_false] : 该参数选填,没有该参数时,返回值false
VLOOKUP ( lookup_value, table_array, col_index_num, [range_lookup])
VLOOKUP (要查找的数据、要查找的位置和要返回的数据的区域、要返回的数据在区域中的列号、返回近似匹配或精确匹配-指示为1/TRUE或0/FALSE)
一般用精确匹配
VLOOKUP 只会返回它查找到的第一个值
*:代替不定数量的字符
?:(英文输入状态下)代替一个字符,即占位符
例:VLOOKUP ( I96&"*", F96:G103, 2, 0) 查找以I96开头的任意项所对应的值
例:VLOOKUP ( I96&"??", F96:G103, 2, 0) 查找以I96开头并且是三个字符的项所对应的数值
MATCH (lookup_value, lookup_array, [match_typel])
MATCH (查找项, 查找区域, 0) 0就是精确匹配
用来查找你指定的项在区域中的序号是第几
该区域必须是单行或者单列,不能是合并单元格
INDEX (array, row_num, column_num)
INDEX (区域, 行号, 列号)
能显示区域中的第x行第y列是什么东西
如果行/列位置是0,那么就会返回整列/行,只不过显示的是第一个的值
match找位置,index找内容
index (数据区域, match (行查找项, index数据区域的相对区域, 0), match (列查找项, indexB数据区域的相对区域, 0))
三、周报开发数据验证-允许:序列,来源:全部,美团,饿了么 实际上是一个可以下拉的筛选器
“alt” + “=” :快速求和
选中一些数据-插入-迷你图:折线-把标记勾上就能显示转折点
开始-样式-条件格式-新建规则-基于…-格式样式:数据条、最大最小值:数字、最小值:0、最大值:1 那么就可以根据该单元格的数字用颜色填充来显示进度
视图-取消网格线 可以让周报显得更高大上
Tableau数据可视化与仪表盘搭建
csv是文本文件,可以通过拖拽将两个表连接并自己匹配它们可以相合并的字段
从tableau保存下来的twb文件不包含数据,每次打开需要连接数据,而twbx的文件内置数据
度量指数值型的,维度指文本型
散点图、柱状图/条形图、饼图,折线图:掌握最主要这四种就比较足够了
对【度量】和【维度】进行拖拽操作,从而完成可视化图表的制作
【行列】行:将字段作为纵轴
列:将字段作为横轴
【标记卡】用来切换数据对应的视觉映射类型,调整图表颜色、标记、大小等展示细节
一、Tableau可视化原理将shop表的消耗字段拖拽至行,它会自动形成一个柱子,并且柱子的数值是自动聚合运算的总和
这是因为,tableau会根据视图的详细级别自动对度量进行聚合运算,默认就是总和
维度会对度量值进行区分,增加度量值的信息密度(单个图表传达信息的多少)
将维度放在以下位置都可以对度量进行区分,并且形成对应的效果: 颜色、标签、详细信息、行、列
当多个维度对应度量,应把维度放于行
度量可以将其改成离散,成为维度
度量映射上是图形
二、基础图表制作创建分层结构,相当于ps里的组
把字段拖到筛选器就可以开始筛选了,右键显示筛选器就可以多一个筛选功能区了
对度量也可以进行筛选,筛选的是区域
按住ctrl拖动就可以移动并复制
热力图,就是通过颜色将表格区分:把度量值复制到颜色,选择方形
在饼图中,化为标签的度量,右击-快速表计算-合计百分比,就能使其在饼图里显示成百分比。右击-设置格式,可以调整百分比的具体格式
编辑表计算,可以调节
点标记卡里的颜色大小这些,可以调节相关参数
日期选项中,上面的年、月、日是离散的,下面的是连续的
左边工作台-分析-可以添加预测,但前提是日期必须是连续的
左边工作台-分析-可以添加趋势线
【数据桶】:右键字段即可创建数据桶
数据桶大小即将数据都分成每x一组
修改城市字段的地理角色,再双击就能在地图上显示
把经度和纬度的地理角色改成经度及纬度,然后分别双击它们,在地图上就会显示点的经纬度
把订单id放到维度中(本来自动分到度量里了),将其拖拽到标签,即可进行对度量的区分
可以创建新字段将字符串类型的一些字段组合加一起,实现更细分的一一对应维度
三、BI仪表盘搭建放标记卡的工具提示上,那么鼠标移上去才会显示
更改字段的别名,即可在图表中显示别名
新建故事相当于ppt
联动筛选:在仪表盘上,把每个工作表都勾上-用作筛选器



