目录
一 工具属性、分析师需求划分
二 从企业数据应用架构划分
三 4 大工具盘点
一 工具属性、分析师需求划分
企业中,数据分析师分业务和技术两类,二者能力和工作内容具有很大的区别,对于工具的要求,也各有侧重
业务 & 技术
业务类分析师——往往在营运部,市场部,销售部等,根据服务的业务部门的不同,分为数据运营师、经营分析师、会员分析师、商业分析师等
日常工作多为整理业务报表、针对特定业务做专题分析、围绕业务增长做需要用到数据的测算、规划、方案等
技术类分析师——往往在 IT 部、数据中心,根据从事的工作环节不同,被分成数据库工程师、ETL 工程师、爬虫工程师、算法工程师等
分析类工具
对于初级数据分析师,必须熟练掌握Excel —— 数据透视表和公式使用,VBA 是加分。此外,还需要会一个统计分析工具,SPSS 作为入门是比较好的
对于高级数据分析师,使用分析工具是核心能力,VBA 基本必备,SPSS/SAS/R 至少要熟练使用其中一种,其他分析工具(如 Matlab)视情况而定
对于数据挖掘工程师,R 和 Python 是必备的,需要靠写代码来解决
代码类工具
对于初级数据分析师,要求会写 SQL 查询、Hadoop 和 Hive 查询
对于高级数据分析师,除了掌握 SQL 外,熟练掌握 Python 是很有必要的,当然其他编程语言也可以
对于数据挖掘工程师,必须熟练掌握 Hadoop ,Python/Java/C++ 语言至少熟悉一种
二 从企业数据应用架构划分
工具的使用需要考虑企业的需求和环境
从 IT 的角度,实际应用中可以把数据工具分为两个维度:
1 数据存储层——数据报表层——数据分析层——数据展现层
2 用户级——部门级——企业级——BI 级
a 数据存储层
数据存储设计到数据库的概念和数据库语言,不需要深入研究,每个企业都有专业的 DBA。但我们至少需要理解数据的存储方式,数据的基本结构和数据类型。
必须熟练掌握SQL 查询语言——可从常用的 selece 查询,update 修改,delete 删除,insert 插入的基本结构和读取入手。
Access 是最基本的个人数据库,经常用于个人或部分基本的数据存储
MySQL 数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和 SQL 语言的数据查询能力。SQL Server2005 或更高版本,对中小企业,一些大型企业也可以采用 SQL Server 数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了
DB2,Oracle 数据库都是大型数据库,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了,一般大型数据库公司都提供非常好的数据整合应用平台
BI 级别,实际上这个不是数据库,而是建立在前面数据库基础上的,企业级应用的数据仓库
Data Warehouse,建立在 DW 机上的数据存储基本上都是商业智能平台,整合了各种数据分析,报表、分析和展现
b 报表/BI 层
企业存储了数据需要读取,需要展现,报表工具则是最普遍应用的工具,尤其是在国内。过去传统报表大多解决的是展现问题,如今衍生了一些分析型报表工具,也会和其他应用交叉,做数据分析报表,通过接口开放功能、填报、决策报表功能,能够做到打通数据的进出,涵盖了早期商业智能的功能
Tableau、PowerBI、FineBI、Qlikview 这类 BI(商业智能)工具,涵盖了报表、数据分析、可视化等多层。底层还可于数据仓库衔接,构建 OLAP 分析模型
c 数据分析层
Excel 功能非常强大,甚至可以完成所有的统计分析工作。但是有能力把 Excel 玩成统计工具不如专门学会统计软件
SPSS 软件 SPSS 社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件
SAS 软件 SAS 相对 SPSS 其实功能更强大,SAS 是平台化的,EM 挖掘模块平台整合,相对而言,SAS 较难学,但掌握了 SAS 会更有价值,如离散选择模型,抽样问题,正交实验设计等
SAS 较为好用,SAS 的学习材料也较多。
Python 和 R等
d 表现层
表现层也叫数据可视化,以上每种工具都几乎提供了一点展现功能。但企业级最常应用的是BI,做分析做报告。
三 4 大工具盘点
Excel
1 适用场景
- 一般的办公需求下的数据处理工作中小公司数据管理,存储(很多国有企业都用)学校学生,老师做简单的统计分析(如方差分析,回归分析)结合 Word,PowerPoint 制作数据分析报告数据分析师的主力分析工具(部分数据分析师的辅助工具)部分商业杂志,报刊图表制作(数据可视化)
2 优点
- 容易上手学习资源十分丰富可以用 Excel 做很多事情,建模,可视化,报表,动态图表帮助你在进一步学习其它工具之前(比如 Python,R),理解很多操作的含义
3 缺点
- 深入学习需要掌握 VBA,难度还是很高当数据量较大时,会出现卡顿的情况到 Excel2016 版,在不借助其它工具的情况下,Excel 数据文件本身能够容纳的数据仅有 108 万行,不适合处理大规模数据集内置统计分析种类太简单,实用价值不大不像 Python,R 语言等开源软件,正版 Excel 需要付费
R
1 使用场景
通过扩展的第三方 R 包,R 能够做的事情几乎涵盖了任何需要数据的领域
- 数据清洗与整理网络爬虫数据可视化统计假设检验(t 检验,方差分析,卡方检验等)统计建模(线性回归,逻辑回归,树模型,神经网络等)数据分析报告输出(Rmarkdown)
Python
R 语言和 Python 同为需要编程的数据分析工具,不同之处在于R 专门用于数据分析领域,而科学计算与数据分析只是 Python 的一个应用分支,Python 还可以用来开发 web 页面,开发游戏,做系统的后端开发,以及运维工作
现阶段Python 在数据分析领域正在追赶 R,在某些方面已经超越了 R,比如机器学习,
文本挖掘等偏编程的领域,但 R 语言在偏统计的领域仍然保持优势
Python 在数据分析方面的发展,很多地方借鉴了 R 语言中的一些特色。所以,如果你现在还是一片空白,还没开始学习,要做决定学习 R 还是 Python 的话,建议从 Python 入手
Python 和 R 都较容易学习,但是如果你同时学习两者,由于在很多地方它们非常相似,就会很容易混淆,所以建议不要同时学习它们。等其中一个掌握到一定的程度,再着手学习另外一个。
- 网络数据爬取,使用 Python 能够很容易的编写强大的爬虫,抓取网络数据数据清洗数据建模根据业务场景和实际问题构造数据分析算法数据可视化(个人感觉不如 R 好用)机器学习,文本挖掘等高级数据挖掘与分析领域
应该学习 R 还是 Python?
如果因为时间有限,只能选择其中的一种来学,建议使用 Python
BI
多数分析师日常的工作就是做报表,而数据分析师更多用到的报表是 BI
BI 全称商业智能,在传统企业中,它是一套完整的解决方案。将企业的数据有效整合,快速制作出报表以作出决策。涉及数据仓库,ETL,OLAP,权限控制等模块
BI 工具主要有两种用途
- 利用 BI 制作自动化报表,数据类工作每天都会接触大量数据,并且需要整理汇总,这是一块很大的工作量。这部分工作可以交给 BI 自动化完成,从数据规整、建模到下载使用其可视化功能进行分析,BI 的优点在于它提供比 Excel 更丰富的可视化功能,操作简单上手,而且美观,如果大家每天作图需要两小时,BI 会缩短一半时间
BI 作为企业级应用,可以通过它连接公司数据库,实现企业级报表的制作
关于 BI,像 Tableau、PowerBI、FineBI、Qlikview 这类 BI(商业智能)工具,涵盖了报表、数据分析、可视化等多层。底层还可于数据仓库衔接,构建 OLAP 分析模型。



