PART 0 前导
- 数据分析的价值
- 避免主观谬误(需求分析、AB 测试)、提高判断效率(如:客服提高交接效率)、易推广、易迭代
- 数据分析的要求
- 简明化 、结论化、通用化
- 数据分析的本质–发现和解决问题
- 现状 vs 期望:(过去更好 → 解决已发生风险,现状很好 → 预防潜在风险,通用化判断,理想/未来更好 → 战略性、定性分析)
- 数据分析的四个层次
- 战略规划:内外部数据结合,长期规划,注重方向判断,弱化细节预测。
- 策略分解:根据战略和目标,拆解为可执行的层面,注重 KPI 设定。
- 市场营销:活动和获客驱动,注重成本核算、效果预测和事后评估。
- 业务运营:关注日常数据,注重监控预警和分析发现。
- 数据分析师的分类
- 数据部–数据分析师:数据驱动业务,关注现象背后的原因,对未来预测;独立于业务经验,提供不同视角产出;
- 业务部门–业务分析师:业务为主,数据为辅,更关注业务变化,指标监控,活动效果评估,业务经验很重要。
- 分析师进阶之路
- a.初级分析师 0-1 年:临时性数据支持为主:SQL/Tableau/PPT;
- b.高级分析师 1-3 年:简单的分析需求为主:R/Python/PPT/分析思维;
- c.资深分析师 3-5 年:项目为主:R/Python 的高级应用/沟通技巧;
- d.数据工程师 5 年以上:根据不同发展方向,有所侧重;提升对模型和业务的理解、开拓视野。
习题整理
- 1.以下哪种结构用于 Pandas 的三维数据分析?
- A.Data frame
- B.Panel
- C.Series
- D.Panel 3D
- 答:B。Pandas 提供了三种数据对象,分别为 Series、Dataframe 和 Panel(SDP-一二三)。Series:用于保存一维类的数据,Dataframe 用于保存二维类的数据,Panel 用于保存三维类的数据或可变维度的数据。
- 2.数据质量校验的方式错误的是?
- A.加大内存与 shuffle 的容量,加快计算。
- B.根据数据整体批次比对,查看数据无遗漏
- C.根据数据的某些进行聚合,查看整体数据有无偏差
- D.抽样明细数据比对完整列能否对齐
- 答:A。与数据质量校验无关,也体现不出校验来。
- 3.数据质量的管理不包含?
- A.数据的完整性
- B.数据交付准确性
- C.数据命名规范性
- D.数据计算的性能优化
- 答:D。与质量无关。
- 4.数据正规化(Data Normalization)是在知识挖掘处理(Knowledge Discovery Process)中的哪一个阶段进行?
- A.数据清洗
- B.数据选择
- C.数据编码
- D.数据扩充
- 答:C。错选 A。数据编码包括:数据正规化、数据一般化、数据精简。
- 5.数据的可变性用方差来表示,下列哪项命令能够得到随机变量的方差?
- A.np.mean()
- B.np.var()
- C.np.std()
- D.np.median()
- 答:B。
- 6.关于元数据的描述错误的是?
- A.元数据可以直接提升数据查询性能
- B.元数据是大数据治理的核心
- C.元数据支持企业级别的数据资产管理
- D.元数据能够协助了解企业数据情况,针对数据问题可以快速定位
- 答:A。元数据,简单定义就是描述数据的数据。在企业中,只要有数据存在的地方,就有其对应元数据。只有完整、准确的元数据存在,才能更好地理解数据,充分挖掘数据的价值。



