栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

CDA Level I→Part 0 前导

CDA Level I→Part 0 前导

PART 0 前导

  • 数据分析的价值
    • 避免主观谬误(需求分析、AB 测试)、提高判断效率(如:客服提高交接效率)、易推广、易迭代
  • 数据分析的要求
    • 简明化 、结论化、通用化
  • 数据分析的本质–发现和解决问题
    • 现状 vs 期望:(过去更好 → 解决已发生风险,现状很好 → 预防潜在风险,通用化判断,理想/未来更好 → 战略性、定性分析)
  • 数据分析的四个层次
    • 战略规划:内外部数据结合,长期规划,注重方向判断,弱化细节预测。
    • 策略分解:根据战略和目标,拆解为可执行的层面,注重 KPI 设定。
    • 市场营销:活动和获客驱动,注重成本核算、效果预测和事后评估。
    • 业务运营:关注日常数据,注重监控预警和分析发现。
  • 数据分析师的分类
    • 数据部–数据分析师:数据驱动业务,关注现象背后的原因,对未来预测;独立于业务经验,提供不同视角产出;
    • 业务部门–业务分析师:业务为主,数据为辅,更关注业务变化,指标监控,活动效果评估,业务经验很重要。
  • 分析师进阶之路
    • a.初级分析师 0-1 年:临时性数据支持为主:SQL/Tableau/PPT;
    • b.高级分析师 1-3 年:简单的分析需求为主:R/Python/PPT/分析思维;
    • c.资深分析师 3-5 年:项目为主:R/Python 的高级应用/沟通技巧;
    • d.数据工程师 5 年以上:根据不同发展方向,有所侧重;提升对模型和业务的理解、开拓视野。

习题整理

  • 1.以下哪种结构用于 Pandas 的三维数据分析?
    • A.Data frame
    • B.Panel
    • C.Series
    • D.Panel 3D
    • 答:B。Pandas 提供了三种数据对象,分别为 Series、Dataframe 和 Panel(SDP-一二三)。Series:用于保存一维类的数据,Dataframe 用于保存二维类的数据,Panel 用于保存三维类的数据或可变维度的数据。
  • 2.数据质量校验的方式错误的是?
    • A.加大内存与 shuffle 的容量,加快计算。
    • B.根据数据整体批次比对,查看数据无遗漏
    • C.根据数据的某些进行聚合,查看整体数据有无偏差
    • D.抽样明细数据比对完整列能否对齐
    • 答:A。与数据质量校验无关,也体现不出校验来。
  • 3.数据质量的管理不包含?
    • A.数据的完整性
    • B.数据交付准确性
    • C.数据命名规范性
    • D.数据计算的性能优化
    • 答:D。与质量无关。
  • 4.数据正规化(Data Normalization)是在知识挖掘处理(Knowledge Discovery Process)中的哪一个阶段进行?
    • A.数据清洗
    • B.数据选择
    • C.数据编码
    • D.数据扩充
    • 答:C。错选 A。数据编码包括:数据正规化、数据一般化、数据精简。
  • 5.数据的可变性用方差来表示,下列哪项命令能够得到随机变量的方差?
    • A.np.mean()
    • B.np.var()
    • C.np.std()
    • D.np.median()
    • 答:B。
  • 6.关于元数据的描述错误的是?
    • A.元数据可以直接提升数据查询性能
    • B.元数据是大数据治理的核心
    • C.元数据支持企业级别的数据资产管理
    • D.元数据能够协助了解企业数据情况,针对数据问题可以快速定位
    • 答:A。元数据,简单定义就是描述数据的数据。在企业中,只要有数据存在的地方,就有其对应元数据。只有完整、准确的元数据存在,才能更好地理解数据,充分挖掘数据的价值。
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/612920.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号