- SQL编程专题:【数据分析/商业分析】面试题整理——SQL专题
文章目录
- 统计学
- 机器学习
- SQL
- 大数据
- 业务知识
- python
统计学
- 怎么做假设检验
- 偏态分布怎么处理
- 假设检验的基本原理,为什么会是反证的思想
- 假设检验的p值,显著性水平是什么,怎么理解
- 实验的样本量怎么确定
- 卡方,z,t检验的使用场景区别
- 如何和一个没有统计背景的人解释MLE
- 如果实验组、对照组的流量分配不均匀,如何消除影响
- 解释大数定律,中心极限定理
10.皮尔森相关系数以及如何解读相关、独立、线性相关的区别
- 两个向量之间的相似性有哪些计算方法
①欧氏距离
②曼哈顿距离
③余弦相似度
④杰卡德相似度 - 逻辑回归:特点、归一化吗
- 完整解释PCA,PCA缺点:高维度数据能使用PCA吗,类别变量onehot能用PCA吗
- 特征工程怎么做
- ensemble怎么做,怎么提高ensemble的表现
- 模型评估指标选择
- AUC怎么算
- 随机森林算法的原理,为什么优越;样本是有放回还是无放回;特征值是有放回还是无放回
- 为什么随机森林的样本是有放回抽样(可以减小方差,类似于bootstrap)
- ROC和AUC值的原理
- AUC一定越大越好吗,有没有反例。样本极度不均衡时AUC很大,但并不代表效果好
- 图算法的考察
- 交叉验证
- 除了distinct外还有什么方法去重
- paritition by和group by的区别
- rank和row_number()区别
- 查准率和查全率
- left join 和 right join的区别
- hive和hadoop原理
- 大数据和普通数据区别
- 实时流方面,hadoop
- 游戏DAU下降分析
- 指标:DAU、注册、分享、充值,两个游戏指标有高有低,该给谁流量
- 分享率:10个人1个分享,100个人10个分享,如何确定置信性
- 如何设计综合指标
- 怎么划分用户生命周期
- 如何判断即将流失用户
- 抖音如何从数据分析的角度进行内容分发
- 业务建模方面的能力
- 怎样衡量在某个页面做推荐的效果
- 怎样衡量在某个页面做搜索的效果
- 有一个母婴类app,想了解用户都是什么样的人,会构建怎样的指标体系
- 怎么知道直博与受众是否匹配(从直博本身的数据出发)
- 根据value倒序输出字典
- list,tuple,set和defacultdict的区别



