栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

【持续更新】面试复习整理

【持续更新】面试复习整理

写在前面

基本都是从网上solo来的题目,也有一些平时看到感觉会被问的整理进去的题目主要为了毕业面试…… NLP/机器学习方向的算法岗面试问题整理问题答案均持续更新,持续到23年3月份吧,如果我还没找到工作的话



NLP
    word2vec的tricky是什么word2vec的两个模型是什么,分别使用了什么损失函数word2vec训练的最后一步有什么办法可以优化softmax的计算
    指数函数的计算会用查表来近似代替CBOW和skip-Gram的区别,哪个模型更好,哪个模型计算复杂度高fasttext是什么fasttext和word2vec的区别有哪些分词方法怎么处理UNK
    英文可以用char-embedding;直接用UNK高维特征检索自注意力机制的运行过程自注意力机制对于每一个词的分数会进行标准化,这一步的意义在哪里Multi-head的作用&实际意义tf-idf是什么BERT的输入是什么分层结构会不会破坏文本的连贯性如何解决长文本问题BERT中位置向量的作用如何生成位置向量(多种方式)为什么XLNet效果优于BERT针对中文,BERT有什么可以改进的地方
    参考ERNIE(基于知识的mask训练方式)ELMo如何做到动态词向量的ELMo的缺点


机器学习 基本概念
    生成模型和判别模型参数模型和非参数模型有几种梯度下降算法什么情况下会出现过拟合如何解决过拟合
    l1/l2/dropout/增加数据量/bagging/boosting不变动模型和参数,只针对数据,如何减少过拟合什么情况下会出现梯度爆炸/消失如何解决梯度爆炸/消失泰勒展开公式L1和L2正则的区别,分别在什么情况下使用为什么L1正则能产生稀疏性L1不可导时候改如何处理
    近端梯度法、坐标下降法什么是凸优化问题,凸优化有什么优点有哪些凸优的学习器什么是K-fold cross Validation为什么需要train,validation和test三个部分样本不均衡的时候有什么解决方案有监督和无监督的区别什么是极大似然为什么极大似然的时候可以相乘什么是最小二乘逻辑回归和SVM的区别参数越小模型越简单吗?为什么
    越是复杂的模型,越是尝试对所有样本进行拟合,包括异常点。这就会造成在较小的区间中产生较大的波动,这个较大的波动也会反映在这个区间的导数比较大。只有越大的参数才可能产生较大的导数。因此参数越小,模型就越简单。实现参数的稀疏有什么好处
    因为参数的稀疏,在一定程度上实现了特征的选择。一般而言,大部分特征对模型是没有贡献的。这些没有用的特征虽然可以减少训练集上的误差,但是对测试集的样本,反而会产生干扰。稀疏参数的引入,可以将那些无用的特征的权重置为0.什么是卡方检测有哪些特征选择方法如果f1已经趋于平稳,如何在保持f1稳定的前提下提高precision,降低recall怎么同时处理离散数据和连续数据怎么处理onehot等操作之后维度过高的数据

评估指标
    AUC 的计算方法及实现公式当样本不均衡的时候,AUC 会有影响吗
    不会分类问题有哪些评价指标回归问题有哪些评价指标
    1) 均方根误差准确率的计算公式召回率的计算公式精确度的计算公式F1 score的计算公式为什么减小方差有效

数据降维
    什么是方差什么是协方差PCA的优点
    仅仅需要以方差衡量信息量,不受数据集以外的因素影响。第二、各主成分之间正交,可消除原始数据成分间的相互影响的因素。第三、计算方法简单,主要运算是特征值分解,易于实现。PCA的缺点
    第一、提取出的各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。第二、PCA会消除一些类信息,但是方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。PCA和LDA的区别
    无监督/有监督LDA的优点
    1)在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。
    2)LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。LDA的缺点
    1)LDA不适合对非高斯分布样本进行降维,PCA也有这个问题。
    2)LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
    3)LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好。
    4)LDA可能过度拟合数据。

FM
线性回归
    线性回归的两种损失函数

K-Means
    K-means的初始点选择
    【方法1】选择批次距离尽可能远的K个点:首先随机选择一个点作为第一个初始类簇中心点,然后选择距离该点最远的那个点作为第二个初始类簇中心点,然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点,以此类推,直至选出K个初始类簇中心点。
    【方法2】选用层次聚类或者Canopy算法进行初始聚类,然后利用这些类簇的中心点作为KMeans算法初始类簇中心点K-means的K值选择K-means和DBSCAN的区别K-means假设数据服从什么分布K-means的缺点,如何改善

SVM
    SMV的优化函数为什么优化问题中间隔γ可以取1偏离margin较近的错分样本和偏离margin较远的错分样本损失是否一样什么是hinge loss如何处理线性不可分的数据什么是oneClass SVM什么是决策平面什么是支持向量什么是硬间隔/软间隔KKT条件是什么为什么能用KKT条件SMO算法什么是拉格朗日对偶问题为什么能用对偶条件如何选择需要更新的 α alpha α有哪些经典的核函数

决策树
    决策树的分裂方式是什么,根据什么变量来决定分裂变量有哪些树模型
    CLS/ID3/C4.5/CARTID3是二叉树还是多叉树
    ID3只能处理离散型变量,离散特征(离散数量>2)时是多叉树C4.5是二叉树还是多叉树
    C4.5可以处理离散型/连续型变量,离散特征(离散数量>2)时是多叉树,连续特征时是二叉树信息增益的计算什么是自信息量什么是信息熵信息熵的性质有哪些什么是条件熵怎么对决策树进行预剪枝怎么堆决策树进行后剪枝什么是基尼系数回归树的分裂标准

集成学习 基本概念
    bagging和boosting的区别
-baggingboosting
运行方式并行串行
异常值不敏感敏感
结果表决决定累加决定
分类器权值一致不一致
    GBDT/Adaboost/RF哪个决策树depth较深
    bagging较深,boosting有样本权重,所以不必太深(Adaboost bagging
      随机森林有哪些随机量
      对训练样本进行有放回抽样;再决策树的村联过程中引入了随机属性选择(先随机选择包含k个属性的子集,再选择最优属性)什么是isolation forest随机森林分裂时特征如何选择
    boosting
      Adaboost的4种算法boosting总体可以概括为
      前向分布+加法模型xgboost的目标函数xgboost的并发机制xgboost的分裂节点方式GBDT的分裂依据GBDT的并发机制xgboost为什么要用梯度拟合残差xgboost的预排序作用为什么xgboost要引入正则项和二阶泰勒展开xgboost对缺失值敏感吗xgboost为什么对缺失值不敏感xgboost的常用参数xgboost如何调参xbgoost的缺点
      level-wise建树方式对当前层的所有叶子节点一视同仁,有些叶子节点分裂收益非常小,对结果没影响,但还是要分裂,加重了计算代价。
      预排序方法空间消耗比较大,不仅要保存特征值,也要保存特征的排序索引,同时时间消耗也大,在遍历每个分裂点时都要计算分裂增益(不过这个缺点可以被近似算法所克服)xgboost和GBDT的区别GBDT和boosting tree的区别GBDT需要为样本设置权重吗
      不需要

    逻辑回归
      逻辑回归的缺点逻辑回归的目标函数针对逻辑回归的目标函数如何求最优解为什么要用对数似然,不用square loss或者absolute loss
      为了得到凸函数逻辑回归使用平方损失会不会形成凸函数?
      不会

    贝叶斯
      贝叶斯公式条件概率公式全概率公式朴素贝叶斯的前提要求朴素贝叶斯的计算过程朴素贝叶斯和贝叶斯有什么区别HMM的维特比算法CRF的本质

    GMM
      E-step的目的M-step的目的

    深度学习 基本概念
      常见的损失函数有哪些relu的缺点有什么常见的激活函数有哪些激活函数有什么作用批归一化(batch normalization)的4个公式及各自作用batch normalization的特性softmax的计算公式为什么softmax使用指数函数有哪些优化器
      SGD/AdaGrad/Adam/RMSProp/Momentum什么是鞍点为什么神经网络容易拟合到鞍点反向传播的原理梯度下降陷入局部最优有什么解决方法dropout前向和反向的处理
    LSTM
      LSTM的信息传递机制是什么LSTM和RNN比有什么优势除了LSTM还有什么能解决RNN的劣势
      relu,bn,合理初始化每个门的组成
      sigmoid层 + 点乘操作sigmoid的作用
      以 [0, 1] 的输出限制了可通过该门的信息量tanh函数的作用
      用于创建一个新的细胞状态的候选向量,将输入数据规范到[-1, 1]之间细胞状态和隐藏状态LSTM怎么进行反向传播LSTM为什么能减少梯度消失GRU和LSTM的区别LSTM 有哪些门,为什么要用这些门BiLSTM和LSTM的区别
    CNN
      CNN的特点CNN的原理CNN的卷积层参数量CNN的权重/偏置更新方式,和BP的区别max/average pooling层梯度回传方式卷积核为什么都是奇数给定卷积核和步长计算output维度
    GNN
    其他

    编程语言
      如何断点调试python如何断点调试C++如何断点调试javapython有哪些解释器
      CPython:由C编写
      Jython:由Java编写,再JVM上实现
      IronPython:由C#编写,面向.NET平台
      Pypy:使用RPython实现python变量的生存周期是多少python如何编译,执行原理是什么
      用户提交源码后,解释器将源码转化为字节码,在Python中一般为.pyc文件,这个字节码机器不能执行,由虚拟机执行。由于字节码一般是不依赖于操作系统的,所以可以做到跨平台运行。
      当python程序第二次运行时,首先程序会在硬盘中寻找pyc文件,如果找到,则直接载入,否则就重复上面的过程。指针和引用的区别线程和进程的区别同步和异步的区别python的垃圾回收机制python 深拷贝和浅拷贝python可否多线程/多进程python语言的特性python的 “_” 和 "__"的区别python的self关键字python的装饰器@的用法python的继承tensorflow和pytorch的区别


    数据结构
      列举八大排序算法和他们的时间/空间复杂度已知前序和后序能不能构建二叉树
      不能,“根左右”和“左右根”无法判断左右子树Top-K问题适合用什么
      堆什么是红黑树红黑树的特点散列表的存储散列表读取的时间复杂度如何交换两个数字的值但不申请额外的空间堆排序的过程桶排序的过程递归的缺点什么是二叉搜索树
      1)二叉查找树可以是一棵空树
      2)或者是具有下列性质的二叉树

      若它的左子树不空,则左子树上所有结点的值均小于它的根结点的值若它的右子树不空,则右子树上所有结点的值均大于它的根结点的值它的左、右子树也分别为二叉排序树。 二叉搜索树的优点
      1) 有链表的快速插入与删除操作的特点
      2) 有数组快速查找的优势什么是前缀树什么是完全二叉树什么是平衡二叉树一个具有N个节点的完全二叉树深度是多少,叶子节点是多少链表和线性表的区别array和hash set的区别如何判断一个算法是线性的还是非线性的什么是哈希冲突



    数学问题
      矩阵秩的几何意义,这个概念具体有什么用
      秩主要是用来描述行(列)向量组所含向量的“真正”个数,知道了秩是多少,也就知道了最少用多少个向量就能表示这个向量组先验概率和后验概率似然和概率的区别矩阵的特征值和特征向量什么是几何分布什么是伯努利分布什么是期望如何求解期望导数和偏导的区别标量/向量 /张量/矩阵什么是Hessian矩阵


    具体题目
      两堆水果:其中有橘子和苹果,第一堆中有黄色:绿色为7:3;第二堆中有黄色:绿色为5:5;已知橘子都是黄色,苹果都是绿色;那么现在拿出一个水果是苹果,则苹果是从第一堆拿出来的概率是多少?(3/8)
      用贝叶斯一个输入流,一直不断输出一个数字,随时可能停止,停止时要求立即输出一个之前所有数中的随机数,即每个数字输出的概率都相同,要求是只能申请常数大小的存储空间,不能O(n)大小。
      新来的数以1/n概率保留,原来的数以(n-1)/n概率保留。每次来一个数按概率抛弃一个数,剩一个数如何利用一个概率为p的事件,得到等概率的事件


    其他
      以wordcount为例子来说一下hadoop的数据走的流程,sort阶段发生在什么时候什么是死锁如何预防死锁linux查找某个正在运行的进程linux查看显存linux杀死进程


    代码题目
      深度优先搜索的非递归写法广度优先搜索的非递归写法
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/761134.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号