几个机器学习面试问题解析从容应对面试
▍目录
全局
优化
数据预处理
抽样和拆分
监督学习
无监督学习
模型评估
集成学习
商业应用
▍全局
基本的ML理论,如偏差方差权衡。
向外行人解释机器学习。
想象一个好奇的孩子,将他的手掌放在蜡烛火焰上,并在感受到短暂的灼热后立刻把手缩回来。第二天,他碰到一个热的炉子,顶部看到红色,感觉到前一天像蜡烛一样的热浪。
这个孩子从来没有碰过炉灶,但幸运的是,他从以前的数据中学到了,避免了红色的灼伤。
“拟合”模型意味着什么?超参数如何相关?
拟合模型是使用训练数据学习模型参数的过程。
参数有助于定义机器学习模型的数学公式。
然而,还有一些称为超参数的数据不能被学习的“较高级”参数。
超参数定义模型的属性,如模型复杂度或学习率。
解释偏差方差权衡。
预测模型在偏差(拟合模型数据的方式)和方差(基于输入变化的多少)之间有权衡。
更简单的模型是稳定的(低方差),但它们不接近真相(高偏差)。
更复杂的模型更容易被过度使用(高差异),但它们具有足够的表达能够接近真实性(低偏倚)。
给定问题的最佳模式通常位于中间的某处。
▍优化
找到模型最佳参数的算法。
随机梯度下降(SGD)和梯度下降(GD)之间有什么区别?
两种算法都是通过对数据进行参数评估,然后进行调整,找到一组最小化损失函数的参数的方法。
在标准梯度下降中,您将评估每组参数的所有训练样本。这类似于为解决这个问题而采取了大而缓慢的步骤。
在随机梯度下降中,在更新参数集之前,您只需评估1个训练样本。这类似于向解决方案迈出的小步骤。
什么时候使用GD超过SDG,反之亦然?
GD理论上最大限度地减少误差函数比SGD更好。然而,一旦数据集变大,SGD就会收敛得更快。
这意味着GD对于小数据集是优选的,而SGD对于较大的数据是优选的。
然而,实际上,SGD用于大多数应用程序,因为它可以将误差函数最小化,同时为大型数据集提供更快的速度和更高的内存效率。
▍数据预处理
处理丢失的数据,偏态分布,异常值等
什么是Box-Cox转换?
Box-Cox转换是一种广泛的“权力转型”,它转换数据,使分布更加正常。
例如,当lambda参数为0时,它相当于对数转换。
它用于稳定方差(消除异方差)并使分布正常化。
什么是3种数据预处理技术来处理异常值?
1.Winsorize(cap 阈值)。
2.转换以减少偏态(使用Box-Cox或类似的)。
3.如果你确定它们是异常或测量错误,请删除异常值。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%