在深度学习和机器学习中,我们通常希望数据的分布为正态分布,因为在机器学习中,许多模型都是基于数据服从正态分布的假设(例如线性回归,它假设模型的残差服从均值为0方差为σ^2,标准化残差服从均数为0,方差为1 的正态分布)。因此,具有正态分布的数据会对模型的训练效果有着较为显著的提升。
2.BoxCox变换对于不符合正态分布的特征,除了对数变换等,最常用的就是BoxCox变换。
BoxCox将因变量Y进行以下变换后:
Y
(
λ
)
=
{
Y
λ
−
1
λ
,
λ
≠
0
ln
(
Y
)
,
λ
=
0
Y^{(lambda)}=begin{cases} & frac{Y^{lambda}-1}{lambda},lambdaneq 0\ & ln(Y),lambda =0 end{cases}
Y(λ)={λYλ−1,λ=0ln(Y),λ=0
使因变量Y和自变量X的关系满足:
y
(
λ
)
=
X
β
+
e
,
e
∼
(
0
,
σ
2
I
n
)
y^{(lambda)}=Xbeta +e,esim (0,sigma ^{2}I_{n})
y(λ)=Xβ+e,e∼(0,σ2In)
可以看到BoxCox是一个变换族,其变换的结果取决于
λ
lambda
λ的选择。
λ
lambda
λ的选择主要有极大似然法和贝叶斯方法。
待更新



