多重共线性的解决方法之——岭回归与LASSO

标签：多元线性回归模型的最小二乘估计结果为

如果存在较强的共线性，即中各列向量之间存在较强的相关性，会导致的从而引起对角线上的值很大

并且不一样的样本也会导致参数估计值变化非常大。即参数估计量的方差也增大，对参数的估计会不准确。

因此，是否可以删除掉一些相关性较强的变量呢？如果p个变量之间具有较强的相关性，那么又应当删除哪几个是比较好的呢？

本文介绍两种方法能够判断如何对具有多重共线性的模型进行变量剔除。即岭回归和LASSO(注：LASSO是在岭回归的基础上发展的)思想：

既然共线性会导致参数估计值变得非常大，那么给最小二乘的目标函数加上基础上加上一个对的惩罚函数最小化新的目标函数的时候便也需要同时考虑到值的大小，不能过大。在惩罚函数上加上系数k

随着k增大，共线性的影响将越来越小。在不断增大惩罚函数系数的过程中，画下估计参数（k）的变化情况，即为岭迹。

通过岭迹的形状来判断我们是否要剔除掉该参数（例如：岭迹波动很大，说明该变量参数有共线性）。步骤：

对数据做标准化，从而方便以后对（k）的岭迹的比较，否则不同变量的参数大小没有比较性。构建惩罚函数，对不同的k，画出岭迹图。根据岭迹图，选择剔除掉哪些变量。岭回归的目标函数

式中，t为的函数。越大，t越小（这里就是k）

如上图中，相切点便是岭回归得出来的解。是岭回归的几何意义。

可以看出，岭回归就是要控制的变化范围，弱化共线性对大小的影响。

解得的岭回归的估计结果为：岭回归的性质

由岭回归的目标函数可以看出，惩罚函数的系数 (或者k)越大，目标函数中惩罚函数所占的重要性越高。

从而估计参数也就越小了。我们称系数 (或者k)为岭参数。因为岭参数不是唯一的，所以我们得到的岭回归估计实际是回归参数的一个估计族。例如下表中：岭迹图

将上表中回归估计参数与岭回归参数k之间的变化关系用一

张图来表示，便是岭迹图

当不存在奇异性是，岭迹应该是稳定地逐渐趋于0 当存在奇异性时，由岭回归的参数估计结果可以看出来，刚开始k不够大时，奇异性并没有得到太大的改变，所以随着k的变化，回归的估计参数震动很大，当k足够大时，奇异性的影响逐渐减少，从而估计参数的值变的逐渐稳定。岭参数选择的一般原则各回归系数的岭估计基本稳定

不存在有明显不符合常理的回归参数，其岭估计的符号应当要变得合理

回归系数没有不合实际意义的绝对值残差平方和增大不多用岭回归选择变量

由于岭回归是已经变量标准化之后的回归，因此岭回归系数的大小是能够互相比较的，可以剔除掉标准化

随着k的增加，回归系数不稳定，震动趋于零的变量也可以剔除

那么，问题来了，趋于0到底是怎样才能看出来呢？能不能程序自动判断呢？如果有好几个回归系数不稳定的，又应该去掉哪个呢？这就需要根据去掉某个变量之后的回归效果来定。这就涉及到扩展的岭回归方法LASSO了。在此之前，先用R语言运行一个岭回归的例子