很早就看到这个问题了,一直没回答主要是因为问题实在是提的不太有诚意。就是一个刚刚学最小二乘的高中生,你们又是正交投影,极大似然,统计检验,BLUE,MSE降噪,不怕把人看晕嘛。知乎小编也是,这么个问题不停地推荐答案,那我还是来回答一下吧。前面基本都在回答标题,但没什么人注意到副标题,所以回答也很少有在点子上的。题主的这个想法其实很自然,坦白讲我初学时也有想过。现在来看,最根本的原因是哲学/逻辑上的。我们做回归分析,有自变量x,有因变量y,寻找的是y和x之间的联系,更确切的说是知道x怎么求y。所以x和y是两个本质不一样的量,一个是因,一个是果。现在再来看看题目里说的“应该用这样的直线,它使得每个点到直线的距离之和最小”,这种方法其实是将因果混为一谈了,试图在(x,y)这个向量空间里找一个最好的超平面。不说错误吧,这至少是一个不自然的逻辑。最小二乘的逻辑就自然多了。比如说我有一个因变量y和两个自变量x1,x2,它们在我观测到的样本里都表现为一个个的向量。最小二乘是在做什么呢?它是在观测到的x1和x2的向量所生成的线性空间中,找一个离观测到的y向量最近的点。从几何上看,这就是正交投影。
比如,在协变量存在观测误差时,如果观测误差是正态的,则通过极大似然估计可以导出类似题主说的方法。不假设正态分布,也是可以的,参考偏最小二乘法。另外当误差的方差与回归系数有特定关系时(这种关系一般由关于模型的知识得出),由极大似然也可以推出类似题主所说的方法。不明白引用的极大似然的解释为什么这么多反对和批评。极大似然估计是使对参数的估计的均方误差渐进最小(样本量越来越多时)的估计。这个意义下极大似然是最优的,最小二乘在教科书里对最简单的线性回归所做的假设下就是极大似然估计。这是高斯最先提出的,也是最小二乘能够这么流行的主要原因
。
首先要给出“最优”的定义是什么:最小化误差平方和(2范数)可以,最小化你说的误差距离和(1范数)也可以,还有其他许多最优的准则:例如加入各种regulation项...所以没有统一的“最优”。这个问题是,你首先得定义一个合理的目标函数(例如提到的2范数,1范数等等),而最小化该目标函数的解就是某个意义下的最优。没有哪一个目标函数比另外的目标函数更优,每一个合理的目标函数有其适用范围并且可以在数学上证明其特性,一个核心问题是,使用误差平方和作为目标函数时,200多年前的高斯就发现可以求导得到唯一的显式解,而这个解法也因此被称作最小二乘法,人们进一步研究时发现在高斯噪声等条件下可以得到一些漂亮的结论:如最小二乘解等价于最大似然估计,最佳线性无偏估计等。而是用其他目标函数,很难显式得到最优解——而近年来凸优化的发展,使用1范数等目标函数也可以有成熟算法求得其最优解。





