什么是最小二乘?
在统计分析和建模处理中,经常用到最小二乘的相关方法进行误差分析处理。该方法的核心是所有估计值与被估计值之差的平方和达到最小。两百年来,最小二乘思想的应用例子浩如繁星;到了最近十年,在新兴的大数据科学以及人工智能疆场,到处都响着最小二乘的战鼓。但会用相关的方法流程和计算工具,不一定就清楚背后的数学原理。厘清读者朋友们“知其然而不知其所以然”的困惑,正是笔者写作本文的一个初衷。
撰文 | 朱慧坚(玉林师范学院数学与统计学院副教授)、丁玖(美国南密西西比大学数学系教授)
我们发现,无论怎样作一条直线,都不可能同时经过所有这五个点。见下图:
读者或许会说,两个点决定一条直线,即给定平面上两个不同的点,有且仅有一条直线经过它们。现在给了五个点,哪能有一根直线通过所有这些点?除非它们恰好位于一条直线上。你说对了,事实胜于雄辩。然而在现实世界里,我们常常遇到这样的问题:这些点是科学家或工程师为了寻求某种现象之客观规律而获得的实验数据,数据依赖于测量,而测量就逃脱不了误差。如果这个设想或期待的规律可表达为最简单的线性函数(当然一般是复杂得多的函数,如携带了众多参变量的有理函数、无理函数、三角函数、指数函数等,但本文旨在解释思想,而非追逐细节),那么这五组自变量和因变量的试验值一般不可能都能精确满足这个线性函数,从而产生了另一种误差。
既然任何直线都不能由这些点精确表达,能否找到一根直线,使得它尽可能地“拟合”这些数据?自然,最佳的拟合就是插值,但这里行不通,因为直线插值通常只能“插进”两点,另三点只好落在线外。这样,我们需要寻找另一种“最佳拟合方案”。这个最佳逼近所遵循的途径就是本文主题“最小二乘”。
头疼。对这类在某些点缺乏偏导数的多元函数,要得到其值为最小的最优点,不仅无一般解析公式可用,而且计算起来也很麻烦,因为基于微分概念的数值最优化方法(如最有名的牛顿法),这时没有多少用武之地。
导数方法
上述二元函数的非光滑性来源于高中生都知道的事实:绝对值函数y=|x|在x=0时导数不存在。这个函数的图像是直角坐标平面第一和第二象限的对角射线之并,形状像“身宽体胖”的大写英文字母“V”,坐标原点是它的一个尖点,在那里曲线(折线)没有切线。
y=|x|的图像
那么,怎么解决上述不可微误差函数最小值难以计算的困难呢?解决方案其实相当简单,
范数在线性代数中极为有用,享有与长度一模一样的几个基本性质:
(i)范数总是非负数;
(ii)范数为0当且仅当向量为0;
(iii)标量与向量之积的范数等于标量绝对值乘以向量的范数;
(iv)两向量之和的范数不大于各向量范数之和,称为三角形不等式。
在泛函分析中,这四个性质成了在抽象线性空间上定义范数使其成为赋范线性空间的范数公理。
“内积”是欧几里得空间里十分重要的二元向量运算,结果为数,与几何术语“正交投影”关系
矩阵方法
刚才求出最佳逼近用的是“导数法”,学过初等微积分的人都能理解,然而引进最小二乘的最常见手段却是借助于矩阵,和线性方程组有不解之缘,学过矩阵初等理论的读者应该不会
但如果不像之前对五点线性拟合那样耍弄微积分大刀,怎样用线性代数的战斧劈开它呢?现在我们搬出这把战斧,它的木柄上刻着“正交投影”四个大字。
笔者在课上讲解正交投影时,常用自己的身体做道具:微微向前倾斜身体,和地面成约80度的角(当然不能过度倾斜,否则会有倒地的危险),然后眼光垂直射向地面,从脚到眼光射到地面处的向量就是身体向量对着地面的正交投影。正交投影的一个基本性质是众所周知的,即向量被正交投影后长度不能变大,用平面几何的语言说就是:直角三角形的直角边总不会比斜边更长。斜投影没有正交投影用途广,就是因为它缺乏这个好特色。这也说明为啥人们都用直角坐标系而几乎不用斜角坐标系,因为后者的两点距离公式只能靠复杂的余弦定律,而简单漂亮的勾股定理爱莫能助!
在可见的二维和三维空间,正交投影与两条直线段垂直几乎就是同义词。在解析几何中,两个非零向量相互垂直当且仅当它们的点积为零。到了线性代数里的高维欧几里得空间,
基于对日常距离概念的直观理解,我们可以把min{||x-v||: v∈V}称为x到V的欧几里得距离,简称距离。人人熟知,在连接直线外一点与直线上各点的线段中,垂线段最短。而上述引理将这个平面几何的基本事实推广到了高维欧几里得空间,这将直接用于求解我们的最小二乘问题(3)。
历史上,先是美国数学家穆尔(Eliakim Hastings Moore,1862-1932)于1920年定义了它,1955年,英国小伙子、2020年的诺贝尔物理学奖得主彭罗斯(Roger Penrose,1931-)又独立地发明了它。
其次,这里使用多项式函数进行最小二乘的问题,引出的A是个特殊矩阵。由于假设了这m
这实在是个简洁漂亮的解公式!之前在《从线性算子的角度看广义逆矩阵》中引进的穆尔-彭罗斯广义逆在最小二乘误差分析中大放异彩!自然,本文对五点问题用到的求导法,对此更一般情形也能得到同样的结果,我们就暂时离开代数学,再次品尝一下分析学的滋味。
最小二乘问题和极小范数解
下面的图示展现了极小范数最小二乘解的几何意义:
我们举一个数值例子帮助读者消化概念。给出一个三阶方阵A和三维向量b:
因为A的第三行等于第二行的两倍减去第一行,所以这三行线性相关,故A是一个奇异矩阵,并且由于b的第三行不等于第二行的两倍减去第一行,想精确求解线性方程组Ax=b是徒劳的,所以其右端向量b不落在A的值空间内。我们退而求其次,找到此方程组在最小二乘意义下的一个近似解,即求解对应的最小二乘问题 (LSP)。
为了使用广义逆矩阵来完成任务,我们需要零空间N(A)和值空间R(A)的具体信息。零空间N(A)可由求解两个联立齐次线性方程
法方程
从本例可见,即便对于小尺寸矩阵,通过定义求出广义逆矩阵以获得最小二乘解是颇费工夫的,我们能不能无需先计算广义逆矩阵,而一步到位地求解(LSP)?在本文最后我们论证:求解最小二乘问题(LSP)等价于求解“法方程(normal equation)”
这个等价关系是最小二乘法理论的核心要素之一,它无需广义逆矩阵的符号,值得以定理的形式当作本文压轴戏上演。
定理.向量x是最小二乘问题(LSP)的解,当且仅当它满足对应的法方程(NE)。
证明.设x是(LSP)的一个解,则根据最小二乘解的意义和正交投影的性质,向量Ax是向量b
历经了本文几个数学结论的推理过程,相信不少读者想放松一下大脑了。我们就以最小二乘的诞生简史来陪读者朋友轻松一下。无论怎样追溯最小二乘法的历史源头,两个人的名字总是要提到的,一位是法国数学家勒让德(Adrien-Marie Legendre,1752-1833),他于1805年清楚简洁地用线性方程拟合数据的方法来确定彗星的轨道;另一位则是德国数学家高斯(Carl Friedrich Gauss,1777-1855),他曾声称早在22岁时就已知晓最小二乘的奥秘。确实,他24岁时用最小二乘原则进行了预测,帮助一位匈牙利天文学家找到了谷神星的位置。
两百年来,最小二乘思想的应用例子浩如繁星,到了最近十年,在新兴的大数据科学以及人工智能疆场,到处都响着最小二乘的战鼓。但会用与它关联的方法流程和计算工具,不一定就清楚背后的数学原理。厘清读者朋友们“知其然而不知其所以然”的困惑,正是笔者写作本文的一个初衷。
封面来自Google Doodle
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。