从抛物线到马鞍面,如何理解矩阵二次型?

你是否还记得中学数学里那个熟悉的抛物线y=ax^2+bx+c?它的开口方向由a决定,与x轴的交点由判别式Δ决定。这就引出了一个核心问题:如何判断一个多项式的值是恒正、恒负还是有正有负?
本文正是从这个简单的中学问题出发,将视野拓展到更广阔的领域。它展示了如何用矩阵语言来描述多变量的二次函数,并利用特征值、行列式和合同变换等线性代数工具,来解决更复杂维度的“开口方向”和“正负性”问题。
撰文 | 朱慧坚(广州南方学院数学与统计学院副教授)、丁玖(广州南方学院数学与统计学院教授)
从一元二次函数说起
读过中学的人对实系数二次多项式𝑦 = 𝑎𝑥^2 + 2𝑏𝑥 + 𝑐是最熟悉不过的了。这个函数的图像是站立的抛物线,开口朝上或朝下依二次项系数𝑎大于或小于零而定。另外,这根抛物线是否完全不碰𝑥-轴,又和另一数有关系:如果𝑎𝑐 − 𝑏2大于零,则抛物线不碰横坐标轴,这时上述方程没有实数根;如果𝑎𝑐 − 𝑏^2小于零,则抛物线非穿过𝑥-轴两次不可,两个交点的𝑥坐标分别等于一元二次方程𝑎𝑥^2 + 2𝑏𝑥 + 𝑐 = 0的相异实数根。剩下的情形是𝑎𝑐 − 𝑏^2等于零,此时光滑曲线与𝑥-轴像恋人般“相拥而吻”。看来𝑎𝑥^2 + 2𝑏𝑥 + 𝑐中三个常数字母构成的表达式𝑎𝑐 − 𝑏^2,决定了多项式的不同行为;它的相反数被叫做“判别式”。注意,在通常初等代数教科书里,(2𝑏)^2 − 4𝑎𝑐称为判别式,但它与这里的判别式仅差正数因子4,故它们本质上无异。
这些简单的初等知识可以引导人们走向更加宽广的数学世界,帮助理解一系列属于不同学科的新概念,而它们的源头依然是我们最近一直在谈论的线性代数。首先,将上面单变量函数中的一次幂𝑥乘上一个因子𝑦,然后在常数𝑐后面乘上𝑦的平方,得到两个变元的齐次二次多项式𝑎𝑥^2 + 2𝑏𝑥𝑦 + 𝑐𝑦^2。说它是 “齐次”是因为所有项的次数(各因子变元的幂次数之和)都一样;对于n次齐次多项式,如果你把其中的每一个变元都同时放大k倍,那么整个多项式就会放大kn倍。
为什么要引进如上两个变量的齐次多项式?原因是它可以很自然地用矩阵乘法的语言重新表达。读者马上就能验证如下的恒等式

如果将上式中的二阶方阵用𝐴表示,二维列向量记为𝑝,则𝑎𝑥^2 + 2𝑏𝑥𝑦 + 𝑐𝑦^2变成𝑝𝑇𝐴𝑝,其中上标𝑇代表矩阵和向量的转置运算。
模仿中学代数所问“单变量二次多项式何时恒正,何时恒负,或者有正有负?”我们问大学代数中的类似问题:“在什么情况下,双变量二次多项式𝑎𝑥^2 + 2𝑏𝑥𝑦 + 𝑐𝑦^2的值对所有不全为零的𝑥和𝑦都为正、都为负或有正有负?”
二元二次型的符号判别
下面分别用中学生的方法和大学生的方法求解上述问题。先用初等代数。将二次函数进行恒等变形:
由上可见,要想左式恒大于零或恒小于零,𝑎必须大于零或小于零。在这个必要条件下,假设𝑎𝑐 − 𝑏^2 > 0。如果𝑦不为零,那么无论𝑥取什么实数,上面最后一个等号后面方括号内那个表达式大于或等于正数(𝑎𝑐 − 𝑏^2)𝑦^2/𝑎^2。此时𝑎𝑥^2 +2𝑏𝑥𝑦 + 𝑐𝑦^2在𝑎 > 0时总大于零,在𝑎 < 0时总小于零。若𝑦 = 0,则对所有的非零数𝑥,都有𝑎𝑥^2 + 2𝑏𝑥𝑦 + 𝑐𝑦^2 = 𝑎𝑥^2全大于零或全小于零,依𝑎 > 0或𝑎 < 0而定。所以,若𝑎 > 0和𝑎𝑐 − 𝑏^2 > 0,则𝑎𝑥^2 + 2𝑏𝑥𝑦 + 𝑐𝑦^2的值除了当𝑥 = 𝑦 = 0外都大于零;若𝑎 < 0和𝑎𝑐 − 𝑏^2 > 0,则该多项式的值对所有不全为零的𝑥和𝑦都小于零。由于𝑥和𝑦在多项式中的对称性,同理可知,𝑎𝑥^2 + 2𝑏𝑥𝑦 + 𝑐𝑦^2 > 0或< 0对所有不全为零的𝑥和𝑦都为真的另一个充分条件是𝑐 > 0和𝑎𝑐 − 𝑏^2 > 0或𝑐 < 0和𝑎𝑐 − 𝑏^2 > 0。反过来易见,𝑎 > 0, 𝑐 > 0和𝑎𝑐 − 𝑏^2 > 0或𝑎 < 0, 𝑐 < 0和𝑎𝑐 − 𝑏^2 > 0也是函数值恒大于零或小于零的必要条件。此外不难看出,𝑎𝑥^2 + 2𝑏𝑥𝑦 + 𝑐𝑦^2的值可正可负的充要条件是𝑎𝑐 − 𝑏^2 < 0。
下面用矩阵手段证明同一结论,走一条与本文主题相关的道路,即采用笔者在之前文章中介绍过的“特征值”概念。计算𝐴的特征多项式

它的两个实数根是

分别求解齐次线性方程(𝜆𝐼 − 𝐴)𝑢 = 0和(𝜇𝐼 − 𝐴)𝑣 = 0,算出对应于各自特征值𝜆和𝜇的特征向量(假定𝑏 ≠ 0)

显见这两个特征向量相互正交,即𝑣^𝑇𝑢 = 0,这也是上篇文章《正规矩阵有哪些特色?》里命题“实对称矩阵对应于相异特征值的特征向量必定正交”的直接应用。设𝑏 = 0,则𝐴有特征值𝑎和𝑐。无论𝑎和𝑐是否相等,都有正交特征向量

避开𝑏 = 0这一特殊情形,令

其中‖𝑢‖和‖𝑣‖分别为𝑢和𝑣的欧几里得2-范数(所有分量平方和的平方根),则𝑊是正交矩阵,因而它是可逆矩阵且逆矩阵等于它的转置矩阵。由于𝑢/‖𝑢‖和𝑣/‖𝑣‖是𝐴分别对应于𝜆和𝜇的特征向量,有𝐴𝑊 = 𝑊𝐷,其中对角矩阵

由此得到正交相似关系𝐴 = 𝑊𝐷𝑊^𝑇 = 𝑊𝐷𝑊^(−1)。令

它建立了从𝑅^2到自身的一个双射(即单射和满射)。进行变量替换:

现考虑第一种情形𝑎 > 0(或𝑎 < 0)和𝑎𝑐 − 𝑏^2 > 0,即𝐴的第一行第一列元素大于零(或小于零),且它的行列式大于零。这时,由于𝑎𝑐 > 𝑏^2 ≥ 0,系数𝑐 > 0(或𝑐 < 0)。由特征值𝜆和𝜇的表达式(1),它们均为正(或均为负)。故对不全为零的𝑔和ℎ,有𝜆𝑔^2 + 𝜇ℎ^2 > 0(或< 0)。所以对全部不全为零的数𝑥和𝑦,都有
𝑎𝑥^2 + 2𝑏𝑥𝑦 + 𝑐𝑦^2 > 0(或< 0)。
反过来,如果上式对所有非零向量[𝑥, 𝑦]都满足,即

则

类似地,代入[𝑥, 𝑦] = [0, 1]给出𝑐 > 0(或 < 0)。由𝐴的特征值𝜆和𝜇的表达式(1)可知,它们均为实数。设𝜉(= 𝜆或𝜇)是𝐴的一个特征值,𝑤为其对应的实特征向量。将𝑤^𝑇左乘𝐴𝑤 = 𝜉𝑤,得𝑤^𝑇𝐴𝑤 = 𝜉𝑤^𝑇𝑤,故𝜉 = 𝑤^𝑇𝐴𝑤/𝑤^𝑇𝑤。既然𝑤^𝑇𝑤为正,𝜉便与𝑤^𝑇𝐴𝑤同号。所以𝐴的两个特征值(包括重数)同号。因为它们的积等于𝐴的行列式,故有𝑎𝑐 − 𝑏^2 = |𝐴|> 0。
上面的推理过程也让我们明白,第二种假设𝑎𝑐 − 𝑏^2 < 0等价于𝜆和𝜇一正一负,因而𝑎𝑥^2 + 2𝑏𝑥𝑦 + 𝑐𝑦^2 = 𝜆𝑔^2 + 𝜇ℎ^2对某些[𝑥, 𝑦]为正,对别的[𝑥, 𝑦]为负。
一般二次型与合同变换
熟悉了二阶实对称矩阵给出的双变量二次型的值域特征,就可对任意阶实对称矩阵进行一

“变量替换”是数学中常见的一种把戏,目的不外乎是化繁为简,便于计算。初等微积分里的定积分变量替换法就是众所皆知的一例。对于二次型,这也是获取“标准型”的一条途径。此法的基本思想已经体现在本文前面的二元例子中。如果让𝑥 ∈ 𝑅^𝑛被替换成𝑦 ∈ 𝑅^𝑛,当然需要这种替换不仅“简单易行”,而且“来去自由”。满足这两个要求的非“线性可逆变换”莫属,“线性”使得运算简单,“可逆”保证往返都行。故令𝑥 = 𝑆𝑦,其中𝑆为一可逆矩阵,然后
𝑥^𝑇𝐴𝑥 = (𝑆𝑦)^𝑇𝐴𝑆𝑦 = 𝑦^𝑇(𝑆^𝑇𝐴𝑆)𝑦。

由于在上述可逆线性变换关系下,𝑥同𝑦双双可以穷尽它们所在的基本空间𝑅^𝑛中的所有向量,所以多元二次函数𝑥^𝑇𝐴𝑥与多元二次函数𝑦^𝑇𝐵𝑦具有同样的值域,找到其中的一个,也就获得了另外的一个。如果变换𝑆取得特别好,以至于矩阵𝐵成了一个对角矩阵,那么人们“化简二次型中嵌入的矩阵”之希望就完全实现了。问题是,这个希望有可能落空吗?
答案是“不必担心”,因为实对称矩阵具有与生俱来的优秀性质:它们正交相似于实对角矩阵。再次回忆矩阵相似的意思:两个同阶方阵𝐴和𝐵称为彼此相似,如果存在非奇异矩阵𝑃使得𝐴 = 𝑃𝐵𝑃^(−1)。与合同一样,所有同阶矩阵之间的相似关系也是一个等价关系。
与实对称矩阵常常形影不离的一类实矩阵是“正交矩阵”,它们的每一列都是单位向量,即欧几里得2-范数为1,并且所有列两两正交。或言之,方阵𝑈为正交矩阵意指𝑈^𝑇𝑈 = 𝐼。正交矩阵是可逆矩阵,逆矩阵就是其转置矩阵。这样就有此类矩阵的特色双等式:𝑈^𝑇𝑈 = 𝑈𝑈^𝑇 = 𝐼。第二个等式说明正交矩阵的所有行向量也像所有列向量那样构成了𝑅^𝑛的一个标准正交基。
在相似性等式𝐴 = 𝑃𝐵𝑃^(-1)内,如果非奇异矩阵𝑃更上了一层楼升格为正交矩阵𝑈,那么这个相似关系同时又是合同关系𝐴 = 𝑈𝐵𝑈^𝑇!妙就妙在,正如线性代数教科书中都会摆出来展示的那样,正交矩阵可以出马使得相应的合同关系中的𝐵成为形式最为简单的对角矩阵,其主对角元恰好是𝐴的全部特征值。
现在我们采取拿来主义的方针,将上一篇文章《正规矩阵有哪些特色?》中的一个主要结果借来,作为下面继续讨论的出发点。这个结果对更一般的复数域上的埃尔米特矩阵(也叫厄米矩阵,即其共轭转置等于自己的那些矩阵)成立,自然对本文的主角实对称矩阵也情有独钟,因此我们只对实矩阵列出如下的预备知识:
引理.存在正交矩阵𝑈使得
𝐴=𝑈𝐷𝑈^𝑇,



命题 1. 任一𝑛阶矩阵𝐴与某个对角矩阵Σ合同,其中Σ的主对角元组成{+1, −1,0}的子集,且主对角元中+1和−1各自出现的次数分别等于𝐴的正特征值重数之和和负特征值重数之和,而0出现的次数等于特征值0的重数。
命题 1 中出现的+1的次数和−1的次数(即𝐴的正特征值和负特征值的各自总重数),被分别称为𝐴的正惯性指数和负惯性指数,而0出现的次数则等于𝐴的阶数减去这两个惯性指数之和,它也恰好是𝐴的零空间𝑁(𝐴)的维数(有时叫做𝐴的零度)。上述结果表明,实对称矩阵合同于某个主对角元只可能是+1, −1和0的一个对角矩阵。
西尔维斯特惯性定律
下面问题来了:如果同一个𝐴经过另一个非奇异矩阵𝑆而合同于一个新的对角矩阵Σ,其主对角元只可能包含+1, −1和0,那么所得的正惯性指数和负惯性指数会有变化吗?如果有变化,则上一段中所说的“𝐴的正负惯性指数”就不尽合理,因为这两个指数不能由𝐴唯一确定。
令人放心的是,“𝐴的正惯性指数和负惯性指数”是定义合理的,因为早在1852 年,“矩阵”一词的创造者、英国数学家西尔维斯特(James Joseph Sylvester,1814-1897)证明了现以他名字命名的“西尔维斯特惯性定律”(Sylvester’s law of inertia):
定理 1.𝐴的正惯性指数和负惯性指数是𝐴的不变量。换言之,所有与𝐴合同的主对角元只可能包含+1, −1和0的对角矩阵中的+1, −1和0之各自个数保持不变。
定理 1 的证明需要向量子空间直和维数加法关系的一个等式,我们先复习一下这个等式。如果向量子空间𝑉和𝑊只有零向量彼此共享,则它们的“和向量空间”𝑉 + 𝑊 = {𝑣 + 𝑤|𝑣 ∈ 𝑉, 𝑤 ∈ 𝑊}的维数等于𝑉的维数加上𝑊的维数。此时𝑉 + 𝑊称为直和,记为𝑉 ⊕ 𝑊。


𝐴的正惯性指数和负惯性指数之差被称为𝐴及其对应的二次型的符号差。俄罗斯数学家阿诺德(Vladimir Arnold,1937-2010)讲过这样一个故事,他曾面试一位法国应用数学家,问道:“𝑥𝑦的符号差是什么?”这位就数值计算二次型已发表了数十篇研究论文的专家答不出,嘟哝道:“我编写的电脑程序可以很快算出随便多大矩阵的符号差,但我的头脑不能像电脑算得那么快。”其实这个二次型是由矩阵

确定的。阿诺德想通过这个真实故事来嘲弄一番他眼里的“法国布尔巴基主义数学家”。我们邀请本文读者替这个倒霉的法国人解答俄国人阿诺德的试题,顺便向这位已故 15 年的世界著名数学家展示一下中国人的数学思维能力。
如用特征值的术语,上述西尔维斯特惯性定律的等价说法是:两个同阶的实对称矩阵具有相同数量的正特征值、负特征值和零特征值,当且仅当它们是合同的。
正定性的判别法:特征值与主子式
回想起在本文开始,我们不厌其烦地讨论了一个初等代数问题:“𝑎𝑥^2+ 2𝑏𝑥𝑦 + 𝑐𝑦^2在何种条件下,对所有不全为零的𝑥和𝑦值保持为正、为负或正负相间?”现在,我们已经储备了足够的知识,可进一步对多元齐次二次多项式探讨同一类型的“值域”问题。

即𝐴是正定矩阵。若𝐴的所有特征值为负、非负或非正,同理可证相应结论。上述命题的一个直接结果是:𝐴是不定的当且仅当𝐴有正负特征值。此外,正定或负定矩阵因为无零特征值,必定是非奇异的。
在本文前部,我们证明了二阶实对称矩阵是正定(或负定)的充要条件是它的首行首列元素为正(或为负)及它的行列式为正。首行首列元素既是方阵的一阶子方阵,也是它所对应的行列式,而方阵的行列式则是它的第一行第二行以及第一列第二列元素构成的二阶子方阵所对应的行列式。这两个行列式的行和列在方阵中的指标分别从1连续增加到1或2,因此分别被叫做它的一阶或二阶前导主子式。这样,我们已知的结果用新的术语来叙述就是:二阶实对称矩阵是正定(或负定)的,当且仅当它的一阶前导主子式大于(或小于)零及二阶前导主子式大于零。
这个结论可以推广到𝑛阶矩阵𝐴。对于𝑘 = 1, … , 𝑛,由𝐴的第1行至第𝑘行与第1列至第𝑘列相交处的元素构成的𝑘阶子方阵所对应的行列式称为𝐴的𝑘阶前导主子式。下面的定理 2用行列式刻画了𝐴的正定性,和上面的定理 1 一样都是由西尔维斯特发现的;它被称为关于正定矩阵的“西尔维斯特判别法”。
定理 2. 一个实对称矩阵是正定的,当且仅当它的所有前导主子式均为正数。




上例说明,仅仅要求所有的前导主子式均为非负数,不足以保证矩阵的半正定性,比之更强的条件是所论方阵的全部主子式都是非负数。一般主子式与前导主子式的区别在于,后者的行和列在原矩阵中的指标必须穷尽从1到某个𝑘的所有自然数,而前者只需要子矩阵所有行和列在母矩阵中的原先行列指标是全然相同的正整数。下面是用全部主子式表达出的半正定性质之等价条件,因为它的证明依赖于定理 2,我们将它列为一个直接推论:
系 1. 实对称矩阵为半正定的充分必要条件是它所有的主子式都是非负数。
证明. 必要性的证明与定理 2 证明中必要性的论证过程大同小异,我们就省略不写了。现证充分性。假设𝐴的所有主子式都大于或等于零。令𝜀为一正数,考虑摄动后的实对称矩阵𝐴 + 𝜀𝐼。下面我们用定理 2 证明它是正定的。
任取𝐴 + 𝜀𝐼的一个𝑘阶前导主子式,它对应的子矩阵为𝐵 + 𝜀𝐼,其中𝐵是𝐴的对应子矩阵。由假设条件知,|𝐵| ≥ 0。通过展开行列式,我们有

对于负定矩阵和半负定矩阵,分别有与定理2和系1相似的结果。因为𝐴是负定(或半负定)矩阵当且仅当-𝐴是正定(或半正定)矩阵,从上述定理2和系1出发就能毫无困难地分别推出对矩阵负定性(或半负定性)的判别法:
系 2. 一个实对称矩阵是负定的,当且仅当它的所有偶数阶前导主子式均为正数,所有奇数阶前导主子式均为负数。
系 3. 一个实对称矩阵是半负定的,当且仅当它的所有偶数阶主子式均为非负数,所有奇数阶主子式均为非正数。
应用掠影:最优化问题与动力系统
到目前为止,我们学到了实对称矩阵及其子类——正定或半正定矩阵的基本性质,读者肯定想知道这些知识在其他学科中有哪些重要应用。老实说,它们的应用例子多如牛毛,尤其在当今的大数据时代。作为一个范例,让我们瞧一瞧正定矩阵的二次型性质怎样用于在机器学习中大放异彩的最优化理论。

为水平线的几何直观可见。如果𝑓不可导,恐怕要借用其他分析手段如“凸分析”来获取一个有价值的必要条件了;这里按下不表。
我们更感兴趣的是在可微性条件下极值点的充分条件。上述最优性必要条件提示我们,极值点属于临界点集合。那么,何种性质能确保一个临界点担当起极值点的角色?这时,二次型的理论派上了用处。




图片来源:Nicoguaro/wikipedia

我们只对多元二次函数的临界点分类小试了二次型理论,此时,函数的二阶导数是个实对称常数矩阵。对一般的非线性可微多元函数的同样问题,人们面临的现实是二阶导数矩阵依赖于函数定义域中点的位置而成为多变量矩阵函数,然而,借助于在临界点处二阶导数矩阵的二次型性质,正定(半正定)、负定(半负定)及不定矩阵仍然是解决问题的关键概念。
上述两例只是浮光掠影地简述了二次型理论在最优化和动力系统中的个别应用,其他领域如控制理论、最优传输、计算几何等,都是一般埃尔米特矩阵谱理论的用兵之处,读者们不妨多留个心眼,说不定哪天你调试的机器学习模型、规划的物流最优路线,甚至手机里信号的精准过滤,背后都藏着二次型悄悄“发力”的身影,这数学世界的小秘密,还等着大家慢慢发掘呢!
完稿于从化温泉镇广州南方学院
注:本文封面图片来自版权图库,转载使用可能引发版权纠纷。

特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。



返朴官方账号



