线性代数 - 对称矩阵及二次型

53

概述

对称矩阵是比较特殊的矩阵,它的特征值都为实数,并且它的特征向量两两正交。而二次型就是形如 $z = x^2+xy+y^2$ 这样的每项的次数都为 $2$ 的多项式。本篇就来讨论对称矩阵与二次型。

对称矩阵

对称矩阵是其转置等于它本身的矩阵,即 $\mathbf{A}^T = \mathbf{A}$。比如下面的矩阵都是对称矩阵:

$$ \begin{bmatrix} 1&0\\0&3 \end{bmatrix} \quad\quad \begin{bmatrix} 1&2&0\\2&1&-2\\0&-2&1 \end{bmatrix} \quad\quad \begin{bmatrix} a&b&c\\b&d&e\\c&e&f \end{bmatrix} $$

对称矩阵可以是实数矩阵,也可以是复数矩阵,本节只讨论实数矩阵(关于复数矩阵,请参见我的另外一篇博文:线性代数 - 复向量与复矩阵)。

对称矩阵的性质

关于对称矩阵的特征值与特征向量有如下两条性质:

实对称矩阵的特征值为实数。(证明

证明 假设 $\mathbf{A}$ 为对称矩阵,$\mathbf{x}$ 为其特征向量,$\lambda$ 为对应的特征值,则:$$ \mathbf{A}\mathbf{x} = \lambda \mathbf{x} \tag{Ⅰ} $$ 将 $(Ⅰ)$ 两边取共轭(注意 $\mathbf{A}$ 是实矩阵),得 $$\mathbf{A} \overline{\mathbf{x}} = \overline{\lambda} \overline{ \mathbf{x} } \tag{Ⅱ}$$ 将 $(Ⅱ)$ 两边转置(注意 $\mathbf{A}$ 是对称矩阵),得:$$ \overline{\mathbf{x}}^T \mathbf{A} = \overline{ \mathbf{x} }^T \overline{\lambda} \tag{Ⅲ}$$ $(Ⅰ)$ 左乘 $\overline{\mathbf{x}}^T$ 得:$$ \overline{\mathbf{x}}^T \mathbf{A}\mathbf{x} = \overline{\mathbf{x}}^T \lambda \mathbf{x} \tag{Ⅳ} $$ $(Ⅲ)$ 右乘 $\mathbf{x}$ 得:$$ \overline{\mathbf{x}}^T \mathbf{A} \mathbf{x} = \overline{ \mathbf{x} }^T \overline{\lambda} \mathbf{x} \tag{Ⅴ} $$ 根据 $(Ⅳ)$ 与 $(Ⅴ)$ 得:$$ \overline{\mathbf{x}}^T \lambda \mathbf{x} = \overline{ \mathbf{x} }^T \overline{\lambda} \mathbf{x} $$ 即:$$ (\lambda - \overline{\lambda}) \overline{\mathbf{x}}^T \mathbf{x} = 0 $$ 由于 $\overline{\mathbf{x}}^T \mathbf{x} = \left| x_1 \right|^2 + \left| x_2 \right|^2 + \cdots + \left| x_n \right|^n \gt 0$(注意根据特征向量的定义有 $\mathbf{x} \ne \mathbf{0}$),因此 $\lambda = \overline{\lambda}$,即 $\lambda$ 为实数。证毕。

若 $\mathbf{A}$ 是实对称矩阵,并且 $\mathbf{A}$ 的特征值各不相同,那么 $\mathbf{A}$ 的特征向量正交。(证明

证明 假设 $\lambda_1$ 与 $\lambda_2$ 是 $\mathbf{A}$ 的两个特征值,$\mathbf{x}_1$ 与 $\mathbf{x}_2$ 是对应的特征向量。则有:
\begin{equation} \mathbf{A} \mathbf{x}_1 = \lambda_1 \mathbf{x}_1 \tag{Ⅰ} \end{equation} \begin{equation} \mathbf{A} \mathbf{x}_2 = \lambda_2 \mathbf{x}_2 \tag{Ⅱ} \end{equation}
$(Ⅰ)$ 式左乘 $\mathbf{x}_2^T$,得:
\begin{equation} \mathbf{x}_2^T \mathbf{A} \mathbf{x}_1 = \lambda_1 \mathbf{x}_2^T \mathbf{x}_1 \tag{Ⅲ} \end{equation}
$(Ⅱ)$ 式左乘 $\mathbf{x}_1^T$,得:
\begin{equation} \mathbf{x}_1^T \mathbf{A} \mathbf{x}_2 = \lambda_2 \mathbf{x}_1^T \mathbf{x}_2 \tag{Ⅳ} \end{equation}
$(Ⅳ)$ 式两边转置,得(注意 $\mathbf{A}$ 是对称矩阵):
\begin{equation} \mathbf{x}_2^T \mathbf{A} \mathbf{x}_1 = \lambda_2 \mathbf{x}_2^T \mathbf{x}_1 \tag{Ⅴ} \end{equation}
$(Ⅲ)$ 式与 $(Ⅴ)$ 式相减,得:
\begin{equation} (\lambda_1 - \lambda_2)\mathbf{x}_2^T \mathbf{x}_1 = 0 \end{equation}
因为 $\lambda_1 \ne \lambda_2$,所以 $\mathbf{x}_2^T \mathbf{x}_1 = 0$,即 $\mathbf{x}_1$ 与 $\mathbf{x}_2$ 正交。证毕。

对称矩阵的对角化

首先复习一下在 线性代数 - 特征值与特征向量 中介绍的知识,如果一个矩阵 $\mathbf{A} \in \mathbb{R}^{n \times n}$ 可对角化,那么有:$$ \mathbf{A} = \mathbf{S} \boldsymbol{\Lambda} \mathbf{S}^{-1} \tag{1}$$其中 $\mathbf{S}$ 是 $\mathbf{A}$ 的特征向量矩阵,$\boldsymbol{\Lambda}$ 是 $\mathbf{A}$ 的特征值矩阵。

现在讨论 $\mathbf{A}$ 是对称矩阵的情况,根据 性质 2,如果 $\mathbf{A}$ 是对称矩阵,那么它的特征向量正交,特别地,我们可以取一组正交的单位向量 $\mathbf{p}_1$, $\mathbf{p}_2$, $\cdots$, $\mathbf{p}_n$ 作为 $\mathbf{A}$ 的特征向量,此时 $\mathbf{A}$ 的特征向量矩阵为正交矩阵 $\mathbf{P} = \begin{bmatrix} \mathbf{p}_1, \mathbf{p}_2, \cdots, \mathbf{p}_n \end{bmatrix}$,因为正交矩阵的逆等于它的转置,所以 $\mathbf{P}^{-1} = \mathbf{P}^T$,根据 $(1)$ 式,有:

$$ \mathbf{A} = \mathbf{P} \boldsymbol{\Lambda} \mathbf{P}^{-1} = \mathbf{P} \boldsymbol{\Lambda} \mathbf{P}^T \tag{2}$$

上式是一种特殊的对角化,称为正交对角化。下面是正交对角化的定义:



对于一个 $n \times n$ 的矩阵 $\mathbf{A}$,若存在一个正交矩阵 $\mathbf{P}$($\mathbf{P}^{-1} = \mathbf{P}^T$)和一个对角矩阵 $\mathbf{D}$,使得$$ \mathbf{A} = \mathbf{P} \mathbf{D} \mathbf{P}^{-1} = \mathbf{P} \mathbf{D} \mathbf{P}^T \tag{3} $$成立,则称 $\mathbf{A}$ 是可正交对角化的Orthogonally Diagonalizable)。

注意上述定义中的 $\mathbf{P}$ 必须由 $n$ 个线性无关的标准正交特征向量组成。什么样的矩阵可以找到 $n$ 个线性无关的标准正交特征向量呢?将 $(3)$ 式转置:

$$ \mathbf{A}^T = (\mathbf{P} \mathbf{D} \mathbf{P}^T)^T = \mathbf{P}^{TT} \mathbf{D} \mathbf{P}^T = \mathbf{P} \mathbf{D} \mathbf{P}^T = \mathbf{A} $$

因此 $\mathbf{A}$ 必须是对称矩阵!那么反过来,是不是所有的对称矩阵都可以正交对角化呢?答案是肯定的(但是证明比较困难,这里略去,有兴趣的同学请参阅 Schur decomposition)。这就得到了下面的定理:



一个 $n \times n$ 的矩阵 $\mathbf{A}$ 可正交对角化的充分必要条件是 $\mathbf{A}^T = \mathbf{A}$(即 $\mathbf{A}$ 是对称矩阵)。

下面简单介绍一下谱定理和谱展开,更详细的内容请参见 wiki

谱定理

$\mathbf{A}$ 的特征值集合有时被称为 $\mathbf{A}$ 的Spectrum),下面关于谱的描述称为 谱定理Spectral Theorem)(这里仅讨论对称矩阵的谱定理):

    谱定理(对称矩阵)

假设 $\mathbf{A}$ 是 $n \times n$ 的对称矩阵,则:

a. $\mathbf{A}$ 有 $n$ 个实特征值(包括重数)。
b. $\mathbf{A}$ 的特征值 $\lambda$ 对应的特征空间的维数等于特征方程的根为该 $\lambda$ 时的重数。
c. $\mathbf{A}$ 的所有特征空间两两正交,这是因为 $\mathbf{A}$ 的不同特征值所对应的特征向量正交。
d. $\mathbf{A}$ 可正交对角化。

谱分解

将 $(2)$ 式展开:

\begin{align*} \mathbf{A} &= \mathbf{P} \boldsymbol{\Lambda} \mathbf{P}^T \\ &= \begin{bmatrix} \mathbf{p}_1 & \cdots & \mathbf{p}_n \end{bmatrix} \begin{bmatrix} \lambda_1 & & 0 \\ & \ddots & \\ 0 & & \lambda_n \end{bmatrix} \begin{bmatrix} \mathbf{p}_1^T \\ \vdots \\ \mathbf{p}_n^T \end{bmatrix} \\ &= \lambda_1 \mathbf{p}_1 \mathbf{p}_1^T + \lambda_2 \mathbf{p}_2 \mathbf{p}_2^T + \cdots + \lambda_n \mathbf{p}_n \mathbf{p}_1^n \end{align*}

这被称为谱分解Spectral Decomposition)。上式的每一项都是秩一矩阵(这是因为 $\mathbf{p}_i\mathbf{p}_i^T$ 的每一列都是 $\mathbf{p}_i$),并且都可以写成 $\lambda_i \mathbf{p}_i \mathbf{p}_i^T = \lambda_i \dfrac{\mathbf{p}_i \mathbf{p}_i^T}{\mathbf{p}_i^T \mathbf{p}_i}$ 的形式(注意 $\mathbf{p}_i^T \mathbf{p}_i = 1$),而 $\dfrac{\mathbf{p}_i \mathbf{p}_i^T}{\mathbf{p}_i^T \mathbf{p}_i}$ 正是投影矩阵,因此每个对称矩阵都是正交投影矩阵的线性组合。

二次型

所谓二次型,就是二次齐次函数,即每一项的次数都必须是 $2$ 的函数,比如下面的式子都是二次型:

\begin{align*} \begin{array}{l} f = 3x^2 + 2xy + 3y^2 \\ f = 3x^2 + y^2 + 5z^2 + 3xy + 4xz + 2yz \end{array} \end{align*}

对于 $n$ 个变量 $x_1, x_2, \cdots, x_n$ 的情形,由于任取两个变量(有放回选取)都可以组成二次项,因此共有 $n \times n$ 个二次项。第一次取到 $x_1$ 有 $n$ 种情况:$x_1x_1, x_1x_2, \cdots, x_1x_n$,假设系数分别为 $c_{11}, c_{12}, \cdots, c_{1n}$,那么就得到 $n$ 个二次项:$ c_{11}x_1x_1, c_{12}x_1x_2, \cdots, c_{1n}x_1x_n $,同理,第一次取到 $x_2$ 也有 $n$ 个二次项:$ c_{21}x_2x_1, c_{22}x_2x_2, \cdots, c_{2n}x_2x_n $,第一次取到 $x_3$,$x_4$,$\cdots$ 也是如此,最后是第一次取到 $x_n$ 的情况:$ c_{n1}x_nx_1, c_{n2}x_nx_2, \cdots, c_{nn}x_nx_n $,于是含有 $n$ 个变量的二次型可以表示为:

\begin{align*} f = &\ c_{11}x_1x_1 + c_{12}x_1x_2 + \cdots + c_{1n}x_1x_n + \\ &\ c_{21}x_2x_1 + c_{22}x_2x_2 + \cdots + c_{2n}x_2x_n + \\ & \quad\quad\quad\quad\quad\quad\quad \vdots \\ &\ c_{n1}x_nx_1 + c_{n2}x_nx_2 + \cdots + c_{nn}x_nx_n \end{align*}

可以对上式进行化简:

\begin{align*} f = &\ c_{11}x_1x_1 + c_{12}x_1x_2 + \cdots + c_{1n}x_1x_n + \\ &\ c_{21}x_2x_1 + c_{22}x_2x_2 + \cdots + c_{2n}x_2x_n + \\ & \quad\quad\quad\quad\quad\quad\quad \vdots \\ &\ c_{n1}x_nx_1 + c_{n2}x_nx_2 + \cdots + c_{nn}x_nx_n \\ = &\ x_1(c_{11}x_1 + c_{12}x_2 + \cdots + c_{1n}x_n) + \\ &\ x_2(c_{21}x_1 + c_{22}x_2 + \cdots + c_{2n}x_n) + \\ & \quad\quad\quad\quad\quad\quad\quad \vdots \\ &\ x_n(c_{n1}x_1 + c_{n2}x_2 + \cdots + c_{nn}x_n) \\ = &\ \begin{bmatrix} x_1 & x_2 & \cdots & x_n \end{bmatrix} \begin{bmatrix} c_{11}x_1 + c_{12}x_2 + \cdots + c_{1n}x_n \\ c_{21}x_1 + c_{22}x_2 + \cdots + c_{2n}x_n \\ \vdots \\ c_{n1}x_1 + c_{n2}x_2 + \cdots + c_{nn}x_n \end{bmatrix} \\ = &\ \begin{bmatrix} x_1 & x_2 & \cdots & x_n \end{bmatrix} \begin{bmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} \end{align*}

记:

$$ \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} \quad\quad \mathbf{C} = \begin{bmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \end{bmatrix} $$

则:

$$ f = \mathbf{x}^T \mathbf{C} \mathbf{x} \tag{4} $$ 注意 $c_{ij}$ 是 $x_ix_j$ 的系数,而 $c_{ji}$ 是 $x_jx_i$ 的系数,所以 $f$ 中存在 $(c_{ij} + c_{ji})x_ix_j$ 这样的二次项,令 $a_{ij} = a_{ji} = \dfrac{c_{ij} + c_{ji}}{2}$,则用 $a_{ij}$ 与 $a_{ji}$ 分别替换 $c_{ij}$ 与 $c_{ji}$,$f$ 的值不变。这样替换之后,$\mathbf{C}$ 就变成了下面的对称矩阵 $\mathbf{A}$: $$ \mathbf{A} = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{bmatrix} $$

于是:

$$ f = \mathbf{x}^T \mathbf{A} \mathbf{x} \tag{5} $$



若函数 $Q: \mathbb{R}^n \to \mathbb{R}$ 可以表示为:$$Q(\mathbf{x}) = \mathbf{x}^T \mathbf{A} \mathbf{x} \tag{6}$$其中 $\mathbf{x} \in \mathbb{R}$,$\mathbf{A}$ 是 $n \times n$ 的对称矩阵。那么称 $Q$ 为 $\mathbb{R}^n$ 上的二次型Quadratic Form)。矩阵 $\mathbf{A}$ 称为该二次形的矩阵Matrix of The Quadratic Form)。

实际上 $(4)$ 式也是二次型的一种形式,不过对称矩阵比普通矩阵有着更好的性质,因此一般情况下都将 $(4)$ 式转化为 $(5)$ 式。比如二次型 $Q(\mathbf{x}) = \mathbf{x}^T \mathbf{C} \mathbf{x} = \mathbf{x}^T\begin{bmatrix} 1&4\\0&3 \end{bmatrix}\mathbf{x}$ 一般都转化为 $Q(\mathbf{x}) = \mathbf{x}^T \mathbf{A} \mathbf{x} = \mathbf{x}^T\begin{bmatrix} 1&2\\2&3 \end{bmatrix}\mathbf{x}$,转换的方法在上面已经提到了,就是令 $a_{ij} = a_{ji} = \dfrac{c_{ij} + c_{ji}}{2}$。

最简单的二次型就是 $\mathbf{x}^T \mathbf{E} \mathbf{x} = \left\| \mathbf{x} \right\|^2 = \sum\limits_{i=1}^n x_i^2$,其中 $\mathbf{E}$ 为单位矩阵。

主轴定理

由于 $(6)$ 式中的 $\mathbf{A}$ 是对称矩阵,根据 定理 1,存在正交矩阵 $\mathbf{P}$ 以及对角矩阵 $\boldsymbol{\Lambda}$,使得 $\mathbf{A} = \mathbf{P} \boldsymbol{\Lambda} \mathbf{P}^T $,其中 $\mathbf{P}$ 是 $\mathbf{A}$ 的特征向量矩阵,$\boldsymbol{\Lambda}$ 是 $\mathbf{A}$ 的特征值矩阵。解出 $\boldsymbol{\Lambda}$,有:

$$ \boldsymbol{\Lambda} = \mathbf{P}^{-1} \mathbf{A} (\mathbf{P}^T)^{-1} = \mathbf{P}^T \mathbf{A} \mathbf{P} \tag{7} $$

由于 $\mathbf{P}$ 是正交向量,因此由 $\mathbf{P}$ 的列向量组成的向量集 $ \mathcal{P} = \{ \mathbf{p}_1, \mathbf{p}_2, \cdots, \mathbf{p}_n \}$ 是 $\mathbb{R}^n$ 的一个基。根据基变换的知识可以知道矩阵 $\mathbf{P}$ 是从 $\mathcal{P}$ 到标准基 $\mathcal{E}$ 的基变换矩阵,并且任一标准基 $\mathcal{E}$ 下的向量 $\mathbf{x}$ 都可以表示为 $\mathbf{P}$ 与 $\mathcal{P}$ 下的向量 $\mathbf{y}$ 的乘积,即:

$$ \mathbf{x} = \mathbf{P} \mathbf{y} \tag{8}$$

上式将 $\mathbf{x}$ 变成了 $\mathbf{P} \mathbf{y}$,这叫做变量变换Change of Variable)。更进一步地,由于 $\mathbf{P}$ 是正交矩阵,因此这个変量変换叫做正交变量变换Orthogonal Change of Variable)。

注意到 $(6)$ 式中的 $\mathbf{x}$ 是标准基下的向量,因此我们可以将 $(8)$ 式代入 $(6)$ 式:

$$ \mathbf{x}^T \mathbf{A} \mathbf{x} = (\mathbf{P} \mathbf{y})^T \mathbf{A} (\mathbf{P} \mathbf{y}) = \mathbf{y}^T \mathbf{P}^T \mathbf{A} \mathbf{P} \mathbf{y} $$

根据 $(7)$ 式,得:

$$ \mathbf{x}^T \mathbf{A} \mathbf{x} = \mathbf{y}^T \mathbf{P}^T \mathbf{A} \mathbf{P} \mathbf{y} = \mathbf{y}^T (\mathbf{P}^T \mathbf{A} \mathbf{P}) \mathbf{y} = \mathbf{y}^T \boldsymbol{\Lambda} \mathbf{y} $$

即:

$$ \mathbf{x}^T \mathbf{A} \mathbf{x} = \mathbf{y}^T \boldsymbol{\Lambda} \mathbf{y} \tag{9} $$

由于 $\boldsymbol{\Lambda}$ 是对角矩阵,因此:

\begin{align*} \mathbf{y}^T \boldsymbol{\Lambda} \mathbf{y} &= \begin{bmatrix} y_1 & y_2 & \cdots & y_n \end{bmatrix} \begin{bmatrix} \lambda_1 & & & 0 \\ & \lambda_2 & & \\ & & \ddots & \\ 0 & & & \lambda_n \end{bmatrix} \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} \\ &= \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2 \end{align*}

可以看到经过正交变量变换的二次型不包含 $y_iy_j$($i \ne j$)这样的交叉相乘项。

以上就是主轴定理:

    主轴定理

若 $\mathbf{A}$ 是 $n \times n$ 的对称矩阵,那么一定存在一个正交变量变换 $\mathbf{x} = \mathbf{P} \mathbf{y}$,将二次型 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 转换为没有交叉相乘项的二次型 $\mathbf{y}^T\mathbf{D}\mathbf{y}$,即:$$ Q(\mathbf{x}) = \mathbf{x}^T\mathbf{A}\mathbf{x} = \mathbf{y}^T\mathbf{D}\mathbf{y} = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2 \tag{10} $$其中 $\mathbf{P}$ 是 $\mathbf{A}$ 的正交特征向量矩阵,$\mathbf{D}$ 是 $\mathbf{A}$ 的特征值矩阵,$\lambda_i$($1 \leqslant i \leqslant n$)是 $\mathbf{A}$ 的特征值。

上述定理中,$\mathbf{P}$ 的列称为二次型 $\mathbf{x}^T \mathbf{A} \mathbf{x}$ 的主轴Principal Axes)。向量 $\mathbf{y}$ 是 $\mathbf{x}$ 相对于由主轴组成的 $\mathbb{R}^n$ 的基的坐标向量。

由于 $(10)$ 式不包含交叉相乘项,因此在二维情况下,$Q(\mathbf{x}) = c$($c \in \mathbb{R}^+$)在 $\mathcal{P}$ 表示的坐标系中是一个正椭圆或正双曲线,如下图所示:

图1 - 主轴定理的几何意义(二维)

在三维或三维以上的情况下,$Q(\mathbf{x}) = c$($c \in \mathbb{R}^+$)在 $\mathcal{P}$ 表示的坐标系中是一个正椭球面或正双曲面(类似沙漏),如下图所示(注意下图省略了标准坐标系):

图2 - 主轴定理的几何意义(三维)

二次型的分类

若 $\mathbf{A}$ 是一个 $n \times n$ 的矩阵,那么二次型 $Q(\mathbf{x}) = \mathbf{x}^T \mathbf{A} \mathbf{x}$ 是一个 $\mathbb{R}^n \to \mathbb{R}$ 的实值函数。下面的四张图是二维情况下所有可能的 $Q(\mathbf{x})$ 图像:

可以看到 $(\mathrm{a})$ 中对于任意非零向量 $\mathbf{x} = \begin{bmatrix} x\\y \end{bmatrix}$ 都有 $z=Q(\mathbf{x}) \gt 0$, $(\mathrm{b})$ 中对于任意非零向量 $\mathbf{x} = \begin{bmatrix} x\\y \end{bmatrix}$ 都有 $z=Q(\mathbf{x}) \lt 0$, $(\mathrm{c})$ 中对于任意非零向量 $\mathbf{x} = \begin{bmatrix} x\\y \end{bmatrix}$ 都有 $z=Q(\mathbf{x})$ 可能大于 $0$ 也可能小于 $0$,$(\mathrm{d})$ 是 $(\mathrm{a})$ 的一个特殊情况,这里 $y^2$ 的系数为 $0$。




假设 $\mathbf{A}$ 是 $n \times n$ 的对称矩阵,二次型 $Q(\mathbf{x}) = \mathbf{x}^T\mathbf{A}\mathbf{x}$ 的分类如下:
  • 如果对于任意 $\mathbf{x} \ne \mathbf{0}$,有 $Q(\mathbf{x}) \gt 0$,那么称二次型 $Q(\mathbf{x})$ 为正定的Positive Definite)或正定二次型,称矩阵 $\mathbf{A}$ 为正定的正定矩阵
  • 如果对于任意 $\mathbf{x} \ne \mathbf{0}$,有 $Q(\mathbf{x}) \geqslant 0$,那么称二次型 $Q(\mathbf{x})$ 为半正定的Positive Semidefinite)或半正定二次型,称矩阵 $\mathbf{A}$ 为半正定的半正定矩阵
  • 如果对于任意 $\mathbf{x} \ne \mathbf{0}$,有 $Q(\mathbf{x}) \lt 0$,那么称二次型 $Q(\mathbf{x})$ 为负定的Negative Definite)或负定二次型,称矩阵 $\mathbf{A}$ 为负定的负定矩阵
  • 如果对于任意 $\mathbf{x} \ne \mathbf{0}$,有 $Q(\mathbf{x}) \leqslant 0$,那么称二次型 $Q(\mathbf{x})$ 为半负定的Negative Semidefinite)或半负定二次型,称矩阵 $\mathbf{A}$ 为半负定的半负定矩阵
  • 如果对于任意 $\mathbf{x} \ne \mathbf{0}$,$Q(\mathbf{x})$ 可正可负,那么称二次型 $Q(\mathbf{x})$ 为不定的Indefinite)或不定二次型,称矩阵 $\mathbf{A}$ 为不定的不定矩阵


    二次型与特征值

假设 $\mathbf{A}$ 是 $n \times n$ 的对称矩阵,$Q(\mathbf{x}) = \mathbf{x}^T\mathbf{A}\mathbf{x}$ 是对应的二次型,则:
  • 当且仅当 $\mathbf{A}$ 的所有特征值都为正时,$Q(\mathbf{x})$ 是正定的。
  • 当且仅当 $\mathbf{A}$ 的所有特征值都为负时,$Q(\mathbf{x})$ 是负定的。
  • 当且仅当 $\mathbf{A}$ 的特征值有正有负时,$Q(\mathbf{x})$ 是不定的。(证明
证明

根据主轴定理,存在正交変量変换 $\mathbf{x} = \mathbf{P} \mathbf{y}$,使得:$$ Q(\mathbf{x}) = \mathbf{x}^T\mathbf{A}\mathbf{x} = \mathbf{y}^T \boldsymbol{\Lambda} \mathbf{y} = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2$$其中 $\lambda_1$, $\lambda_2$, $\cdots$, $\lambda_n$ 是 $\mathbf{A}$ 的特征值,显然当所有 $\lambda$ 都大于 $0$ 时,这个式子大于 $0$,当所有 $\lambda$ 都小于 $0$ 时,这个式子小于 $0$,$\lambda$ 有正有负时,这个式子也有正有负。这就证明了这个定理。

正定矩阵的判定

正定矩阵Positive Definite Matrix)是特殊的对称矩阵。一个对称矩阵是否是正定矩阵,可以通过下面的定理来判断:

如果对称矩阵 $\mathbf{S}$ 的所有特征值 $\lambda$ 都大于 $0$,那么 $\mathbf{A}$ 就是正定矩阵。

如何判断二阶矩阵 $\mathbf{S} = \begin{bmatrix} a & b \\ b & c \end{bmatrix}$ 是否是正定矩阵?当然可以通过求 $\lambda_1$ 与 $\lambda_2$ 的值,然后判断是否都为正来判断,不过这需要计算每一个 $\lambda$ 的值,通常很麻烦。我们可以使用一些更简单的方法来判断 $\mathbf{S}$ 是否是正定矩阵。

当 $a > 0$ 并且 $ac-b^2 > 0$ 时,$\mathbf{S}$ 为正定矩阵。我们将 $\left| a \right|$ 与 $ \begin{vmatrix} a & b \\ b & c \end{vmatrix} $ 称为 $\mathbf{S}$ 的主子式,这条定理也可以说成如果 $\mathbf{S}$ 的各阶主子式都为正,则 $\mathbf{S}$ 为正定矩阵。(证明

证明 根据 性质 1,$\lambda_1 + \lambda_2 = \mathrm{tr}\ \mathbf{S} = a+c$,$\lambda_1 \lambda_2 = \det \mathbf{S} = ac-b^2$,为了使 $\lambda_1 \gt 0$ 并且 $\lambda_2 \gt 0$,必有 $a > 0$ 并且 $ac-b^2>0$(注意 $a>0$ 与 $ac-b^2>0$ 共同保证了 $c>0$)。

正主元的个数等于正特征值的个数,负主元的个数等于负特征值的个数。

当 $a > 0$ 并且 $\dfrac{ac-b^2}{a} > 0$ 时,$\mathbf{S}$ 为正定矩阵。即 $\mathbf{S}$ 的主元都为正,那么 $\mathbf{S}$ 为正定矩阵。(证明

证明 将 $\mathbf{S}$ 化为行阶梯型:$ \mathbf{S} \overset{r}{\sim} \begin{bmatrix} a & b \\ 0 & \dfrac{ac-b^2}{a} \end{bmatrix} $,根据 定理 5,为了保证 $\lambda_1$ 与 $\lambda_2$ 都大于 $0$,主元 $a$ 与 $\dfrac{ac-b^2}{a}$ 都必须大于 $0$。

下面我们研究一个式子:

$$ f = a x^2 + 2bxy + cy^2 $$

这个式子是一个二次型。

我们把 $f$ 整理成 $m u^2 + n v^2$ 的形式:

$$ f = a x^2 + 2bxy + cy^2 = \dfrac{1}{a} (a x + b y)^2 + \dfrac{ac-b^2}{a}y^2 $$

可以看到,当 $a > 0$ 并且 $ac-b^2>0$ 时,对于不同时为 $0$ 的 $x$ 与 $y$,恒有 $f > 0$。

而上式可以写成:

$$ f = a x^2 + 2bxy + cy^2 = \begin{bmatrix} x & y \end{bmatrix} \begin{bmatrix} a & b \\ b & c \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = \mathbf{x}^T \mathbf{S} \mathbf{x} $$

于是,当 $a > 0$ 并且 $ ac-b^2>0 $ 时,对于任意非零向量 $\mathbf{x} = \begin{bmatrix} x \\ y \end{bmatrix} $ 恒有 $f > 0$。

而 $a > 0$ 并且 $ ac-b^2>0 $ 正是 $\mathbf{S}$ 为正定矩阵的判断条件。

利用上述定义可以很容易证明两个正定矩阵的和仍是正定矩阵。

两个正定矩阵的和仍是正定矩阵。(证明

证明 假设 $\mathbf{A}$ 与 $\mathbf{B}$ 都是正定矩阵,有 $\mathbf{x}^T \mathbf{A} \mathbf{x} > 0$ 与 $\mathbf{x}^T \mathbf{B} \mathbf{x} > 0$,两式相加:$\mathbf{x}^T \mathbf{A} \mathbf{x} + \mathbf{x}^T \mathbf{B} \mathbf{x} = \mathbf{x}^T (\mathbf{A} + \mathbf{B}) \mathbf{x} > 0$。证毕。

假设 $\mathbf{A}$ 是任意一个非奇异矩阵,我们知道 $\mathbf{A}^T \mathbf{A}$ 是一个对称矩阵,因为 $(\mathbf{A}^T \mathbf{A})^T = \mathbf{A}^T \mathbf{A}$。那么 $\mathbf{A}^T \mathbf{A} = \mathbf{S}$ 是不是正定矩阵呢?

若 $\mathbf{A}$ 是非奇异矩阵,那么 $\mathbf{A}^T \mathbf{A}$ 为正定矩阵。(证明

证明 假设 $\mathbf{x}$ 为任一非零向量,有:$$\mathbf{x}^T (\mathbf{A}^T \mathbf{A}) \mathbf{x} = (\mathbf{A}\mathbf{x})^T (\mathbf{A}\mathbf{x}) = \left\| \mathbf{A} \mathbf{x} \right\|^2 \geqslant 0 \tag{Ⅰ}$$ 因为 $\mathbf{A}$ 是非奇异矩阵(即 $\mathbf{A}$ 的列向量线性无关),所以仅当 $\mathbf{x} = \mathbf{0}$ 时才有 $\mathbf{A}\mathbf{x} = \mathbf{0}$,但因 $\mathbf{x} \ne \mathbf{0}$,所以 $\mathbf{A}\mathbf{x} \ne \mathbf{0}$。根据 $(Ⅰ)$ 式,有 $$ \mathbf{x}^T (\mathbf{A}^T \mathbf{A}) \mathbf{x} = \left\| \mathbf{A} \mathbf{x} \right\|^2 \gt 0 $$ 因此 $\mathbf{A}^T \mathbf{A}$ 为正定矩阵。证毕。

二次型的几何意义

下面举例说明二次型 $f = \mathbf{x}^T \mathbf{S} \mathbf{x}$ 的几何意义。

假设 $\mathbf{S} = \begin{bmatrix} 6 & 1 \\ 1 & 7 \end{bmatrix}$,$\mathbf{x} = \begin{bmatrix} x \\ y \end{bmatrix}$。我们可以通过 定理 5 来验证 $\mathbf{S}$ 是否为正定矩阵:$$ \begin{vmatrix} 6 \end{vmatrix} = 6 > 0 \quad \begin{vmatrix} 6&1\\1&7 \end{vmatrix} = 41 > 0 $$,因此 $\mathbf{S}$ 为正定矩阵。于是二次型恒大于 $0$,即:$$ f(\mathbf{x}) = \mathbf{x}^T \mathbf{S} \mathbf{x} = \begin{bmatrix} x & y \end{bmatrix} \begin{bmatrix} 6 & 1 \\ 1 & 7 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = 6x^2 + 2xy + 7y^2 > 0 $$ $f(\mathbf{x})$ 的图形如下:

正定二次型
可以看到图像像一只碗,只有在 $x=0$ 并且 $y=0$ 时 $f(\mathbf{x})$ 才为 $0$。这就是正定二次型的几何意义。如果用 $f(\mathbf{x}) = c\ (c \in \mathbb{R}^{+})$ 去切这个碗,我们会得到一个椭圆。比如取 $c=100$,即 $f(\mathbf{x}) = 6x^2 + 2xy + 7y^2 = 100$,那么图形如下:


可以看到我们得到了一个以原点为中心的椭圆。

上例是正定矩阵的情况,可想而知,负定矩阵的情况与上例正好相反。比如我们取 $\mathbf{S} = \begin{bmatrix} -6 & -1 \\ -1 & -7 \end{bmatrix}$,那么就会得到一只倒扣的碗,如下图所示:


可以想象,如果以 $f(\mathbf{x}) = c \ (c \in \mathbb{R}^{-})$ 去切这个碗,还是会得到一个椭圆。

下面来看既不是正定,也不是负定的情况,例如 $\mathbf{S} = \begin{bmatrix} -6 & 1 \\ 1 & 7 \end{bmatrix} $,它的图形是一个马鞍,如下所示:


如果以 $f(\mathbf{x}) = c \ (c \in \mathbb{R})$ 去切这个马鞍,会得到一个双曲线,下图是 $f(\mathbf{x}) = 100$ 的图形:


约束最优化

讨论二次型 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 在一定约束下的最优值是有意义的,本节就来讨论 $\mathbf{x}$ 为单位向量时,二次型 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 的最优值(最大值与最小值)。$\mathbf{x}$ 为单位向量有多种表达方式:

$$ \left\| \mathbf{x} \right\| = 1, \quad\quad \left\| \mathbf{x} \right\|^2 = 1, \quad\quad \mathbf{x}^T\mathbf{x} = 1, \quad\quad x_1^2 + x_2^2 + \cdots + x_n^2 = 1 \tag{11}$$

假设 $M$ 与 $m$ 分别是在 $(11)$ 式的约束下二次型 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 的最大值与最小值,即:

$$ M = \max \{ \mathbf{x}^T\mathbf{A}\mathbf{x} : \left\| \mathbf{x} \right\| = 1 \}, \quad\quad m = \min \{ \mathbf{x}^T\mathbf{A}\mathbf{x} : \left\| \mathbf{x} \right\| = 1 \} \tag{12} $$

则有如下定理:



假设 $\mathbf{A}$ 是 $n \times n$ 的对称矩阵,将 $\mathbf{A}$ 的特征值由大到小排列为:$\lambda_1, \lambda_2, \cdots, \lambda_n$,对应的单位特征向量为:$ \mathbf{u}_1, \mathbf{u}_2, \cdots, \mathbf{u}_n $,则在 $(11)$ 的约束下,当 $\mathbf{x} = \mathbf{u}_1$ 时,二次型 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 取得最大值 $\lambda_1$,当 $\mathbf{x} = \mathbf{u}_n$ 时,二次型 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 取得最小值 $\lambda_n$,即:$$ M = \lambda_1 = \mathbf{u}_1^T \mathbf{A} \mathbf{u}_1 \quad\quad m = \lambda_n = \mathbf{u}_n^T \mathbf{A} \mathbf{u}_n $$其中 $M$ 与 $m$ 的定义如 $(12)$ 式。(证明

证明

假设 $\boldsymbol{\Lambda}$ 是 $\mathbf{A}$ 的特征值矩阵,$\mathbf{P}$ 是 $\mathbf{A}$ 的特征向量矩阵,即:$$ \mathbf{P} = \begin{bmatrix} \mathbf{u}_1 & \mathbf{u}_2 & \cdots & \mathbf{u}_n \end{bmatrix} \quad\quad \boldsymbol{\Lambda} = \begin{bmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots & \\ & & & \lambda_n \end{bmatrix} $$ 根据主轴定理,存在正交变量変换 $\mathbf{x} = \mathbf{P} \mathbf{y}$,使得:$$ \mathbf{x}^T\mathbf{A}\mathbf{x} = \mathbf{y}^T \boldsymbol{\Lambda} \mathbf{y} $$又因为(注意 $\mathbf{P}$ 是正交矩阵,因此有 $\mathbf{P}^T\mathbf{P}=\mathbf{E}$):$$ \left\| \mathbf{x} \right\|^2 = \left\| \mathbf{P} \mathbf{y} \right\|^2 = (\mathbf{P}\mathbf{y})^T (\mathbf{P}\mathbf{y}) = \mathbf{y}^T \mathbf{P}^T \mathbf{P} \mathbf{y} = \mathbf{y}^T \mathbf{y} = \left\| \mathbf{y} \right\|^2 $$所以根据约束条件有:$\left\| \mathbf{x} \right\| = \left\| \mathbf{y} \right\| = 1$,因此 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 与 $\mathbf{y}^T \boldsymbol{\Lambda} \mathbf{y}$ 的定义域与值域都相同,求 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 的最大值与最小值等价于求 $\mathbf{y}^T \boldsymbol{\Lambda} \mathbf{y}$ 的最大值与最小值。于是(注意 $\lambda_1 \geqslant \lambda_2 \geqslant \cdots \geqslant \lambda_n$): \begin{align*} \mathbf{x}^T\mathbf{A}\mathbf{x} &= \mathbf{y}^T \boldsymbol{\Lambda} \mathbf{y} \\ &= \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2 \\ & \leqslant \lambda_1 y_1^2 + \lambda_1 y_2^2 + \cdots + \lambda_1 y_n^2 \\ &= \lambda_1 (y_1^2 + y_2^2 + \cdots + y_n^2) \\& = \lambda_1 \left\| \mathbf{y} \right\|^2= \lambda_1 \end{align*}上式的 $\leqslant$ 号可以在 $\mathbf{y} = \mathbf{e}_1 = \begin{bmatrix} 1 \\ 0 \\ \vdots \\ 0 \end{bmatrix}$ 时取 $=$ 号,因此当 $\mathbf{y} = \mathbf{e}_1$ 时 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 取得最大值,此时:$$\mathbf{x} = \mathbf{P} \mathbf{y} = \mathbf{P} \mathbf{e}_1 = \begin{bmatrix} \mathbf{u}_1 & \mathbf{u}_2 & \cdots & \mathbf{u}_n \end{bmatrix} \begin{bmatrix} 1 \\ 0 \\ \vdots \\ 0 \end{bmatrix} = \mathbf{u}_1 $$因此当 $\mathbf{x} = \mathbf{u}_1$ 时,二次型 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 取得最大值 $\lambda_1$,即 $M = \lambda_1 = \mathbf{u}_1^T \mathbf{A} \mathbf{u}_1$。
同理:\begin{align*} \mathbf{x}^T\mathbf{A}\mathbf{x} &= \mathbf{y}^T \boldsymbol{\Lambda} \mathbf{y} \\ &= \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2 \\ & \geqslant \lambda_n y_1^2 + \lambda_n y_2^2 + \cdots + \lambda_1 y_n^2 \\ &= \lambda_n (y_1^2 + y_2^2 + \cdots + y_n^2) \\& = \lambda_n \left\| \mathbf{y} \right\|^2= \lambda_n \end{align*}上式的 $\geqslant$ 号可以在 $\mathbf{y} = \mathbf{e}_n = \begin{bmatrix} 0 \\ 0 \\ \vdots \\ 1 \end{bmatrix}$ 时取 $=$ 号,因此当 $\mathbf{y} = \mathbf{e}_n$ 时 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 取得最小值,此时:$$\mathbf{x} = \mathbf{P} \mathbf{y} = \mathbf{P} \mathbf{e}_n = \begin{bmatrix} \mathbf{u}_1 & \mathbf{u}_2 & \cdots & \mathbf{u}_n \end{bmatrix} \begin{bmatrix} 0 \\ 0 \\ \vdots \\ 1 \end{bmatrix} = \mathbf{u}_n $$因此当 $\mathbf{x} = \mathbf{u}_n$ 时,二次型 $\mathbf{x}^T\mathbf{A}\mathbf{x}$ 取得最小值 $\lambda_n$,即 $m = \lambda_n = \mathbf{u}_n^T \mathbf{A} \mathbf{u}_n$。



假设 $\mathbf{A}$, $\lambda_i\ (1 \leqslant i \leqslant n)$,$\mathbf{u}_i\ (1 \leqslant i \leqslant n)$ 的描述如 定理 11。若给定如下的约束条件:$$ \left\| \mathbf{x} \right\| = 1, \quad\quad \mathbf{x}^T\mathbf{u}_1 = 0 $$那么二次型 $\mathbf{x}^T \mathbf{A} \mathbf{x}$ 在 $\mathbf{x} = \mathbf{u}_2$ 时取得最大值 $\lambda_2$。(证明

证明

证明过程类似于 定理 11,根据主轴定理,有:\begin{align*} \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\y_n \end{bmatrix} = \mathbf{y} = \mathbf{P}^{-1} \mathbf{x} = \mathbf{P}^T \mathbf{x} = \begin{bmatrix} \mathbf{u}_1^T \\ \mathbf{u}_2^T \\ \vdots \\ \mathbf{u}_n^T \end{bmatrix} \mathbf{x} = \begin{bmatrix} \mathbf{u}_1^T \mathbf{x} \\ \mathbf{u}_2^T \mathbf{x} \\ \vdots \\ \mathbf{u}_n^T \mathbf{x} \end{bmatrix} = \begin{bmatrix} 0 \\ \mathbf{u}_2^T \mathbf{x} \\ \vdots \\ \mathbf{u}_n^T \mathbf{x} \end{bmatrix} \end{align*}于是 $y_1 = 0$,根据 定理 11 的证明:\begin{align*} \mathbf{x}^T\mathbf{A}\mathbf{x} &= \mathbf{y}^T \boldsymbol{\Lambda} \mathbf{y} \\ &= \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2 \\ &= \lambda_1 0^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2 \\ & \leqslant \lambda_2 y_2^2 + \cdots + \lambda_2 y_n^2 \\ &= \lambda_2 (y_2^2 + \cdots + y_n^2) \\& = \lambda_2 \left\| \mathbf{y} \right\|^2= \lambda_2 \end{align*}上述不等式在 $\mathbf{x} = \mathbf{u}_2$ 时取等号。定理得证。



假设 $\mathbf{A}$, $\lambda_i\ (1 \leqslant i \leqslant n)$,$\mathbf{u}_i\ (1 \leqslant i \leqslant n)$ 的描述如 定理 11。若给定如下的约束条件:$$ \left\| \mathbf{x} \right\| = 1, \quad\quad \mathbf{x}^T\mathbf{u}_1 = 0, \quad\quad \cdots, \quad\quad \mathbf{x}^T\mathbf{u}_{k-1} = 0 $$那么二次型 $\mathbf{x}^T \mathbf{A} \mathbf{x}$ 在 $\mathbf{x} = \mathbf{u}_k$ 时取得最大值 $\lambda_k$。(证明参考 定理 12 的证明)

对称矩阵与二次型就讲到这里,感谢阅读!

版权声明:本文为原创文章,转载请注明出处。http://cynhard.com/2018/10/15/LA-Symmetric-Metrices-and-Quadratic-Forms/

推荐文章