线性代数 - 线性变换

28

概述

线性变换是线性代数中最基础也是最有趣的一部分。本篇将由浅入深地介绍线性变换的概念。

变换

什么是变换?首先来看一个例子:

$$ y = x + 1 $$

当 $x=1$ 时,$y=1+1=2$,当 $x=2$ 时,$y=2+1=3$,无论 $x$ 在 $\mathbb{R}$ 中取何值,都有一个唯一的 $y$ 与之对应。这就是变换。



设 $X$($X \subseteq \mathbf{R}^n$)与 $Y$($Y \subseteq \mathbf{R}^m$)是两个非空集合,如果存在一个法则 $T$,使得对 $X$ 中的每个元素 $x$,按法则 $T$,在 $Y$ 中有唯一确定的元素 $y$ 与之对应,那么称 $T$ 为从 $X$ 到 $Y$ 的变换Transformation)(也称为函数Function)或映射Mapping)),记作 $T: X \to Y$ 或 $x \mapsto y$。其中元素 $y$ 称为元素 $x$ (在变换 $T$ 下的)Image),记作 $T(x)$,即 $y = T(x)$,而元素 $x$ 称为元素 $y$(在变换 $T$ 下)的原像Inverse Image, or Preimage)。集合 $X$ 称为变换 $T$ 的定义域Domain),集合 $Y$ 称为变换 $T$ 的陪域Codomain)(也称为上域到达域),所有像的集合 $\{T(x) \mid x \in X \} $ 称为 $T$ 的值域Range)。

上面 $y=x+1$ 的例子是一个从 $\mathbb{R}$ 到 $\mathbb{R}$ 的变换,因此可以记为 $T: \mathbb{R} \to \mathbb{R}$。这个变换的定义域,陪域,值域都是 $\mathbb{R}$。

再举一个例子,$T(x)=\left| x \right|$ (对 $x$ 取绝对值)同样是一个变换,它的定义域是 $\mathbb{R}$,陪域也是 $\mathbb{R}$,值域是 $\{0, \mathbb{R}^+\}$。当 $x=-5$ 时,$T(x) = 5$,此时说 $5$ 是 $-5$ 在变换 $T$ 下的原像,而 $-5$ 是 $5$ 在 $T$ 下的像。

变换不限于从 $\mathbb{R}$ 到 $\mathbb{R}$,它可以是任意维度之间的变换。比如对于任意 $\mathbf{x}$($\mathbf{x} \in \mathbb{R}^2$),变换 $T(\mathbf{x}) = \left\| \mathbf{x} \right\|$ 就是一个从 $\mathbb{R}^2$ 到 $\mathbb{R}$ 的变换,即 $T: \mathbb{R}^2 \to \mathbb{R}$。



对于映射 $T: \mathbb{R}^n \to \mathbb{R}^m$,若 $\mathbb{R}^m$ 中任意元素 $\mathbf{y}$ 在 $\mathbb{R}^n$ 中至少存在一个像 $\mathbf{x}$,则称 $T$ 为 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的映射Mapping from $\mathbb{R}^n$ onto $\mathbb{R}^m$)或满射。

满射也可以说成 $T$ 的值域与陪域相同。也就是说对陪域 $\mathbb{R}^m$ 中的任一向量 $\mathbf{b}$,$T(\mathbf{x})=\mathbf{b}$ 至少存在一个解。



对于映射 $T: \mathbb{R}^n \to \mathbb{R}^m$,若 $\mathbb{R}^m$ 中任意元素 $\mathbf{y}$ 在 $\mathbb{R}^n$ 中最多存在一个像 $\mathbf{x}$,则称 $T$ 为 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的单射one-to-one)。

单射是说对于陪域内的任一向量 $\mathbf{b}$,$T(\mathbf{x}) = \mathbf{b}$ 有唯一解或者无解。



若映射 $T: \mathbb{R}^n \to \mathbb{R}^m$ 既是满射又是单射,则称 $T$ 为 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的一一映射双射

矩阵变换

任一 $m \times n$ 的矩阵 $\mathbf{A}$ 与 $\mathbb{R}^n$ 中任一向量 $\mathbf{x}$ 的乘积能且仅能得到 $\mathbb{R}^m$ 中的一个向量 $\mathbf{y}$。因此我们可以将$\mathbf{A}\mathbf{x}$ 定义为对 $x$ 的一个变换,即:$\mathbf{x} \mapsto \mathbf{A}\mathbf{x}$。这就是矩阵变换Matrix Transformation)。通过矩阵变换我们可以将任意 $n$ 维向量变换为 $m$ 维向量,即:$T: \mathbb{R}^n \to \mathbb{R}^m$。


假设 $X = \{ \mathbf{x} \mid \left\| \mathbf{x} \right\| = 1, \mathbf{x} \in \mathbb{R}^2 \}$,$\mathbf{A} = \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix}$,求变换 $\mathbf{y} = \mathbf{A}\mathbf{x}$ 的值域 $Y$。



由于 $\mathbf{x}$ 的模长为 $1$,因此 $X$ 是一个单位圆,有:$x_1^2 + x_2^2 = 1$。
计算 $\mathbf{A}\mathbf{x}$:
\begin{align*} \mathbf{y} = \mathbf{A}\mathbf{x} = \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} x_1 + x_2 \\ x_2 \end{bmatrix} = \begin{bmatrix} y_1 \\ y_2 \end{bmatrix} \end{align*}
于是:
$$ \left\{ \begin{array}{l} x_1 = y_1 - y_2 \\ x_2 = y_2 \end{array} \right. $$
因此:$ (y_1 - y_2)^2 + y_2^2 = 1 $,整理,得:$y_1^2 -2y_1y_2 + 2y_2^2 = 1$。因此 $\mathbf{y} = \mathbf{A}\mathbf{x}$ 的值域为 $Y = \{ \mathbf{y} \mid \mathbf{y} = \mathbf{A} \mathbf{x}, y_1^2 -2y_1y_2 + 2y_2^2 = 1, y \in \mathbb{R}^2 \}$,这是一个椭圆。
上述变换用图形表示为(点击图片以放大查看):
图1 - 剪切变换
本例中的 $\mathbf{A}$ 是一个特殊的矩阵,它只比单位矩阵多了一个非零元素,这样的矩阵称为剪切矩阵Shear Matrix)。它的作用是将图像朝着一个基(本例的基就是坐标轴)的方向进行剪切。这种变换叫做剪切变换Shear Transformation)。

线性变换

线性变换是一种特殊的变换,下面是它的定义:



对于一个变换 $T$,若:

1. 对于 $T$ 定义域内的所有 $\mathbf{u}$ 与 $\mathbf{v}$ 都满足:$T(\mathbf{u} + \mathbf{v}) = T(\mathbf{u}) + T(\mathbf{v})$
2. 对于 $T$ 定义域内的所有 $\mathbf{u}$ 与任意标量 $c$ 都满足: $T(c\mathbf{u}) = c T(\mathbf{u})$

则称 $T$ 为线性变换Linear Transformation)。

根据以上定义可以得到线性变换的两个性质:

     $ T(\mathbf{0}) = \mathbf{0} $ (证明

证明     $ T(\mathbf{0}) = T(0\mathbf{u}) = 0T(\mathbf{u}) = \mathbf{0} $

     $ T(c\mathbf{u} + d\mathbf{v}) = cT(\mathbf{u}) + dT(\mathbf{v}) $ (证明

证明    $T(c\mathbf{u} + d\mathbf{v}) = T(c\mathbf{u}) + T(d\mathbf{v}) = cT(\mathbf{u}) + dT(\mathbf{v})$




判断下列变换是否线性变换:$$ \begin{array}{l} & T(x)=x+1 \end{array} \tag{e2.1} $$ $$\begin{array}{l} & T(x)=x^2 \end{array} \tag{e2.2} $$ $$ \begin{array}{l} & T(\mathbf{x}) = \mathbf{A} \mathbf{x} \quad(\mathbf{A} \in \mathbb{R}^{m \times n},\ \mathbf{x} \in \mathbb{R}^n) \end{array} \tag{e2.3} $$



$(\mathrm{e}2.1)$ 式,因为当 $x=0$ 时,$T(0) = 1 \ne 0$,所以不是线性变换。

$(\mathrm{e}2.2)$ 式,因为当 $u,v \ne 0$ 时,$T(u+v) = (u+v)^2 = u^2 + 2uv + v^2 \ne T(u) + T(v) $,所以不是线性变换。

$(\mathrm{e}2.3)$ 式,因为 $T(\mathbf{0}) = \mathbf{A} \mathbf{0} = \mathbf{0}$,并且 $T(\mathbf{u} + \mathbf{v}) = \mathbf{A}(\mathbf{u} + \mathbf{v}) = \mathbf{A}\mathbf{u} + \mathbf{A}\mathbf{v} = T(\mathbf{u}) + T(\mathbf{v})$,所以是线性变换。



在上例的 $(\mathrm{e}2.3)$ 中我们可以看到 $T(\mathbf{x}) = \mathbf{A} \mathbf{x}$ 可以表示从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的线性变换 $T: \mathbb{R}^n \to \mathbb{R}^m$,那么是不是所有从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的线性变换都可以用 $T(\mathbf{x}) = \mathbf{A}\mathbf{x}$ 表示呢?如果能,那么对于特定的变换,这个变换矩阵 $\mathbf{A}$ 是不是唯一的呢?答案是能,并且对于特定的线性变换,$\mathbf{A}$ 也是唯一的。这可以用下面的定理描述:



假设有线性变换 $T: \mathbb{R}^n \to \mathbb{R}^m$,则对于所有 $\mathbf{x} \in \mathbb{R}^n$,有且仅有一个 $\mathbf{A} \in \mathbb{R}^{m \times n}$,使得 $$ T(\mathbf{x}) = \mathbf{A} \mathbf{x} $$ 成立。并且 $$ \mathbf{A} = \begin{bmatrix} T(\mathbf{e}_1) & T(\mathbf{e}_2) & \cdots & T(\mathbf{e}_n) \end{bmatrix} $$ 其中 $\mathbf{A}$ 称为线性变换 $T$ 的标准矩阵Standard Matrix for The Linear Transformation T),$\mathbf{e}_j$ 是单位向量 $\mathbf{E} \in \mathbb{R}^{n \times n}$ 的第 $j$ 列所表示的列向量($1 \leqslant i \leqslant n$),即 $$ \mathbf{e}_1 = \begin{bmatrix} 1 \\ 0 \\ \vdots \\ 0 \end{bmatrix} \quad \mathbf{e}_2 = \begin{bmatrix} 0 \\ 1 \\ \vdots \\ 0 \end{bmatrix} \quad \cdots \quad \mathbf{e}_n = \begin{bmatrix} 0 \\ 0 \\ \vdots \\ 1 \end{bmatrix} $$(证明

证明

$\mathbf{x}$ 可以写成 $\mathbf{e}_j$ 的线性组合:$$ \mathbf{x} = \mathbf{E} \mathbf{x} = \begin{bmatrix} \mathbf{e}_1 & \mathbf{e}_2 & \cdots & \mathbf{e}_n \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} = x_1 \mathbf{e}_1 + x_2 \mathbf{e}_2 + \cdots + x_n \mathbf{e}_n $$于是,根据线性变换的 定义 以及 性质 2,有:\begin{align*} T(\mathbf{x}) &= T(x_1 \mathbf{e}_1 + x_2 \mathbf{e}_2 + \cdots + x_n \mathbf{e}_n) \\ &= x_1 T(\mathbf{e}_1) + x_2 T(\mathbf{e}_2) + \cdots + x_n T(\mathbf{e}_n) \\ &= \begin{bmatrix} T(\mathbf{e}_1) & T(\mathbf{e}_2) & \cdots & T(\mathbf{e}_n) \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} \\ &= \mathbf{A} \mathbf{x} \end{align*} 这就证明了 $\mathbf{A}$ 的存在性,并且 $\mathbf{A} = \begin{bmatrix} T(\mathbf{e}_1) & T(\mathbf{e}_2) & \cdots & T(\mathbf{e}_n) \end{bmatrix}$
再证唯一性,假设存在 $\mathbf{B}$ 使得 $T(\mathbf{x}) = \mathbf{B} \mathbf{x}$,则: \begin{align*} T(\mathbf{x}) &= \mathbf{B} \mathbf{x} \\ &= \mathbf{B} (x_1 \mathbf{e}_1 + x_2 \mathbf{e}_2 + \cdots + x_n \mathbf{e}_n) \\ &= \mathbf{B} \mathbf{e}_1 x_1 + \mathbf{B} \mathbf{e}_2 x_2 + \cdots + \mathbf{B} \mathbf{e}_n x_n \\ &= \begin{bmatrix} \mathbf{B} \mathbf{e}_1 & \mathbf{B} \mathbf{e}_2 & \cdots & \mathbf{B} \mathbf{e}_n \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} \\ &= \begin{bmatrix} T(\mathbf{e}_1) & T(\mathbf{e}_2) & \cdots & T(\mathbf{e}_n) \end{bmatrix} \mathbf{x} \end{align*} 因此 $\mathbf{B} = \begin{bmatrix} T(\mathbf{e}_1) & T(\mathbf{e}_2) & \cdots & T(\mathbf{e}_n) \end{bmatrix} = \mathbf{A}$,这就证明了唯一性。



设变换 $T: \mathbb{R}^2 \to \mathbb{R}^2$ 是一个将 $\mathbf{x} \in \mathbb{R}^2$ 逆时针旋转 $\theta$ 的变换,问该变换是否是线性变换?如果是,求标准矩阵 $\mathbf{A}$。



这个变换可以如下图表示,显然是这是一个线性变换。

图2 - 旋转矩阵
根据 定理 1:$\mathbf{A} = \begin{bmatrix} T(\mathbf{e}_1) & T(\mathbf{e}_2) \end{bmatrix} = \begin{bmatrix} T(\begin{bmatrix} 1\\0 \end{bmatrix}) & T(\begin{bmatrix} 0\\1 \end{bmatrix}) \end{bmatrix} = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix}$
矩阵 $\mathbf{A}$ 被称为旋转矩阵Rotation Matrix)。



如果 $T: \mathbb{R}^n \to \mathbb{R}^m$ 是线性变换,那么 $T$ 是单射的充分必要条件是 $T(\mathbf{x}) = \mathbf{0}$ 只有平凡解(即只有零解)。(证明

证明

先证充分性,因为 $T$ 是线性变换,所以 $T(\mathbf{0}) = \mathbf{0}$,这说明 $\mathbf{0}$ 的原像是 $\mathbf{0}$。又因为 $T$ 是单射,所以 $T(\mathbf{x}) = \mathbf{0}$ 只有零解。
再证必要性,用反证法,假设 $T(\mathbf{x}) = \mathbf{0}$ 只有零解但是 $T$ 不是单射。因为不是单射,因此 $\mathbb{R}^n$ 中存在两个不同的向量 $\mathbf{u}$ 与 $\mathbf{v}$ 使得 $T(\mathbf{u}) = \mathbf{b}$,$T(\mathbf{v}) = \mathbf{b}$,其中 $\mathbf{b}$ 是 $\mathbb{R}^m$ 中的某个向量。因为 $T$ 是线性变换,因此:$T(\mathbf{u} - \mathbf{v}) = T(\mathbf{u}) - T(\mathbf{v}) = \mathbf{b} - \mathbf{v} = \mathbf{0}$,又因为 $T(\mathbf{x}) = \mathbf{0}$ 只有零解,因此 $\mathbf{u} - \mathbf{v} = \mathbf{0}$,即 $\mathbf{u} = \mathbf{v}$,这与假设不符。必要性得证。



如果 $T: \mathbb{R}^n \to \mathbb{R}^m$ 是线性变换,并且 $\mathbf{A}$ 是变换 $T$ 的标准矩阵,那么:
a) 当且仅当 $\mathbf{A}$ 的列张成 $\mathbb{R}^m$ 时,$T$ 是从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的满射。
b) 当且仅当 $\mathbf{A}$ 的列线性无关时,$T$ 是从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的单射。(证明

证明

a) $\mathbf{A}$ 的列张成 $\mathbb{R}^m$,等价于任一向量 $\mathbf{b} \in \mathbb{R}^m$ 都可以表示为 $\mathbf{A}$ 的列的线性组合:$\mathbf{A}\mathbf{x}$,即 $\mathbf{A}\mathbf{x}=\mathbf{b}$ 恒有解,这正是满射的定义。
b) $\mathbf{A}$ 的列线性无关等价于 $\mathbf{A}\mathbf{x} = \mathbf{0}$ 只有零解,根据 定理 2,$T$ 是从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的单射。

坐标系

向量空间 $V$ 的基可以表示 $V$ 中所有的向量,因此可以说 $V$ 的基构成了 $V$ 的一个坐标系。同一向量在不同基表示的坐标系中有不同的坐标,比如下图中分别使用了 $\mathcal{B} = \{ \begin{bmatrix} 2\\0 \end{bmatrix}, \begin{bmatrix} 0\\2 \end{bmatrix} \}$ 与 $\mathcal{C}=\{ \begin{bmatrix} 2\\1 \end{bmatrix}, \begin{bmatrix} 1\\2 \end{bmatrix} \}$ 两个基来表示同一向量 $\mathbf{x} = \begin{bmatrix} 3\\3 \end{bmatrix}$。

图3 - 用不同的基表示同一向量

虽然都是 $\mathbf{x}$ ,但是在 $\mathcal{B}$ 与 $\mathcal{C}$ 表示的坐标系中 $\mathbf{x}$ 却是不同的坐标:

\begin{align*} \begin{array}{l} \mathbf{x} = 1.5 \begin{bmatrix} 2\\0 \end{bmatrix} + 1.5 \begin{bmatrix} 0\\2 \end{bmatrix} = \begin{bmatrix} 2&0\\0&2 \end{bmatrix} \begin{bmatrix} \color{red}{1.5}\\ \color{red}{1.5} \end{bmatrix} \\ \mathbf{x} = 1 \begin{bmatrix} 2\\1 \end{bmatrix} + 1 \begin{bmatrix} 1\\2 \end{bmatrix} = \begin{bmatrix} 2&1\\1&2 \end{bmatrix} \begin{bmatrix} \color{blue}{1} \\ \color{blue}{1} \end{bmatrix} \end{array} \end{align*}

可以看到,$\mathbf{x}$ 在 $\mathcal{B}$ 表示的坐标系中是 $\begin{bmatrix} \color{red}{1.5} \\ \color{red}{1.5} \end{bmatrix}$,而在 $\mathcal{C}$ 表示的坐标系中则是 $\begin{bmatrix} \color{blue}{1} \\ \color{blue}{1} \end{bmatrix}$。



假设 $\mathcal{B} = \{ \mathbf{b}_1, \mathbf{b}_2, \cdots, \mathbf{b}_n \}$ 是向量空间 $V$ 的一个基,那么对于 $V$ 中的任一向量 $\mathbf{x}$,有唯一的一组系数 $c_1, c_2, \cdots, c_n$ 使得 $$ \mathbf{x} = c_1 \mathbf{b}_1 + c_2 \mathbf{b}_2 + \cdots + c_n \mathbf{b}_n \tag{1} $$ (证明

证明

因为 $\mathcal{B}$ 张成 $V$,所以 $(1)$ 式成立。假设 $\mathbf{x}$ 还可以表示为:$$ \mathbf{x} = d_1 \mathbf{b}_1 + d_2 \mathbf{b}_2 + \cdots + d_n \mathbf{b}_n $$两式相减:$$ \mathbf{0} = \mathbf{x} - \mathbf{x} = (c_1 - d_1)\mathbf{b}_1 + (c_2 - d_2)\mathbf{b}_2 + \cdots + (c_n-d_n)\mathbf{b}_n $$
因为 $\mathcal{B}$ 线性无关,所以 $c_i = d_i$($1 \leqslant j \leqslant n$)。



假设 $\mathcal{B} = \{ \mathbf{b}_1, \mathbf{b}_2, \cdots, \mathbf{b}_n \}$ 是向量空间 $V$ 的一个基,$\mathbf{x}$ 是 $V$ 中的向量,则将 $\mathbf{x}$ 相对于基 $\mathcal{B}$ 的坐标Coordinate of $\mathbf{x}$ relative to basis $\mathcal{B}$)(或称为 $\mathbf{x}$ 的 $\mathcal{B}$ 坐标$\mathcal{B}$-coordinates of $\mathbf{x}$))定义为使得 $ \mathbf{x} = c_1 \mathbf{b}_1 + c_2 \mathbf{b}_2 + \cdots + c_n \mathbf{b}_n $ 成立的系数 $c_1, c_2, \cdots, c_n$。

根据 定理4 知道 $\mathbf{x}$ 相对于 $\mathcal{B}$ 的坐标是唯一的。

如果 $c_1, c_2, \cdots, c_n$ 是 $\mathbf{x}$ 相对于 $\mathcal{B}$ 的坐标,那么向量:

$$ \begin{bmatrix} \mathbf{x} \end{bmatrix} _{\mathcal{B}} = \begin{bmatrix} c_1 \\ c_2 \\ \vdots \\ c_n \end{bmatrix} $$

称为 $\mathbf{x}$ 相对于 $\mathcal{B}$ 的坐标向量Coordinate vector of $\mathbf{x}$ relative to $\mathcal{B}$),或者 $\mathbf{x}$ 的 $\mathcal{B}$ 坐标向量$\mathcal{B}$-coordinate vector of $\mathbf{x}$)。映射 $\mathbf{x} \mapsto \begin{bmatrix} \mathbf{x} \end{bmatrix} _{\mathcal{B}}$ 称为(由 $\mathcal{B}$ 决定的)坐标映射Coordinate mapping (determined by $\mathcal{B}$))。

坐标映射



假设 $\mathcal{B} = \{ \mathbf{b}_1, \mathbf{b}_2, \cdots, \mathbf{b}_n \}$ 是向量空间 $V$ 的一个基。则坐标映射 $\mathbf{x} \mapsto \begin{bmatrix} \mathbf{x} \end{bmatrix} _{\mathcal{B}}$ 是从 $V$ 到 $\mathbf{R}^n$ 的一一线性变换。(证明

证明

首先证明坐标映射是线性变换,在 $V$ 中任取两个向量 $\mathbf{u}$ 和 $\mathbf{v}$:\begin{align*} \begin{array}{l} \mathbf{u} = c_1 \mathbf{b}_1 + c_2 \mathbf{b}_2 + \cdots + c_n \mathbf{b}_n \\ \mathbf{v} = d_1 \mathbf{b}_1 + d_2 \mathbf{b}_2 + \cdots + d_n \mathbf{b}_n \end{array} \end{align*} 先看 $\mathbf{u}$ 与 $\mathbf{v}$ 之和:$$ \mathbf{u} + \mathbf{v} = (c_1+d_1)\mathbf{b}_1 + (c_2 + d_2)\mathbf{b}_2 + \cdots + (c_n + d_n)\mathbf{b}_n $$于是:$$ \begin{bmatrix} \mathbf{u} + \mathbf{v} \end{bmatrix}_{\mathcal{B}} = \begin{bmatrix} c_1 + d_1 \\ c_2 + d_2 \\ \vdots \\ c_n + d_n \end{bmatrix} = \begin{bmatrix} c_1 \\ c_2 \\ \vdots \\ c_n \end{bmatrix} + \begin{bmatrix} d_1 \\ d_2 \\ \vdots \\ d_n \end{bmatrix} = \begin{bmatrix} \mathbf{u} \end{bmatrix}_{\mathcal{B}} + \begin{bmatrix} \mathbf{v} \end{bmatrix}_{\mathcal{B}} $$ 因此坐标映射对加法封闭。再看数乘:$$ r \mathbf{u} = r(c_1\mathbf{b}_1 + c_2\mathbf{b}_2 + \cdots + c_n\mathbf{b}_n) = (rc_1)\mathbf{b}_1 + (rc_2)\mathbf{b}_2 + \cdots + (rc_n)\mathbf{b}_n $$于是:$$ \begin{bmatrix} r\mathbf{u} \end{bmatrix}_{\mathcal{B}} = \begin{bmatrix} rc_1 \\ rc_2 \\ \vdots \\ rc_n \end{bmatrix} = r \begin{bmatrix} c_1 \\ c_2 \\ \vdots \\ c_n \end{bmatrix} = r \begin{bmatrix} \mathbf{u} \end{bmatrix}_{\mathcal{B}} $$ 因此坐标映射对数乘封闭。这就证明了坐标映射是线性变换。
再证单射,用反证法,假设 $V$ 中两个不同的向量 $\mathbf{u}$ 和 $\mathbf{v}$ 的像 $\left[\mathbf{u}\right]_{\mathcal{B}}$ 与 $\left[\mathbf{v}\right]_{\mathcal{B}}$ 相等,即 $\mathbf{u} \ne \mathbf{v}$ 并且 $\left[\mathbf{u}\right]_{\mathcal{B}} = \left[\mathbf{v}\right]_{\mathcal{B}}$,因 $\mathcal{B}$ 张成 $V$,故存在两组特定的系数 $c_i$ 与 $d_i$($1 \leqslant i \leqslant n$),使得:\begin{align*} \begin{array}{l} \mathbf{u} = c_1 \mathbf{b}_1 + c_2 \mathbf{b}_2 + \cdots + c_n \mathbf{b}_n \\ \mathbf{v} = d_1 \mathbf{b}_1 + d_2 \mathbf{b}_2 + \cdots + d_n \mathbf{b}_n \end{array} \end{align*}根据 定义 6,有:$$ \left[ \mathbf{u} \right]_{\mathcal{B}} = \begin{bmatrix} c_1 \\ c_2 \\ \vdots \\ c_n \end{bmatrix} \quad\quad \left[ \mathbf{v} \right]_{\mathcal{B}} = \begin{bmatrix} d_1 \\ d_2 \\ \vdots \\ d_n \end{bmatrix} $$ 因为 $\left[\mathbf{u}\right]_{\mathcal{B}} = \left[\mathbf{v}\right]_{\mathcal{B}}$,所以 $c_i = d_i$($1 \leqslant i \leqslant n$)。于是:$$ \mathbf{u} - \mathbf{v} = (c_1-d_1)\mathbf{b}_1 + (c_2-d_2)\mathbf{b}_2 + \cdots + (c_n-d_n)\mathbf{b}_n = \mathbf{0} $$即 $\mathbf{u} = \mathbf{v}$,这与假设不符。这就证明了坐标映射是单射。
最后证满射,无论在 $\mathbf{R}^n$ 中取什么样的向量 $\mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\y_n \end{bmatrix}$,都可以在向量空间 $V$ 中找到向量 $\mathbf{u} = y_1 \mathbf{b}_1 + y_2 \mathbf{b}_2 + \cdots + y_n \mathbf{b}_n$,使得 $\begin{bmatrix} \mathbf{u} \end{bmatrix}_{\mathcal{B}} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\y_n \end{bmatrix} = \mathbf{y}$,因此坐标映射是满射。

如果令 $\mathbf{P}_{\mathcal{B}} = \begin{bmatrix} \mathbf{b}_1 & \mathbf{b}_2 & \cdots & \mathbf{b}_n \end{bmatrix}$,根据:

$$ \mathbf{x} = c_1 \mathbf{b}_1 + c_2 \mathbf{b}_2 + \cdots + c_n \mathbf{b}_n $$

得:

$$ \mathbf{x} = \mathbf{P}_{\mathcal{B}} \begin{bmatrix} \mathbf{x} \end{bmatrix}_{\mathcal{B}} $$

由于 $\mathbf{P}_{\mathcal{B}}$ 的列是 $\mathbf{R}^n$ 的一个基,所以 $\mathbf{P}_{\mathcal{B}}$ 可逆,于是有:

$$ \begin{bmatrix} \mathbf{x} \end{bmatrix}_{\mathcal{B}} = \mathbf{P}_{\mathcal{B}}^{-1} \mathbf{x} $$

这说明 $\mathbf{P}_{\mathcal{B}}$ 可以将 $\mathbf{x}$ 相对于 $\mathcal{B}$ 的坐标向量 $\begin{bmatrix} \mathbf{x} \end{bmatrix}_{\mathcal{B}}$ 变换为 $\mathbf{x}$,而 $\mathbf{P}_{\mathcal{B}}^{-1}$ 可以将 $\mathbf{x}$ 变换为 $\mathbf{x}$ 相对于 $\mathcal{B}$ 的坐标向量 $\begin{bmatrix} \mathbf{x} \end{bmatrix}_{\mathcal{B}}$。因此我们称 $\mathbf{P}_{\mathcal{B}}$ 为从 $\mathcal{B}$ 表示的坐标系变换为 $\mathbf{R}^n$ 的标准坐标系(即直角坐标系)的坐标变换矩阵Change-of-Coordinate Matrix)。$\mathbf{P}_{\mathcal{B}}^{-1}$ 则是从 $\mathbf{R}^n$ 的标准坐标系变换为 $\mathcal{B}$ 表示的坐标系的坐标变换矩阵。

坐标映射 $\mathbf{x} \mapsto \begin{bmatrix} \mathbf{x} \end{bmatrix}_{\mathcal{B}}$ 也可以表示为 $T(\mathbf{x}) = \mathbf{P}_{\mathcal{B}}^{-1} \mathbf{x}$。

假设 $\mathbf{u}_1, \mathbf{u}_2, \cdots, \mathbf{u}_p$ 是 $V$ 中的向量,$c_1, c_2, \cdots, c_n$ 是标量。由于 $\mathbf{x} \mapsto \begin{bmatrix} \mathbf{x} \end{bmatrix}_{\mathcal{B}}$ 是线性变换,因此有下式成立:

$$ \begin{bmatrix} c_1 \mathbf{u}_1 + c_2 \mathbf{u}_2 + \cdots + c_n \mathbf{u}_n \end{bmatrix}_{\mathcal{B}} = c_1 \left[ \mathbf{u}_1 \right]_{\mathcal{B}} + c_2 \left[ \mathbf{u}_2 \right]_{\mathcal{B}} + \cdots + c_n \left[ \mathbf{u}_n \right]_{\mathcal{B}} $$

这就是说 $\mathbf{u}_1, \mathbf{u}_2, \cdots, \mathbf{u}_p$ 的线性组合的 $\mathcal{B}$ 坐标向量与它们 $\mathcal{B}$ 坐标向量的线性组合相同。这种在一个向量空间 $V$ 中的线性计算(加法与数乘)经过变换能够在另一个线性空间 $W$ 中完美重现的现象叫做同构Isomorphism)。一般来讲,从向量空间 $V$ 到向量空间 $W$ 的一一线性变换称为从 $V$ 到 $W$ 的同构。坐标映射是同构。

基变换

上面我们讨论了 $V$ 的基 $\mathcal{B}$ 表示的坐标系与标准坐标系的变换。本节讨论从$V$ 的基 $\mathcal{B}$ 表示的坐标系到另一个基 $\mathcal{C}$ 表示的坐标系的变换,这种变换称为基变换

还是看图3:

图3 - 用不同的基表示同一向量

上面的讨论中我们已经知道 $\left[ \mathbf{x} \right]_{\mathcal{B}} = \begin{bmatrix} 1.5 \\ 1.5 \end{bmatrix}$,$\left[ \mathbf{x} \right]_{\mathcal{C}} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}$,我们的目标是要找到这两个坐标向量的联系。



假设 $\mathcal{B} = \{ \mathbf{b}_1, \mathbf{b}_2 \}$ 与 $\mathcal{C} = \{ \mathbf{c}_1, \mathbf{c}_2 \}$ 是向量空间 $V$ 的两个基,并且:$$ \mathbf{b}_1 = \dfrac{4}{3} \mathbf{c}_1 - \dfrac{2}{3} \mathbf{c}_2 \quad\quad \mathbf{b}_2 = - \dfrac{2}{3} \mathbf{c}_1 + \dfrac{4}{3} \mathbf{c}_2 $$假设 $$ \mathbf{x} = 1.5 \mathbf{b}_1 + 1.5 \mathbf{b}_2 $$即 $\left[ \mathbf{x} \right]_{\mathcal{B}} = \begin{bmatrix} 1.5 \\ 1.5 \end{bmatrix} $,求 $\left[ \mathbf{x} \right]_{\mathcal{C}}$。



由于坐标映射是线性变换,因此:\begin{align*} \left[ \mathbf{x} \right]_{\mathcal{C}} &= \left[ 1.5 \mathbf{b}_1 + 1.5 \mathbf{b}_2 \right]_{\mathcal{C}} \\ &= 1.5 \left[ \mathbf{b}_1 \right]_{\mathcal{C}} + 1.5 \left[ \mathbf{b}_2 \right]_{\mathcal{C}} \\ &= \begin{bmatrix} \left[ \mathbf{b}_1 \right]_{\mathcal{C}} & \left[ \mathbf{b}_2 \right]_{\mathcal{C}} \end{bmatrix} \begin{bmatrix} 1.5 \\ 1.5 \end{bmatrix} \end{align*}即:$$ \left[ \mathbf{x} \right]_{\mathcal{C}} = \begin{bmatrix} \left[ \mathbf{b}_1 \right]_{\mathcal{C}} & \left[ \mathbf{b}_2 \right]_{\mathcal{C}} \end{bmatrix} \left[ \mathbf{x} \right]_{\mathcal{B}} \tag{2} $$这样就求得了 $\left[ \mathbf{x} \right]_{\mathcal{C}}$ 的表达式。根据已知:$$ \left[ \mathbf{b}_1 \right]_{\mathcal{C}} = \begin{bmatrix} \dfrac{4}{3} \\ -\dfrac{2}{3} \end{bmatrix} \quad\quad \left[ \mathbf{b}_2 \right]_{\mathcal{C}} = \begin{bmatrix} -\dfrac{2}{3} \\ \dfrac{4}{3} \end{bmatrix} $$于是:$$ \left[ \mathbf{x} \right]_{\mathcal{C}} = \begin{bmatrix} \dfrac{4}{3} & -\dfrac{2}{3} \\ -\dfrac{2}{3} & \dfrac{4}{3} \end{bmatrix} \begin{bmatrix} 1.5 \\ 1.5 \end{bmatrix} = \begin{bmatrix} 1\\1 \end{bmatrix} $$

将 $(2)$ 式一般化,就可以得到下面的定理:



若 $\mathcal{B} = \{ \mathbf{b}_1, \mathbf{b}_2 \}$ 与 $\mathcal{C} = \{ \mathbf{c}_1, \mathbf{c}_2 \}$ 是向量空间 $V$ 的两个基,那么有且仅有一个 $n \times n$ 的矩阵 $\mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}}$,使得:$$ \left[ \mathbf{x} \right]_{\mathcal{C}} = \mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}} \left[ \mathbf{x} \right]_{\mathcal{B}} \tag{3} $$其中 $\mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}}$ 的列是 $\mathcal{B}$ 中的向量 $\mathbf{b}_i$ 的 $\mathcal{C}$ 坐标向量 $\left[\mathbf{b}_i\right]_{\mathcal{C}}$($1 \leqslant i \leqslant n$),即:$$ \mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}} = \begin{bmatrix} \left[ \mathbf{b}_1 \right]_{\mathcal{C}} & \left[ \mathbf{b}_2 \right]_{\mathcal{C}} & \cdots & \left[ \mathbf{b}_n \right]_{\mathcal{C}} \end{bmatrix} \tag{4}$$

上述定理中的 $\mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}}$ 称为从 $\mathcal{B}$ 到 $\mathcal{C}$ 的坐标变换矩阵(又称为过渡矩阵基变换矩阵)。因为 $\mathcal{B}$ 中的向量是线性无关的,所以 $\mathcal{B}$ 中向量的 $\mathcal{C}$ 坐标向量也是线性无关的,亦即 $\mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}}$ 的列是线性无关的。因此 $\mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}}$ 可逆,根据 $(3)$ 式可得:

$$ \left[ \mathbf{x} \right]_{\mathcal{B}} = \left(\mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}}\right)^{-1} \left[ \mathbf{x} \right]_{\mathcal{C}} $$

即 $\left(\mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}}\right)^{-1}$ 是从 $\mathcal{C}$ 到 $\mathcal{B}$ 的坐标变换矩阵。亦即:

$$ \left(\mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}}\right)^{-1} = \mathop{\mathbf{P}}\limits_{\mathcal{B} \leftarrow \mathcal{C}} $$

假设 $\mathcal{B} = \{ \mathbf{b}_1, \mathbf{b}_2, \cdots, \mathbf{b}_n \}$,$\mathcal{E}$ 是 $\mathbb{R}^n$ 下的标准基 $\{ \mathbf{e}_1, \mathbf{e}_2, \cdots, \mathbf{e}_n \}$,那么 $\left[ \mathbf{b}_i \right]_{\mathcal{E}} = \mathbf{b}_i$($1 \leqslant i \leqslant n$),这时:$$ \mathop{\mathbf{P}}\limits_{\mathcal{E} \leftarrow \mathcal{B}} = \begin{bmatrix} \mathbf{b}_1, \mathbf{b}_2, \cdots, \mathbf{b}_n \end{bmatrix} = \mathbf{P}_{\mathcal{B}} $$



已知 $\mathcal{B}$ 与 $\mathcal{C}$ 是 $\mathbb{R}^2$ 中的两个基,并且:$$ \mathcal{B} = \{ \mathbf{b}_1, \mathbf{b}_2 \} = \{ \begin{bmatrix} 2\\0 \end{bmatrix}, \begin{bmatrix} 0\\2 \end{bmatrix} \} \quad\quad \mathcal{C} = \{ \mathbf{c}_1, \mathbf{c}_2 \} = \{ \begin{bmatrix} 2\\1 \end{bmatrix}, \begin{bmatrix} 1\\2 \end{bmatrix} \} $$求 $\mathcal{B}$ 到 $\mathcal{C}$ 的坐标变换矩阵 $\mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}}$。



根据 $(4)$ 式,$ \mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}} = \begin{bmatrix} \left[ \mathbf{b}_1 \right]_{\mathcal{C}} & \left[ \mathbf{b}_2 \right]_{\mathcal{C}} \end{bmatrix} $,因此需要首先求出 $\left[ \mathbf{b}_1 \right]_{\mathcal{C}}$ 与 $\left[ \mathbf{b}_2 \right]_{\mathcal{C}}$。假设 $\left[ \mathbf{b}_1 \right]_{\mathcal{C}} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}$,$\left[ \mathbf{b}_2 \right]_{\mathcal{C}} = \begin{bmatrix} y_1 \\ y_2 \end{bmatrix}$,根据 定义 6:$$ \begin{bmatrix} \mathbf{c}_1 & \mathbf{c}_2 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \mathbf{b}_1 \quad\quad \begin{bmatrix} \mathbf{c}_1 & \mathbf{c}_2 \end{bmatrix} \begin{bmatrix} y_1 \\ y_2 \end{bmatrix} = \mathbf{b}_2$$为了解出 $x_1$, $x_2$ 与 $y_1$, $y_2$,我们需要解上面两个方程组。因为上面两个方程组的系数矩阵相同(都是$\begin{bmatrix} \mathbf{c}_1 & \mathbf{c}_2 \end{bmatrix}$),因此我们可以将两个方程组的增广矩阵联立在一起:$$ \left[ \begin{array}{cc:cc} \mathbf{c}_1 & \mathbf{c}_2 & \mathbf{b}_1 & \mathbf{b}_2 \end{array} \right] $$化为行最简形:$$ \left[ \begin{array}{cc:cc} \mathbf{c}_1 & \mathbf{c}_2 & \mathbf{b}_1 & \mathbf{b}_2 \end{array} \right] = \left[ \begin{array}{cc:cc} 2&1&2&0 \\ 1&2&0&2 \end{array} \right] \sim \left[ \begin{array}{cc:cc} 1&0&\dfrac{4}{3}&-\dfrac{2}{3} \\ 0&1&-\dfrac{2}{3}&\dfrac{4}{3} \end{array} \right] \tag{5}$$于是:$$ \left[ \mathbf{b}_1 \right]_{\mathcal{C}} = \begin{bmatrix} \dfrac{4}{3} \\ -\dfrac{2}{3} \end{bmatrix} \quad\quad \left[ \mathbf{b}_2 \right]_{\mathcal{C}} = \begin{bmatrix} -\dfrac{2}{3} \\ \dfrac{4}{3} \end{bmatrix} $$最后:$$ \mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}} = \begin{bmatrix} \left[ \mathbf{b}_1 \right]_{\mathcal{C}} & \left[ \mathbf{b}_2 \right]_{\mathcal{C}} \end{bmatrix} = \begin{bmatrix} \dfrac{4}{3}&-\dfrac{2}{3} \\ -\dfrac{2}{3}&\dfrac{4}{3} \end{bmatrix} $$

观察上例的 $(5)$ 式,其实已经得到 $\mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}}$ 了,这是因为:\begin{align*} \left[ \begin{array}{cc:c} \mathbf{c}_1 & \mathbf{c}_2 & \mathbf{b}_1 \end{array} \right] \sim \left[ \begin{array}{c:c} \begin{matrix} \mathbf{E} \end{matrix} & \begin{array}{c} x_1 \\ x_2 \end{array} \end{array} \right] = \left[ \begin{array}{c:c} \begin{matrix} \mathbf{E} \end{matrix} & \left[ \mathbf{b}_1 \right]_{\mathcal{C}} \end{array} \right] \\ \left[ \begin{array}{cc:c} \mathbf{c}_1 & \mathbf{c}_2 & \mathbf{b}_2 \end{array} \right] \sim \left[ \begin{array}{c:c} \begin{matrix} \mathbf{E} \end{matrix} & \begin{array}{c} y_1 \\ y_2 \end{array} \end{array} \right] = \left[ \begin{array}{c:c} \begin{matrix} \mathbf{E} \end{matrix} & \left[ \mathbf{b}_2 \right]_{\mathcal{C}} \end{array} \right] \end{align*}

因此:$$ \left[ \begin{array}{cc:cc} \mathbf{c}_1 & \mathbf{c}_2 & \mathbf{b}_1 & \mathbf{b}_2 \end{array} \right] \sim \left[ \begin{array}{c:c} \mathbf{E} & \mathop{\mathbf{P}}\limits_{\mathcal{C} \leftarrow \mathcal{B}} \end{array} \right] $$


线性变换就讲到这里,感谢阅读!

参考资料

  • 《Linear Algebra and Its Applications 5th Edition》 (David C. Lay)
  • 《线性代数》 (同济第六版)

版权声明:本文为原创文章,转载请注明出处。http://cynhard.com/2018/10/15/LA-Linear-Transformatiions/

推荐文章