week 7, 8
lecture
10.8
不小心翘掉了一节课。所幸,此课时基本上没有说什么特别重要而我又不太知道,并且没有在今天的summary中覆盖到的部分。
现在开始搞RKHS了。关于这个东西的定义和一些理论,都写在notes 0里面了,包括Moore-Aronszajn定理,Cauchy Sequence,Completion of Hilbert space 等等。基本上,上节课讲的东西的主要内容,就是在有限维空间的情况下证明Moore-Aronszajn定理。为了叙事的连贯性,我还是在这个文件里把必要的地方都说明一下吧。
RK是如此的一个kernel,即满足
$$ \bullet \forall x \in \mathcal{X}, \quad k(\cdot, x) \in \mathcal{H} \\ \bullet \forall x \in \mathcal{X}, \forall f \in \mathcal{H}, \quad\langle f, k(\cdot, x)\rangle_{\mathcal{H}}=f(x) $$者。它有一个重要的等价性质,是说evaluation functional在对应的这个RKHS里面连续。这个性质同时也正是RKHS的定义。
可以首先在有限维的情况下考虑RKHS的性质。比如说取一个建立了内积的$V\subset\mathbb{R}^m$。那么这时候一个核实际上可以被写成是(作用在基的函数)上的双线性函数$K\in\mathbb{R}^{m\times m}$。上节课给出如下结论,以下诸命题等价:
- K是V上的RK。
- 存在V上一组正交归一基u使得$K=\sum u_iu_i^t$。
- $\text{columnspan}(K)=V$并且$K_{ij}=\langle k_i,k_j\rangle$。
这看上去是可以接受的。我无意追寻具体的证明。接下来,可以用这结论证明简单版的MA定理。
内容全在讲义里。
reading material
lecture notes: RKHS and kernel regression
RKHS: 定义;性质。RKHS是一个很重要的概念,虽然它的实际用处在这个阶段还没有显现出来。
我们将会证明,
对于一个函数$\kappa: X \times X \rightarrow\mathbb{R}$,以下命题等价:
- 它是半正定的
- 它是X上一个RKHS的RK
- 它是一个kernel
我们先考察有限维空间上的RK,再推广到无穷维的情况。这时对evaluation的定义比较简单,令$E_{i}(v)=e_{i}^{t} v, \forall v \in \mathbb{R}^{X}$即可。考虑到RK的定义,我们这个时候不妨把k直接当做是一个半正定的矩阵。这个时候,可以把Riesz表示定理写成
线性泛函$\phi \in V^{*}$可以被表示成$\langle\cdot, v\rangle$,其中$v=\sum_{i=1}^{n} \phi\left(e_{i}\right) e_{i}$。
然而,在无穷维的情况下,这结论只对连续的线性泛函成立。以后我们将看到,对无穷维HS,加上这种限制的对偶空间叫topological dual,而由所有线性泛函组成的叫algebraic dual。
在特定的operator norm下,V和V*构成isometric isomorphism:
$\|\psi(v)\|_{V, 1}=\sup _{\|w\|_{V}=1}|\psi(v)(w)|=\sup _{\|w\|_{V}=1}|\langle w, v\rangle| \leq \sup _{\|w\|_{V}=1}\|w\|_{V}\|v\|_{V}=\|v\|_{V}$
下面讨论(有限维情况下)RK的构造。
我们可以证明,
内积空间V。以下等价:
- K是V上的RK
- $K=\sum_{j=1}^{n} u_{j} u_{j}^{t}$,其中U是一组幺正基
- $\text{columnspan}(K)=V$并且$K_{ij}=\langle \kappa_i,\kappa_j\rangle$
有了HS,我们就有了RK。反过来呢?
有定理:
对正定m维方阵K,存在唯一的带内积的$V \in \mathbb{R}^{m}$使得K为其RK。
张开K的columns,这空间里元素都可写成是$v=K \alpha$的格式。现在定义内积$\langle v, w\rangle \equiv \alpha^{t} K \beta$。需要证明,这个内积不会因为v可以被表为不同的$K\alpha$和$K\alpha'$而变化——事实的确如此。这时候,很容易知道$\left\langle k_{i}, k_{j}\right\rangle= K_{i j}$也是满足的,因此K确实是RK。唯一性是因为无论如何V都是K的columnspan,并且其中的内积也一样。
Intrinsic和Extrinsic坐标。
V的元素v=(v1, …vm)($v \in V \subset \mathbb{R}^{X}$)可以表示成函数v作用在给定的数据集$X=\{x_1, \cdots, x_m\}$上的结果。不过,如果V只是欧氏空间的一个真子集,函数v的值域有可能超出V。因此,使用这一套extrinsic坐标参数化V并不好。
但是,如果使用K,那么$v=K \alpha$,所有的$\alpha \in \mathbb{R}^{m}$都会被映到V里面。
无穷维的情况
先讨论一些背景。量子力学里面,关键的假设是$\psi(x)=\sum_{k=1} \alpha_{k} \psi_{k}(x)$收敛。用数学的话说,$f_{n}=\sum_{k=1}^{n} \alpha_{k} \psi_{k}$ 是一个cauchy sequence。回忆曾经在lecture notes中第一章看到的,如果所有柯西列都收敛到本空间内的点,那么这空间就算是完备的;完备赋范,谓之banach;完备内积,谓之hilbert。如果一个HS有可数的幺正基,那么就算是separable的。所有separable的HS都isometrically isomorphic to $\mathbb{R}^{n},$ for some $n \geq 0,$ or to $\ell^{2}$。
其中,$\ell^2$指的是$\sum_{n=1}^{\infty} f_{n}^{2}<\infty$的序列的集合,其内积定义为$\left\langle\left\{f_{n}\right\},\left\{g_{n}\right\}\right\rangle=\sum_{n=1}^{\infty} f_{n} g_{n}$。
这样一来,就把同为HS的 $L^2[a,b]$(是波函数生活的空间,对应薛定谔的波动力学)和$\ell^2$(对应矩阵力学)对应起来。
注意到,$L^2$并非RKHS,而$\ell^{2}$却是,这并不违反什么,只是说明RKHS的RK性质在HS上加了一层结构,这个额外的结构可以用feature space X来表示。
Moore-Aronszajn定理(无穷维)的证明与有限维的情况类似,从feature space里面取X,$\mathcal{H}_{0}=\operatorname{span}\{k(\cdot, x)\}_{x \in X}$,那么把V中的元素类似地写成$f=\sum_{i=1}^{n} \alpha_{i} K\left(\cdot, x_{i}\right)$,内积也类似地定义为
$\langle f, g\rangle=\sum_{i=1}^{n} \sum_{j=1}^{m} \alpha_{i} K\left(x_{i}, x_{j}\right) \beta_{j}$,
那么就得到pre-Hilbert space。然后,作completion,得到我们想要的HS。
关于kernel construction,基本上已经在notes 0里面写过了。Mercer Kernel还没有写,故在此补充一下。有定理
$T: \mathcal{H} \rightarrow \mathcal{H}$是separable HS上的紧的算子。那么,存在两组不一定完备的幺正基和一组正实数,满足
$T=\sum_{n=1}^{N} \lambda_{n} \phi_{n}\left\langle\psi_{n}, \cdot,\right\rangle$
这个式子的意义就是无穷维HS的奇异值分解,这组正实数也就叫奇异值。
进一步的,如果T还是自伴的,那么$\phi$和$\psi$就是同一组,而且还完备,对应的本征值有$n\to\infty$时$\lambda_n\to0$。
Mercer的定理:
X是n维欧氏空间的紧的子集。$K: X \times X \rightarrow \mathbb{R}$是一对称,连续,半正定函数,那么有核
$K(x, y)=\sum_{n} \lambda_{n} \phi_{n}(x) \phi_{n}(y)$
对应$T(f)(x)=\int_{X} K(x, y) f(y) d y$,其中$\lambda$和$\phi$对应的是T的eigenset。
关于应用和例子,写在lecture部分了,因为这块lecture稍微多讲了一点。
线性回归:普通线性回归
假如我们有随机变量$\left(X_{1}, \ldots, X_{n}\right) \in \mathbb{R}^{n}$,我们想通过它们预测 response Y。现在,我们规定(由MLE可以推出来)损失函数是$E\left[\left(Y-f\left(X_{1}, \ldots, X_{n}\right)\right)^{2}\right]$,其中predictor f是$f\left(x_{1}, \ldots, x_{n}\right)=E\left[Y | X_{1}=x_{1}, \ldots, X_{n}=x_{n}\right]$。
在线性回归中,我们认为Y服从以$\beta X$为均值,$\sigma^2$为方差(各向同性)的高斯分布。写出来就是
$\boldsymbol{Y}=\left(\begin{array}{c}{y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{m}}\end{array}\right), \boldsymbol{X}=\left(\begin{array}{ccccc}{1} & {x_{11}} & {x_{12}} & {\cdots} & {x_{1 n}} \\ {1} & {x_{21}} & {x_{22}} & {\cdots} & {x_{2 n}} \\ {\vdots} & {\vdots} & {\vdots} & {\vdots} & {\vdots} \\ {1} & {x_{m 1}} & {x_{m 2}} & {\cdots} & {x_{m n}}\end{array}\right) \quad$ and $\boldsymbol{\beta}=\left(\begin{array}{c}{\beta_{0}} \\ {\beta_{1}} \\ {\vdots} \\ {\beta_{n}}\end{array}\right)$
$\boldsymbol{Y}=\boldsymbol{X} \boldsymbol{\beta}+\boldsymbol{e}$
$\begin{aligned} \boldsymbol{Y} | \boldsymbol{X} & \sim \mathcal{N}\left(\boldsymbol{X} \boldsymbol{\beta}, \sigma^{2} \boldsymbol{I}_{m \times m}\right) \\ \boldsymbol{e} & \sim \mathcal{N}\left(0, \sigma^{2} \boldsymbol{I}_{m \times m}\right) \end{aligned}$
用MLE,可以求出来最优的$\hat{\boldsymbol{\beta}}=\left(\boldsymbol{X}^{T} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{T} \boldsymbol{Y}$。我们对此比较熟悉。如果$\boldsymbol{X}^{T} \boldsymbol{X}$不可逆,那么用MP伪逆代替。
$E[\hat{\boldsymbol{\beta}}]=\left(\boldsymbol{X}^{T} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{T} E[\boldsymbol{Y}]=\left(\boldsymbol{X}^{T} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{T} \boldsymbol{X} \boldsymbol{\beta}=\boldsymbol{\beta}$
所以是无偏估计。这过程里面,X看做是给定的,测出来的;Y是随机变量。
类似的,
$\operatorname{var}(\hat{\boldsymbol{\beta}})=\left(\boldsymbol{X}^{T} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{T} \operatorname{var}(\boldsymbol{Y}) \boldsymbol{X}\left(\boldsymbol{X}^{T} \boldsymbol{X}\right)^{-1}=\left(\boldsymbol{X}^{T} \boldsymbol{X}\right)^{-1} \sigma^{2}$
在几何上,线性回归的结果的意义如下:
$\hat{\boldsymbol{Y}}=\boldsymbol{X}\left(\boldsymbol{X}^{T} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{T} \boldsymbol{Y}=\boldsymbol{H} \boldsymbol{Y}$
其中H满足对称和幂等的性质,是投影算符。H把Y投影到X的列张成的空间上。
误差和prediction满足
$\hat{\boldsymbol{Y}} \sim \mathcal{N}\left(\boldsymbol{X} \boldsymbol{\beta}, \sigma^{2} \boldsymbol{H}\right)$
$\hat{\boldsymbol{e}} \sim \mathcal{N}\left(0, \sigma^{2}(\boldsymbol{I}-\boldsymbol{H})\right)$并且$\operatorname{cov}[\hat{\boldsymbol{e}}, \hat{\boldsymbol{Y}}]=(\boldsymbol{I}-\boldsymbol{H}) \sigma^{2} \boldsymbol{H}=0$。
贝叶斯回归/岭回归
见lecture,不写这个的话周二的lecture没得写了
Kernel regression
$\hat{\boldsymbol{\beta}}=\left(\boldsymbol{X}^{t} \boldsymbol{X}+\alpha \boldsymbol{I}_{n \times n}\right)^{-1} \boldsymbol{X}^{t} \boldsymbol{Y}$可以写成
$\hat{\boldsymbol{\beta}}=\boldsymbol{X}^{t}\left(\boldsymbol{X} \boldsymbol{X}^{t}+\alpha \boldsymbol{I}_{m \times m}\right)^{-1} \boldsymbol{Y}$,于是
$\hat{\boldsymbol{Y}}=\boldsymbol{X} \hat{\boldsymbol{\beta}}=\boldsymbol{X} \boldsymbol{X}^{t}\left(\boldsymbol{X} \boldsymbol{X}^{t}+\alpha \boldsymbol{I}_{m \times m}\right)^{-1} \boldsymbol{Y}$
对于一个点来说,就是
$\hat{y}=x \boldsymbol{X}^{t}\left(\boldsymbol{X} \boldsymbol{X}^{t}+\alpha \boldsymbol{I}_{m \times m}\right)^{-1} \boldsymbol{Y}$
所谓kernel trick 就是用K代替复杂的gram矩阵$XX^t$,这时有$\hat{y}=\kappa(x, \cdot)\left(\boldsymbol{K}+\alpha \boldsymbol{I}_{m \times m}\right)^{-1} \boldsymbol{Y}$。
一个比较常见的选择是$\kappa\left(x_{1}, x_{2}\right)=\exp \left(-\left(x_{1}-x_{2}\right)^{2} / 2 \sigma^{2}\right)$。
lecture notes: Multilayer graphs and grassmannian manifolds
spectral embedding只能处理一张图的嵌入。如果有多张图怎么办?这讲义只讨论这一个问题,并给出行之有效的recipe。
Spectral Embedding 可以叙述为:最小化$\operatorname{tr}\left(V^{t} L V\right)$,其中$V^{t} V=I_{k \times k}$。V的行给出欧式空间中的嵌入。
在此情形之下,一个想当然的推广是最小化
$\operatorname{tr}\left(\sum_{i=1}^{\ell} V^{t} L_{i} V\right)=\operatorname{tr}\left(V^{t}\left(\sum_{i=1}^{\ell} L_{i}\right) V\right)$
但是,如果$L_i$的scale区别很大,这个过程就会沦为对某一张图的嵌入。这是不行的。
Stiefel和Grassmannian流形。定义Stiefel Manifold $V(k,n)$是$\mathbb{R}^{n}$上所有k-frame的集合,frame就是一组有序的幺正基。令W是一个给定的$n \times k$矩阵,其列为幺正基,那么
$\forall W^{\prime} \in V(k, n), \exists U \in O(n),$ such that $W^{\prime}=U W$。注意到,U的选取不是唯一的:任何在$\perp W$的部分旋转的U都不会改变什么东西。这部分空间共$n-k$维。所以
$V(k, n) \cong O(n) / O(n-k)$
其中,$O(n)$的维数是$C_n^2$。因为一个旋转对应一个平面。
定义格拉斯曼流形$\operatorname{Gr}(k, n)$为$\mathbb{R}^n$上所有k维子空间的集合。在子空间内部的旋转当然也不会搞出一个新的子空间来,所以
$G r(k, n)=V(k, n) / O(n)=O(n) /(O(n-k) \times O(k))$
我觉得可以把这玩意当成是旋转的一种推广。
Principle Angles
取$A, B \in G r(k, n)$。递归定义主向量
$\left(p_{i}, q_{i}\right)=\arg \quad \quad \max \quad \quad p^{t} q$
$p \in A, q \in B$
$p \perp p_{j}, q \perp q_{j}, j=1, \ldots, i-1$
$\|p\|_{2}=1,\|q\|_{2}=1$然后,principle angle 为$\theta_{i}=\cos ^{-1}\left(p_{i}^{t} q_{i}\right), i=1, \ldots, k$。
取$A \in \operatorname{Gr}(k, n)$ and $B \in \operatorname{Gr}(l, n)$。那么,可以用矩阵把他们表示为$A \in \mathbb{R}^{n \times k}$ and $B \in \mathbb{R}^{n \times l}$。写下
$A^{t} B=U \Sigma V^{t}$
那么这个SVD分解出来的奇异值$\sigma_{1} \geq \sigma_{2} \geq \ldots \sigma_{r} \geq 0$($r=\min (k, l)$)就对应主角$\theta_{i}=\cos ^{-1} \sigma_{i}, \quad i=1, \ldots, r$。这件事情从原则上是可以理解的,所以我就不证明它了。
定义 Chordal(Projection) 距离:
$d_{c}(A, B)=\sqrt{\sum_{i=1}^{r} \sin ^{2} \theta_{i}}$——
——那么,就可以进行multilayer的spectral clustering。取lagrangian
$\mathcal{L}=\operatorname{tr}\left(V^{t}\left(\sum_{i=1}^{\ell} L_{i}\right) V\right)+\alpha \sum_{i=1}^{\ell} d_{c}^{2}\left(V, V_{i}\right)$
可以证明,
$\begin{aligned} \mathcal{L} &=\operatorname{tr}\left(V^{t}\left(\sum_{i=1}^{\ell} L_{i}\right) V\right)+\alpha \sum_{i=1}^{\ell}\left(k-\operatorname{tr}\left(V^{t} V_{i} V_{i}^{t} V\right)\right) \\ &=\operatorname{tr}\left(V^{t}\left[\sum_{i=1}^{\ell}\left(L_{i}-\alpha V_{i} V_{i}^{t}\right)\right] V\right)+\alpha k \ell \end{aligned}$
这里面$\alpha$是超参数,一般也是用cross-validation之类的办法确定的。实际上,这个recipe看上去还是挺随意,它的合法性基本上是它的效用决定的。
Courant-Fischer 定理说,M是$n \times n$的对称阵。它有由小到大排列的本征值$\lambda_{1}, \ldots, \lambda_{n}$。那么,
$\lambda_{k}=\min _{V \in \operatorname{Gr}(k, n)}\left(\max _{v \in V \backslash\{0\}} \frac{v^{t} M v}{v^{t} v}\right)=\max _{V \in \operatorname{Gr}(n-k+1, n)}\left(\min _{v \in V \backslash\{0\}} \frac{v^{t} M v}{v^{t} v}\right)$。
从这里,可以知道,对于对称阵M,
$\min _{V \in \mathbb{R}^{n \times k}, V^{t} V=I_{k \times k}} \operatorname{tr}\left(V^{t} M V\right)=\sum_{i=1}^{k} \lambda_{i}$。原因是:
取$v_{i}=\arg \max _{v \in S,\|v\|_{2}=1, v \perp v_{i+1}, \ldots, v_{k}} v^{t} M v$,
由于求迹对旋转不变,$\operatorname{tr}\left(V^{t} M V\right)=\sum_{i=1}^{k} v_{i}^{t} M v_{i}$。
由Courant-Fischer, $v_{i}^{t} M v_{i} \geq \lambda_{i}$。
Pareto优化:
对于所有图,用某种方式算某个特定嵌入的loss。如果嵌入1在所有图的表现都不差于嵌入2,且至少在一个图表现更好,那么就说1比2好。现有生成的一大堆嵌入,若不存在比嵌入3更好的,就说3在pareto front上。由此构建pareto front