RKHS: 定义;性质。RKHS是一个很重要的概念,虽然它的实际用处在这个阶段还没有显现出来。
我们将会证明,
对于一个函数κ:X×X→R,以下命题等价:
- 它是半正定的
- 它是X上一个RKHS的RK
- 它是一个kernel
我们先考察有限维空间上的RK,再推广到无穷维的情况。这时对evaluation的定义比较简单,令Ei(v)=eitv,∀v∈RX即可。考虑到RK的定义,我们这个时候不妨把k直接当做是一个半正定的矩阵。这个时候,可以把Riesz表示定理写成
线性泛函ϕ∈V∗可以被表示成⟨⋅,v⟩,其中v=∑i=1nϕ(ei)ei。
然而,在无穷维的情况下,这结论只对连续的线性泛函成立。以后我们将看到,对无穷维HS,加上这种限制的对偶空间叫topological dual,而由所有线性泛函组成的叫algebraic dual。
在特定的operator norm下,V和V*构成isometric isomorphism:
∥ψ(v)∥V,1=sup∥w∥V=1∣ψ(v)(w)∣=sup∥w∥V=1∣⟨w,v⟩∣≤sup∥w∥V=1∥w∥V∥v∥V=∥v∥V
下面讨论(有限维情况下)RK的构造。
我们可以证明,
内积空间V。以下等价:
- K是V上的RK
- K=∑j=1nujujt,其中U是一组幺正基
- columnspan(K)=V并且Kij=⟨κi,κj⟩
有了HS,我们就有了RK。反过来呢?
有定理:
对正定m维方阵K,存在唯一的带内积的V∈Rm使得K为其RK。
张开K的columns,这空间里元素都可写成是v=Kα的格式。现在定义内积⟨v,w⟩≡αtKβ。需要证明,这个内积不会因为v可以被表为不同的Kα和Kα′而变化——事实的确如此。这时候,很容易知道⟨ki,kj⟩=Kij也是满足的,因此K确实是RK。唯一性是因为无论如何V都是K的columnspan,并且其中的内积也一样。
Intrinsic和Extrinsic坐标。
V的元素v=(v1, …vm)(v∈V⊂RX)可以表示成函数v作用在给定的数据集X={x1,⋯,xm}上的结果。不过,如果V只是欧氏空间的一个真子集,函数v的值域有可能超出V。因此,使用这一套extrinsic坐标参数化V并不好。
但是,如果使用K,那么v=Kα,所有的α∈Rm都会被映到V里面。
无穷维的情况
先讨论一些背景。量子力学里面,关键的假设是ψ(x)=∑k=1αkψk(x)收敛。用数学的话说,fn=∑k=1nαkψk 是一个cauchy sequence。回忆曾经在lecture notes中第一章看到的,如果所有柯西列都收敛到本空间内的点,那么这空间就算是完备的;完备赋范,谓之banach;完备内积,谓之hilbert。如果一个HS有可数的幺正基,那么就算是separable的。所有separable的HS都isometrically isomorphic to Rn, for some n≥0, or to ℓ2。
其中,ℓ2指的是∑n=1∞fn2<∞的序列的集合,其内积定义为⟨{fn},{gn}⟩=∑n=1∞fngn。
这样一来,就把同为HS的 L2[a,b](是波函数生活的空间,对应薛定谔的波动力学)和ℓ2(对应矩阵力学)对应起来。
注意到,L2并非RKHS,而ℓ2却是,这并不违反什么,只是说明RKHS的RK性质在HS上加了一层结构,这个额外的结构可以用feature space X来表示。
Moore-Aronszajn定理(无穷维)的证明与有限维的情况类似,从feature space里面取X,H0=span{k(⋅,x)}x∈X,那么把V中的元素类似地写成f=∑i=1nαiK(⋅,xi),内积也类似地定义为
⟨f,g⟩=∑i=1n∑j=1mαiK(xi,xj)βj,
那么就得到pre-Hilbert space。然后,作completion,得到我们想要的HS。
关于kernel construction,基本上已经在notes 0里面写过了。Mercer Kernel还没有写,故在此补充一下。有定理
T:H→H是separable HS上的紧的算子。那么,存在两组不一定完备的幺正基和一组正实数,满足
T=∑n=1Nλnϕn⟨ψn,⋅,⟩
这个式子的意义就是无穷维HS的奇异值分解,这组正实数也就叫奇异值。
进一步的,如果T还是自伴的,那么ϕ和ψ就是同一组,而且还完备,对应的本征值有n→∞时λn→0。
Mercer的定理:
X是n维欧氏空间的紧的子集。K:X×X→R是一对称,连续,半正定函数,那么有核
K(x,y)=∑nλnϕn(x)ϕn(y)
对应T(f)(x)=∫XK(x,y)f(y)dy,其中λ和ϕ对应的是T的eigenset。
关于应用和例子,写在lecture部分了,因为这块lecture稍微多讲了一点。
线性回归:普通线性回归
假如我们有随机变量(X1,…,Xn)∈Rn,我们想通过它们预测 response Y。现在,我们规定(由MLE可以推出来)损失函数是E[(Y−f(X1,…,Xn))2],其中predictor f是f(x1,…,xn)=E[Y∣X1=x1,…,Xn=xn]。
在线性回归中,我们认为Y服从以βX为均值,σ2为方差(各向同性)的高斯分布。写出来就是
Y=⎝⎜⎜⎜⎜⎛y1y2⋮ym⎠⎟⎟⎟⎟⎞,X=⎝⎜⎜⎜⎜⎛11⋮1x11x21⋮xm1x12x22⋮xm2⋯⋯⋮⋯x1nx2n⋮xmn⎠⎟⎟⎟⎟⎞ and β=⎝⎜⎜⎜⎜⎛β0β1⋮βn⎠⎟⎟⎟⎟⎞
Y=Xβ+e
Y∣Xe∼N(Xβ,σ2Im×m)∼N(0,σ2Im×m)
用MLE,可以求出来最优的β^=(XTX)−1XTY。我们对此比较熟悉。如果XTX不可逆,那么用MP伪逆代替。
E[β^]=(XTX)−1XTE[Y]=(XTX)−1XTXβ=β
所以是无偏估计。这过程里面,X看做是给定的,测出来的;Y是随机变量。
类似的,
var(β^)=(XTX)−1XTvar(Y)X(XTX)−1=(XTX)−1σ2
在几何上,线性回归的结果的意义如下:
Y^=X(XTX)−1XTY=HY
其中H满足对称和幂等的性质,是投影算符。H把Y投影到X的列张成的空间上。
误差和prediction满足
Y^∼N(Xβ,σ2H)
e^∼N(0,σ2(I−H))
并且cov[e^,Y^]=(I−H)σ2H=0。
贝叶斯回归/岭回归
见lecture,不写这个的话周二的lecture没得写了
Kernel regression
β^=(XtX+αIn×n)−1XtY可以写成
β^=Xt(XXt+αIm×m)−1Y,于是
Y^=Xβ^=XXt(XXt+αIm×m)−1Y
对于一个点来说,就是
y^=xXt(XXt+αIm×m)−1Y
所谓kernel trick 就是用K代替复杂的gram矩阵XXt,这时有y^=κ(x,⋅)(K+αIm×m)−1Y。
一个比较常见的选择是κ(x1,x2)=exp(−(x1−x2)2/2σ2)。