欧洲倒霉记

古时候的圣人里面,有姓辛普森讳侯默的,因为平素运气不好而出名。我从前只是戏谑地看待这件事,认为没有人能够仅凭借很差的运气而流传到今天的。可是近日的一些经历,实在让我领教了气运的作弄,原来只是倒霉的故事也是可以特地记下来的呀!

十二月 24, 2019 · miralem

PDE中的特征线法,以及一些和波有关的问题

我复习期末的时候还是觉得特征线法很难受,而在波动方程这一部分中它又老出现,和什么riemann invariant搅在一起让人头疼,所以觉得应该写一个笔记。希望能从一个比较具象的角度理解它。这个东西很多地方也不教,默认大家都觉得很平凡,也许还是应该教一下的。还有波这个主题,有的时候我怀疑自己脑子里面缺一些结构,大家都默认波动很简单,可是我很难具体地想象出波来,更不用说波动方程玩出花的各种解了。

十二月 16, 2019 · miralem

ML笔记(end)

week 13,14 第七章讲的是数值算法。此外,由于这篇太短了,我决定瞎鸡巴议论一番。可能会很naive。。。 交叉熵 KL散度 $D\left(P_{1} \| P_{2}\right)=\sum_{x \in \mathcal{X}} P_{1}(x) \log _{2} \frac{P_{1}(x)}{P_{2}(x)}$ 是一个度量两个分部之间相似程度的量。说实话,这个地方divergence看上去和“散度”并没有什么关系(因为此时并不存在与它对应的“旋度”的概念),更像是字面意义上的“分歧度”。它始终大于零,除非两个分布完全一样。 KL散度体现了我们对于“熵最大的分布是均匀分布”的认识。考虑$P_2=1/n$, $D\left(P_{1} \| P_{2}\right)=-H(X)+\log _{2} n \geq 0 \Rightarrow \log _{2} n \geq H(X)$, 其中$H(X)=-\sum_{x \in \mathcal{X}} P(x) \log _{2} P(x)$是香农熵。如果我们进一步考虑能量守恒$\sum xP=\langle E\rangle$这个约束,最小化$D(P_1||P_2)$,就得到指数族,这很可以作为正则系综的一个解释。至于香农熵用来代表热力学熵的合法性,是来自于几个基本的直觉的,jaynes深入地讨论过。 坏处上,KL散度这个量是不对称的,而且也没归一化。作为一种改进,我们有 JS(jensen-shannon)散度: $J\left(P_{1}, P_{2}\right)=\frac{1}{2} D\left(P_{1} \| P\right)+\frac{1}{2} D\left(P_{2} \| P\right)$ $P(x)=\frac{1}{2} P_{1}(x)+\frac{1}{2} P_{2}(x)$ 这个量不仅对称,还被限制在0-1之间。引入一个变量$z=\{1, 2\}$,$P(z=i):=\pi_i$。在我们的例子中,$P_i(x)=P(x|z=i)$,$\pi\equiv0.5$。定义分布x和z的互信息 $I(x, z)=\sum_{x,z}p(x,z)\log_2\frac{p(x, z)}{p(x)p(z)}$ 把它写成$H(z)-H(z|x)$,在我们的例子里就是$1-H(z|x)\leq 1$。 同时,还可以证明这个互信息,也就是$P_{1,2}$的平均的分布和均匀二点分布的互信息,正是JS散度。因此,可以证明JS散度是有上限的。 交叉熵 $H_{c}(P, Q):=-\sum_{x \in \mathcal{X}} P(x) \log _{2} Q(x)=\sum_{x \in \mathcal{X}} P(x) \log _{2} \frac{1}{Q(x)}=H(P)+D(P \| Q)$...

十二月 13, 2019 · miralem

族长的秋天

上回写了博尔赫斯,这回谈谈马尔克斯。

十一月 29, 2019 · miralem

谈一谈博尔赫斯

昨天晚上我和一些人一起去打篮球,其中有一位美籍印度人,本科的时候上过Carroll的课。我很久没有打过篮球,大概有五、六年了,所以打得很不好。我干脆就带领大家打快乐篮球。后来吃饭的时候,可能是快乐的激励,可能是咖啡的作用,我说了很多话。

十一月 15, 2019 · miralem

ML笔记(6)

week 11,12 小平学得很辛苦, 不懂的证明反复再三地看, 还抄在笔记上背下来。这么一来好像懂了。 ——《游里工夫独造微,小平邦彦传》 这句话其实适合上一章的内容:对于我贫乏的脑子来说很抽象的东西,抄几遍好像就懂了。虽然说这一章比较简单,但是抄书还是有帮助的。况且,从前学的时候,概率相关的很多东西当成数学课来学,对于我现在的脑子来说,motivation也不知道,对知识结构的划分和重要性的判断都很差,近乎于没有。讲义是物理学家的角度写下来的,我个人觉得写得不错,抄一遍可以厘清这些东西。 另外,kunihiko貌似是氼畚儿国一个很常见的男性用名。Kunihiko Kaneko 和 Kunihiko Kodaira,光我听说过的学者就有两个。 Monte Carlo Sampling 动机 从概率分布里面抽取iid(独立同分布)的sample,主要是有以下几个应用场合: 积分的数值结果 算Bayesian posterior 数值优化 计算物理的一些别的场景。 特别的,考虑到电脑里头伪随机数的生成特点,很重要的是怎样把任意的分布的sampling转化为均匀分布的sampling。 概率复习 从相空间体积元不变的想法,可以写出 $p_{Y}\left(y_{1}, \ldots, y_{n}\right)d\mathbf{y}=p_{X}\left(x_{1}(\mathbf{y}), \ldots, x_{n}(\mathbf{y})\right)d\mathbf{x}$ 因此 $p_{Y}\left(y_{1}, \ldots, y_{n}\right)=p_{X}\left(x_{1}(\mathbf{y}), \ldots, x_{n}(\mathbf{y})\right)\left|J\left(y_{1}, \ldots, y_{n} ; x_{1}, \ldots, x_{n}\right)\right|^{-1}$ 其中 $J\left(y_{1}, \ldots, y_{n} ; x_{1}, \ldots, x_{n}\right)=\left|\begin{array}{cccc}{\frac{\partial y_{1}}{\partial x_{1}}} & {\frac{\partial y_{1}}{\partial x_{2}}} & {\cdots} & {\frac{\partial y_{1}}{\partial x_{n}}} \\ {\frac{\partial y_{2}}{\partial x_{1}}} & {\frac{\partial y_{2}}{\partial x_{2}}} & {\cdots} & {\frac{\partial y_{2}}{\partial x_{n}}} \\ {\vdots} & {\vdots} & {\vdots} & {\vdots} \\ {\frac{\partial y_{n}}{\partial x_{1}}} & {\frac{\partial y_{n}}{\partial x_{2}}} & {\cdots} & {\frac{\partial y_{n}}{\partial x_{n}}}\end{array}\right|$...

十一月 14, 2019 · miralem

ML笔记(5)

week 9,10 气氛突然数学起来。 这次讲的基本上就是张量——张量积,张量的分解(CP-Decomposition, HOSVD)。之前我们处理矩阵,用的是SVD和eigenset的分解,动机是在低维上把握矩阵的行为,进而把握这些矩阵对应的高维数据集的性质。对于张量,很容易想到如法炮制。但是不幸的是,尽管矩阵的分解是一个相对容易的套路,张量的decomposition却是一个NP-hard的问题。 何为张量 有三种定义。 free vector space中的等价类。——QM里面,用的是这个定义。我们在这个讲义里用的也是这个定义。 basis变换时满足某种特定变换规则的对象。——GR里面我学到的就是这个。这也是我在课上唯一听懂的部分。 “linearizer of multilinear maps”——一个数学家可能会喜欢的说法。与本课的内容和我的兴趣都无关。 对于我不幸的大脑来说,这些定义都太数学了。况且,我不像许多其他同学一样学过许多高明的量子场论。因此,在了解这些定义的具体内容之前,不妨先产生一个模糊的概念:张量是线性映射之间的线性映射。 第一个定义的解释 取$n_{1}, \dots, n_{k}$维欧氏空间$V_{1}, \ldots, V_{k}$,令$\mathcal{F}$代表这些空间的cartesian积生成的所谓"free vector space",这就是说,Cartesian积得到的$\sum n_i$维空间中的每一个元素都是该空间的一个basis(现在,忘掉直和空间中的线性性)。一开始,我还以为$V_{1} \times V_{2} \times \ldots \times V_{k}$就是$\mathcal{F}$呢。实际上,Cartesian Product弄出来的这东西叫直和,维数是$\sum n_i$;直积得到的空间,维数是$\prod n_i$。 令$\mathcal{M}$是由形如 $\left(x_{1}, \ldots, x_{i-1}, x_{i}+y_{i}, x_{i+1}, \ldots, x_{k}\right)-\left(x_{1}, \ldots, x_{i-1}, x_{i}, x_{i+1}, \ldots, x_{k}\right)-\left(x_{1}, \ldots, x_{i-1}, y_{i}, x_{i+1}, \ldots, x_{k}\right)$ 和 $\alpha\left(x_{1}, \ldots, x_{i-1}, x_{i}, x_{i+1}, \ldots, x_{k}\right)-\left(x_{1}, \ldots, x_{i-1}, \alpha x_{i}, x_{i+1}, \ldots, x_{k}\right)$ 的元素构成的子空间。那么,直积$V_{1} \otimes \cdots \otimes V_{k}$就是商空间$\mathcal{F} / \mathcal{M}$。商空间的意思就是说,对于$\mathcal{F}$中的元素F, f,$F=f+m,m\in\mathcal{M}$,那么这两个元素属于同一个等价类,这些等价类的集合就是商空间。一个简单的例子。取$V_1$,$V_2$。他们的基是$\{v_k\}$,$\{w_k\}$。$V_1\times V_2$的基底是$\{(v_i,0)+(0,w_j)\}$。$V_1\otimes V_2$的基底是$\{(v_i, w_j)\}$。...

十一月 1, 2019 · miralem

读Stone-Goldbart第六章

关于PDE,我的问题是缺乏一种系统的把握。我所有的训练都是在数理方程的课上得到的,这些训练只告诉我某些十分特定的方程的解是某些特殊函数,至于这些方程的特定究竟特定到了什么程度,具体是怎样的条件,虽然也讲,但并不重视,主要重视的是造成这些方程的物理问题。所以就形成一个对物理问题的解的感觉。但是这个感觉现在也已经消退了。所以要重新从这些基础的东西学起。

十月 31, 2019 · miralem

2019-10-25

十月 26, 2019 · miralem

ML笔记(4)

week 7, 8 lecture 10.8 不小心翘掉了一节课。所幸,此课时基本上没有说什么特别重要而我又不太知道,并且没有在今天的summary中覆盖到的部分。 现在开始搞RKHS了。关于这个东西的定义和一些理论,都写在notes 0里面了,包括Moore-Aronszajn定理,Cauchy Sequence,Completion of Hilbert space 等等。基本上,上节课讲的东西的主要内容,就是在有限维空间的情况下证明Moore-Aronszajn定理。为了叙事的连贯性,我还是在这个文件里把必要的地方都说明一下吧。 RK是如此的一个kernel,即满足 $$ \bullet \forall x \in \mathcal{X}, \quad k(\cdot, x) \in \mathcal{H} \\ \bullet \forall x \in \mathcal{X}, \forall f \in \mathcal{H}, \quad\langle f, k(\cdot, x)\rangle_{\mathcal{H}}=f(x) $$ 者。它有一个重要的等价性质,是说evaluation functional在对应的这个RKHS里面连续。这个性质同时也正是RKHS的定义。 可以首先在有限维的情况下考虑RKHS的性质。比如说取一个建立了内积的$V\subset\mathbb{R}^m$。那么这时候一个核实际上可以被写成是(作用在基的函数)上的双线性函数$K\in\mathbb{R}^{m\times m}$。上节课给出如下结论,以下诸命题等价: K是V上的RK。 存在V上一组正交归一基u使得$K=\sum u_iu_i^t$。 $\text{columnspan}(K)=V$并且$K_{ij}=\langle k_i,k_j\rangle$。 这看上去是可以接受的。我无意追寻具体的证明。接下来,可以用这结论证明简单版的MA定理。 内容全在讲义里。 reading material lecture notes: RKHS and kernel regression RKHS: 定义;性质。RKHS是一个很重要的概念,虽然它的实际用处在这个阶段还没有显现出来。 我们将会证明, 对于一个函数$\kappa: X \times X \rightarrow\mathbb{R}$,以下命题等价: 它是半正定的 它是X上一个RKHS的RK 它是一个kernel 我们先考察有限维空间上的RK,再推广到无穷维的情况。这时对evaluation的定义比较简单,令$E_{i}(v)=e_{i}^{t} v, \forall v \in \mathbb{R}^{X}$即可。考虑到RK的定义,我们这个时候不妨把k直接当做是一个半正定的矩阵。这个时候,可以把Riesz表示定理写成...

十月 21, 2019 · miralem