重要性采样理解

首页摘要：

以前一直不能理解为什么特定分布可以通过均匀分布来进行采样，今天突然就想通了。俗语说得好，文章本天成，“妙手”偶得之。

为什么需要采样

采样是机器学习中，特别是生成模型中经常采用的一种技术。为什么要采样呢？因为很多时候我们需要获取的期望很难求得解析式时，利用蒙特卡洛模拟来近似求解是一种非常方便有效的方法。例如对于一个特定的服从$p(x)$分布的函数$f(x)$而言，其期望可以表示为：

$E(x)=\int f(x)p(x)dx,x \sim p(x)$

对于复杂的$f(x)$或者$p(x)$而言，几无可能求出期望的表达式，这个时候就可以利用蒙特卡洛近似求解了：

$E(x)\approx\frac{1}{N} \sum_{i=1}^{N}f(x_i),x_i \sim p(x_i)$

也就是说，蒙特卡洛是从分布$p(x)$中采样到大量样本取平均来进行近似的，这里涉及到一个问题：如何从$p(x)$进行采样。要知道，计算机只能模拟均匀分布，一旦$p(x)$不是均匀分布就需要另寻他途进行模拟了。事实上，聪明的前人找到了如何基于均匀分布对复杂的$p(x)$进行采样。对于可逆的分布而言，可以利用可逆采样(inverse sampling)来进行采样。

可逆采样

假设$p(x)$的累积分布函数为：

$y=F(x)=\int_{-\infty}^{x}p(x)dx$

那么 $y \in [0,1]$, $x \in [- \infty ,+\infty]$，其逆分布为 $x=F^{-1}(y)$ 。

定义在区间 $[0,1]$ 上的均匀分布可以用

$U(0,1)=P(x)=\begin{cases} 1 & 0<x<1 \\ 0 & others \end{cases}$

来表示，假设其累积分布函数为：

$P(y\leq x)=H(x)=\begin{cases} 0 & x\leq 0 \\ x & 0<x<1 \\ 1 & x\geq 1 \end{cases},x \sim U(0,1)$

那么可以推导出：

$P(F^{-1}(y)\leq x)=P(y\leq F(x))=H(F(x))=F(x)$

其中 $F^{-1}(y)\leq x$ 可以变化成 $y\leq F(x)$ 是因为 $F(x)$ 是单调递增函数。这样就完成了整个过程的推导。在实际应用中就可以利用均匀分布产生大量样本，进一步根据 $F(x)$ 的反函数转换成 $F(x)$ 的样本。样本越多，近似的精度越高。但是问题又来了，如果 $F(x)$ 不存在逆分布怎么办呢？这个时候就轮到重要性采样上场了，请见下一节。