条件引导的、基于分数的扩散模型、时间序列补全
原文:戳我
作者:Yusuke Tashiro, Jiaming Song, Yang Song, Stefano Ermon
看点
- 采用自监督训练的CSDI模型
- 模型带来的SOTA效能提升
- CSDI或将作为补全、预测任务的baseline
背景
一、多元时序补全
假设此处的时序数据包含$N$个变量,并且都包含一些缺省值。
符号表征
$\{\mathbf{X}, \mathbf{M}, \mathbf{s}\}$
1-时序数据$\mathbf{X}=\left\{x_{1: K, 1: L}\right\} \in \mathbb{R}^{K \times L}$
- $K$ - 特征或通道数量
- $L$ - 时序数据的长度
- 假设所有的时序数据具有共同的长度
2-缺省掩码$\mathbf{M}=\left\{m_{1: K, 1: L}\right\} \in\{0,1\}^{K \times L}$
- 假设所有的时序数据具有共同的长度
- $m_{k, l}=0$ - $x_{k, l}$ 处缺省
- $m_{k, l}=1$ - $x_{k, l}$ 处正常
3-时间戳$\mathbf{s}=\left\{s_{1: L}\right\} \in \mathbb{R}^L$
假设任意两个连续的时序数据样本,可以拥有不同长度的时间间隔
二、扩散模型
1-正向表征
[[Markov Chain Process|马尔可夫过程]]建模:
其中 $q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right):=\mathcal{N}\left(\sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I}\right)$
最终扩散样本和最初样本之间的关系:
- $\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{1})$
- $\alpha_t:=\prod_{i=1}^t \hat{\alpha}_i$
- $\hat{\alpha}_t:=1-\beta_t$
$\beta_t$是一个很小的、在0~1之间的值,表征噪音的添加程度
2-逆向表征
关于下式:
其中:
对均值和方差预测的神经网络都表征成:$\boldsymbol{\mu}^{\mathrm{DDPM}}\left(\mathbf{x}_t, t, \boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right)$ 和 $\sigma^{\mathrm{DDPM}}\left(\mathbf{x}_t, t\right)$
3-优化目标
解读:习得一套参数$\theta$,使得$\mathbb{E}_{\mathbf{x}_0 \sim q\left(\mathbf{x}_0\right), \boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}), t}\left|\boldsymbol{\epsilon}-\boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right|_2^2$最小:
- $x_0$采样于训练数据集
- $\epsilon$采样于标准高斯分布$\mathcal{N}(\mathbf{0}, \mathbf{I})$
- t采样自0~T的均匀分布
三、利用Diffusion进行补全
思路:充分利用可供模型观测的条件数据样本(conditional observations),生成目标数据(imputation targets) 对原时序数据进行补全
- imputation targets $\mathbf{x}_0^{\mathrm{ta}} \in \mathcal{X}^{\mathrm{ta}}$
- conditional observations $\mathbf{x}_0^{\mathrm{co}} \in \mathcal{X}^{\mathrm{co}}$
- $\mathcal{X}^{\mathrm{ta}}$和$\mathcal{X}^{\mathrm{co}}$都是训练样本空间$\mathcal{X}$的一部分
目标:利用神经网络学习出的分布$p_\theta\left(\mathbf{x}_0^{\mathrm{ta}} \mid \mathbf{x}_0^{\mathrm{co}}\right)$,尽可能逼近真实的条件数据分布$q\left(\mathbf{x}_0^{\mathrm{ta}} \mid \mathbf{x}_0^{\text {co }}\right)$其中:优化目标:模型