Dit moi, la petit ephémère

Qui nous laisse espérer le ciel, et nous attache à des pierres

0%

CSDI:适用于时间序列补全、预测任务的条件分数扩散模型

条件引导的、基于分数的扩散模型、时间序列补全
原文:戳我
作者:Yusuke Tashiro, Jiaming Song, Yang Song, Stefano Ermon

看点

  • 采用自监督训练的CSDI模型
  • 模型带来的SOTA效能提升
  • CSDI或将作为补全、预测任务的baseline

背景

一、多元时序补全

假设此处的时序数据包含$N$个变量,并且都包含一些缺省值。

符号表征

$\{\mathbf{X}, \mathbf{M}, \mathbf{s}\}$
1-时序数据$\mathbf{X}=\left\{x_{1: K, 1: L}\right\} \in \mathbb{R}^{K \times L}$

  • $K$ - 特征或通道数量
  • $L$ - 时序数据的长度
    • 假设所有的时序数据具有共同的长度
      2-缺省掩码$\mathbf{M}=\left\{m_{1: K, 1: L}\right\} \in\{0,1\}^{K \times L}$
  • $m_{k, l}=0$ - $x_{k, l}$ 处缺省
  • $m_{k, l}=1$ - $x_{k, l}$ 处正常
    3-时间戳$\mathbf{s}=\left\{s_{1: L}\right\} \in \mathbb{R}^L$
    假设任意两个连续的时序数据样本,可以拥有不同长度的时间间隔

二、扩散模型

1-正向表征

[[Markov Chain Process|马尔可夫过程]]建模:

其中 $q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right):=\mathcal{N}\left(\sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I}\right)$
最终扩散样本和最初样本之间的关系:

  • $\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{1})$
  • $\alpha_t:=\prod_{i=1}^t \hat{\alpha}_i$
  • $\hat{\alpha}_t:=1-\beta_t$
    $\beta_t$是一个很小的、在0~1之间的值,表征噪音的添加程度

2-逆向表征

关于下式:

其中:

对均值和方差预测的神经网络都表征成:$\boldsymbol{\mu}^{\mathrm{DDPM}}\left(\mathbf{x}_t, t, \boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right)$ 和 $\sigma^{\mathrm{DDPM}}\left(\mathbf{x}_t, t\right)$

3-优化目标

解读:习得一套参数$\theta$,使得$\mathbb{E}_{\mathbf{x}_0 \sim q\left(\mathbf{x}_0\right), \boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}), t}\left|\boldsymbol{\epsilon}-\boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right|_2^2$最小:

  • $x_0$采样于训练数据集
  • $\epsilon$采样于标准高斯分布$\mathcal{N}(\mathbf{0}, \mathbf{I})$
  • t采样自0~T的均匀分布

三、利用Diffusion进行补全

思路:充分利用可供模型观测的条件数据样本(conditional observations),生成目标数据(imputation targets) 对原时序数据进行补全

  • imputation targets $\mathbf{x}_0^{\mathrm{ta}} \in \mathcal{X}^{\mathrm{ta}}$
  • conditional observations $\mathbf{x}_0^{\mathrm{co}} \in \mathcal{X}^{\mathrm{co}}$
  • $\mathcal{X}^{\mathrm{ta}}$和$\mathcal{X}^{\mathrm{co}}$都是训练样本空间$\mathcal{X}$的一部分
    目标:利用神经网络学习出的分布$p_\theta\left(\mathbf{x}_0^{\mathrm{ta}} \mid \mathbf{x}_0^{\mathrm{co}}\right)$,尽可能逼近真实的条件数据分布$q\left(\mathbf{x}_0^{\mathrm{ta}} \mid \mathbf{x}_0^{\text {co }}\right)$其中:优化目标:

    模型