Upscale-A-Video, Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution

科研

Diffusion

约 4 分钟阅读 · 1936 字 · 次浏览

注意

本文内容主要由 AI 生成

1. Introduction（引言）

任务目标：视频超分辨率（Video Super-Resolution, VSR） → 从低质量视频恢复高分辨率、高保真、时间一致的结果。
挑战：
1. 复杂退化：真实世界中不仅有下采样，还包括噪声、模糊、压缩伪影、闪烁等。
2. 时间一致性：扩散模型采样具有随机性，容易导致帧间不一致（flickering）。
3. 局部 vs 全局：现有方法只能保证短序列内一致性，长视频仍有跨段不连贯。
核心贡献：
- 提出 局部-全局（local-global）时间一致性策略：
  - 局部：在 U-Net 与 VAE-Decoder 中加入 3D 卷积、时间注意力。
  - 全局：提出 训练无关的光流引导潜空间递归传播（flow-guided recurrent latent propagation）。
- 引入文本引导（text prompt）与噪声调节（noise level control），在修复与生成之间实现平衡。

Video Super-Resolution (VSR)：
- CNN-based（如 EDVR、BasicVSR++）：在短期内表现好，但生成的纹理往往过于平滑。
- Real-world VSR：通常依赖数据增强或特殊采集数据，泛化性不足。
Diffusion Models：
- 基本思想：逐步加噪、逐步去噪。
- 在图像生成中已广泛应用（Stable Diffusion），但在视频中需要解决跨帧一致性。
Diffusion for Restoration：
- 从零训练（昂贵）或基于预训练模型（更高效）。
- 现有扩散方法仍难以保持长视频的一致性。

本工作定位：在真实世界 VSR 中，首次系统性结合扩散模型的生成先验与局部-全局时间一致性机制。

给定真实样本 \(z\)，在时间步 \(t\) 加入噪声：

\[ z_t = \alpha_t z + \sigma_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I) \]

模型学习在每一步估计干净样本：

\[ \mathcal{L}_{\text{LDM}} = \mathbb{E}_{z, x, c, t, \epsilon}\left[ \| v - f_\theta(z_t, x_\tau; c, t) \|^2_2 \right] \tag{1} \]

其中：

\[ \mathcal{L}_{\text{VAE}} = \lambda_1 \| y - \hat{y} \|_1 + \lambda_2 \text{LPIPS}(y, \hat{y}) + \lambda_3 \mathcal{L}_{\text{GAN}} \]

训练集：
- WebVid10M 子集（33.5 万视频-文本对）
- 新采集的 YouHQ 数据集（3.7 万高清视频，1080×1920，包含街景、动物、人脸、水下、夜景等）
测试集：
- 合成：SPMCS, UDM10, REDS30, YouHQ40
- 真实：VideoLQ
- AIGC：AIGC30（来自 text-to-video 生成模型）

指标：
- 有 GT → PSNR, SSIM, LPIPS, E*warp（光流误差）
- 无 GT → CLIP-IQA, MUSIQ, DOVER
结论：
- Upscale-A-Video 在所有合成与真实数据集上取得最优或次优。
- 特别在**时间一致性（E*warp）**上优于 RealBasicVSR、StableSR 等强基线。

提出 Upscale-A-Video：结合 扩散模型生成先验 与 局部-全局一致性策略，实现真实世界视频超分辨率。
创新点：
- 局部一致性：Temporal U-Net + Temporal VAE-Decoder
- 全局一致性：训练无关的光流引导潜空间传播
- 可控性：Prompt + Noise level
在真实与 AIGC 视频上均表现出 SOTA 的效果。