Abstract

Diffusion probabilistic models를 사용하여 고품질 이미지 합성 결과를 제시
열역학적 비균형(thermodynamics)에서 영감을 받은 잠재 변수 모델의 일종
diffusion probabilistic models & denoising score(using Langevin dynamics)와 관련한 weighted variational bound로 학습
progressive lossy decomopression scheme를 허용하는데, 이는 autoregressive decoding 일반화로 해석 가능

<aside> 💡 이미 모르는 단어가 굉장히 많다. Introduction까지만 읽어볼 예정

</aside>

Introduction

GANs, autoregressive model, flows, VAEs 등 다른 생성 모델은 이미지, 오디오 생성, energy-based modeling, score matching에 사용됨
Diffusion 모델은 parameterized Markov chain로 정의, variational inference를 사용해 원본과 일치하는 샘플을 생성하도록 학습
- 데이터에 가우시안 노이즈를 점진적으로 추가하고 그것을 역방향으로 추적하여 원래 데이터를 복원하는 방식
Diffusion 모델의 parameterization는 학습 중에 denoising score matching과 비슷하고, 샘플링 중에 annealed Langevin dynamics와 비슷
- 이러한 parameterization으로 가장 좋은 샘플 품질 결과를 얻음
좋은 품질에도 단점이 있음
- log likelihood에 경쟁력이 부
- lossless codelengths(데이터를 압축하는 데 필요한 비트 수) 대부분이 인식하기 어려운 이미지 세부 사항을 설명하는 데 사용
Diffusion 모델의 샘플링 절차가 autoregressive decoding과 유사한 progressive decoding이고, 이것은 autoregressive model로는 어려운 것임.

<aside> 💡 하나도 와닿지가 않는다. 아무튼 생성모델의 방식인데, 좋은 품질의 복원을 할 수 있다는 것 같다. 그래도 몇 가지 단점이 있긴 하다.

</aside>

T = 1000, $\beta_1 = 10^{-4}$ to $\beta_T = 0.02$ , $L_T = 10^{-5}$
- 1000번 noise를 주는 작업, 그러면서 $\beta$는 linearly increasing
- data를 [-1, 1]로 scaling 했을 에 비해 작은 규모로 결정한 constant
- signal-to-noise 비율이 유지되도록 함
U-Net backbone 사용
- Transformer sinusoidal position embedding
- self-attention at the 16 $\times$ 16 feature map
codelength에 대해서
- tru variational bound로 학습 시에 더 나은 codelength
- 그런데 단순한 objective로 학습 하는 것이 더 좋은 샘플 품질