Abstract

Supervision 없이 효과적인 Representations를 하는 것은 Machine Learning의 중요한 도전 과제였다. 이 논문에서 제시하는 Generative Model은 그러한 Discrete Representations를 수행한다. 그것이 Vector Quantised-Variational AutoEncoder(VQ-VAE)이다.

VQ-VAE는 VAEs와 무엇이 다른가?

첫째, Encoder의 Output이 Continuous하지 않고 Discrete하다. 모델의 사전 분포(Prior)가 정적(Static)으로 고정되지 않고 데이터에 맞게 학습된다. 이러한 Discrete Latent Representations를 위해서는 Vector Quantisation(VQ) 아이디어를 사용해야 한다.

VQ를 사용하면, VAE에서 자주 발생하는 문제였던 Posterior Collapse를 교묘하게 회피할 수 있다. Posterior Collapse는 강력한 Autoregressive Decoder와 결합되었을 때 Latent가 무시되는 현상이다.

Posterior Collapse는 처음 듣는다. 이에 대한 이론적인 설명을 봐야 할 듯하다.

이러한 Representations를 Autoregressive Prior와 결합하면 아주 높은 질의 이미지, 비디오, 음성 등을 생산할 수 있게 된다.

Representations는 VQ의 방식으로, 코드북으로 생성되는 Discrete Latent Representations를 의미하는 것 같은데, 여기서 말하는 Autoregressive Prior는 뭘까? Autoregressive Decoder인가?

1. Introduction

여러 많은 Task는Raw Data의 학습된 Representations에 의존한다. 하지만 Unsupervised 방식으로 학습된 Representations의 유용성은 여전히 주류가 아니다.

Unsupervised Models는 Maximum Likelihood, Reconstruction Error가 일반적인 Objectives(목표함수)다. 이 논문에서의 목표는 두 가지이다.

  1. Maximum Likelihood, Reconstruction Error는 특정한 Feature 응용에 의존적인 효과를 가지기 때문에, Latent Space에서 Maximum Likelihood를 최적화 하면서도 중요한 Feature를 보존하는 것.
  2. 일반적으로 Latent를 사용하지 않고 강력한 Decoder를 사용하는 생성 모델과 달리 Discrete Latent Variables의 여러 Domaing에 대한 효율성을 증명하는 것이다.

Discrete Representations는 복잡한 Reasoning, Planing, Predictive Learning에 사용하기 좋고, 강력한 Autoregressive Models는 Discrete Variables 분포 모델링을 위해 개발되었다.

위 부분은 와닿지 않는다. 끝까지 읽어야 이해가 될 것 같다.