GenAI 02 - Autoregressive Models

Autoregressive Model

Chain rule을 기반으로 데이터의 결합 확률 분포를 조건부 확률로 분해하여, 각 변수의 값이 이전 변수들의 값에 의존하도록 모델링하는 확률 모델을 의미한다

Neural Models for classification

Setting: 인풋 $X \in {0, 1}^{n}$ 가 주어졌을 때 $Y \in {0, 1}$ 을 구분하는 것
분류를 위해 $p (Y ∣ x)$ 을 구해야 해서 다음을 가정
- $p (Y = 1∣ x; α) = f (x, α)$
- 여기서 $f (x, α)$ 를 어떻게 가정하는가가 모델을 구분하는 핵심적인 요소
Logistic regression
- $z (α, x) = α_{0} + \sum_{i = 1}^{n} α_{i} x_{i}$
- $p (Y = 1∣ x; α) = σ (z (α, x))$
Non-linear dependence
- $h (A, b, x) = f (A x + b)$
- $p (Y = 1∣ x; α, A, b) = σ (α_{0} + \sum_{i = 1}^{h} α_{i} h_{i})$

Motivating Example: MNIST

각 이미지는 784 픽셀로 구성되어, 0(블랙)이거나 1(화이트)임
목표: 이미지의 확률분포를 구하는 것
- $p (x) = p (x_{1}, ..., p_{784})$ 인 $p (x)$ 를 구하는 것
- $x \sim p (x)$ 를 했을 때 $x$ 가 digit처럼 보여야 한다
두 단계로 이뤄짐
1. Model family ${p_{θ} (x), θ \in Θ}$ 를 파라미터화 하는 것
2. 학습 데이터셋에 기반해 모델 파라미터를 찾는 것

Fully Visible Sigmoid Belief Network (FVBSN)

Parameterization

베이지안 네트워크를 만들기 위해, random variable의 어떤 한 ordering을 골라 Chain rule을 적용해 보자 $p (x_{1}, ..., x_{784}) = p (x_{1}) p (x_{2} ∣ x_{1}) p (x_{3} ∣ x_{2}, x_{1}) ... p (x_{n} ∣ x_{n - 1}, ..., x_{1})$
너무 복잡하니 다음과 같이 가정하자
- $f_{i} (x_{1}, x_{2}, ..., x_{i - 1}) = σ (α_{0}^{i} + α_{1}^{i} x_{1} + ... + a_{i - 1}^{i} x_{i - 1})$
- 즉, $p (x_{1}, ..., x_{784}) = p_{CPT} (x_{1}; α) p_{l o g i t} (x_{2} ∣ x_{1}; α^{2}) p_{l o g i t} (x_{3} ∣ x_{2}, x_{1}; α^{3}) ... p_{l o g i t} (x_{n} ∣ x_{n - 1}, ..., x_{1}; α^{n})$
- 여기서 각 항이 나타내는 바
- $p_{CPT} (X_{1} = 1; α_{0}^{1}) = α_{0}^{1}$ , $p_{CPT} (X_{1} = 0; α_{0}^{1}) = 1 - α_{0}^{1}$
  - 학습 대상은 $α_{0}^{1}$ (1개)
- $p_{l o g i t} (X_{2} = 1∣ x_{1}; α^{2}) = σ (α_{0}^{2} + α_{1}^{2} x_{1})$
  - 학습 대상은 $α_{0}^{2}, α_{1}^{2}$ (2개)
- $p_{l o g i t} (X_{3} = 1∣ x_{2}, x_{1}; α^{3}) = σ (α_{0}^{3} + α_{1}^{3} x_{1} + α_{2}^{3} x_{2})$
  - 학습 대상은 $α_{0}^{3}, α_{1}^{3}, α_{2}^{3}$ (3개)
- Model assumption일 뿐 꼭 이렇게 해야 하는 것은 아니다. → FVBSN의 핵심 아이디어!
다시 정리하자면 이렇다 $\overset{x_{i}}{^} = p (X_{i} = 1∣ x_{1}, ..., x_{i - 1}; α^{i}) = p (X_{i} = 1∣ x_{< i}; α^{i}) = σ (α_{0}^{i} + \sum_{j = 1}^{i - 1} α_{j}^{i} x_{j})$
- 여기서 $\overset{x_{i}}{^}$ 은 $p (X_{i} = 1∣...)$ 의 근사값
- 파라미터의 갯수는 $1 + 2 + 3 + ... + n$ 개가 필요. 약 $n^{2} /2$

학습

CPT 테이블에서 값을 배정해 $p_{CPT} (x_{1}; α^{1})$ 학습
$x_{1}$ 데이터를 가지고 $p_{l o g i t} (x_{2} ∣ x_{1}; α^{2})$ 학습
$x_{1}, x_{2}$ 데이터를 가지고 $p_{l o g i t} (x_{3} ∣ x_{1}, x_{2}; α^{3})$ 학습
…
$x_{1}, x_{2}, \dots, x_{n - 1}$ 데이터를 가지고 $p_{l o g i t} (x_{n} ∣ x_{1}, \dots, x_{n - 1}; α^{n})$ 학습

Evaluation

$p (x) = p (x_{1}, ..., p_{784})$ 를 evaluate하는 방법 : 모든 factor를 곱셈
- $p (X_{1} = 0, X_{2} = 1, X_{3} = 1, X_{4} = 0) = (1 - \overset{x_{1}}{^}) \times \overset{x_{2}}{^} \times \overset{x_{3}}{^} \times (1 - \overset{x_{4}}{^})$

Sampling

순차적으로 샘플링 $x_{1} \sim p (x_{1}), x_{2} \sim p (x_{2} ∣ x_{1}), \dots, x_{n} \sim p (x_{n} ∣ x_{< n})$

Performance

개 별로다
복잡한 분포를 나타내기에 적합하지 않다
학습해야 하는 파라미터가 $n^{2} /2$ 개

NADE: Neural Autoregressive Density Estimation

아이디어 1: 로지스틱 회귀 대신 One layer neural network를 사용하자

h_{i} = σ (A_{i} x_{< i} + c_{i}) \overset{x_{i}}{^} = p (x_{i} ∣ x_{1}, ..., x_{i - 1}; A_{i}, c_{i}, α_{i}, b_{i}) = σ (α_{i} h_{i} + b_{i})

아이디어 2: weight를 바인딩하자
$w_{1}$ 을 $h_{2}$ , $h_{3}$ , $h_{4}$ 에 재활용
- 이렇게 하는 이유 : 파라미터 수를 줄일 수 있다.
  - $h_{i} \in R^{d}$ 라면, 전체 파라미터는
    - Weights $W \in R^{d \times n}$
    - biases $c \in R^{d}$
    - vector $α_{i}, b_{i} \in R^{d + 1}$
  - 총 $O (n d)$ 개로 줄일 수 있음
    - 새로운 은닉층 $h_{i}$ 가 학습해야 하는 파라미터의 개수 : $w_{< i} \to w_{i}$
- 파라미터 수를 줄여서 확률 evaluation도 $O (n d)$ 만에 가능

Performance

FVSBN 보다는 낫다
$O (n d)$ 개 파라미터만 학습하면 된다
픽셀 수(n)에 linear

General discrete distributions

픽셀이 0과 1이 아닌 랜덤 변수일 경우에는 어떻게 해야 할까?
- 즉, $X_{i} \in {1, ..., K}$
- e.g. 픽셀이 0에서 255 사이 값을 가질 수 있음
한가지 솔루션: $\overset{x_{i}}{^}$ 를 카테고리 분포로 파라미터화하자
- $h_{i} = σ (W_{< i}, x_{< i} + c)$ (여기까지는 동일함)
- $p (x_{i} ∣ x_{1}, ..., x_{i - 1}) = C a t (p_{i}^{1}, ..., p_{i}^{K})$
  - $C a t$ 는 카테고리 분포
    - 0, 1의 값을 갖는 베르누이 분포와 달리 여러 값을 가질 수 있음
    - 일반적으로 K개 베르누이 분포 벡터를 가지는 다변수 확률 분포로 가정해 사용
  - 즉 $x_{i}$ 는 K개 카테고리 중 하나를 선택하는 분포로 해석 가능
  - 따라서 $p_{i}^{j}$ 는 $x_{i}$ 가 $j$ 번째 범주를 선택할 확률
- $\overset{x_{i}}{^} = C a t (p_{i}^{1}, ..., p_{i}^{K}) = so f t ma x (A_{i} h_{i} + b_{i})$
  - Softmax는 $σ (\cdot)$ 를 일반화하여 K 개 숫자의 백터를 K개 possibility로 변환하는 함수 $so f t ma x (a) = so f t ma x (a^{1}, ..., a^{k}) = (\frac{e x p ( a ^{1} )}{\sum _{i} e x p ( a ^{i} )}, ..., \frac{e x p ( a ^{k} )}{\sum _{i} e x p ( a ^{i} )}))$

RNADE

연속확률변수는 어떻게 모델링 해야 할까?
Idea: $\overset{x_{i}}{^}$ 를 연속 분포로 파라미터화하자
e.g. K gaussian의 uniform mixture
- $p (x_{i} ∣ x_{1}, ..., x_{i - 1}) = \sum_{j = 1}^{K} N (x_{i}; μ_{i}^{j}, σ_{i}^{j})$
- $\overset{x_{i}}{^} = (μ_{i}^{1}, ..., μ_{i}^{K}, σ_{i}^{1}, ..., σ_{i}^{K}) = f (h_{i})$

Autoregressive model vs Autoencoder

Autoencoder

Encoder $e (\cdot)$
- e.g. $e (x) = σ (W^{2} (W^{1} x + b^{1}) + b^{2})$
Decoder $d (e (x)) \approx x$
- e.g. $d (h) = σ (Vh + c)$
데이터를 압축 및 복원하는 과정을 통해 데이터의 특징을 학습하는 비지도학습 알고리즘
- 의미있는 압축을 했는가? == 제대로 된 특징을 학습했는가?
Vanilla autoencoder는 생성형 모델으로 사용하기 어렵다
- Autoencoder는 샘플의 대상이 되는 distribution over x 를 정의하지 않기 때문임

Autoregressive autoencoders

Autoencoder를 베이지안 네트워크에 대응하게 만들 수 있다.
- Ordering(for DAG)을 만들면 된다!
- e.g.
  - $\overset{x_{1}}{^}$ 은 어디에도 의존하지 않음
  - $\overset{x_{2}}{^}$ 은 $\overset{x_{1}}{^}$ 에 의존
  - $\overset{x_{3}}{^}$ 은 $\overset{x_{1}}{^}, \overset{x_{2}}{^}$ 에 의존

출력층이 조건부확률 $p (x_{i} ∣ x_{< i})$ 를 학습하게 한다
마스킹을 통해 예측 시점 이후의 데이터의 영향을 제거하고 DAG처럼 만든다

MADE: Masked Autoencoder for Distribution Estimation

마스킹을 통해 일부 path를 불가능하게 만듬

Masking 과정

Ordering이 $x_{2}$ , $x_{3}$ , $x_{1}$ 이라고 가정하자 ( $x_{2}$ 는 아무데도 의존안하고, $x_{3}$ 은 $x_{2}$ 에, $x_{1}$ 은 $x_{2}$ , $x_{3}$ 에 의존)

은닉층 각각의 노드에 1부터 n-1까지 랜덤한 숫자 배정
부모 노드의 숫자가 자식 노드의 숫자보다 작거나 같으면 가만히 있어
부모 노드의 숫자가 자식 노드의 숫자보다 크면(의존 안함) 마스킹으로 연결 제거
- 위 그림에서는 까맣게 칠해서 연결을 제거하고 있음

RNN: Recurrent Neural Nets

Seqeuntial data를 받아 그 다음 데이터를 예측하는 모델
Challenge: Model $p (x_{t} ∣ x_{1 : t - 1}; α^{t})$ 에서 history에 해당하는 $x_{1 : t - 1}$ 부분이 계속 길어진다
- NADE에서 hidden vector 구하려고 A 백터랑 곱해지는 그 대상이 너무 길어진다는 뜻
Idea: Summary를 유지하고 재귀적으로 update하자
1. 첫번째 은닉층 $h_{0}$ 을 초기화한다
  - $h_{0} = b_{0}$
2. 시퀀스의 첫번째 데이터 $x_{1}$ 을 입력합니다
3. 두번째 은닉층 $h_{1}$ 을 이전 시점의 은닉층 $h_{0}$ 과 $x_{1}$ 으로 업데이트
4. 다음 은닉층을 다음과 같이 업데이트
  - $h_{t + 1} = t anh (W_{hh} h_{t} + W_{x h} x_{t + 1})$
5. 시퀀스의 길이 $[1, ..., T]$ 에 대해 반복
출력층은 $o_{t + 1} = W_{h y} h_{t + 1}$ 과 같이 계산

Example: Character RNN

예측을 softmax(o) 로 계산한 결과임

Pros and Cons

Pros

임의 길이의 모든 시퀀스에 적용 가능
General

Cons

마찬가지로 Ordering을 필요로 함 (이게 왜 문제지?)
Sequential하게 우도를 평가하기 때문에 학습이 너무 느려
Sequential generation (autoregressive model에서는 어쩔 수 없다)
학습하기 어려운 케이스들이 생김 (시퀀스 길이가 길어짐에 따른 기울기 소실/폭주 문제)

ಣ ᴄᴏᴍᴘᴜᴛᴇʀ ᴄɪᴛʏ ഒ

Explorer

GenAI 02 - Autoregressive Models

Neural Models for classification

Motivating Example: MNIST

Fully Visible Sigmoid Belief Network (FVBSN)

Parameterization

학습

Evaluation

Sampling

Performance

NADE: Neural Autoregressive Density Estimation

Performance

General discrete distributions

RNADE

Autoregressive model vs Autoencoder

Autoencoder

Autoregressive autoencoders

MADE: Masked Autoencoder for Distribution Estimation

Masking 과정

RNN: Recurrent Neural Nets

Example: Character RNN

Pros and Cons

Pros

Cons

Graph View

Table of Contents

Backlinks