GenAI 01 - Representations

Learning a generative model

Parametric approximation (우리가 공부할 대상)
- 데이터셋의 정보를 유한한 수의 파라미터로 요약하는 모델
  - e.g. 선형 회귀의 경우, 항상 기울기와 절편이라는 두 개의 매개변수만으로 데이터의 분포를 설명한다
  - 이 모델은 데이터가 특정한 분포(정규 분포, 이항 분포)를 따른다고 가정함
- Non-parametric model과 달리, 더 큰 수의 데이터셋으로 확장이 가능하다
  - 단, 모델 분포의 집합(family of model distributions)을 만족하는 데이터셋이어야 한다
  - 즉 우리가 사용하는 모델이 표현할 수 있는 분포의 집합에 속해야 한다
Parametric approximation에서의 learning == data distribution과 model distribution 사이의 차이를 최소화하게끔 family of model distributions에서부터 파라미터들을 뽑는 것
- Data distribution : 실제 데이터의 분포
- Model distribution : 모델이 추정한 데이터의 분포
- 예를 들어 가우시안 혼합 모델으로 데이터를 학습한다고 하자
  - 모델 분포는 가우시안 분포로 구성된 혼합 분포
  - 모델은 이 분포를 결정하는 여러 파라미터들(평균, 표준편차, 혼합 계수 등)을 뽑음
  - 뽑은 결과 만들어지는 model distribution이 최대한 data distribution에 가까운 분포가 되도록 이 파라미터들을 뽑아야 함! ← 이것이 learning의 목적

Example

우리가 위와 같이 강아지 이미지( $x_{1}, ..., x_{n}$ )를 학습하려 한다고 가정하자
이 때 우리가 하고 싶은 것: 이미지 $x$ 에 대해 다음과 같은 확률분포 $p (x)$ 를 학습하고자 하는 것
1. Generation : $x_{n e w} \sim p (x)$ 인 $x_{n e w}$ 를 뽑았을 때, $x_{n e w}$ 가 강아지같이 생겨야 함
2. Density estimation : $p (x)$ 는 $x$ 가 강아지같이 생겼을 때에만 high value를 가져야하고, 다른 경우에는 low value를 가져야 한다
3. Unsupervised representation learning : 이미지의 공통된 feature(귀가 있고 꼬리가 있고…)를 학습할 수 있어야 함
근데 p(x)를 어떻게 나타내면 되지?

Basic Discrete Distributions

Bernoulli distribution

동전 던지기의 예시
$D = {He a d s, T ai l s}$
$P (X = He a d s) = p$ , $P (X = T ai l s) = 1 - p$ 라고 하면
$X \sim B er (p)$ 라고 표현

Categorical distribution

(biased) m-sided dice의 예시
$D = {1, ..., m}$
$P (Y = i) = p_{i}$ such that $\sum p_{i} = 1$
$Y \sim C a t (p_{1}, ..., p_{m})$ 으로 표현

Joint distribution

픽셀의 예시 (하나의 픽셀)
R, G, B channel을 가지며, 각각 $Va l (R) = {0, ..., 255}$ , $Va l (G) = {0, ..., 255}$ , $Va l (B) = {0, ..., 255}$
$(r, g, b) \sim p (R, G, B)$ 로 표현
위 분포에서 랜덤으로 color를 생성(샘플링)한다고 하자.
- 어떤 Joint distribution의 샘플링 값 $p (R = r, G = g, B = b)$ 를 정의하기 위해 정의해야 하는 파라미터의 갯수는?
- 256 x 256 x 256 -1
  - 모든 경우의 수에 대한 확률을 지정해야 하기 때문
  - 확률의 합이 1이므로 하나는 자동으로 정의됨

Example of joint distribution

더 간단하게, $X_{1}, ..., X_{n}$ 이 베르누이 분포라고 하고, 이들이 흑백그림의 각 픽셀이라 가정하자
분포 $p (x_{1}, ..., x_{n})$ 를 정의하여 새로운 이미지를 만들고자 할 때, 몇개의 파라미터를 정의해야 하는가?
- 마찬가지로 joint distribution이기 때문에 $2^{n} - 1$ 개의 파라미터를 정의해야 한다.

Structure through independence?

정의해야 하는 파라미터 수가 너무 많아서 문제!
그렇다면 $X_{1}, ..., X_{n}$ 사이의 독립을 가정하면?
- 분포 $p (x_{1}, ..., x_{n})$ 를 정의하기 위해 필요한 파라미터의 개수는?
- 각 $x_{1}, ..., x_{n}$ 에 대한 마지널 분포 $p (x_{i})$ 만 계산하면 되고, 각각 1개 파라미터로 계산된다.
- 따라서 n개만 있으면 된다! $2^{n} - 1$ 이 n으로 줄었다!
그러나 이는 너무나 강한 가정
- 모든 픽셀이 독립적으로 뽑힌다고 생각하면 다음과 같은 그림이 나올 것

Chain Rule

Let $S_{1}, ..., S_{n}$ be events, $p (S_{i}) > 0$ $p (S_{1} \cap S_{2} \cap ... \cap S_{n}) = p (S_{1}) p (S_{2} ∣ S_{1}) ... p (S_{n} ∣ S_{1} \cap ... \cap S_{n - 1})$

Baye's Rule

Let $S_{1}, S_{2}$ be events, $p (S_{1}) > 0$ and $p (S_{2}) > 0$ $p (S_{1} ∣ S_{2}) = \frac{p ( S _{1} \cap S _{2} )}{p ( S _{2} )} = \frac{p ( S _{2} ∣ S _{1} ) p ( S _{1} )}{p ( S _{2} )}$

Structure through conditional independence!

Chain rule을 사용한 다음, 조건부 독립성을 가정한다.
- 조건부 독립성: $X_{i + 1}$ 이 $X_{i}$ 에만 의존하고 그 이전 변수들에는 의존하지 않는다

Chain rule
- $p (x_{1}, ..., x_{n}) = p (x_{1}) p (x_{2} ∣ x_{1}) p (x_{3} ∣ x_{1}, x_{2}) ... p (x_{n} ∣ x_{1}, ..., x_{n - 1})$
- 이 경우 필요한 파라미터 수는 $2^{n} - 1$
  - $p (x_{1})$ 에는 파라미터 1개 필요
  - $p (x_{2} ∣ x_{1})$ 에는 $p (x_{2} ∣ x_{1} = 0)$ , $p (x_{2} ∣ x_{1} = 1)$ 로 2개가 필요
  - 반복하면 $1 + 2 + ... + 2^{n - 1} = 2^{n} - 1$ 개가 필요
- 즉 Chain rule만 적용해서는 파라미터 감소를 달성할 수 없음
조건부 독립성
- $X_{i + 1}$ 이 $X_{i}$ 에만 의존하고 그 이전 변수들에는 의존하지 않는다면 다음과 같이 표현됨
- $p (x_{1}, ..., x_{n}) = p (x_{1}) p (x_{2} ∣ x_{1}) p (x_{3} ∣ x_{2}) ... p (x_{n} ∣ x_{n - 1})$
- 이 경우 필요한 파라미터 수는 $2 n - 1$
  - $p (x_{1})$ 에는 파라미터 1개 필요
  - $p (x_{2} ∣ x_{1})$ 에는 $p (x_{2} ∣ x_{1} = 0)$ , $p (x_{2} ∣ x_{1} = 1)$ 로 2개가 필요
  - $p (x_{3} ∣ x_{2})$ 에는 $p (x_{3} ∣ x_{2} = 0)$ , $p (x_{3} ∣ x_{2} = 1)$ 로 2개가 필요
  - 반복하면 $1 + 2 + ... + 2 = 2 (n - 1) + 1 = 2 n - 1$ 개가 필요

이러한 과정을 통해 파라미터의 수를 $2 n - 1$ 까지 줄일 수 있다.

Bayes Network

General Idea

Idea: Joint distribution을 직접 parameterization하는 대신, 조건부 매개변수화(conditional parameterization)를 사용하자
각 변수 $X_{i}$ 에 대해, 해당 변수와 연관된 다른 변수들의 집합 $X_{A_{i}}$ 가 있을 때 조건부 확률은 $p (x ∣ x_{A_{i}})$ 로 매개변수화 가능
그 결과 joint parameterization은 다음과 같이 나타낼 수 있음 $p (x_{1}, ..., x_{n}) = \prod_{i} p (x_{i} ∣ x_{A_{i}})$

Bayesian networks

Bayesian network는 directed acyclic graph(DAG) $G = (V, E)$ 로, 다음과 같은 조건을 만족
1. 각 노드는 하나의 랜덤 변수를 나타냄
2. 각 노드는 그 부모 노드에 대한 조건부 확률 분포(Conditional Probability Distribution, CPD)로 정의됨
이를 바탕으로 joint distribution을 다음과 같이 정의 가능 $p (x_{1}, ..., x_{n}) = \prod_{i \in V} p (x_{i} ∣ x_{P a (i)})$
- $P a (i)$ 는 변수 $x_{i}$ 의 부모 노드들을 나타낸다
Claim: DAG 표현을 통해 유효한 확률 분포를 나타낼 수 있다.
Bayesian 분포는 조인트 분포를 효율적으로 나타낼 수 있다.
- 그래프의 복잡도는 Exponential in $∣ P a (i) ∣$ , not $∣ V ∣$
Bayesian network는 conditional independency를 함축한다

Naive Bayes for single label prediction

Email이 스팸인지(Y=1) 아닌지(Y=0) 구분하는 방법

존재하는 모든 n 개의 단어를 인덱싱
이메일에 인덱스 i의 단어가 등장하는 경우에만 $X_{i} = 1$
이메일은 분포 $p (Y, X_{1}, ..., X_{n})$ 으로 표현 가능
- Naive: 단어들이 Y에 대해 조건부 독립이라고 가정
따라서 이런식으로 정의 가능 $p (y, x_{1}, ..., x_{n}) = p (y) \prod_{i = 1}^{n} p (x_{i} ∣ y)$
예측 수행

스팸일 확률은 다음과 같이 계산됨 $p (Y = 1∣ X_{1}, ..., X_{n}) = \frac{P ( Y = 1 ) \prod _{i = 1}^{n} p ( X _{i} ∣ Y = 1 )}{\sum _{y \in {0, 1}} P ( Y = y ) \prod _{i = 1}^{n} p ( X _{i} ∣ Y = y )}$

Discriminative vs Generative

Generative model
- $p (X, Y) = p (X ∣ Y) p (Y)$ 를 학습
  - 이를 통해 $p (Y ∣ X)$ 를 계산할 수 있긴 함
- $X$ 와 $Y$ 모두를 설명하며, 주어진 $Y$ 에 대해 $X$ 가 어떻게 생성되는지를 모델링함
Discriminative model
- $p (Y ∣ X)$ 만 학습
- 주어진 $X$ 에 대해 $Y$ 를 예측하는 것만 학습
- 데이터 분포를 파악하지 않음
X가 벡터라고 한다면 아래와 같이 나타낼 수 있다
- Generative : $p (Y, X) = p (Y) p (X_{1} ∣ Y) p (X_{2} ∣ Y, X_{1}) ... p (X_{n} ∣ Y, X_{1}, ..., X_{n - 1})$
- Discriminative : $p (Y, X) = p (X_{1}) p (X_{2} ∣ X_{1}) p (X_{3} ∣ X_{1}, X_{2}) ... p (Y ∣ X_{1}, ... X_{n - 1}, X_{n})$

문제 발생
1. Generative: $p (X_{i} ∣ X_{p a (i)}, Y)$ 를 어떻게 매개변수화 할 것인가?
  - 계속 동일한 문제 이야기중. naive bayes의 경우 서로 아예 의존성이 없다고 가정했고, 이것도 조건부 의존성의 일종이라 할 수 있겠음
2. Discriminative: $p (Y ∣ X)$ 를 어떻게 매개변수화할 것인가?

1. Generative: $p (X_{i} ∣ X_{p a (i)}, Y)$ 를 어떻게 매개변수화 할 것인가?

나이브한 베이즈 가정을 이용하여, 각 변수 $X_{i}$ 는 다른 변수 $X_{- i}$ 와는 조건부 독립이다
- 아마 i가 아닌 다른 모든 변수를 나타내기 위해 -i라는 표현을 쓴듯?
- $X_{i} ⊥ X_{- i} ∣ Y$

2. Discriminative: $p (Y ∣ X)$ 를 어떻게 매개변수화할 것인가?

로지스틱 회귀를 이용한 모델링

$p (Y = 1∣ x; α) = f (x, α)$ 를 가정 ( $α$ 는 가중치 백터)
여기서 $f (x, α)$ 는 다음과 같음
- $z (α, x) = α_{0} + \sum_{i = 1}^{n} α_{i} x_{i}$
- 시그모이드 함수 $σ (z) = \frac{1}{1 + e ^{- z}}$
- 즉 $p (Y = 1 ∣ x; α) = σ (z (α, x)) = \frac{1}{1 + e ^{- z (α, x)}}$

즉 n + 1개의 파라미터 $α$ 로 정의된 어떤 로지스틱 회귀에 따라 확률을 계산
- 테이블 형태(어떤 조합에 대해 얼마의 확률)가 아니게 됨 (연속적)
- n이 아닌 이유는 절편값도 정의해야 하기 때문임
  - 입력 데이터에 관계없이 일정하게 영향을 미치는 상수

Discriminative Models are Powerful

나이브한 베이즈 가정과 달리 독립을 가정하지 않음
- 엄청난 차이를 불러옴
- 예를 들어 “bank”가 이메일에 있는 사건( $X_{1} = 1$ )과 “account”가 있는 사건( $X_{2} = 1$ )이 있다 하자.
- 이 두 사건은 스팸과 관계없이 항상 같이 나타난다. (i.e. ( $X_{1} = X_{2}$ ))
- 그렇다면 나이브한 베이즈 가정은 사건을 double count한다!!
  - $p (X_{1} ∣ Y) = p (X_{2} ∣ Y)$
  - “bank”가 있는 것과 “account”가 있는 것 모두 동일한 사건인데 두개의 사건으로 분리, 둘 다 중요한 증거라고 생각해서 “bank”가 있을 때 스팸일 확률, “account”가 있을 때 스팸일 확률을 모두 합해서 고려하게 된다는 뜻인듯!
- 반면 로지스틱 회귀 모델에서는 $α_{1} = 0$ 으로 두거나 $α_{2} = 0$ 로 두어서 이를 무시한다.
  - 애초에 변수들 간의 상관관계를 지우지 않았기 때문에 가능

Generative models are still very useful

생성형 모델이 전혀 쓸모가 없냐하면 그건 아님

$X_{i}$ 의 일부가 관측되지 않는 경우
- 생성형 모델은 관측되지 않은 변수들을 marginalization을 통해 계산할 수 있음
  - Marginalization : 다른 변수들과의 결합 확률의 합으로 확률변수의 확률을 구하는 것
  - 예를 들어 관측되지 않은 변수 Z를 마진화하고 싶은 경우,
  - $P (Z = z) = \sum_{x} P (Z = z, X = x)$
  - 위 식을 통해 관측되지 않은 변수를 마진화 할 수 있음
    - $P (Z = z, X = x)$ 는 모델로 추정

Neural Models

신경망 모델 vs 판별 모델
Discriminative model에서는 다음을 가정한다 $p (Y = 1∣ x; α) = σ (z (α, x))$
신경망 모델은 x에 대해 비선형 변환을 수행
- $h (A, b, x)$ 가 입력 x에 대한 비선형 변환이라 가정
  - $h (A, b, x) = f (A x + b)$ (은닉층)
    - $x$ 는 입력 벡터
    - $A$ 는 가중치 행렬
    - $b$ 는 편향 백터
    - $f$ 는 비선형 활성화 함수 (ReLU, 시그모이드 등)
  - 이로부터 계산된 $h_{i}$ 을 가지고 다음과 같은 출력층을 계산

p_{Neural} (Y = 1 ∣ x; α, A, b) = σ (α_{0} + i \sum α_{i} h_{i})

이러한 여러 층을 거치면서 변환이 이뤄짐
더 유연함
더 파라미터가 많음 ( $A$ , $b$ , $α$ )

Bayesian network vs Neural models

공통적으로 Chain rule을 사용한다
- $p (x_{1}, x_{2}, x_{3}, x_{4}) = p (x_{1}) p (x_{2} ∣ x_{1}) p (x_{3} ∣ x_{2}, x_{1}) p (x_{4} ∣ x_{3}, x_{2}, x_{1})$
차이점은 조건부 확률을 근사하는 방법
- Bayes Net : 조건부 독립을 가정하여 근사
  - $p (x_{1}, x_{2}, x_{3}, x_{4}) \approx p (x_{1}) p (x_{2} ∣ x_{1}) p (x_{3} ∣ x_{1}, x_{2}) p (x_{4} ∣ x_{1}, x_{2}, x_{3})$
- Neural Model : 함수를 가정하여 근사 (조건부 확률을 함수로 근사)
  - $p (x_{1}, x_{2}, x_{3}, x_{4}) \approx p (x_{1}) p (x_{2} ∣ x_{1}) p_{Neural} (x_{3} ∣ x_{1}, x_{2}) p_{Neural} (x_{4} ∣ x_{1}, x_{2}, x_{3})$

Continuous variables

$X$ 가 연속 확률변수인 경우, 확률밀도함수(PDF) $p_{X} : R \to R^{+}$ 로 $X$ 의 분포를 나타낼 수 있다.
- Gaussian: $X \sim N (μ, σ) i f p_{X} (x) = \frac{1}{σ 2 π} e^{- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}$
- Uniform: $X \sim U (a, b) i f p_{X} (x) = \frac{1}{b - a} 1 [a \leq x \leq b]$
$X$ 가 연속 확률벡터인 경우 결합 확률밀도함수(joint PDF)로 나타낼 수 있다.
- Gaussian: $p_{X} (x) = \frac{1}{( 2 π ) ^{n} ∣Σ∣} exp (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ))$
- Chain rule, Bayes rule 등등도 적용 가능하다
  - 예를 들어 세 변수 $X, Y, Z$ 에 대한 결합 확률 밀도 함수는 다음과 같음
  - $p (X, Y, Z) = p_{X} (x) p_{Y ∣ X} (y ∣ x) p_{Z ∣ X, Y} (z ∣ x, y)$
  - 즉, 연속 확률 변수에 대해서도 Bayesian network를 사용할 수 있음

Bayesian networks with continuous variable (Example)

Mixture of 2 Gaussians

Uniform + Gaussian

Variational autoencoder

Factorization (인자 분해)

Joint Probability에서 변환하는 방법 $P (A, B) = P (A ∣ B) P (B)$ $P (A, B, C) = P (A, B ∣ C) P (C)$ $P (A, B, C) = P (A ∣ B, C) P (B, C)$ $P (A, B, C) = P (A ∣ B, C) P (B ∣ C) P (C)$

ಣ ᴄᴏᴍᴘᴜᴛᴇʀ ᴄɪᴛʏ ഒ

Explorer

GenAI 01 - Representations

Learning a generative model

Example

Basic Discrete Distributions

Bernoulli distribution

Categorical distribution

Joint distribution

Example of joint distribution

Structure through independence?

Structure through conditional independence!

Bayes Network

General Idea

Bayesian networks

Naive Bayes for single label prediction

Discriminative vs Generative

1. Generative: $p (X_{i} ∣ X_{p a (i)}, Y)$ 를 어떻게 매개변수화 할 것인가?

2. Discriminative: $p (Y ∣ X)$ 를 어떻게 매개변수화할 것인가?

Discriminative Models are Powerful

Generative models are still very useful

Neural Models

Bayesian network vs Neural models

Continuous variables

Bayesian networks with continuous variable (Example)

Mixture of 2 Gaussians

Uniform + Gaussian

Variational autoencoder

Graph View

Table of Contents

Backlinks

ಣ ᴄᴏᴍᴘᴜᴛᴇʀ ᴄɪᴛʏ ഒ

Explorer

GenAI 01 - Representations

Learning a generative model

Example

Basic Discrete Distributions

Bernoulli distribution

Categorical distribution

Joint distribution

Example of joint distribution

Structure through independence?

Structure through conditional independence!

Bayes Network

General Idea

Bayesian networks

Naive Bayes for single label prediction

Discriminative vs Generative

1. Generative: p(Xi​∣Xpa(i)​,Y)를 어떻게 매개변수화 할 것인가?

2. Discriminative: p(Y∣X)를 어떻게 매개변수화할 것인가?

Discriminative Models are Powerful

Generative models are still very useful

Neural Models

Bayesian network vs Neural models

Continuous variables

Bayesian networks with continuous variable (Example)

Mixture of 2 Gaussians

Uniform + Gaussian

Variational autoencoder

Graph View

Table of Contents

Backlinks

1. Generative: $p (X_{i} ∣ X_{p a (i)}, Y)$ 를 어떻게 매개변수화 할 것인가?

2. Discriminative: $p (Y ∣ X)$ 를 어떻게 매개변수화할 것인가?