- How to learn it
Setting
- 도메인이 governed by some underlying 분포 라고 가정
KL-divergence
두 분포 사이의 거리를 측정하는 기본 아이디어
- Asymmetric
Expected log-likelihood (중요)
여기 expectation은 xp(x)의 합이어야 하지 않나? 갑자기 expectation으로 바꿔서 쓰구 그게 엄청 중요한 부분 같아보임. 저 notation이 뭔가 다른걸 의미하는듯 _E__x_∼_P_data[log P__θ(x)] 가 D(Pdata|Ptheta) 랑 proportional이라는데 이해가 안댄당.
모든 샘플이 등장할 확률이 같다고 가정 오토리그레시브 마지막 부분은 하나의 이미지 quantifying, 15페이지는 모든 이미지의 likelihood 계산 (여기서의 x는 하나의 이미지, 예전에는 픽셀) sum of log == mul →
Monte Carlo Estimation
-
likelihood의 monte carlo estimation을 한것이나 마찬가지라는 그런 이야기
-
Unbiased:
- : 의 estimation
-
Convergence: 큰 수의 법칙에 따라
- 에 대해,
- 샘플 많은 것이 중요
-
Variance
- 이게 중요
- Sample 수가 적으면 높고, 많으면 작을 것
- 샘플 많은 것이 중요
MLE scoring for the coin example
- 앞면이 나올 확률
- 뒷면이 나올 확률
- 데이터셋이 라고 할 때,
- Likelihood of data =
- 이를 그래프로 나타나면
- 세타에 따라 가능한 모든 likelihood가 나온다
- 0.6쯤이 가장 커보이네요
- 이를 그래프로 나타나면
-
Quiz: What is the solution in this case?
- 다음시간에 설명해주신다고…
- 헉 시험에 나올수도 있다고
- 힌트는 다음페이지에
- simple convex function이다
- 로그를 취한다음… 미분하면 됨
Extending the MLE principle to autoregressive models
- theta만 있을 때는 간단
- 이제 뉴럴 네트워크 파라미터로 가보자. 파라미터가 존내많음
- weight parameter가 theta가 된다고 함
- Training data D에서는 x가 이미지이고 위에 맨 첫 수식은 i=1 이게 픽셀이라 함.
- 위에 붙는건 이미지 밑에가 픽셀
- We no longer have a closed form solution
- 불가능. 복잡해서 → Gradient descent