• How to learn it

Setting

  • 도메인이 governed by some underlying 분포 라고 가정

KL-divergence

두 분포 사이의 거리를 측정하는 기본 아이디어

  • Asymmetric

Expected log-likelihood (중요)

여기 expectation은 xp(x)의 합이어야 하지 않나? 갑자기 expectation으로 바꿔서 쓰구 그게 엄청 중요한 부분 같아보임. 저 notation이 뭔가 다른걸 의미하는듯 _E__x_∼_P_data[log P__θ(x)] 가 D(Pdata|Ptheta) 랑 proportional이라는데 이해가 안댄당.

모든 샘플이 등장할 확률이 같다고 가정 오토리그레시브 마지막 부분은 하나의 이미지 quantifying, 15페이지는 모든 이미지의 likelihood 계산 (여기서의 x는 하나의 이미지, 예전에는 픽셀) sum of log == mul

Monte Carlo Estimation

  • likelihood의 monte carlo estimation을 한것이나 마찬가지라는 그런 이야기

  • Unbiased:

    • : 의 estimation
  • Convergence: 큰 수의 법칙에 따라

    • 에 대해,
    • 샘플 많은 것이 중요
  • Variance

    • 이게 중요
    • Sample 수가 적으면 높고, 많으면 작을 것
    • 샘플 많은 것이 중요

MLE scoring for the coin example

  • 앞면이 나올 확률
  • 뒷면이 나올 확률
  • 데이터셋이 라고 할 때,
  • Likelihood of data =
    • 이를 그래프로 나타나면
    • 세타에 따라 가능한 모든 likelihood가 나온다
    • 0.6쯤이 가장 커보이네요
  • Quiz: What is the solution in this case?

    • 다음시간에 설명해주신다고…
    • 헉 시험에 나올수도 있다고
    • 힌트는 다음페이지에
      • simple convex function이다
      • 로그를 취한다음… 미분하면 됨

Extending the MLE principle to autoregressive models

  • theta만 있을 때는 간단
  • 이제 뉴럴 네트워크 파라미터로 가보자. 파라미터가 존내많음
  • weight parameter가 theta가 된다고 함
  • Training data D에서는 x가 이미지이고 위에 맨 첫 수식은 i=1 이게 픽셀이라 함.
    • 위에 붙는건 이미지 밑에가 픽셀
  • We no longer have a closed form solution
    • 불가능. 복잡해서 Gradient descent