IT 프로그래밍/AI

인공신경망은 MLE 기계

기술1 2025. 3. 30. 14:48

인공신경망(Artificial Neural Network, ANN)은 결국 하나의 함수로 볼 수 있습니다. 이 함수 ff는 다양한 weight와 bias, 즉 파라미터들로 구성된 함수이며, 입력 x가 주어졌을 때 출력은 f가 됩니다. 즉, 신경망은 파라미터화된(parameterized) 함수로서, 주어진 입력에 대해 적절한 출력을 내는 함수 f_w(x)를 학습합니다.

 

예를 들어 수학에서 x→f→x2처럼, 어떤 입력 x가 함수 를 통해 로 변환되는 것처럼, 신경망도 입력 x를 받아 출력합니다.

 

이때 출력된 는 정답 레이블 y에 대한 확률 분포, 즉 조건부 확률 분포 p(y∣fw(x))을 따르게 됩니다. 이 확률 분포를 어떻게 모델링하느냐에 따라 신경망의 출력 해석이 달라집니다.

 

예를 들어 이진 분류 문제에서는 정답 분포를 베르누이(Bernoulli) 분포로 가정하고, 신경망의 출력을 q라 할 때, likelihood는 다음과 같이 표현됩니다:

p(y|x) = q^y (1 - q)^{1 - y}

 

반면, 회귀 문제의 경우 정답 분포를 가우시안(정규 분포)으로 가정하고, 신경망의 출력을 평균 정규분포의 식을 따릅니다:

 

베르누이냐 가우시안이냐에 따라 likelihood 함수의 형태는 달라지지만, 핵심은 동일합니다. 인공신경망은 **이 조건부 확률을 최대화하는 파라미터 w를 찾는 것이 목표입니다. 즉, likelihood를 최대화하는 파라미터를 찾는 MLE(Maximum Likelihood Estimation) 기계인 셈입니다.

 

이때 최적화의 편의를 위해 우리는 일반적으로 -log likelihood, 즉 음의 로그 가능도(Negative Log-Likelihood)를 사용하며, 이를 최소화하는 방향으로 학습합니다. 

 

결국 신경망 학습은 확률적 모델링을 기반으로 한 최적화 문제라고 이해할 수 있습니다

 

    [ 입력 x ]
        │
        ▼
 ┌────────────┐
 │ 인공신경망 │        ⇒     함수 f_w(x)
 │  (파라미터 w, b) │     (weight, bias로 구성된 함수)
 └────────────┘
        │
        ▼
 [ 출력 f_w(x) ]
        │
        ▼
 [ 조건부 확률 분포 p(y | f_w(x)) ]
     │                      │
     ▼                      ▼
[ 분류 문제 ]         [ 회귀 문제 ]
→ Bernoulli           → Gaussian
  p(y|x) = q^y          p(y|x) = N(y; f_w(x), σ^2)
             (1-q)^(1-y)

        ↓
 Likelihood L(w)
        ↓
 ┌────────────────────────────┐
 │ MLE (최대우도추정)        │
 │ w* = argmax L(w)           │
 │     = argmin -log L(w)     │
 └────────────────────────────┘

.

'IT 프로그래밍 > AI' 카테고리의 다른 글

다중분류 이진분류 요약  (0) 2025.03.30
[Loss function] MSE vs log-likelihood  (0) 2025.03.30
[딥러닝] 기본적 개념 정리  (0) 2025.03.24
[Pytorch] BMM, Layer, Activation Function  (0) 2025.03.24
파이토치의 구성요소  (0) 2025.03.19