인공신경망(Artificial Neural Network, ANN)은 결국 하나의 함수로 볼 수 있습니다. 이 함수 ff는 다양한 weight와 bias, 즉 파라미터들로 구성된 함수이며, 입력 x가 주어졌을 때 출력은 f가 됩니다. 즉, 신경망은 파라미터화된(parameterized) 함수로서, 주어진 입력에 대해 적절한 출력을 내는 함수 f_w(x)를 학습합니다.
예를 들어 수학에서 x→f→x2처럼, 어떤 입력 x가 함수 를 통해 로 변환되는 것처럼, 신경망도 입력 x를 받아 출력합니다.
이때 출력된 는 정답 레이블 y에 대한 확률 분포, 즉 조건부 확률 분포 p(y∣fw(x))을 따르게 됩니다. 이 확률 분포를 어떻게 모델링하느냐에 따라 신경망의 출력 해석이 달라집니다.
예를 들어 이진 분류 문제에서는 정답 분포를 베르누이(Bernoulli) 분포로 가정하고, 신경망의 출력을 q라 할 때, likelihood는 다음과 같이 표현됩니다:
p(y|x) = q^y (1 - q)^{1 - y}
반면, 회귀 문제의 경우 정답 분포를 가우시안(정규 분포)으로 가정하고, 신경망의 출력을 평균 정규분포의 식을 따릅니다:
베르누이냐 가우시안이냐에 따라 likelihood 함수의 형태는 달라지지만, 핵심은 동일합니다. 인공신경망은 **이 조건부 확률을 최대화하는 파라미터 w를 찾는 것이 목표입니다. 즉, likelihood를 최대화하는 파라미터를 찾는 MLE(Maximum Likelihood Estimation) 기계인 셈입니다.
이때 최적화의 편의를 위해 우리는 일반적으로 -log likelihood, 즉 음의 로그 가능도(Negative Log-Likelihood)를 사용하며, 이를 최소화하는 방향으로 학습합니다.
결국 신경망 학습은 확률적 모델링을 기반으로 한 최적화 문제라고 이해할 수 있습니다
[ 입력 x ]
│
▼
┌────────────┐
│ 인공신경망 │ ⇒ 함수 f_w(x)
│ (파라미터 w, b) │ (weight, bias로 구성된 함수)
└────────────┘
│
▼
[ 출력 f_w(x) ]
│
▼
[ 조건부 확률 분포 p(y | f_w(x)) ]
│ │
▼ ▼
[ 분류 문제 ] [ 회귀 문제 ]
→ Bernoulli → Gaussian
p(y|x) = q^y p(y|x) = N(y; f_w(x), σ^2)
(1-q)^(1-y)
↓
Likelihood L(w)
↓
┌────────────────────────────┐
│ MLE (최대우도추정) │
│ w* = argmax L(w) │
│ = argmin -log L(w) │
└────────────────────────────┘
.
'IT 프로그래밍 > AI' 카테고리의 다른 글
다중분류 이진분류 요약 (0) | 2025.03.30 |
---|---|
[Loss function] MSE vs log-likelihood (0) | 2025.03.30 |
[딥러닝] 기본적 개념 정리 (0) | 2025.03.24 |
[Pytorch] BMM, Layer, Activation Function (0) | 2025.03.24 |
파이토치의 구성요소 (0) | 2025.03.19 |