머신러닝의 정의
Artgyr Samuel(1959)
명시적으로 프로그래밍하지 않아도 컴퓨터가 학습할 수 있는 능력을 부여하는 연구 분야
ex) 1950년대의 체커 게임 프로그램
머신러닝의 두 가지 유형
지도학습
x - > y
input - > output label
주어진 입력 x에 대해 올바른 y의 정답을 입력하고 학습 알고리즘이 결국 출력값을 합리적으로 예측하거나 추측할 수 있도록 하는 것입니다.
즉 예를들면 input이 audio라면 output이 text transcripts 라면 speech regcognition이 됩니다. 정답이 포함된 데이터로 모델을 학습시키는 방식입니다. 데이터는 입력과 출력으로 구성되어 목표는 새로운 입력 데이터에 대해 올바른 출력을 예측할 수 있도록 모델을 훈련하는 것입니다.
회귀 알고리즘
연속적인 숫자를 예측하는 데 사용되는 기법입니다. 독립변수와 종속변수간의 관계를 모델링하고 이를 통해 새로운 입력에 대한 출력을 예측하는 것입니다.
분류 알고리즘
범주를 예측합니다. 범주는 숫자일 필요가 없습니다. 예를들어 사진이 고양이 사진인지 개 사진인지 예측하는 경우를 말합니다. 혹은 종양이 양성인지 음성인지를 예측하는 것입니다. 0, 1 혹은 0, 1, 2 같은 숫자일 수 있습니다.
하지만 숫자를 해석할 때 분류와 회귀의 다른 점은 0,1,2 같은 가능한 출력 범주의 작고 유한한 제한된 집합을 예측하지만 0.5 .또는 1.7의 사이에 가능한 모든 숫자를 예측하지 않는다는 것입니다.
즉 분류는 범주 고양이가 0으로 두고 개가 1로 두는 이 범의 제한된 집합에서 선택되는 것입니다.
분류 알고리즘에서 예측 결과가 제한된 범주 중 하나여야 합니다. "개" 혹은 "고양이" 처럼 말이죠. 하지만 회귀 알고리즘은 결과가 연속적인 숫자 값으로 나올 수 있으며, 두 값 사이에 있는 모든 실수도 가능하다는 점에서 차이가 있습니다. 회귀는 즉 예측 결과가 숫자 범위 내에서 어떤 값이든 될 수 있도록 하는 것입니다.
비지도학습
머신러닝에서 정답(label) 없이 데이터를 학습하는 방식입니다. 즉 입력 데이터가에 대한 출력 또는 목표 값이 주어지지 않고 모델은 데이터 내의 패턴, 구조 또는 관계를 스스로 발견하게 됩니다. 비지도학습은 주로 데이터를 분류하거나 군집화하는데 사용되며, 데이터의 분포나 숨겨진 구조를 찾는데 유용합니다.
클러스터링 알고리즘
유사한 데이터 포인터들을 그룹으로 묶는 비지도학습의 한 기법입니다. 데이터를 여러 개의 클러스터(군집)으로 나누는 것입니다. 각 클러스터는 내부의 데이터들이 서로 비슷하고, 다른 클러스터와는 차이가 나는 특성을 가집니다.
이상 탐지
사기 탐지 같은 비정상적인 것 검출하는 것 즉 일반적인 패턴이나 규칙과는 다른 비정상적인 데이터 포인트(이상치)를 식별하는 방법입니다.
차원 축소
큰 데이터를 가져와 최대한 적게 손실하는 것 즉, 고차원 데이터를 더 낮은 차원으로 변환하여 데이터의 복잡성을 줄이면서 중요한 정보를 유지하는 방법입니다. 데이터가 매우 많은 특성을 가질 때, 이 차원들이 상관관계가 있거나 중복된 정보를 포함할 수 있습니다. 차원 축소는 불필요한 차원을 제거하고, 데이터의 중요한 특징만을 남겨 분석을 더 쉽게 하거나 시각화를 도와줍니다.
'IT 프로그래밍 > AI' 카테고리의 다른 글
Bokeh를 이용한 대화형 웹 시각화 (4) | 2024.09.08 |
---|---|
seaborn의 Jointplot 코드 사용 (0) | 2024.09.08 |
선형 회귀 가중치 w와 비용함수 관계 시각화코드 (0) | 2024.09.03 |
Hypothesis and Cost (0) | 2024.09.03 |
머신러닝의 이해 (0) | 2024.09.03 |