-
멋쟁이사자처럼 머신러닝 복습 3 (K-MOOC)카테고리 없음 2022. 11. 22. 13:08
K-Nearest Neighbors(KNN)
- 가장 다수에 속하는 클래스로 분류해주는 방법
- 거리를 기반으로 하기 때문에 Distance-based model이다.
- 개별 instance들에 대해서 특성들을 공유할 것이라는 가정을 기반에 두기 때문에 instance-based learning이라고 표현하기도 한다.
- 예시) K가 3일때 이웃들의 Distance을 계산해보고 가장 가까운 3명의 데이터를 선정, 선정된 데이터를 분석했을 때 Class B가 2, Class A가 1이라면 K=3일 때는 Class B로 분류 (다수결로 결정)
- K에 따라서 분류 결과가 달라지기 때문에 K가 Hyperparameter가 된다.
- K가 크면 클수록 주위에 더 많은 사례들을 보기 때문에 모델이 좀 더 단순하고 평탄화된 모습을 보여준다.
- K가 작으면 작을수록 미세한 주변의 패턴들을 보기 때문에 모델이 복잡한 모습을 보여준다.
- 빅데이터에 대해서 적용하기에 어려움이 있을 수 있다.
- 거리에도 종류가 있는데 가장 대표적인 게 Euclidean Distance이며, 외에도 Manhattan Distance, 좀 더 일반화된 Mankowski Distance등이 있다.
Logistic Regression
- Logistic Regression은 선형회귀모형의 Classification 버전이라고 생각하면 된다.
- Logistic function을 활용하는 Linear Regression 모델
- 최종적인 결과물을 분류확률로 표현해주는 모델
- 로지스틱 회귀분석을 위한 종속변수는 이분형으로 0 또는 1의 값을 가지고, 독립변수는 범주형 또는 연속형 모두 가능하다.
- 분석결과 종속변수 값, 즉 확률이 0.5보다 크면 그 사건이 일어나며, 0.5보다 작으면 그 사건이 일어나지 않는 것으로 예측한다.