본문 바로가기
분석/데이터분석

분류모델의 성과 측정

by 여우요원 2024. 2. 23.

큰 구분에서 모델을 두 부류로 나누자면 아래와 같이 볼 수 있다.

회귀모델의 경우 평균제곱근 오차(RMSE) 를 사용하지만, 

분류모델의 경우는 confusion_matrix 를 이용하여 정확도(accuracy), 정밀도(precision), 재현율(recall), F1 등을 이용한다.

 


1. Confusion_Matrix

오차행열이라고 하며, 실제 데이터의 값과 모델이 예측한 값의 표라고 볼 수 있다.

2. Accuracy

정확도라고 하며, 오차행열의 4가지 경우 중에서 정확히 양성 그리고 음성을 맟춘 비율을 이다.

3. Precision

정밀도라고 하며, 양성이라고 예측한 부분 중 실제 양성인 부분에 대한 비율이다.

FP 는 실제로는 음성이지만 양성으로 예측한 부분으로 type 2 오류에 해당하는 부분이다.

즉, type 2 오류가 크다면 정밀도는 작아지게 된다.

4. Recall

재현율이라고 하며, 실제 양성인 데이터 중에서 양성이라고 예측한 부분의 비율이다.

FN은 실제로는 양성이지만 음성으로 예측한 부분으로 type 1 오류에 해당하는 부분이다.

즉, type 1 오류가 크다면 재현율을 작아진다.

5. F1 Score

F1 스코어는 정밀도(precision) 과 재현율(recall) 의 조화평균 값으로, 한쪽으로 치우져진 데이터의 경우 정밀도와 재현율의 비대칭적인 부분을 보완하여 볼 수 있는 지표이다.