큰 구분에서 모델을 두 부류로 나누자면 아래와 같이 볼 수 있다.
- 회귀 모델 (https://walkingfox.tistory.com/223)
- 분류 모델
회귀모델의 경우 평균제곱근 오차(RMSE) 를 사용하지만,
분류모델의 경우는 confusion_matrix 를 이용하여 정확도(accuracy), 정밀도(precision), 재현율(recall), F1 등을 이용한다.
1. Confusion_Matrix
오차행열이라고 하며, 실제 데이터의 값과 모델이 예측한 값의 표라고 볼 수 있다.
2. Accuracy
정확도라고 하며, 오차행열의 4가지 경우 중에서 정확히 양성 그리고 음성을 맟춘 비율을 이다.
3. Precision
정밀도라고 하며, 양성이라고 예측한 부분 중 실제 양성인 부분에 대한 비율이다.
FP 는 실제로는 음성이지만 양성으로 예측한 부분으로 type 2 오류에 해당하는 부분이다.
즉, type 2 오류가 크다면 정밀도는 작아지게 된다.
4. Recall
재현율이라고 하며, 실제 양성인 데이터 중에서 양성이라고 예측한 부분의 비율이다.
FN은 실제로는 양성이지만 음성으로 예측한 부분으로 type 1 오류에 해당하는 부분이다.
즉, type 1 오류가 크다면 재현율을 작아진다.
5. F1 Score
F1 스코어는 정밀도(precision) 과 재현율(recall) 의 조화평균 값으로, 한쪽으로 치우져진 데이터의 경우 정밀도와 재현율의 비대칭적인 부분을 보완하여 볼 수 있는 지표이다.
'분석 > 데이터분석' 카테고리의 다른 글
회귀모델의 성과 측정 (0) | 2024.05.22 |
---|---|
Recursive Query (재귀쿼리) (0) | 2024.03.12 |
[SQL] 월별로 잔존타입별 고객수 계산 (0) | 2024.01.25 |
[BigQuery] 연속된 일자 생성하기 (0) | 2023.10.10 |
[BigQuery] datetime 과 timestamp 의 차이점 ? (0) | 2023.08.25 |