본문 바로가기

ML3

피처 스케일링 (Feature Scaling) 피처 스케일링이란 서로 범위가 다른 변수(피처)들의 스케일을 일치시켜주는 작업을 말한다. 예를 들면 아래와 같이 x1, x2, x3의 범위나 분포를 같은 규격으로 맟춰주는 작업인데,거리를 기반으로 하는 모델에서는 스케일이 맞지 않으면 좋지 않은 성과를 나타내게 되기 때문이다. 여기서는 두 가지 방법을 소개해보고자 한다. 1. min-max 정규화 : 최소값을 0 최대값을 1로 정규화 한다.2. standardization 정규화 : 평균을 0 표준편차를 1로 표준화한다. 아래와 같은 테이블이 있다고 하면,import pandas as pdheight_weight_dict = {'키':[1.7, 1.4, 1.9], '무게':[60, 50, 70]}df = pd.DataFrame(height_weight_d.. 2024. 5. 22.
머신러닝에서 인코딩 방법 머신러닝 모델은 문자 데이터를 인식하지 못합니다.그렇기 때문에 문자로 구성된 데이터를 숫자형태로 바꿔줘야하는데 이를 인코딩이라고 합니다. 인코딩은 아래와 같이 두 종류가 있습니다.1. Label Encoding (레이블 인코딩) : 원본 데이터의 값에 사전순으로 번호를 매깁니다.2. One-Hot Encoding (원-핫 인코딩) : 여러 값 중에 하나(one)만 활성화(hot)하는 방법입니다. 위 두 방식을 python 코드로 구현해보겠습니다. 1. Label Encoding from sklearn.preprocessing import LabelEncoderfruits = ['apple', 'orange', 'banana', 'pear', 'apple', 'banana', 'orange', 'apple.. 2024. 5. 22.
분류모델의 성과 측정 큰 구분에서 모델을 두 부류로 나누자면 아래와 같이 볼 수 있다.회귀 모델 (https://walkingfox.tistory.com/223)분류 모델회귀모델의 경우 평균제곱근 오차(RMSE) 를 사용하지만, 분류모델의 경우는 confusion_matrix 를 이용하여 정확도(accuracy), 정밀도(precision), 재현율(recall), F1 등을 이용한다. 1. Confusion_Matrix오차행열이라고 하며, 실제 데이터의 값과 모델이 예측한 값의 표라고 볼 수 있다.2. Accuracy정확도라고 하며, 오차행열의 4가지 경우 중에서 정확히 양성 그리고 음성을 맟춘 비율을 이다.3. Precision정밀도라고 하며, 양성이라고 예측한 부분 중 실제 양성인 부분에 대한 비율이다.FP 는 실제로는.. 2024. 2. 23.