피처 스케일링이란 서로 범위가 다른 변수(피처)들의 스케일을 일치시켜주는 작업을 말한다.
예를 들면 아래와 같이 x1, x2, x3의 범위나 분포를 같은 규격으로 맟춰주는 작업인데,
거리를 기반으로 하는 모델에서는 스케일이 맞지 않으면 좋지 않은 성과를 나타내게 되기 때문이다.
여기서는 두 가지 방법을 소개해보고자 한다.
1. min-max 정규화 : 최소값을 0 최대값을 1로 정규화 한다.
2. standardization 정규화 : 평균을 0 표준편차를 1로 표준화한다.
아래와 같은 테이블이 있다고 하면,
import pandas as pd
height_weight_dict = {'키':[1.7, 1.4, 1.9], '무게':[60, 50, 70]}
df = pd.DataFrame(height_weight_dict, index=['김', '이', '박'])
정규화는 아래와 같이 python 으로 구현할 수 있다.
from sklearn.preprocessing import MinMaxScaler, StandardScaler
min_max_scaler = MinMaxScaler()
std_scaler = StandardScaler()
df_min_max_scaled = min_max_scaler.fit_transform(df)
df_std_scaled = std_scaler.fit_transform(df)
'분석 > 데이터분석' 카테고리의 다른 글
[BigQuery] 최신의 데이터를 가져오는 3 가지 방법 (0) | 2024.12.09 |
---|---|
그룹별로 랜덤 sampling 하기 (0) | 2024.08.27 |
머신러닝에서 인코딩 방법 (0) | 2024.05.22 |
회귀모델의 성과 측정 (0) | 2024.05.22 |
Recursive Query (재귀쿼리) (0) | 2024.03.12 |