본문 바로가기

분석/파이썬 Python9

앙상블 학습에서 Voting 간단한 예를 통해서 LogisticRegrerssion , KNN 두 개별모델의 성과와 두 모델의 Voting 을 통한 성과를 본다.  여러 분류학습기(estimators)들을 생성하고 예측을 결합하여,단일 분류기가 가진 것보다 더 나은 예측결과를 도출하기 위한 기법을 말한다.넓은 의미로 앙상블 학습은 서로 다른 모델을 결합한 것을 얘기하기도 한다.앙상블 학습의 유형으로 보팅 voting, 배깅 bagging, 부스팅, boosting, 스태킹 stacking 등이 있다.   In [ ]:from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import VotingClassifierfrom sklearn.linear_model impo.. 2024. 8. 28.
Python : 기간의 시작, 끝 날짜 구하기 오늘 날짜 또는 특정 날짜를 기준을 "전 주" 또는 "전 달"의 시작, 끝 날짜를 구해야하는 경우가 있습니다.예를 들면 매주 월요일에 전 주의 데이터를 가져와서 계산을 한다거나 등의 경우에 말이죠. 이 때 사용할 수 있는 몇 가지 경우의 코드를 작성해보았습니다. 12345678910111213141516171819202122232425262728293031323334353637383940414243444546import datetimefrom dateutil.relativedelta import relativedelta the_date = datetime.date.today()# the_date = datetime... 2024. 7. 13.
Python : 문자열안의 특정 부분을 변수치환 python 에서 문자열의 특정 부분을 치환하는 몇 가지 방법을 적어려고 한다. 1. 변수 포맷을 이용하는 방법 변수포맷은 아래와 같다 %s : 문자열 %c : 문자 %d : 정수 %f : 실수 아래와 같은 방법으로 string 안에 %s 라는 부분을 특정 변수로 치환할 수 있다. 2. format 함수 사용 이 경우, 변수의 타입을 명시하지 않아도 된다. 아래와 같이 사용할 수 있으며, {0}, {1} 과 같은 부분이 format 안의 인자와 차례로 매칭 치환된다. 3. f문자열 포맷 사용 문자열 앞에 f 를 붙이면 중괄호와 변수이름으로 치환을 할 수 있다. 아래의 예를 참고하자. 2024. 4. 18.
Python : 순열검정 (비모수) 두 집단의 평균을 비교하는 방법에는 크게는 모수적 방법과 비모수적 방법이 있다.여기서 모수적 방법이란 모집단이 정규분포를 한다는 가정하에, 평균과 분산같은 통계량을 이용하여 계산되는 방식이며비모수적 방법이란 모집단의 분포와 관계없이 계산하는 방식을 말한다. 아래에 python sample code 를 소개하고자 한다. Colab에서 실행된 결과는 아래의 링크에서도 확인할 수 있다.https://colab.research.google.com/drive/1GOBBNP13if2PotGpUXgwiqcVQR8JjbmZ#scrollTo=uhPCOt8ii7YJ# -*- coding: utf-8 -*-"""Permutation Test.ipynbAutomatically generated by Colaboratory.O.. 2024. 1. 27.
Python : 위도.경도로 TimeZone 구하기 Python에서 위도와 경도 값으로 TimeZone 구하기 먼저 'timezonefinder' 라는 패키지를 설치하여야 한다. pip install timezonefinder 사용법은 아래와 같이 간단하다. from timezonefinder import TimezoneFinder tf = TimezoneFinder() latitude, longitude = 52.5061, 13.358 tf.timezone_at(lng=longitude, lat=latitude) # returns 'Europe/Berlin' * 만일 아래와 같이 DataFrame에 위.경도의 값이 있다고 하면 from timezonefinder import TimezoneFinder my_func = TimezoneFinder().ti.. 2020. 3. 10.
python : pd.to_numeric() VS astype(np.float64) import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(10**5, 10**7, (5,3)), columns=list('abc'), dtype=np.int64) df a b c 0 2368596 282593 7649457 1 6486779 5348256 790672 2 8468404 4682970 2904873 3 2271514 2908642 9272301 4 7811256 3652968 6715015 df.dtypes a int64 b int64 c int64 dtype: object df['a'] = df['a'].astype(float) df.dtypes a float64 b int64 c int64 dtype: obje.. 2019. 11. 27.
Python : Seaborn Visualization import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 데이터셋 iris = sns.load_dataset('iris') titanic = sns.load_dataset('titanic') tips = sns.load_dataset('tips') flights = sns.load_dataset('flights') x = iris.petal_length.values sns.rugplot(x) sns.kdeplot(x) sns.distplot(x, rug=True, kde=True, bins=50) plt.hist(x, bins=50) (array([ 2., 2., 7., 13., 13., 11.. 2019. 11. 25.
Python : Pandas Visualization pandas의 plot은 내부적으로 matplotlib.pyplot을 이용한다. import numpy as np import pandas as pd import matplotlib.pyplot as plt df1 = pd.DataFrame(np.random.randn(100, 3), index=pd.date_range('1/1/2019', periods=100), columns=['A', 'B', 'C']).cumsum() df1 A B C 2019-01-01 -0.896370 -1.962732 1.584821 2019-01-02 -0.248402 -3.101740 0.370419 2019-01-03 0.622560 -3.979711 1.666569 2019-01-04 1.239019 -3.443114.. 2019. 11. 25.
Python : timedelta(months=3) 방법 Python에서 사용할 수 있는 시간의 차이에 관련된 모듈은 datetime.timedelta 가 있습니다.아래와 같이 사용할 수 있습니다.import datetime as dt now = dt.datetime.now()delta = dt.timedelta(hours=3)diff = now - delta 이 모듈에서 사용할 수 있는 옵션은 dayshourssecondsweeks 등이 있지만, months, years를 사용할 수는 없습니다. 그 대안으로 사용할 수 있는 모듈이 relativedelta 라는 모듈입니다.그리고 그 사용은 아래와 같습니다.from dateutil.relativedelta import relativedeltaimport datetime as dt now = dt.datetime.. 2019. 11. 12.