본문 바로가기

전체 글179

Python : 문자열안의 특정 부분을 변수치환 python 에서 문자열의 특정 부분을 치환하는 몇 가지 방법을 적어려고 한다. 1. 변수 포맷을 이용하는 방법 변수포맷은 아래와 같다 %s : 문자열 %c : 문자 %d : 정수 %f : 실수 아래와 같은 방법으로 string 안에 %s 라는 부분을 특정 변수로 치환할 수 있다. 2. format 함수 사용 이 경우, 변수의 타입을 명시하지 않아도 된다. 아래와 같이 사용할 수 있으며, {0}, {1} 과 같은 부분이 format 안의 인자와 차례로 매칭 치환된다. 3. f문자열 포맷 사용 문자열 앞에 f 를 붙이면 중괄호와 변수이름으로 치환을 할 수 있다. 아래의 예를 참고하자. 2024. 4. 18.
Recursive Query (재귀쿼리) 아래의 쿼리는 mysql 8.x 버젼대에서 실행한 내용입니다. (recursive 쿼리를 지원하는) 1. 테이블 생성 HTML 삽입 미리보기할 수 없는 소스 위 코드를 실행하면 sample 데이터를 생성할 수 있으며, 그 데이터는 아래의 구조를 나타낸 데이터입니다. 2. 하향탐색 재귀쿼리 (기준 node 에서 아래 방향으로 탐색) HTML 삽입 미리보기할 수 없는 소스 -- start 부분에서는 하향검색을 시작할 노드를 설정하는 부분이다. -- repeat 부분에서는 위에서 설정한 초기 값이 재쿼리의 타이틀인 find_division 에 들어가고 그 값을 기준으로 다시 division 을 조인한다. division 테이블이 하위 코드를 탐색하게 되는 테이블이라 d.upper_division_code 를.. 2024. 3. 12.
분류모델의 성과 측정 큰 구분에서 모델을 두 부류로 나누자면 아래와 같이 볼 수 있다. 회귀 모델 분류 모델 회귀모델의 경우 평균제곱근 오차(RMSE) 를 사용하지만, 분류모델의 경우는 confusion_matrix 를 이용하여 정확도(accuracy), 정밀도(precision), 재현율(recall), F1 등을 이용한다. 1. Confusion_Matrix 오차행열이라고 하며, 실제 데이터의 값과 모델이 예측한 값의 표라고 볼 수 있다. 2. Accuracy 정확도라고 하며, 오차행열의 4가지 경우 중에서 정확히 양성 그리고 음성을 맟춘 비율을 이다. 3. Precision 정밀도라고 하며, 양성이라고 예측한 부분 중 실제 양성인 부분에 대한 비율이다. FP 는 실제로는 음성이지만 양성으로 예측한 부분으로 type 2 .. 2024. 2. 23.
한 컴퓨터에서 여러개의 Github 계정 설정 이 작업은 아래의 다섯 단계를 통해서 수행할 수 있다. Steps: Step 1 : 모든 계정에 대해서 ssh 키 파일 만들기. Step 2 : ssh 키 파일을 ssh-agent 에 등록하기. Step 3 : ssh 퍼블릭 키를 깃허브에 등록하기. Step 4 : config 파일을 만들고 계정의 항목 설정하기. Step 5 : 각 계정의 repository 를 클론하기. Step 1 모든 계정에 대해서 ssh 키 파일 만들기. 첫째로, .ssh 폴더로 이동한다. cd ~/.ssh 둘째로, ssh 키 파일을 만드는 규칙은 다음과 같다. ssh-keygen -t rsa -C "your-email-address" -f "github-username" -C 뒤에 있는 your-email-address 자리에.. 2024. 2. 15.
[Python] 순열검정 (비모수) 두 집단의 평균을 비교하는 방법에는 크게는 모수적 방법과 비모수적 방법이 있다. 여기서 모수적 방법이란 모집단이 정규분포를 한다는 가정하에, 평균과 분산같은 통계량을 이용하여 계산되는 방식이며 비모수적 방법이란 모집단의 분포와 관계없이 계산하는 방식을 말한다. 아래에 python sample code 를 소개하고자 한다. Colab에서 실행된 결과는 아래의 링크에서도 확인할 수 있다. https://colab.research.google.com/drive/1GOBBNP13if2PotGpUXgwiqcVQR8JjbmZ#scrollTo=uhPCOt8ii7YJ # -*- coding: utf-8 -*- """Permutation Test.ipynb Automatically generated by Colabora.. 2024. 1. 27.
[SQL] 월별로 잔존타입별 고객수 계산 아래와 같은 테이블이 있다고 가정하고, -- 테이블 명세 : tbl_order customer_id : 고객 아이디 (int) order_date : 주문일자 (date) order_id : 주문번호 (int) order_price : 주문금액 (int) 계산하려고 하는 것은 아래의 고객 타입별 고객 수입니다. -- 이번달 구매한 고객 신규고객 : 이번달 첫구매한 고객 잔존고객 : 전월과 이번달 구매한 고객 귀환고객 : 신규고객이 아니면서, 전월 구매하지 않은 고객이 이번달 구매한 고객 -- 이번달 구매하지 않은 고객 이탈고객 : 전월 구매한 고객이 이번달 구매하지 않은 고객 HTML 삽입 미리보기할 수 없는 소스 2024. 1. 25.
13. 계측 모든 비지니스는 사용자들이 시스템과 어떻게 상호작용하는지에 대해서 이해해야하며 이를 위해서 정확한 계측이 필요하다. 이번 장에서는 계측의 핵심 사항에 대해서 이야기한다. 클라이언트 계측 사용자 행동 : 클릭, 머물기, 스크롤 등 성능 : 웹페이지가 나타나거나 상호작용이 되는 데 걸리는 시간 오류 및 충돌 : 자바스크립트 오류는 일반적이며, 오류 및 충돌을 추적하는 것은 중요하다. 서버 계측 성능 : 서버가 응답을 생성하는데 걸리는 시간 시스템 응답속도 : 서버가 사용자로 부터 몇 건의 리퀘스트를 받는가? 서버는 몇 페이지를 제공했는가 시스템 정보 : 캐시 적중률은 얼마인지, 몇 개의 예외 또는 오류가 발생했는지 여러 소스에서 로그 처리 아래와 같은 서로 다른 계측 스트림으로 부터의 로그가 있을 수 있다... 2023. 12. 23.
12. 클라이언트 측 실험 용어 Thin Client : 웹 브라우져와 같은 클라이언트 Thick Client : 모바일 앱이나 데스크탑 앱과 같은 클라이언트 이 챕터에서는 Thick 클라이언트에서 실행하는 실험에 대해서 Thin 클라이언트에서의 실험과의 차이점과 시사점에 대해서 설명한다. 아래에서 설명하는 많은 차이들이 불분명하면서도 중요하기때문에, 주의를 기울여야 한다. 서버 측과 클라이언트 측의 차이점 차이 #1 : 출시 프로세스 웹사이트와 같은 Thin 클라이언트에서는 지속적인 통합 및 배포와 같은 서버 측 코드 업데이트가 비교적 쉽다. 클라이언트 앱의 경우는 많은 기능이 서버측 코드의 영향을 받는다. 그리고 상당히 많은 양의 코드가 클라이언트에 있으며 변경사항은 다르게 배포되야 한다. (모바일 앱에서는 배포와 출시 주기를.. 2023. 12. 23.
11. 관측 인과 연구 관측 인과 연구가 가지는 의미 실험이 불가능한 상황에서 인과관계를 확인할 수 있다 다만, 통제 실험에 비해 신뢰도는 낮다 종합 대조 실험이 불가능한 경우 테스트할 인과적 행동을 조직이 통제할 수 없는 경우 실험군에 선택지를 제공해도 이에 실험군이 반응하지 않는 경우가 있을 것 같다 혹은 행동이 조직의 측정 범위에서 벗어나 있거나 사건의 수가 너무 적은 경우 대조군 설정에 비용이 너무 크게 드는 경우 변화로 인해 얻는 이익이 비용에 비해 너무 큰 경우 실험 대상의 무작위 추출이 불가능한 경우 실험이 비윤리적인 경우 관측 인과 연구를 위한 설계 관측 인과 연구의 쟁점 두 가지 실험군과 대조군은 어떻게 설정할 것인가? 대조군과 실험군이 받는 영향을 어떻게 모델링할 것인가? 관측 인과 연구 : 단절적 시계열 (.. 2023. 12. 23.