본문 바로가기

SQL28

그룹별로 랜덤 sampling 하기 예전에 단순히 랜덤 sampling 을 하는 SQL 을 공유한 적이 있다. https://walkingfox.tistory.com/149 Mysql 샘플링 (Sampling) : 랜덤 추출Mysql 에서 랜덤(무작위)으로 몇개의 데이터를 추출하는 경우에 사용할 수 있는 쿼리 문장이다. order by 절에 rand() 함수를 적용하면 데이터가 랜덤한 순서로 추출이되면 limit 절로 그 갯수를 정하는walkingfox.tistory.com 이번에는 데이터가 그룹별로 있을 경우 그룹별로 랜덤하게 sampling 하는 방법에 대해서 적어보려 한다. 아래와 같은 tbl_user 테이블이 있다고 가정한다.연령대와 유져id 로 구성되어 있는age_groupuser_id10대12310대23420대345......6.. 2024. 8. 27.
Recursive Query (재귀쿼리) 아래의 쿼리는 mysql 8.x 버젼대에서 실행한 내용입니다. (recursive 쿼리를 지원하는) 1. 테이블 생성 HTML 삽입 미리보기할 수 없는 소스 위 코드를 실행하면 sample 데이터를 생성할 수 있으며, 그 데이터는 아래의 구조를 나타낸 데이터입니다. 2. 하향탐색 재귀쿼리 (기준 node 에서 아래 방향으로 탐색) HTML 삽입 미리보기할 수 없는 소스 -- start 부분에서는 하향검색을 시작할 노드를 설정하는 부분이다. -- repeat 부분에서는 위에서 설정한 초기 값이 재쿼리의 타이틀인 find_division 에 들어가고 그 값을 기준으로 다시 division 을 조인한다. division 테이블이 하위 코드를 탐색하게 되는 테이블이라 d.upper_division_code 를.. 2024. 3. 12.
[SQL] 월별로 잔존타입별 고객수 계산 아래와 같은 테이블이 있다고 가정하고, -- 테이블 명세 : tbl_order customer_id : 고객 아이디 (int) order_date : 주문일자 (date) order_id : 주문번호 (int) order_price : 주문금액 (int) 계산하려고 하는 것은 아래의 고객 타입별 고객 수입니다. -- 이번달 구매한 고객 신규고객 : 이번달 첫구매한 고객 잔존고객 : 전월과 이번달 구매한 고객 귀환고객 : 신규고객이 아니면서, 전월 구매하지 않은 고객이 이번달 구매한 고객 -- 이번달 구매하지 않은 고객 이탈고객 : 전월 구매한 고객이 이번달 구매하지 않은 고객 HTML 삽입 미리보기할 수 없는 소스 2024. 1. 25.
[BigQuery] 빅쿼리에서 values 절을 구현해보자. MySQL, PostgresSQL 등에서는 Values 절을 이용하여 아래와 같이 외부 text를 테이블 처럼 사용할 수 있다. with list (id, name) as ( values (1004007, '홍길동'), (1002147, '장동건'), (1004493, '현빈'), (1007978, '이서진'), (1005218, '원빈'), (1005507, '이병헌') ) select id , name from list MySQL 에서는 구문이 살짝 다르긴 하다. 요렇게 `ROW` 라는 키워드를 붙여줘야 한다. values ROW (1004007, '홍길동'), 하지만 BigQuery에서는 Values 를 위처럼 사용할 수는 없다. 그래서 아래와 같이 사용해야 한다. (1) 컬럼이 하나인 경우 sel.. 2023. 2. 20.
[BigQuery] 빅쿼리에서 min_by, max_by 쿼리 문장에서 많이 사용하는 그룹 함수 중에 하나가 min(), max() 함수입니다. 아래와 같은 학생별 시험 성적 테이블이 있다고 가정을 합니다. 학생별로 가장 높은 점수와 가장 낮은 점수를 구하는 쿼리를 작성해볼까요. 아래와 같이 계산할 수 있습니다. select user_id , min(score) as min_score , max(score) as max_socre from tbl_score group by user_id 이번에는 학생별로 점수가 가장 낮은 과목은 무었인지 구하는 쿼리를 작성해볼까요. 이럴때 사용할 수 있는 함수가 min_by 입니다. 아시겠지만, min(subject) 라고 쓸 수 없는 이유는 이 함수는 알파벳의 사전순으로 가장 작은 값을 가져오는 내용이기 때문입니다. sele.. 2023. 1. 30.
[BigQuery] 빅쿼리에서 여러 날짜별 테이블을 한 쿼리로 아래 사진에서 보는 바와 같이 GA4를 BigQuery 에 연결하면, 일자별로 테이블이 나뉘어서 데이터들이 저장된다. 그래서 여러 날짜에 걸쳐서 데이터를 분석하고자 하면, 아래와 같이 할 수도 있지만 너무 비효율적이다. (두어개의 테이블만 사용한다면 괜찮지만, 몇달치를 쿼리한다고 하면 ??) SELECT * FROM `coherent-fx-234207.analytics_308890446.events_20220816` union SELECT FROM `coherent-fx-234207.analytics_308890446.events_20220815` union SELECT FROM `coherent-fx-234207.analytics_308890446.events_20220814` 그래서 빅쿼리(BigQu.. 2022. 8. 17.
[MySQL] date_trunc 함수를 구현하자. date_trunc 라는 함수는 특정일자의 시작이 되는 unit 의 첫날을 가져오는 함수이다. 예를 들면 date_trunc('week', '2022-08-05') 라고 하면 2022년 8월 5일이 있는 주(unit) 의 첫날인 '2022-08-01' 보여준다. date_trunc('month', '2022-04-25') 라고 하면 2022년 4월 25일이 있는 월(unit) 의 첫날인 '2022-04-01'을 출력한다. 그런데 MySQL 에서는 안타깝게도 date_trunc 함수를 지원하지 않는다. 월의 첫날은 date_trunc 함수를 사용하지 않아도 구하는 것이 어렵지는 않지만, 주의 첫날을 구하는 것은 까다로울 수 있다. 그래서 아래와 같이 응용을 하여 구해볼 수 있다. select STR_TO_.. 2022. 8. 17.
[SQL] 기하평균 을 구해보자 이전 포스팅에서는 기하평균의 의미와 함께 엑셀(Excel)을 사용하여 데이터를 검증해보았다. https://walkingfox.tistory.com/173 곱의 평균 (기하평균) 위의 차트는 어느 신문기사에서 가져온 경제성장률에 대한 내용이다. 2009년부터 2020년까지 12년동안 경제 성장률이 변화무쌍하다. 그럼 위 12년동안 평균 경제 성장률은 어떻지? 라는 물음에 답 walkingfox.tistory.com 이번 포스트에서는 기하평균을 SQL 에서 구하는 방법을 살펴보도록 한다. 테이블에 아래와 같은 id, rate 이라는 두 컬럼으로 구성된 list 라는 테이블이 있다고 가정을 한다. 여기서 산술평균은 avg 라는 함수를 사용하여 쉽게 구할 수 있다. 기하평균의 경우 athena 또는 prest.. 2022. 7. 26.
[TIP] JSON 파싱이 되지 않아서... 구글 빅쿼리에 있는 data 를 아마존의 S3 로 옮겨오는 과정에서... 특정 컬럼의 값을 아래와 같이 json 형태로 저장하게 되었다. 이렇게 json 으로 저장하는 큰 이유(장점은) 는 구조를 유연하게 적용할 수 있기 때문이다. { 'firebase_event_origin': 'app', 'ga_session_id': 1656151090.0, 'value': 10000.0, 'ga_session_number': 370.0, 'firebase_conversion': 1.0, 'firebase_screen_id': -2.8651633143151964e+18, 'engaged_session_event': 1.0, 'currency': 'KRW' } 당연하지만 단점이라면 위 json 을 파싱(parsing).. 2022. 6. 29.
[BigQuery] 다양한 쿼리 예제 지난 포스팅에서는 빅쿼리에서의 array 그리고 struct 에 대해서 살펴보았었다. https://walkingfox.tistory.com/169 [BigQuery] Array, Struct 그리고 unnest 빅쿼리에는 Array (배열) 와 Struct (구조체) 라는 개념이 있다. 이 Array 와 Struct 가 생소하게 느껴질 수 있다. 일반적으로 쿼리문의 결과는 아래 그림과 같은 행(row)과 열(column)로 이루어진 테이블(tabl walkingfox.tistory.com 이번 포스팅에서는 여러 케이스의 쿼리 샘플을 살펴보려고 한다. (1) unnest 를 이용한 array 를 펼치기 with 문을 이용하여 위와 같은 테이블을 먼저 구성하였다. id, some_numbers 라는 두개의.. 2022. 6. 26.