본문 바로가기

분석77

Python : 순열검정 (비모수) 두 집단의 평균을 비교하는 방법에는 크게는 모수적 방법과 비모수적 방법이 있다.여기서 모수적 방법이란 모집단이 정규분포를 한다는 가정하에, 평균과 분산같은 통계량을 이용하여 계산되는 방식이며비모수적 방법이란 모집단의 분포와 관계없이 계산하는 방식을 말한다. 아래에 python sample code 를 소개하고자 한다. Colab에서 실행된 결과는 아래의 링크에서도 확인할 수 있다.https://colab.research.google.com/drive/1GOBBNP13if2PotGpUXgwiqcVQR8JjbmZ#scrollTo=uhPCOt8ii7YJ# -*- coding: utf-8 -*-"""Permutation Test.ipynbAutomatically generated by Colaboratory.O.. 2024. 1. 27.
[SQL] 월별로 잔존타입별 고객수 계산 아래와 같은 테이블이 있다고 가정하고, -- 테이블 명세 : tbl_order customer_id : 고객 아이디 (int) order_date : 주문일자 (date) order_id : 주문번호 (int) order_price : 주문금액 (int) 계산하려고 하는 것은 아래의 고객 타입별 고객 수입니다. -- 이번달 구매한 고객 신규고객 : 이번달 첫구매한 고객 잔존고객 : 전월과 이번달 구매한 고객 귀환고객 : 신규고객이 아니면서, 전월 구매하지 않은 고객이 이번달 구매한 고객 -- 이번달 구매하지 않은 고객 이탈고객 : 전월 구매한 고객이 이번달 구매하지 않은 고객 HTML 삽입 미리보기할 수 없는 소스 2024. 1. 25.
13. 계측 모든 비지니스는 사용자들이 시스템과 어떻게 상호작용하는지에 대해서 이해해야하며 이를 위해서 정확한 계측이 필요하다. 이번 장에서는 계측의 핵심 사항에 대해서 이야기한다. 클라이언트 계측 사용자 행동 : 클릭, 머물기, 스크롤 등 성능 : 웹페이지가 나타나거나 상호작용이 되는 데 걸리는 시간 오류 및 충돌 : 자바스크립트 오류는 일반적이며, 오류 및 충돌을 추적하는 것은 중요하다. 서버 계측 성능 : 서버가 응답을 생성하는데 걸리는 시간 시스템 응답속도 : 서버가 사용자로 부터 몇 건의 리퀘스트를 받는가? 서버는 몇 페이지를 제공했는가 시스템 정보 : 캐시 적중률은 얼마인지, 몇 개의 예외 또는 오류가 발생했는지 여러 소스에서 로그 처리 아래와 같은 서로 다른 계측 스트림으로 부터의 로그가 있을 수 있다... 2023. 12. 23.
12. 클라이언트 측 실험 용어 Thin Client : 웹 브라우져와 같은 클라이언트 Thick Client : 모바일 앱이나 데스크탑 앱과 같은 클라이언트 이 챕터에서는 Thick 클라이언트에서 실행하는 실험에 대해서 Thin 클라이언트에서의 실험과의 차이점과 시사점에 대해서 설명한다. 아래에서 설명하는 많은 차이들이 불분명하면서도 중요하기때문에, 주의를 기울여야 한다. 서버 측과 클라이언트 측의 차이점 차이 #1 : 출시 프로세스 웹사이트와 같은 Thin 클라이언트에서는 지속적인 통합 및 배포와 같은 서버 측 코드 업데이트가 비교적 쉽다. 클라이언트 앱의 경우는 많은 기능이 서버측 코드의 영향을 받는다. 그리고 상당히 많은 양의 코드가 클라이언트에 있으며 변경사항은 다르게 배포되야 한다. (모바일 앱에서는 배포와 출시 주기를.. 2023. 12. 23.
11. 관측 인과 연구 관측 인과 연구가 가지는 의미 실험이 불가능한 상황에서 인과관계를 확인할 수 있다 다만, 통제 실험에 비해 신뢰도는 낮다 종합 대조 실험이 불가능한 경우 테스트할 인과적 행동을 조직이 통제할 수 없는 경우 실험군에 선택지를 제공해도 이에 실험군이 반응하지 않는 경우가 있을 것 같다 혹은 행동이 조직의 측정 범위에서 벗어나 있거나 사건의 수가 너무 적은 경우 대조군 설정에 비용이 너무 크게 드는 경우 변화로 인해 얻는 이익이 비용에 비해 너무 큰 경우 실험 대상의 무작위 추출이 불가능한 경우 실험이 비윤리적인 경우 관측 인과 연구를 위한 설계 관측 인과 연구의 쟁점 두 가지 실험군과 대조군은 어떻게 설정할 것인가? 대조군과 실험군이 받는 영향을 어떻게 모델링할 것인가? 관측 인과 연구 : 단절적 시계열 (.. 2023. 12. 23.
10. 보완 기법 요약 성공적인 실험을 위해선 좋은 아이디어를 가지고 있는 것이 필요하며, 보완 기법들을 통해 이런 아이디어를 얻을 수 있음 아이디어가 필요한 영역으로는 아이디어 퍼널 실험 자체를 위한 아이디어를 얻는 원천 실험의 구현 비용이 높을 때 지표 가설에 대한 근거 보완 지표 만족도처럼 측정이 어려운 지표가 필요할 때 보완 분석 기법 별 특징 분석 기법들은 각각이 적절한 상황에 따라 활용되야 한다. 이를 판단하는 가장 큰 축은 가지고 있는 사용자 수와 필요한 사용자 당 정보 깊이이다. 로그 기반 분석 AB테스트를 할 수 있다는 것은 유저들의 행동을 트래킹할 수 있는 수단이 존재한다는 것을 의미함 따라서 로그 기반 분석이 가능 로그 기반 분석의 역할 직관 확립 실험 및 실험에서 활용할 지표들이 어떠한 패턴을 보이는.. 2023. 12. 23.
09. 종합 대조 실험의 윤리 (1) 실험 진행 시 고려해야 할 윤리 사항 종합 대조 실험을 진행할 때 다음과 같은 고려들이 필요하다. 실험에서 사람들을 자율적 주체로 대하며 존중하라. 사람들을 위험으로부터 보호하라. 실험 참가자가 착취되지 않고 위험과 이익이 공정하게 분배되도록 보장하라. (2) 데이터 수집 실험 진행자와 엔지니어는 데이터 수집 관련하여 아래의 질문들에 대답할 수 있어야 한다. 어떤 데이터를 수집하고 있으며 사용자는 해당 수집에 대해 무엇을 이해하고 있는가? 프라이버시를 설계에서부터 고려하는 것은 이 영역의 유용한 프레임워크 중 하나다. 데이터 수집에 어떤 문제가 생길 수 있는가? 데이터 또는 일부 부분집합이 공개될 경우 사용자에게 어떤 해가 될 것인가? 건강, 심리적/정서적 상태, 사회적 지위 또는 금융에 해를 끼.. 2023. 12. 17.
08. 제도적 기억과 메타 분석 (1) 제도적 기억 종합 대조 실험을 기본적인 프로세스로 수용한 후 이에 대한 과정과 이를 통해 얻은 지식, 경험, 정책, 결과 등 실험에 관련된 모든 것들을 조직 차원에서 저장하고 유지하는 능력을 말한다. 실험과 관련된 stakeholders는 누구인지, 실험 시작과 끝은 언제이며 어떤 변경이 있었는지 정리할 필요가 있으며 실험이 다양한 지표에 얼마나 큰 영향을 미쳤는지 요약한 결과가 있어야 한다. 실험과 관련된 지식과 경험들을 조직의 자산으로 축적하는 것 (2) 메타 분석 이와 같이 실험에 대한 경험들을 자산화 하게 되었을 때 얻게 되는 이점은? 축적된 실험들을 바탕으로 종합적으로 내리는 결론은 단일 실험을 통해 도출하는 결론보다 더 강력하고 일반적일 수 있다. 이를 ‘메타 분석’이라고 칭함 2023. 12. 17.
07. 실험을 위한 지표와 종합 평가 기준 (1) 실험을 진행할 때 어떤 지표를 선택해야 할까 온라인 종합 대조 실험을 잘 설계하고 실행하려면 특정 특성을 만족하는 지표가 필요하다. 실험 지표는 단기(실험기간)에 측정 및 계산 가능해야 한다. ex) 구매 후 유저의 만족도는 측정하기 어렵다. 귀속 가능성 실험의 목적에 맞게 지표를 측정/계산하려면 실험군에 지표값을 귀속시킬 수 있어야 한다. ‘귀속 가능해야 한다’라는 말은 실험군에서 나타난 어떤 변화의 원인이 실험의 조건과 변경 사항에 있음을 의미한다. 예를 들어, 대조군과 실험군에서 앱 충돌율이 다르게 나타났다고 가정하자. 이때, 앱 충돌의 원인이 실험 조건과 변경사항에 있어야 한다는 걸 의미한다. 이러한 귀속 가능이 외부 데이터 공급자에 의해 제공되는 지표에서는 가능하지 않을 수 있다. 실험 .. 2023. 12. 17.
06. 조직 운영을 위한 지표 - 도입 조직은 지표를 통해 조직이 나아가야 할 목표로 잘 가고 있는지 평가할 수 있다. - 지표의 분류 목표 지표 (성공 지표, 진북(true north) 지표) 목표지표는 조직이 궁극적으로 무엇을 신경쓰는지 보여준다. 목표 지표를 도출하기 위해 원하는 것을 단어로 표현(ex. 제품의 존재 이유는? 조직의 성공은 무엇인가?)해보면 좋다. 이에 대한 답은 조직의 미션과 결부된다. - ex. 숨고 : 연결 목표 지표는 조직이 정말로 신경쓰는 것의 대용물로서 시간이 지남에 따라 반복적으로 개선할 필요가 있다. 지표(ex. IC)와 목표(ex. 연결)의 표현간의 간극을 이해하도록 하는 것은 조직을 올바른 방향으로 이끄는 데 중요하다. 목표 지표는 궁극적 성공을 가장 잘 포착하는 단일/작은 지표의 집합 → 각 .. 2023. 12. 7.