본문 바로가기
분석/AB 테스트

02. 실험의 실행과 분석 End - To - End 예제

by 여우요원 2023. 12. 1.

 

  • OEC : 사용자당 매출 어떤 사용자들이 분모가 될까?
  • 사이트를 방문하는 모든 사용자 : 유효함 그러나 체크아웃(?)을 전혀 개시하지 않은 사용자를 포함하기 때문에 불필요한 노이즈 발생 (실험의 변화가 구매 프로세스 마지막쯤에 있어서?)
  • 구매 프로세스를 완료한 사용자 : 해당 쿠폰 실험은 구매 완료에도 영향을 줄 수 있어서 총 수입은 증가할지라도 사용자당 매출은 감소할 수 있음. 구매 프로세스를 완료한 사용자가 늘어날 수 있기 때문
  • 구매 프로세스를 시작한 사용자 : 변화가 퍼널 내에 있다는 전제하에 이것은 최적의 선택. 잠재 영향 대상자는 모두 포함되지만, 실험에서 실제로 발생한 변화에는 영향을 받지 않는(체크아웃을 전혀 시작하지 않는 사용자들)은 제외된다.

가설 검정 : 통계적 유의성 확립 (17장에서 논의)

‘통계적으로 유의하다.’ 라고 하는 것은 확률적으로 단순한 우연이 아닌 통계적으로 차이가 있다는 의미.

'통계적으로 유의하지 않다' 라는 것은 실험 결과가 단순한 우연한 현상으로 통계적 차이가 없다는 의미.

유의 확률(p-value, Significance Probability)

→ 귀무가설이 참이라고 가정했을 때 표본에서 실제 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률

→ 다시 말해 귀무가설을 기각할 수 있는 최소한의 확률 (두 관측치가 다르다고 말할 수 있는 최소한의 확률)

a = 0.05란 : 오류가 발생될 확률, 5%의 잘못된 판단을 허용한다는 의미

제약 분야와 같은 곳에서는 5%의 잘못도 큰일을 초래할 수 있기 때문에 더 엄격한 유의 수준을 설정함.

 

귀무가설 : 평균이 같다는 가정

대립가설 : 평균이 다르다는 가정

과학적 표준에서 p벨류가 충분히 작다의 기준 : 0.05 미만

이는 효과가 실제로 없으면 100번 중 95번 효과가 없다는 것을 정확하게 추론할 수 있다는 것을 의미한다.

 

 

실험 기간에 대한 고려사항 (얼마나 오래할지)

  1. 더 많은 사용자 : 일반적으로 온라인에서는 오래 실험할 수록 더 많은 사용자들이 실험에 참여하게 되고, 검정력이 높아진다. 단, 측정되는 지표가 누적된 경우, 세션 수와 분산이 증가하는 경우에 예외가 발생
  2. 주간효과 : 평일과 주말에는 사용자의 분포가 달라질 수 있다. 주간 사이클 포착을 위해 최소 1주일 실험
  3. 계절성 : 공휴일과 같은 계절성은 유저의 행동이 달라질 수 있다.
  4. 초두효과와 신기성 효과 : 실험 초기에 해당 효과들이 작용해서 정확한 실험 결과 도출이 힘들 수 있다. (조금더 긴 기간 실험이 필요)

'분석 > AB 테스트' 카테고리의 다른 글

04. 실험 플랫폼과 문화  (1) 2023.12.01
03. 트위먼의 법칙과 실험의 신뢰도  (0) 2023.12.01
01. 소개와 동기  (0) 2023.12.01
A/B 테스트의 과정 (Process)  (9) 2023.08.09
[통계] 유의수준과 검정력  (0) 2022.06.05