1. 트위먼의 법칙의 의미
- “흥미롭게 보이거나 다르게 보이는 모든 것들은 대체로 틀렸다.”
- “흥미롭게 보이는 통계는 거의 다 확실히 실수다”
- 경험에 따르면, 많은 극단적인 결과는 계측 오류(로깅과 같은), 데이터 손실 또는 계산 오류일 가능성이 높다.
2. 트위먼 법칙의 사례들
2-1. 통계 결과의 잘못된 해석
- 일반적인 실수는 지표가 통계적으로 유의하지 않다고 해서 실험 효과가 없다고 가정하는 것.
- 사용자 수가 원하는 검정력을 보장하기에 충분하지 않는 경우.
- 실험이 모집단의 작은 부분에만 영향을 미치는 경우에는 영향을 받은 부분 집합만 분석하는 것이 중요.
- p 값의 잘못된 해석
- X : 실험군의 지표가 대조군의 지표와 다를 확률
- O : 귀무가설이 참이라는 가정하에, 실험군의 지표가 극단의 결과를 가져올 확률 (통계에서 1종 오류를 의미)
- p 값 미리보기 (p-value peeking)
- p값에 대한 결과를 미리 (실험 종료 전에) 보고, 의사 결정을 하는 행동
2-2. 다중 가설 검정
- 여러 처리효과를 동시에 비교하는 것. → 처음 의도했던 0.05%의 유의수준을 답보하기가 어렵다
- 예를 들어, 페암과 관련이 있는 100가지 요인에 대해서 같은 데이터로 실험을 한다면 모두 관계가 없다고 해도 5가지 정도는 관계가 있다고 나올 수 있고, 유의수준이 점점 높아지는 결과를 얻을 수 있다.
- 다중 비교 문제와 보정 방법
2-3. 내적 타당성 (internal validity) 에 대한 위헙
- 내적 타당성은 실험 설계를 할 때, 변수들 간의 연결성이 올바른가이다. 다시 말하면 “독립변수가 종속변수에 잘 영향을 주었는가?” 이며 다른 요인에 의해서 그렇게 된 것은 아닌지 보는 것이다.
- SUTVA (Stable Uint Treatment Value Assumption) 위반
- 실험 단위 (사용자)가 서로 독립적인지
- 양면시장(옥션, 에어비앤비, 우버등 숨고도?)의 경우 실험군에 대해 가격을 낮추면, 경매로 대조군에도 영향을 미치는 경우
- 생존 편향
- 훌륭한 예는 2차 세계대전에서 살아 돌아온 비행기에서 총알이 많은 곳에 철값을 더 두르기로 한 것.
- 실제로는 총알의 분포는 균일한데, 총알 흔적이 없는 곳은 살아돌아오지 못한 비행기가 총을 맞은 부위이기 때문.
- 실험 의도 분석 (선택 편향)
- 예를 들어 모든 광고주에게 캠페인의 기회가 주어지지만, 일부만 참여하고 참여한 대상만의 분석으로 효과를 과대 평가할 수 있다.
- 샘플 비율 불일치 (SRM)
- 책에서는 당양한 경우의 오류로 샘플이 불균형하게 추츨되는 경우의 예를 보여줌. (기술적인 문제, 잘못된 해시함수)
- 즉, 의도와 다른 SRM이 발생하는 경우 원인을 체크해봐야한다.
2-4. 외적 타당성 (external validity) 에 대한 위헙
- 이는 실험의 결과가 다른 모집단에도 적용될 수 있는가의 문제. 해결 방법은 실험을 다시 하는 것.
- 두 효과
- 변경 사항이 도입됐을 때, 사용자들이 이전 방식에 익숙하기 때문에 변경사항에 대해서 시간이 필요한 경우
- 신기 효과
- 처음에만 효과가 있는 경우, 실험 초기에는 효과가 좋아보이겠지만 시간이 지남에 따라 감소하게 되는 경우
- 한 운동화 제조사에서 광고에 머리카락이 있는 것처럼 한 예, 신기 효과가 있었지만, 계정이 비활성됨.
- 초두 및 신기 효과 탐지
- 대부분의 실험에서 실험의 효과는 시간의 지남에 일정하다고 가정, 초두 및 신기 효과가 있는 경우 실험을 좀 더 오래 진행할 필요가 있다.
2-5. 세그먼트 차이
- 서로 다른 세그먼트별로 지표를 보는 것은 다양한 통찰력을 제공한다. 때때로는 트위먼 법칙에 따라 이로 결함을 발견하기도 한다.
- 좋은 세그먼트 예
- 시장 또는 국가 : 현지화의 문제 파악
- 기기 또는 플랫폼 : 특정 플랫폼에서의 오류
- 플랫폼별로 로그가 잘못 쌓이는 경우
- 브라우져별로 자바 스크립트가 호환되지 않아서..차이
- 요일과 시간
- 사용자 유형
- 계정 유형
- 세그먼트 실험에서 오해할 수 있는 부분
- 상호 배타적인 세그먼트에서 사용자가 실험 중에 세그먼트를 이동할 수 있다면 잘못된 해석을 할 수 있다.
2-6. 심슨의 역설
- 예로 각 부분군의 평균이 크다고 해서 전체의 평균도 크다고 할 수는 없다.
- 부분군의 크기가 확연히 다를 때 나타날 수 있다.
- 나무위키 심슨의 역설
2-7. 건강한 회의론의 권장
- 보통 많은 실험의 Win 케이스가 개선된 고객획득으로 이어지지 않는다.
- 테스트가 실패하면 버려야하는 테스트에 선듯 투자하는것이 어려울 수 있지만, 좋은 과학자들이란 항상 회의론적으로 의심하고 의문을 제기하며 결과가 너무 좋을 때는 트위먼의 법칙을 발동해보자.
'분석 > AB 테스트' 카테고리의 다른 글
05. 속도의 중요성 (2) | 2023.12.07 |
---|---|
04. 실험 플랫폼과 문화 (1) | 2023.12.01 |
02. 실험의 실행과 분석 End - To - End 예제 (0) | 2023.12.01 |
01. 소개와 동기 (0) | 2023.12.01 |
A/B 테스트의 과정 (Process) (9) | 2023.08.09 |