03. 트위먼의 법칙과 실험의 신뢰도

일반적인 실수는 지표가 통계적으로 유의하지 않다고 해서 실험 효과가 없다고 가정하는 것.
- 사용자 수가 원하는 검정력을 보장하기에 충분하지 않는 경우.
- 실험이 모집단의 작은 부분에만 영향을 미치는 경우에는 영향을 받은 부분 집합만 분석하는 것이 중요.
p 값의 잘못된 해석
- X : 실험군의 지표가 대조군의 지표와 다를 확률
- O : 귀무가설이 참이라는 가정하에, 실험군의 지표가 극단의 결과를 가져올 확률 (통계에서 1종 오류를 의미)
p 값 미리보기 (p-value peeking)
- p값에 대한 결과를 미리 (실험 종료 전에) 보고, 의사 결정을 하는 행동

여러 처리효과를 동시에 비교하는 것. → 처음 의도했던 0.05%의 유의수준을 답보하기가 어렵다
- 예를 들어, 페암과 관련이 있는 100가지 요인에 대해서 같은 데이터로 실험을 한다면 모두 관계가 없다고 해도 5가지 정도는 관계가 있다고 나올 수 있고, 유의수준이 점점 높아지는 결과를 얻을 수 있다.
- 다중 비교 문제와 보정 방법

내적 타당성은 실험 설계를 할 때, 변수들 간의 연결성이 올바른가이다. 다시 말하면 “독립변수가 종속변수에 잘 영향을 주었는가?” 이며 다른 요인에 의해서 그렇게 된 것은 아닌지 보는 것이다.
SUTVA (Stable Uint Treatment Value Assumption) 위반
- 실험 단위 (사용자)가 서로 독립적인지
- 양면시장(옥션, 에어비앤비, 우버등 숨고도?)의 경우 실험군에 대해 가격을 낮추면, 경매로 대조군에도 영향을 미치는 경우
생존 편향
- 훌륭한 예는 2차 세계대전에서 살아 돌아온 비행기에서 총알이 많은 곳에 철값을 더 두르기로 한 것.
- 실제로는 총알의 분포는 균일한데, 총알 흔적이 없는 곳은 살아돌아오지 못한 비행기가 총을 맞은 부위이기 때문.
실험 의도 분석 (선택 편향)
- 예를 들어 모든 광고주에게 캠페인의 기회가 주어지지만, 일부만 참여하고 참여한 대상만의 분석으로 효과를 과대 평가할 수 있다.
샘플 비율 불일치 (SRM)
- 책에서는 당양한 경우의 오류로 샘플이 불균형하게 추츨되는 경우의 예를 보여줌. (기술적인 문제, 잘못된 해시함수)
- 즉, 의도와 다른 SRM이 발생하는 경우 원인을 체크해봐야한다.

이는 실험의 결과가 다른 모집단에도 적용될 수 있는가의 문제. 해결 방법은 실험을 다시 하는 것.
두 효과
- 변경 사항이 도입됐을 때, 사용자들이 이전 방식에 익숙하기 때문에 변경사항에 대해서 시간이 필요한 경우
신기 효과
- 처음에만 효과가 있는 경우, 실험 초기에는 효과가 좋아보이겠지만 시간이 지남에 따라 감소하게 되는 경우
- 한 운동화 제조사에서 광고에 머리카락이 있는 것처럼 한 예, 신기 효과가 있었지만, 계정이 비활성됨.
초두 및 신기 효과 탐지
- 대부분의 실험에서 실험의 효과는 시간의 지남에 일정하다고 가정, 초두 및 신기 효과가 있는 경우 실험을 좀 더 오래 진행할 필요가 있다.

서로 다른 세그먼트별로 지표를 보는 것은 다양한 통찰력을 제공한다. 때때로는 트위먼 법칙에 따라 이로 결함을 발견하기도 한다.
좋은 세그먼트 예
- 시장 또는 국가 : 현지화의 문제 파악
- 기기 또는 플랫폼 : 특정 플랫폼에서의 오류
  - 플랫폼별로 로그가 잘못 쌓이는 경우
  - 브라우져별로 자바 스크립트가 호환되지 않아서..차이
- 요일과 시간
- 사용자 유형
- 계정 유형
세그먼트 실험에서 오해할 수 있는 부분
- 상호 배타적인 세그먼트에서 사용자가 실험 중에 세그먼트를 이동할 수 있다면 잘못된 해석을 할 수 있다.

보통 많은 실험의 Win 케이스가 개선된 고객획득으로 이어지지 않는다.
테스트가 실패하면 버려야하는 테스트에 선듯 투자하는것이 어려울 수 있지만, 좋은 과학자들이란 항상 회의론적으로 의심하고 의문을 제기하며 결과가 너무 좋을 때는 트위먼의 법칙을 발동해보자.

걸어가는 여우