본문 바로가기
분석/AB 테스트

03. 트위먼의 법칙과 실험의 신뢰도

by 여우요원 2023. 12. 1.

 

1. 트위먼의 법칙의 의미

  • “흥미롭게 보이거나 다르게 보이는 모든 것들은 대체로 틀렸다.”
  • “흥미롭게 보이는 통계는 거의 다 확실히 실수다”
  • 경험에 따르면, 많은 극단적인 결과는 계측 오류(로깅과 같은), 데이터 손실 또는 계산 오류일 가능성이 높다.

2. 트위먼 법칙의 사례들

2-1. 통계 결과의 잘못된 해석

  • 일반적인 실수는 지표가 통계적으로 유의하지 않다고 해서 실험 효과가 없다고 가정하는 것.
    • 사용자 수가 원하는 검정력을 보장하기에 충분하지 않는 경우.
    • 실험이 모집단의 작은 부분에만 영향을 미치는 경우에는 영향을 받은 부분 집합만 분석하는 것이 중요.
  • p 값의 잘못된 해석
    • X : 실험군의 지표가 대조군의 지표와 다를 확률
    • O : 귀무가설이 참이라는 가정하에, 실험군의 지표가 극단의 결과를 가져올 확률 (통계에서 1종 오류를 의미)
  • p 값 미리보기 (p-value peeking)
    • p값에 대한 결과를 미리 (실험 종료 전에) 보고, 의사 결정을 하는 행동

2-2. 다중 가설 검정

  • 여러 처리효과를 동시에 비교하는 것. → 처음 의도했던 0.05%의 유의수준을 답보하기가 어렵다
    • 예를 들어, 페암과 관련이 있는 100가지 요인에 대해서 같은 데이터로 실험을 한다면 모두 관계가 없다고 해도 5가지 정도는 관계가 있다고 나올 수 있고, 유의수준이 점점 높아지는 결과를 얻을 수 있다.
    • 다중 비교 문제와 보정 방법

2-3. 내적 타당성 (internal validity) 에 대한 위헙

  • 내적 타당성은 실험 설계를 할 때, 변수들 간의 연결성이 올바른가이다. 다시 말하면 “독립변수가 종속변수에 잘 영향을 주었는가?” 이며 다른 요인에 의해서 그렇게 된 것은 아닌지 보는 것이다.
  • SUTVA (Stable Uint Treatment Value Assumption) 위반
    • 실험 단위 (사용자)가 서로 독립적인지
    • 양면시장(옥션, 에어비앤비, 우버등 숨고도?)의 경우 실험군에 대해 가격을 낮추면, 경매로 대조군에도 영향을 미치는 경우
  • 생존 편향
    • 훌륭한 예는 2차 세계대전에서 살아 돌아온 비행기에서 총알이 많은 곳에 철값을 더 두르기로 한 것.
    • 실제로는 총알의 분포는 균일한데, 총알 흔적이 없는 곳은 살아돌아오지 못한 비행기가 총을 맞은 부위이기 때문.
  • 실험 의도 분석 (선택 편향)
    • 예를 들어 모든 광고주에게 캠페인의 기회가 주어지지만, 일부만 참여하고 참여한 대상만의 분석으로 효과를 과대 평가할 수 있다.
  • 샘플 비율 불일치 (SRM)
    • 책에서는 당양한 경우의 오류로 샘플이 불균형하게 추츨되는 경우의 예를 보여줌. (기술적인 문제, 잘못된 해시함수)
    • 즉, 의도와 다른 SRM이 발생하는 경우 원인을 체크해봐야한다.

2-4. 외적 타당성 (external validity) 에 대한 위헙

  • 이는 실험의 결과가 다른 모집단에도 적용될 수 있는가의 문제. 해결 방법은 실험을 다시 하는 것.
  • 두 효과
    • 변경 사항이 도입됐을 때, 사용자들이 이전 방식에 익숙하기 때문에 변경사항에 대해서 시간이 필요한 경우
  • 신기 효과
    • 처음에만 효과가 있는 경우, 실험 초기에는 효과가 좋아보이겠지만 시간이 지남에 따라 감소하게 되는 경우
    • 한 운동화 제조사에서 광고에 머리카락이 있는 것처럼 한 예, 신기 효과가 있었지만, 계정이 비활성됨.
  • 초두 및 신기 효과 탐지
    • 대부분의 실험에서 실험의 효과는 시간의 지남에 일정하다고 가정, 초두 및 신기 효과가 있는 경우 실험을 좀 더 오래 진행할 필요가 있다.

2-5. 세그먼트 차이

  • 서로 다른 세그먼트별로 지표를 보는 것은 다양한 통찰력을 제공한다. 때때로는 트위먼 법칙에 따라 이로 결함을 발견하기도 한다.
  • 좋은 세그먼트 예
    • 시장 또는 국가 : 현지화의 문제 파악
    • 기기 또는 플랫폼 : 특정 플랫폼에서의 오류
      • 플랫폼별로 로그가 잘못 쌓이는 경우
      • 브라우져별로 자바 스크립트가 호환되지 않아서..차이
    • 요일과 시간
    • 사용자 유형
    • 계정 유형
  • 세그먼트 실험에서 오해할 수 있는 부분
    • 상호 배타적인 세그먼트에서 사용자가 실험 중에 세그먼트를 이동할 수 있다면 잘못된 해석을 할 수 있다.

2-6. 심슨의 역설

  • 예로 각 부분군의 평균이 크다고 해서 전체의 평균도 크다고 할 수는 없다.
  • 부분군의 크기가 확연히 다를 때 나타날 수 있다.
  • 나무위키 심슨의 역설

2-7. 건강한 회의론의 권장

  • 보통 많은 실험의 Win 케이스가 개선된 고객획득으로 이어지지 않는다.
  • 테스트가 실패하면 버려야하는 테스트에 선듯 투자하는것이 어려울 수 있지만, 좋은 과학자들이란 항상 회의론적으로 의심하고 의문을 제기하며 결과가 너무 좋을 때는 트위먼의 법칙을 발동해보자.

'분석 > AB 테스트' 카테고리의 다른 글

05. 속도의 중요성  (2) 2023.12.07
04. 실험 플랫폼과 문화  (1) 2023.12.01
02. 실험의 실행과 분석 End - To - End 예제  (0) 2023.12.01
01. 소개와 동기  (0) 2023.12.01
A/B 테스트의 과정 (Process)  (9) 2023.08.09