본문 바로가기
분석/AB 테스트

07. 실험을 위한 지표와 종합 평가 기준

by 여우요원 2023. 12. 17.
반응형

 

(1) 실험을 진행할 때 어떤 지표를 선택해야 할까

온라인 종합 대조 실험을 잘 설계하고 실행하려면 특정 특성을 만족하는 지표가 필요하다.

  • 실험 지표는 단기(실험기간)에 측정 및 계산 가능해야 한다.
    • ex) 구매 후 유저의 만족도는 측정하기 어렵다.
  • 귀속 가능성
    • 실험의 목적에 맞게 지표를 측정/계산하려면 실험군에 지표값을 귀속시킬 수 있어야 한다.
    • ‘귀속 가능해야 한다’라는 말은 실험군에서 나타난 어떤 변화의 원인이 실험의 조건과 변경 사항에 있음을 의미한다.
    • 예를 들어, 대조군과 실험군에서 앱 충돌율이 다르게 나타났다고 가정하자. 이때, 앱 충돌의 원인이 실험 조건과 변경사항에 있어야 한다는 걸 의미한다.
    • 이러한 귀속 가능이 외부 데이터 공급자에 의해 제공되는 지표에서는 가능하지 않을 수 있다.
  • 실험 지표는 해당 실험으로 인해 발생하는 중요 변화들을 잘 감지하도록 민감하고 시기 적절한 지표들로 구성되어야 한다.
    • 민감한 지표를 선정하는 방법
      • 실험의 주요 목표와 비즈니스의 목표가 일치하는지 확인하고, 어떤 지표가 비즈니스 성과에 더 큰 영향을 미칠지 고려하라
      • 작은 변화에 민감하게 반응하는 지표를 선택하라
        • Ex) 1년 주기로 갱신이 되는 구독제가 있고, 이를 대상으로 실험을 진행했을 때 1년 단위의 구독 갱신율 대신 그 이전의 선행지표를 실험 지표로 설정하는 것이 일반적이다.
      • 실험 기간을 고려하라. 어떤 지표는 단기간에 빠르게 반응을 보일 수 있지만, 어떤 지표는 충분한 시간이 필요할 수 있다.
    • 민감하지 않은 지표 트래킹의 예시
      • Ex 1) AB 테스트를 진행하면서 회사의 주가를 모니터링 하는 것
      • Ex 2) 새로운 기능의 성과 측정을 위한 지표
        • 새로운 기능의 영향을 측정하기 위해 CTR을 본다고 가정하자. 해당 지표만으로는 새로운 기능으로 인한 카니발 영향을 포착할 수 없다. 따라서, 해당 기능의 국지적인 영향 뿐만 아니라 실질적인 영향을 포착할 수 있는 민감한 지표들을 함께 모니터링 해야 한다.
        • ex) 심부름 카테고리의 전등 교체/설치와 변기막힘 서비스
  • 실험 성과를 측정하기 위해 여러 지표를 사용할 경우, 장기 목표에 인과적으로 영향을 미치는 OEC(종합 평가 기준, Overall Evaluation Criterion)으로 결합하는 것이 좋다.

(2) 주요 지표를 OEC와 결합하기

전체적인 성과를 평가할 때 하나의 지표만을 고려하는 것보단 여러 지표들을 가중 조합하여 사용하는 것이 효과적이다.
일반적으로 아래와 같은 절차로 진행한다.
1. 각 지표의 상대적 중요성을 평가하고 가중치를 할당한다. 중요한 지표엔 높은 가중치를, 중요하지 않은 지표엔 상대적으로 낮은 가중치를 부여한다.
2. 서로 다른 Scale를 가진 지표들은 정규화를 통해 동일한 Scale로 조정한다. 이 과정을 통해 각 지표의 상대적 중요성을 더 정확하게 반영할 수 있다.
3 각 지표의 값에 가중치를 곱하고, 이 값들을 합산하여 종합 스코어를 생성한다.
4. 가중 조합의 결과를 해석한다.
5. 주기적으로 가중 조합을 평가하고 보완하여 새로운 상황이나 비즈니스 요구사항에 더 잘 대응할 수 있도록 한다.
  • 단일 지표만으로는 성과를 제대로 측정할 수 없다. 결국, 여러 핵심 지표들과 가드레일 지표, 필요 시 보조 지표들을 통해 성과를 측정하고 기업이 무엇을 최적화하고 있는지를 포착할 수 있다.
  • 많은 조직이 여러 주요 지표를 추적하고, 지표들의 트레이드 오프 관계를 고려한다.
  • 예를 들어, 어떤 실험을 통해 유저들이 이탈하였음에도 불구하고 잔류한 유저들의 액션과 매출이 증가해 이탈한 유저들의 손실을 상쇄하는 경우엔 해당 실험에 의해 얼마나 많은 유저를 잃어도 될지 말지와 관련된 트레이드 오프 모델을 많은 구성원들이 고려한다. 성장을 우선시하는 조직이라면 매출이 늘어도 유저의 이탈을 받아들이지 않을 것이고, 매출이 중요한 상황이라면 해당 실험을 수용할 수 있다.
  • 이처럼, 트레이드 오프의 모델은 많은 이들에게 고려의 대상이지만 그것을 표현하기 위해 여러 지표를 가중 조합한 OEC를 고안하는 것이 더 바람직하다.

OEC 예시

  • 여러 지표 각각을 사전에 정의된 범위(ex. 0~1)로 정규화하고 각 지표에 가중치를 할당하여 가중합을 구한다. 그리고 이를 OEC로 활용한다.
  • 농구 경기에서 스코어보드는 각 팀의 합산 점수만을 기록한다. (2점 슛과 3점 슛별로 나타내지 않음)
  • FICO 신용점수는 여러 개의 지표를 300~850 사이의 단일 점수로 결합한다.
  • 또다른 방법 (여러 지표들을 가중조합 하는 게 당장 어려울 경우)
    • 처음엔 하나의 가중조합을 도출하는 것이 어려울 수 있지만, 결정을 4개의 그룹으로 분류하는 것부터 시작할 수 있다.
      • 모든 핵심 지표의 변화가 0(통계적으로 유의하지 않음)이거나 양수(통계적으로 유의함)이고, 적어도 하나의 지표가 양수인 경우에 변경을 실시한다.
      • 모든 핵심 지표의 변화가 0이거나 음수이고, 적어도 하나의 지표가 음수인 경우에 변경을 실시하지 않는다.
      • 모든 핵심 지표가 0이면 변경을 실시하지 않고, 실험 검정력을 높이거나 빨리 실패로 간주하거나 방향 전환을 고려하라.
      • 일부 핵심 지표가 양이고 일부 핵심 지표가 음이면 트레이드 오프를 기반으로 결정한다.
    • 이와 같은 결정들을 충분히 축적하게 되면, 이후에 가중치를 할당할 수 있을 것이다.
핵심 지표를 단일 OEC로 결합할 수 없는 경우?
→ 핵심 지표 수를 최소화 하라. 지표가 너무 많으면 인지 과부화가 올 수 있으며 주요 지표를 무시하는 방향으로 갈 수 있음.

(3) 번외 : 지표 그 자체가 목표가 될 때 발생할 수 있는 부작용들(feat. 경제학, 사회심리)

  1. 굿하트의 법칙 (Goodhart’s Law)
    1. 관측 가능한 측정 지표가 목표 자체로 사용하게 되면, 그 지표에 대한 조작이나 의도하지 않은 부작용이 나타날 수 있다.
    2. 예를 들어, 정부가 부동산 가격이란 지표를 목표로 잡고 가격을 낮추는 액션을 취하게 되면, 해당 지표는 종전과는 다른 패턴으로 움직이게 된다. (통계적 규칙성을 잃게 된다.)
  2. 캠벨의 법칙 (Campbell’s Law)
    1. 양적 측정지표가 많이 사용될수록 측정하고자 했던 과정을 왜곡할 가능성이 높아진다는 법칙.
    2. 예를 들어, 교육적 활동을 양적 지표로서 적극 측정하게 되었을 때 학교, 교사가 학생들의 시험 전에 문제를 암시하거나 문제의 정답을 학습자료처럼 공유하여 학교 평가를 높이려는 행위
      1. 2009년 우리나라에서도 비슷한 일이 있었음(전북 임실군이 성취도에서 ‘최상위’로 평가받았으나 사흘 만에 일부 과목의 성적을 조작한 사실이 드러났음)
  3. 루카스 비판 (Lucas Critique)
    1. 어떤 효과를 기대하고 정책을 펼칠 경우, 실제 경제 현상은 과거 현상/데이터를 바탕으로 예측한 대로 움직이지 않는다는 법칙. (케인스학파가 정부 정책의 효과를 분석할 때 사용하는 방식에 대한 비판)
    2. 사람들은 그러한 정책이 몰고 올 변화까지 예측하고 행동하기 때문이다.
    3. 즉, 과거 데이터에서 상관관계를 찾는다고 해서 변수 중 하나를 수정하면, 다른 변수가 우리가 기대하는 대로 변화하지는 않을 것이다. 그렇게 되려면 상관관계가 아닌 인과관계가 성립되어야 한다.
반응형

'분석 > AB 테스트' 카테고리의 다른 글

09. 종합 대조 실험의 윤리  (0) 2023.12.17
08. 제도적 기억과 메타 분석  (0) 2023.12.17
06. 조직 운영을 위한 지표  (2) 2023.12.07
05. 속도의 중요성  (2) 2023.12.07
04. 실험 플랫폼과 문화  (1) 2023.12.01