AB 테스트13 13. 계측 모든 비지니스는 사용자들이 시스템과 어떻게 상호작용하는지에 대해서 이해해야하며 이를 위해서 정확한 계측이 필요하다. 이번 장에서는 계측의 핵심 사항에 대해서 이야기한다. 클라이언트 계측 사용자 행동 : 클릭, 머물기, 스크롤 등 성능 : 웹페이지가 나타나거나 상호작용이 되는 데 걸리는 시간 오류 및 충돌 : 자바스크립트 오류는 일반적이며, 오류 및 충돌을 추적하는 것은 중요하다. 서버 계측 성능 : 서버가 응답을 생성하는데 걸리는 시간 시스템 응답속도 : 서버가 사용자로 부터 몇 건의 리퀘스트를 받는가? 서버는 몇 페이지를 제공했는가 시스템 정보 : 캐시 적중률은 얼마인지, 몇 개의 예외 또는 오류가 발생했는지 여러 소스에서 로그 처리 아래와 같은 서로 다른 계측 스트림으로 부터의 로그가 있을 수 있다... 2023. 12. 23. 12. 클라이언트 측 실험 용어 Thin Client : 웹 브라우져와 같은 클라이언트 Thick Client : 모바일 앱이나 데스크탑 앱과 같은 클라이언트 이 챕터에서는 Thick 클라이언트에서 실행하는 실험에 대해서 Thin 클라이언트에서의 실험과의 차이점과 시사점에 대해서 설명한다. 아래에서 설명하는 많은 차이들이 불분명하면서도 중요하기때문에, 주의를 기울여야 한다. 서버 측과 클라이언트 측의 차이점 차이 #1 : 출시 프로세스 웹사이트와 같은 Thin 클라이언트에서는 지속적인 통합 및 배포와 같은 서버 측 코드 업데이트가 비교적 쉽다. 클라이언트 앱의 경우는 많은 기능이 서버측 코드의 영향을 받는다. 그리고 상당히 많은 양의 코드가 클라이언트에 있으며 변경사항은 다르게 배포되야 한다. (모바일 앱에서는 배포와 출시 주기를.. 2023. 12. 23. 11. 관측 인과 연구 관측 인과 연구가 가지는 의미 실험이 불가능한 상황에서 인과관계를 확인할 수 있다 다만, 통제 실험에 비해 신뢰도는 낮다 종합 대조 실험이 불가능한 경우 테스트할 인과적 행동을 조직이 통제할 수 없는 경우 실험군에 선택지를 제공해도 이에 실험군이 반응하지 않는 경우가 있을 것 같다 혹은 행동이 조직의 측정 범위에서 벗어나 있거나 사건의 수가 너무 적은 경우 대조군 설정에 비용이 너무 크게 드는 경우 변화로 인해 얻는 이익이 비용에 비해 너무 큰 경우 실험 대상의 무작위 추출이 불가능한 경우 실험이 비윤리적인 경우 관측 인과 연구를 위한 설계 관측 인과 연구의 쟁점 두 가지 실험군과 대조군은 어떻게 설정할 것인가? 대조군과 실험군이 받는 영향을 어떻게 모델링할 것인가? 관측 인과 연구 : 단절적 시계열 (.. 2023. 12. 23. 10. 보완 기법 요약 성공적인 실험을 위해선 좋은 아이디어를 가지고 있는 것이 필요하며, 보완 기법들을 통해 이런 아이디어를 얻을 수 있음 아이디어가 필요한 영역으로는 아이디어 퍼널 실험 자체를 위한 아이디어를 얻는 원천 실험의 구현 비용이 높을 때 지표 가설에 대한 근거 보완 지표 만족도처럼 측정이 어려운 지표가 필요할 때 보완 분석 기법 별 특징 분석 기법들은 각각이 적절한 상황에 따라 활용되야 한다. 이를 판단하는 가장 큰 축은 가지고 있는 사용자 수와 필요한 사용자 당 정보 깊이이다. 로그 기반 분석 AB테스트를 할 수 있다는 것은 유저들의 행동을 트래킹할 수 있는 수단이 존재한다는 것을 의미함 따라서 로그 기반 분석이 가능 로그 기반 분석의 역할 직관 확립 실험 및 실험에서 활용할 지표들이 어떠한 패턴을 보이는.. 2023. 12. 23. 09. 종합 대조 실험의 윤리 (1) 실험 진행 시 고려해야 할 윤리 사항 종합 대조 실험을 진행할 때 다음과 같은 고려들이 필요하다. 실험에서 사람들을 자율적 주체로 대하며 존중하라. 사람들을 위험으로부터 보호하라. 실험 참가자가 착취되지 않고 위험과 이익이 공정하게 분배되도록 보장하라. (2) 데이터 수집 실험 진행자와 엔지니어는 데이터 수집 관련하여 아래의 질문들에 대답할 수 있어야 한다. 어떤 데이터를 수집하고 있으며 사용자는 해당 수집에 대해 무엇을 이해하고 있는가? 프라이버시를 설계에서부터 고려하는 것은 이 영역의 유용한 프레임워크 중 하나다. 데이터 수집에 어떤 문제가 생길 수 있는가? 데이터 또는 일부 부분집합이 공개될 경우 사용자에게 어떤 해가 될 것인가? 건강, 심리적/정서적 상태, 사회적 지위 또는 금융에 해를 끼.. 2023. 12. 17. 08. 제도적 기억과 메타 분석 (1) 제도적 기억 종합 대조 실험을 기본적인 프로세스로 수용한 후 이에 대한 과정과 이를 통해 얻은 지식, 경험, 정책, 결과 등 실험에 관련된 모든 것들을 조직 차원에서 저장하고 유지하는 능력을 말한다. 실험과 관련된 stakeholders는 누구인지, 실험 시작과 끝은 언제이며 어떤 변경이 있었는지 정리할 필요가 있으며 실험이 다양한 지표에 얼마나 큰 영향을 미쳤는지 요약한 결과가 있어야 한다. 실험과 관련된 지식과 경험들을 조직의 자산으로 축적하는 것 (2) 메타 분석 이와 같이 실험에 대한 경험들을 자산화 하게 되었을 때 얻게 되는 이점은? 축적된 실험들을 바탕으로 종합적으로 내리는 결론은 단일 실험을 통해 도출하는 결론보다 더 강력하고 일반적일 수 있다. 이를 ‘메타 분석’이라고 칭함 2023. 12. 17. 07. 실험을 위한 지표와 종합 평가 기준 (1) 실험을 진행할 때 어떤 지표를 선택해야 할까 온라인 종합 대조 실험을 잘 설계하고 실행하려면 특정 특성을 만족하는 지표가 필요하다. 실험 지표는 단기(실험기간)에 측정 및 계산 가능해야 한다. ex) 구매 후 유저의 만족도는 측정하기 어렵다. 귀속 가능성 실험의 목적에 맞게 지표를 측정/계산하려면 실험군에 지표값을 귀속시킬 수 있어야 한다. ‘귀속 가능해야 한다’라는 말은 실험군에서 나타난 어떤 변화의 원인이 실험의 조건과 변경 사항에 있음을 의미한다. 예를 들어, 대조군과 실험군에서 앱 충돌율이 다르게 나타났다고 가정하자. 이때, 앱 충돌의 원인이 실험 조건과 변경사항에 있어야 한다는 걸 의미한다. 이러한 귀속 가능이 외부 데이터 공급자에 의해 제공되는 지표에서는 가능하지 않을 수 있다. 실험 .. 2023. 12. 17. 06. 조직 운영을 위한 지표 - 도입 조직은 지표를 통해 조직이 나아가야 할 목표로 잘 가고 있는지 평가할 수 있다. - 지표의 분류 목표 지표 (성공 지표, 진북(true north) 지표) 목표지표는 조직이 궁극적으로 무엇을 신경쓰는지 보여준다. 목표 지표를 도출하기 위해 원하는 것을 단어로 표현(ex. 제품의 존재 이유는? 조직의 성공은 무엇인가?)해보면 좋다. 이에 대한 답은 조직의 미션과 결부된다. - ex. 숨고 : 연결 목표 지표는 조직이 정말로 신경쓰는 것의 대용물로서 시간이 지남에 따라 반복적으로 개선할 필요가 있다. 지표(ex. IC)와 목표(ex. 연결)의 표현간의 간극을 이해하도록 하는 것은 조직을 올바른 방향으로 이끄는 데 중요하다. 목표 지표는 궁극적 성공을 가장 잘 포착하는 단일/작은 지표의 집합 → 각 .. 2023. 12. 7. 04. 실험 플랫폼과 문화 실험 성숙도 모델 실험 성숙도 모델(Experiment Maturity Models) : 조직들이 A/B 실험을 통해 모든 변화를 실행하는 과정에서 겪을 가능성이 높은 단계를 구성한 것으로, 총 4단계 조직이 강력하고 신뢰할 수 있는 실험 플랫폼을 구축하고, 실험 문화를 정착하기 위해서는 실험 성숙도를 관찰하고 개선하는 것이 중요 단계와 관련없이 조직이 중점적으로 다뤄야 하는 분야 리더십 실험을 중심으로 하는 강력한 문화를 확립하고 A/B 테스트를 제품 개발 과정의 필수 요소로 포함시키기 위해서는 적극적인 리더십이 매우 중요함 실험하는 조직 문화를 만들어가는 최종 단계에 도달하기 위해서는 지속적인 측정, 실험, 지식 수집을 통해서만 가능함 이를 위해 경영자와 매니저의 지원이 다양한 수준에서 수행돼야 함 .. 2023. 12. 1. 03. 트위먼의 법칙과 실험의 신뢰도 1. 트위먼의 법칙의 의미 “흥미롭게 보이거나 다르게 보이는 모든 것들은 대체로 틀렸다.” “흥미롭게 보이는 통계는 거의 다 확실히 실수다” 경험에 따르면, 많은 극단적인 결과는 계측 오류(로깅과 같은), 데이터 손실 또는 계산 오류일 가능성이 높다. 2. 트위먼 법칙의 사례들 2-1. 통계 결과의 잘못된 해석 일반적인 실수는 지표가 통계적으로 유의하지 않다고 해서 실험 효과가 없다고 가정하는 것. 사용자 수가 원하는 검정력을 보장하기에 충분하지 않는 경우. 실험이 모집단의 작은 부분에만 영향을 미치는 경우에는 영향을 받은 부분 집합만 분석하는 것이 중요. p 값의 잘못된 해석 X : 실험군의 지표가 대조군의 지표와 다를 확률 O : 귀무가설이 참이라는 가정하에, 실험군의 지표가 극단의 결과를 가져올 확.. 2023. 12. 1. 이전 1 2 다음