Booking.com 에서의 축차 검정 (Sequential Testing)
원문: Sequential Testing at Booking.com
분산분석의 개념과 방법에 대해 알아보자.
분산분석은 설문이나 실험의 결과가 유의미한지를 판별하는 방법이다. 다시 말하자면, 분산분석은 귀무가설을 기각할 충분한 근거가 있는지 아닌지를 알아낼 수 있게끔 우리를 도와준다. 기본적으로 여러 집단들 사이에 차이가 있는지를 검정하는 것이다. 여러 그룹에 대해 실험을 하고자 하는 경우는 다음과 같다.
일원 또는 이원은 분산분석에서 사용하는 독립변수의 갯수를 의미한다. 일원배치 분산분석은 하나의 독립변수(수준은 2개)를 이용한 분산분석이고, 이원배치 분산분석은 두 개의 독립변수(수준은 여러개일 수 있음)를 이용한 분산분석이다.
집단 또는 수준은 동일한 독립변수 내의 묶음을 의미한다. “씨리얼의 종류” 라는 독립변수가 있다면, 코코볼, 콘푸로스트, 오레오 오즈는 그 아래의 세 수준이 될 수 있다. “칼로리” 라는 독립변수의 경우에는 가당과 무가당 두 가지 수준을 가질 수 있다.
예를 들어 여러분이 알콜중독 치료모임과 개인 상담이 주류 소비를 줄이는데에 가장 효과적인 치료법인지 연구한다고 하자. 그렇다면 연구 참가자를 명상만, 명상과 상담을 같이, 상담만 하는 세 가지 집단 또는 수준으로 나누고 싶을 것이다. 이 경우 종속변수(반응변수)는 하루에 마시는 주류의 양이 될 것이다.
만약 집단이나 수준이 계층적 구조(각 수준이 동일하지 않은 하위 집단을 가지는 경우)를 가지고 있다면 Nested ANOVA 를 사용하면 된다.
이는 검정(들)을 여러 집단에 대해서 반복할지 안 할지를 말한다. 반복이 있는 이원배치 분산분석은 두 집단이 있고, 각 집단 안의 개체들이 한 가지 이상의 무언가를 하는 경우이다. 예를 들자면, 두 학교에서 온 두 집단의 학생들이 두 가지 시험을 치는 경우이다. 만약에 한 집단이 두 가지 시험을 치르는 경우라면 반복이 없는 경우이다.
크게는 일원배치와 이원배치 두 가지 종류가 있다. 이원배치 분산분석은 반복이 있는 경우와 없는 경우가 있다.
일원배치 분산분석은 두 독립적인(관련이 없는) 집단의 평균을 F-분포를 이용해서 비교하는 데에 쓴다. 이 검정의 귀무가설은 두 평균이 같다는 것이다. 그렇기 때문에 유의미한 결과란 두 집단의 평균이 다르다는 것을 의미한다.
상황 1: 한 집단에 속한 사람들을 임의로 더 작은 집단으로 나눠서 서로 다른 일을 수행한다고 하자. 예를 들자면, 체중 감소에 차의 종류가 미치는 영향을 연구할 때 차를 녹차, 홍차, 그리고 물로 나누는 경우가 있다.
상황 2: 상황 1과 비슷하지만, 이번에는 그들이 가지고 있는 특성을 바탕으로 나누고자 한다. 예를 들어, 체중에 따른 다리 근력을 연구한다고 하자. 그러면 참가자를 체중에 따라(비만, 과체중, 정상) 구분하고 근력 운동 기계를 통해 다리의 근력을 측정하는 것이다.
일원배치 분산분석은 최소한 두 가지 집단에 대해서 이들이 서로 다른지를 알려준다. 하지만 어떤 그룹이 다른지를 알려주지는 않는다. 만약 F-통계량이 유의미한 값을 반환한다면, 어떤 그룹이 다른 평균값을 가지는지 최소 유의적 차이 검정(LSD; Least Significant Difference test) 등과 같은 추가적인 검정을 시행해야 한다.
이원배치 분산분석은 일원배치 분산분석을 확장한 것이다. 일원배치에서는 종속변수에 영향을 주는 독립변수는 하나였다. 이원배치 분산분석은 측정변수(양적 변수)가 하나이고, 두 개의 명목형 변수를 가지고 있을 때 사용할 수 있다. 다시 말하자면, 어떤 실험이 두 개의 범주형 설명변수가 있고, 그 결과값이 양적 변수를 가질 때 이원배치 분산분석이 적절하다고 할 수 있다.
예를 들어 수입과 성별이 면접에서 긴장 정도에 영향을 끼치는 지 알고 싶다. 긴장 정도가 결과, 즉 측정 변수이다. 성별과 수입은 두 가지 범주형 변수이다. 이 범주형 변수들은 이원배치 분산분석에서는 요인 이라고도 부르는 독립변수이다.
요인은 수준으로 나눌 수 있다. 위의 사례에서 수입 수준은 낮음, 보통, 높음의 세 가지 수준으로 나눌 수 있다. 성별은 남성, 여성, 트렌스젠더 세 가지로 나눌 수 있다. 대상 집단은 모든 요인들의 가능한 조합이다. 여기서는 3 x 3, 총 9개의 대상 집단이 있다.
이원배치 분산분석의 결과로 주효과와 교호작용효과를 계산할 수 있다. 주효과는 일원배치 분산분석과 유사하다. 각 요인의 효과는 개별적으로 고려된다. 교호작용효과에서는 모든 요인들이 동시에 고려된다. 요인들 사이의 교호작용효과는 각 칸에 하나 이상의 관측값이 있을 때 더 계산하기 쉬워진다. 위의 사례에서는 각 칸마다 여러 스트레스 점수가 들어갈 수 있다. 셀에 여러 관측값을 넣을 경우에는 모든 셀에 동일한 갯수의 값이 들어가야 한다.
각 칸에 하나의 관측값만 넣는다면 두 가지 귀무가설에 대해 검정을 해야한다. 이 경우의 귀무가설은 아래와 같다.
칸에 관측값이 여러개가 있다면 세 번째 가설을 추가해야 한다.
F-통계량은 검정하려고 하는 각 가설에 대해 계산한다.
교과서의 차이가 학생들의 수학과 과학 점수에 미치는 영향에 대해 연구한다고 해보자. 수학과 과학 에서의 향상은 두 개의 종속변수가 있다는 뜻이기 때문에 이때에는 다변량분산분석(MANOVA)를 사용하는 것이 적절하다.
분산분석(ANOVA)는 하나(일변량; univariate) f-값을 제공하는 반면, MANOVA 는 다변량 f-값을 제공한다. MANOVA 는 그룹간 차이를 극대화 하는 새로운 인공의 종속변수들을 생성함으로써 여러 종속변수를 검정한다. 이 새로운 종속변수들은 측정된 종속변수의 선형 결합(linear combinations) 이다.
만약 다변량 f-값이 검정의 결과가 통계적으로 유의하다고 보여주면, 어떤 것은 유의미하다는 것이다. 위의 예제에서는 수학 점수나 과학 점수(또는 둘 다)가 향상되었는지는 알 수 없다. 유의미한 결과를 얻으면 일변량 f 검정을 통해 개별적인 요소를 살펴봄으로써 어떤 독립변수가 통계적으로 유의미한 결과에 공헌했는지를 살펴보아야 한다.
이원배치 분산분석은 두 개 이상의 독립변수 또는 요인 을 사용한 분산분석이다. 이는 두 개 이상의 수준을 가진 독립변수를 의미하기도 한다. 예를 들어, 대조군과 실험군이 있는 실험에 한 가지 요인(처리)이 존재하는데 여기에 두 개 이상의 수준(실험군, 대조군)이 있는 경우이다. 사원배치 분산분석(Four-way ANOVA) 이나 그 이상의 분산분석은 거의 사용되지 않는데, 검정의 결과가 복잡하고 해석하기 어렵기 때문이다.
이원배치 분산분석(Two-way ANOVA)은 두 개의 요인(독립변수)과 하나의 종속변수가 있는 경우이다. 예를 들면, 공부한 시간과 사전 지식은 시험의 결과에 영향을 주는 요인이다.
삼원배치 분산분석(Three-way ANOVA)은 세 가지 요인(독립변수)과 한 가지 종속변수가 있는 경우이다. 예를 들어, 공부한 시간, 사전 지식, 그리고 수면 시간은 시험의 결과에 영향을 주는 요인이다.
이원배치 분산분석은 검정을 수행하기 위한 효율적인 방법이다. 하나의 종속변수에 대해 하나의 독립변수를 검정하는 실험을 여러번 하는 대신에, 동시에 모든 독립변수를 검정할 수 있다.
일원배치 분산분석(One-way ANOVA) 에서 변동성은 집단 간 차이와 집단 내 차이에 영향을 받는다. 이원배치 분산분석에서는 각 수준과 요인을 서로 짝지어서 구한다. 이를 통해 수준과 요인들 사이의 교호작용을 파악할 수 있다. 만약 교호작용이 존재한다면 한 요인에서의 차이는 다른 요인에서의 차이에 달려있다.
예를 들어 기말 시험의 성적에 대해 성별 간의 이원배치 분산분석을 진행한다고 하자. 대상자는 4시간, 6시간, 또는 8시간의 수면시간을 가졌다.
이원배치 분산분석은 다음과 같은 질문에 답할 수 있는 결과를 알려준다.
ANOVA Test: Definition, Types, Examples
원문: Sequential Testing at Booking.com
가장 좋은 방법은 당연히 영어 밖에 사용하지 못하는 환경에 강제로 처해지는 것이겠지만 그것이 어려우니…
고민의 흔적을 보여주세요
을 찾습니다.
원문: Charts & Accessibility
모수, 큰 수의 법칙, 그리고 중심극한정리에 대하여
그리고 여러분들도 (아마도) 하지 않아야 하는 이유
회사 서비스의 추천 시스템을 개선하기 위해 팀 내에서 (아직까진 두 명이긴 하지만) 지난 두 달 동안 스터디를 진행했습니다. 얼마 전 두 번째 스터디가 끝났고 이에 대한 회고를 해보려고 합니다.
원문: Dark Side of Data: Privacy by Emre Rencberoglu
원문: RStudio Projects and Working Directories: A Beginner’s Guide by Martin Chan
원문: TidyTuesday GitHub Repository
원문: How programming languages got their names
원문: How to Make Meetings Less Terrible 팟캐스트: How to Make Meetings Less Terrible (Ep. 389)
생키 다이어그램 (Sankey Diagram) 은 흐름(Flow) 다이어그램의 한 종류로써 그 화살표의 너비로 흐름의 양을 비율적으로 보여준다.
2년 전 일본어로 책을 내긴 했지만 대부분의 독자들이 이 책을 읽을 수는 없을 것 같았다.
자기회귀 모형이란 무엇인가?
회귀분석을 실행하기 위해 필요한 가정과 조건들에 대해 알아보자.
통계적 검정과 회귀분석에서 자주 사용되는 정규성 가정과 정규성 검정에 대해 알아보자.
여러 통계 검정과 모형에서 사용되는 독립성 가정에 대해 알아보자.
시계열 모형 중 ARMA 모형에대해 알아보자.
시각화에서 주의할 점인 넓이를 표시하는 원칙에 대해 알아보자.
평균 양쪽의 z-값들 사이의 넓이를 구하는 방법에 대해 알아보자.
분산분석의 개념과 방법에 대해 알아보자.
분산분석(ANOVA; ANalysis Of VAriance) 와 회귀분석의 개념을 섞은 공분산분석(ANCOVA; ANalysis of COVAriance)에 대해 알아보자. 이 글을 이해하기 위해서는 아래의 글을 먼저 읽는 것이 좋다.
Akaike’s Information Criterion 의 정의와 이를 구하는 방법에 대해 알아보자.
수정된 R제곱과 그 용도에 대해서 알아보자.
통계 용어 중 정확도(Accuracy)와 정밀도(Precision) 에 대해서 알아보자.
절대 오차와 평균 절대 오차에 대해서 알아보자.
가설 검정이란 무엇이며, 가설 검정의 다양한 방법에 대해 알아보자.
회귀분석이란 무엇이며, 회귀분석 과정에서 사용하는 용어와 다양한 방법에 대해 알아보자.
이 글은 MathJax 를 GitHub Pages Jekyll blog 에 추가하는 방법을 다룬다. 이탤릭체로 된 부분은 본문에는 없고 제가 따라하면서 고치거나 추가한 부분이니 참고하세요.
모집단과 표본집단을 이용하는 경우 통계학에서 말하는 10% 조건이 무엇인지에 대해 알아보자.
여러분의 GitHub 블로그에 Jupyter notebook 을 바꿔서 올릴 수 있도록 도와줄 글입니다. 직접 바꾸는 방법은 1회성 글들을 위해서 추가했고, 변환 과정과 파일 이동, 그리고 여러분의 블로그에 올리는 것까지 한 번에 할 수 있는 자동화 bash 를 만드는 자세한 방법...
68 95 99.7의 법칙이란 무엇인가?
단위근 검정 방법 중 하나인 Augmented Dickey Fuller 검정에 대해 알아보자.
이 자료는 데이터 과학과 관련된 특정 주제에 대한 연재물이며, 다룰 주제는 다음과 같다. 회귀분석, 군집화, 신경망, 딥러닝, 의사결정나무, 앙상블, 상관관계, 파이썬, R, 텐서플로우, SVM, 데이터 축소, 피쳐 선택, 실험 계획법, 교차검증, 모델 피팅 등. 이 글을 계속 받...