29가지 통계 개념 - 분산분석(Analysis of Variance)

분산분석의 개념과 방법에 대해 알아보자.

분산분석

분산분석은 설문이나 실험의 결과가 유의미한지를 판별하는 방법이다. 다시 말하자면, 분산분석은 귀무가설을 기각할 충분한 근거가 있는지 아닌지를 알아낼 수 있게끔 우리를 도와준다. 기본적으로 여러 집단들 사이에 차이가 있는지를 검정하는 것이다. 여러 그룹에 대해 실험을 하고자 하는 경우는 다음과 같다.

  • 여러 정신과 환자들이 상담, 명상, 그리고 바이오 피드백 세 가지 치료법을 시도하려고 한다. 여러분은 이 중에서 다른 치료법보다 나은 치료 방법이 있는지를 알고 싶어 한다.
  • 한 제조업체는 전구를 만드는 두 가지 공법이 있다. 이 회사는 한 방법이 다른 방법 보다 나은지를 알고 싶어 한다.
  • 서로 다른 두 학교의 학생들이 같은 시험을 치르려고 한다. 이 때 한 학교가 다른 학교보다 성적이 더 나은지 알고 싶어 한다.

“일원(One-way)” 과 “이원(Two-way)” 는 무엇인가?

일원 또는 이원은 분산분석에서 사용하는 독립변수의 갯수를 의미한다. 일원배치 분산분석은 하나의 독립변수(수준은 2개)를 이용한 분산분석이고, 이원배치 분산분석은 두 개의 독립변수(수준은 여러개일 수 있음)를 이용한 분산분석이다.

“집단(Groups)” 과 “수준(Levels)” 은 무엇인가?

집단 또는 수준은 동일한 독립변수 내의 묶음을 의미한다. “씨리얼의 종류” 라는 독립변수가 있다면, 코코볼, 콘푸로스트, 오레오 오즈는 그 아래의 세 수준이 될 수 있다. “칼로리” 라는 독립변수의 경우에는 가당과 무가당 두 가지 수준을 가질 수 있다.

예를 들어 여러분이 알콜중독 치료모임과 개인 상담이 주류 소비를 줄이는데에 가장 효과적인 치료법인지 연구한다고 하자. 그렇다면 연구 참가자를 명상만, 명상과 상담을 같이, 상담만 하는 세 가지 집단 또는 수준으로 나누고 싶을 것이다. 이 경우 종속변수(반응변수)는 하루에 마시는 주류의 양이 될 것이다.

만약 집단이나 수준이 계층적 구조(각 수준이 동일하지 않은 하위 집단을 가지는 경우)를 가지고 있다면 Nested ANOVA 를 사용하면 된다.

“복제(Replication)” 이란 무엇인가?

이는 검정(들)을 여러 집단에 대해서 반복할지 안 할지를 말한다. 반복이 있는 이원배치 분산분석은 두 집단이 있고, 각 집단 안의 개체들이 한 가지 이상의 무언가를 하는 경우이다. 예를 들자면, 두 학교에서 온 두 집단의 학생들이 두 가지 시험을 치는 경우이다. 만약에 한 집단이 두 가지 시험을 치르는 경우라면 반복이 없는 경우이다.

검정의 종류

크게는 일원배치와 이원배치 두 가지 종류가 있다. 이원배치 분산분석은 반복이 있는 경우와 없는 경우가 있다.

  • 집단간 일원배치 분산분석: 두 집단 사이에 차이가 있는 것을 확인하고자 하는 경우에 사용한다.
  • 반복이 없는 이원배치 분산분석: 동일한 한 집단에 대해서 두 번 검정하는 경우에 사용한다.
  • 반복이 있는 이원배치 분산분석: 두 집단에 대해서 각 집단이 한 가지 이상의 검정을 하는 경우에 사용한다.

일원배치 분산분석

일원배치 분산분석은 두 독립적인(관련이 없는) 집단의 평균을 F-분포를 이용해서 비교하는 데에 쓴다. 이 검정의 귀무가설은 두 평균이 같다는 것이다. 그렇기 때문에 유의미한 결과란 두 집단의 평균이 다르다는 것을 의미한다.

일원배치 분산분석을 언제 사용하는가?

상황 1: 한 집단에 속한 사람들을 임의로 더 작은 집단으로 나눠서 서로 다른 일을 수행한다고 하자. 예를 들자면, 체중 감소에 차의 종류가 미치는 영향을 연구할 때 차를 녹차, 홍차, 그리고 물로 나누는 경우가 있다.

상황 2: 상황 1과 비슷하지만, 이번에는 그들이 가지고 있는 특성을 바탕으로 나누고자 한다. 예를 들어, 체중에 따른 다리 근력을 연구한다고 하자. 그러면 참가자를 체중에 따라(비만, 과체중, 정상) 구분하고 근력 운동 기계를 통해 다리의 근력을 측정하는 것이다.

일원배치 분산분석의 한계점

일원배치 분산분석은 최소한 두 가지 집단에 대해서 이들이 서로 다른지를 알려준다. 하지만 어떤 그룹이 다른지를 알려주지는 않는다. 만약 F-통계량이 유의미한 값을 반환한다면, 어떤 그룹이 다른 평균값을 가지는지 최소 유의적 차이 검정(LSD; Least Significant Difference test) 등과 같은 추가적인 검정을 시행해야 한다.

이원배치 분산분석

이원배치 분산분석은 일원배치 분산분석을 확장한 것이다. 일원배치에서는 종속변수에 영향을 주는 독립변수는 하나였다. 이원배치 분산분석은 측정변수(양적 변수)가 하나이고, 두 개의 명목형 변수를 가지고 있을 때 사용할 수 있다. 다시 말하자면, 어떤 실험이 두 개의 범주형 설명변수가 있고, 그 결과값이 양적 변수를 가질 때 이원배치 분산분석이 적절하다고 할 수 있다.

예를 들어 수입과 성별이 면접에서 긴장 정도에 영향을 끼치는 지 알고 싶다. 긴장 정도가 결과, 즉 측정 변수이다. 성별과 수입은 두 가지 범주형 변수이다. 이 범주형 변수들은 이원배치 분산분석에서는 요인 이라고도 부르는 독립변수이다.

요인은 수준으로 나눌 수 있다. 위의 사례에서 수입 수준은 낮음, 보통, 높음의 세 가지 수준으로 나눌 수 있다. 성별은 남성, 여성, 트렌스젠더 세 가지로 나눌 수 있다. 대상 집단은 모든 요인들의 가능한 조합이다. 여기서는 3 x 3, 총 9개의 대상 집단이 있다.

주효과(Main Effect)와 교호작용효과(Interaction Effect)

이원배치 분산분석의 결과로 주효과와 교호작용효과를 계산할 수 있다. 주효과는 일원배치 분산분석과 유사하다. 각 요인의 효과는 개별적으로 고려된다. 교호작용효과에서는 모든 요인들이 동시에 고려된다. 요인들 사이의 교호작용효과는 각 칸에 하나 이상의 관측값이 있을 때 더 계산하기 쉬워진다. 위의 사례에서는 각 칸마다 여러 스트레스 점수가 들어갈 수 있다. 셀에 여러 관측값을 넣을 경우에는 모든 셀에 동일한 갯수의 값이 들어가야 한다.

각 칸에 하나의 관측값만 넣는다면 두 가지 귀무가설에 대해 검정을 해야한다. 이 경우의 귀무가설은 아래와 같다.

$H_01: 수입에 대한 모든 집단의 평균 스트레스는 동일하다.$ $H_02: 성별에 대한 모든 집단의 평균 스트레스는 동일하다.$

칸에 관측값이 여러개가 있다면 세 번째 가설을 추가해야 한다.

$H_03: 요인들으 서로 독립이거나 교호작용효과가 존재하지 않는다.$

F-통계량은 검정하려고 하는 각 가설에 대해 계산한다.

이원배치 분산분석에서의 가정

  • 모집단은 정규분포에 가까워야 한다.
  • 표본들은 서로 독립이다.
  • 모집단의 분산은 동일해야 한다.
  • 모든 집단은 동일한 크기를 가져야 한다.

다변량분산분석(MANOVA; Multivariate ANOVA)

교과서의 차이가 학생들의 수학과 과학 점수에 미치는 영향에 대해 연구한다고 해보자. 수학과 과학 에서의 향상은 두 개의 종속변수가 있다는 뜻이기 때문에 이때에는 다변량분산분석(MANOVA)를 사용하는 것이 적절하다.

분산분석(ANOVA)는 하나(일변량; univariate) f-값을 제공하는 반면, MANOVA 는 다변량 f-값을 제공한다. MANOVA 는 그룹간 차이를 극대화 하는 새로운 인공의 종속변수들을 생성함으로써 여러 종속변수를 검정한다. 이 새로운 종속변수들은 측정된 종속변수의 선형 결합(linear combinations) 이다.

MANOVA 결과 해석하기

만약 다변량 f-값이 검정의 결과가 통계적으로 유의하다고 보여주면, 어떤 것은 유의미하다는 것이다. 위의 예제에서는 수학 점수나 과학 점수(또는 둘 다)가 향상되었는지는 알 수 없다. 유의미한 결과를 얻으면 일변량 f 검정을 통해 개별적인 요소를 살펴봄으로써 어떤 독립변수가 통계적으로 유의미한 결과에 공헌했는지를 살펴보아야 한다.

ANOVA 와 비교한 MANOVA 의 장단점

장점

  1. MANOVA 는 여러 독립변수에 대해 검정할 수 있다.
  2. MANOVA 는 제1종 오류를 방지할 수 있다.

단점

  1. MANOVA 는 ANOVA 에 비해 훨씬 더 복잡하며, 어떤 독립변수가 종속변수들에 영향을 주는지 살펴보는 것이 쉽지 않다.
  2. 변수가 추가될 때마다 자유도가 1씩 줄어든다.
  3. 종속변수들은 최대한 상관관계가 없어야 한다. 서로 상관관계를 보인다면 자유도가 줄어든 것에 비해 종속변수를 하나 더 추가하는 것의 이점이 크지 않다는 것을 의미한다.

이원배치 분산분석(Factorial ANOVA, Two-way ANOVA) 란 무엇인가?

이원배치 분산분석은 두 개 이상의 독립변수 또는 요인 을 사용한 분산분석이다. 이는 두 개 이상의 수준을 가진 독립변수를 의미하기도 한다. 예를 들어, 대조군과 실험군이 있는 실험에 한 가지 요인(처리)이 존재하는데 여기에 두 개 이상의 수준(실험군, 대조군)이 있는 경우이다. 사원배치 분산분석(Four-way ANOVA) 이나 그 이상의 분산분석은 거의 사용되지 않는데, 검정의 결과가 복잡하고 해석하기 어렵기 때문이다.

  • 이원배치 분산분석(Two-way ANOVA)은 두 개의 요인(독립변수)과 하나의 종속변수가 있는 경우이다. 예를 들면, 공부한 시간과 사전 지식은 시험의 결과에 영향을 주는 요인이다.

  • 삼원배치 분산분석(Three-way ANOVA)은 세 가지 요인(독립변수)과 한 가지 종속변수가 있는 경우이다. 예를 들어, 공부한 시간, 사전 지식, 그리고 수면 시간은 시험의 결과에 영향을 주는 요인이다.

이원배치 분산분석은 검정을 수행하기 위한 효율적인 방법이다. 하나의 종속변수에 대해 하나의 독립변수를 검정하는 실험을 여러번 하는 대신에, 동시에 모든 독립변수를 검정할 수 있다.

변동성 (Variability)

일원배치 분산분석(One-way ANOVA) 에서 변동성은 집단 간 차이와 집단 내 차이에 영향을 받는다. 이원배치 분산분석에서는 각 수준과 요인을 서로 짝지어서 구한다. 이를 통해 수준과 요인들 사이의 교호작용을 파악할 수 있다. 만약 교호작용이 존재한다면 한 요인에서의 차이는 다른 요인에서의 차이에 달려있다.

예를 들어 기말 시험의 성적에 대해 성별 간의 이원배치 분산분석을 진행한다고 하자. 대상자는 4시간, 6시간, 또는 8시간의 수면시간을 가졌다.

  • 수준1: 성별 (남 / 녀)
  • 수준2: 수면시간 (4 / 6 / 8)
  • 종속변수: 기말 시험 성적

이원배치 분산분석은 다음과 같은 질문에 답할 수 있는 결과를 알려준다.

  1. 성별이 주효과인가? 다시 말하면, 기말고사 성적이 성별에 따라 유의하게 다른가?
  2. 수면시간이 주효과인가? 즉, 수면시간(4시간, 6시간, 8시간) 에 따라 학생들의 성적이 유의미하게 다른가?
  3. 요인들 사이에 유의미한 교호작용이 존재하는가? 수면시간과 성별이 시험 성적에 어떻게 함께 작용하는가?
  4. 수면시간의 수준(4시간, 6시간, 8시간) 내에서 성별과 시험 성적에 차이가 존재하는가?

이원배치 분산분석의 가정

  • 정규성: 독립변수는 정규분포를 따른다.
  • 독립성: 관측치와 집단은 서로 독립이다.
  • 등분산성: 요인과 수준에 무관하게 분산은 동일하다.

출처: ANOVA Test: Definition, Types, Examples

2020

사내 스터디에 대한 회고

1 minute read

회사 서비스의 추천 시스템을 개선하기 위해 팀 내에서 (아직까진 두 명이긴 하지만) 지난 두 달 동안 스터디를 진행했습니다. 얼마 전 두 번째 스터디가 끝났고 이에 대한 회고를 해보려고 합니다.

Back to top ↑

2019

GitHub 블로그에 Jupyter notebook 올리는 방법

3 minute read

여러분의 GitHub 블로그에 Jupyter notebook 을 바꿔서 올릴 수 있도록 도와줄 글이다. 직접 바꾸는 방법은 1회성 글들을 위해서 추가했고, 변환 과정과 파일 이동, 그리고 여러분의 블로그에 올리는 것까지 한 번에 할 수 있는 자동화 bash 를 만드는 자세한 방법...

Back to top ↑

less than 1 minute read

1 minute read

Back to top ↑