29가지 통계 개념 - 공분산분석(Analysis of Covariance)

분산분석(ANOVA; ANalysis Of VAriance) 와 회귀분석의 개념을 섞은 공분산분석(ANCOVA; ANalysis of COVAriance)에 대해 알아보자. 이 글을 이해하기 위해서는 아래의 글을 먼저 읽는 것이 좋다.

ancova

공분산분석이란 무엇인가?

공분산분석은 분산분석고 회귀분석을 섞은 것이다. 이는 다른 변수들의 영향 없이 한 번에 하나의 변수만을 고려함으로써 얻을 수 있는 추가적인 정보에 대해 말해준다는 점에서 이원분산분석(factorial ANOVA, two-way ANOVA) 와 비슷하다. 그리고 다음과 같이 사용할 수 있다:

  • 여러 회귀선을 비교하는 다중회귀의 확장
  • 분산분석의 확장

비록 ANCOVA 가 주로 여러분의 기준(baseline) 집단들 사이에 차이가 있을 때 사용하지만(Senn 1994; Overall, 1993) 평균으로의 회귀가 사후검정의 측정에 영향을 줄 때 사전검정/사후검정 분석에 사용할 수 있다(Bonate, 2000). 이 기법은 비실험적 연구(설문조사와 같은) 와 유사 실험(quasi-experiments; 연구의 참가자가 임의로 할당될 수 없는 경우)에도 일반적으로 사용한다. 하지만 항상 이런 특수한 경우에 ANCOVA 를 사용하는 것을 추천하지는 않는다(Vogt, 1999).

다중 회귀의 확장

다중 회귀의 확장으로 사용할 때 ANCOVA 는 모든 회귀선의 기울기가 동일할 때 어떤 회귀선의 절편값이 다른지를 검정할 수 있다.

회귀분석과 마찬가지로, ANCOVA 는 독립변수가 종속변수에 어떻게 작용하는지를 살펴볼 수 있게 한다. ANCOVA 는 여러분이 살펴보고자 하는 변수가 아닌 공변량의 영향을 모두 제거한다. 예를 들어, 여러분이 교수 능력의 수준이 수학 과목에 있어서 학생의 학습 능력에 끼치는 영향에 대해 알아보고 싶어한다고 하자; 이러한 경우 학생들을 임의로 교실에 배정할 수 없을 수도 있다. 그렇다면 여러분은 다른 교실에 있는 학생들 사이에 계통적인 차이를 고려해야만 한다(예를 들어, 똑똑한 학생과 일반적인 학생 사이에 존재하는 수학 실력의 차이).

예시

신약이 우울증에 효과가 있는지 알아보고자 한다. 연구에는 세 실험군과 하나의 대조군이 있다. 일반적인 ANOVA 는 그 치료가 효과가 있는지를 알려준다. ANCOVA 는 결과에 영향을 줄 수 있는 다른 요인들에 대해서도 통제할 수 있다. 예를 들자면, 가족 생활, 직업, 또는 복용하는 약 등

ANOVA 의 확장

ANOVA 의 확장으로써 ANCOVA 는 두 경우로 사용할 수 있다(Leech et. al, 2005):

  1. 연구의 주 목적이 아닌 공변량(주로 연속형이거나 척도를 가지는 변수)을 통제하기 위해서
  2. 예측변수로써 범주형 변수와 연속형 또는 척도를 가지는 변수의 조합을 연구하기 위해서. 이 경우에는 공변량에 관심이 있다.

집단내 변동

ANCOVA 는 집단내 변동을 설명할 수 있다. ANCOVA 는 변수(또는 다른 공변량)들을 합성함으로써 ANOVA 검정에서 설명할 수 없었던 변동을 설명하려고 한다 여러 가능한 공변량을 사용할 수도 있다. 하지만 더 많은 값들을 넣을수록 자유도는 줄어든다. 약한 공변량을 포함시키는 것은 통계적인 검정력을 낮추기 때문에 좋은 생각이 아니다. 검정력이 낮을수록 해당 검정의 결과를 믿을 수 있는 확률이 낮아진다. 강한 공변량은 그 반대의 효과가 있다: 이는 해당 검정의 검정력을 증가시킨다.

ANCOVA 의 일반적인 절차

일반적인 절차는 다음과 같다:

  1. 독립변수와 종속변수에 대해 회귀분석을 실시한다.
  2. 그 결과로부터 나온 잔차를 확인한다.
  3. 잔차에 대해 ANOVA 를 실시한다.

ANCOVA 에서의 가정들

ANCOVA 에서의 가정들은 ANOVA 에서의 가정들과 기본적으로는 동일하다. 검정을 시행하기 전에 아래 항목들을 만족하는지 확인하라.

  1. 독립변수(최소 2개) 는 범주형이어야 한다.
  2. 종속변수와 공변량은 연속형이어야한다(등간척도 또는 비율척도).
  3. 공변량과 종속변수는 (모든 수준의 독립변수에서) 선형적으로 연관 되어야 한다.
  4. 자료는 각각의 독립변수 값에 대해 종속변수는 등분산성 을 가져야 한다.
  5. 공변량과 독립변수는 교호작용이 없어야 한다. 다른 말로 하자면, 회귀계수에 동차성(homogeneity) 을 만족해야 한다.

참고 자료:

  • Bonate, P. (2000). Analysis of Pretest-Posttest Designs. CRC Press.
  • Horn, R. (n.d.). Understanding Analysis of Covariance. Retrieved October 26, 2017 from: http://oak.ucc.nau.edu/rh232/courses/eps625/
  • Leech, N. et. al (2005). SPSS for Intermediate Statistics: Use and Interpretation. Psychology Press.
  • Overall, J. (1993). Letter to the editor: The use of inadequate correlations for baseline imbalance remains a serious problem. J.Biopharm. Stat. 3, 271.
  • Senn, S. (1994). Testing for baseline balance in clinical trials. Statistics in Medicine. Volume 13, Issue 17.
  • Vogt, W. P. (1999). Dictionary of Statistics and Methodology: A Nontechnical Guide for the Social Sciences (2nd ed.). Thousand Oaks, CA: Sage Publications.

출처:

ANCOVA: Analysis of Covariance

2020

사내 스터디에 대한 회고

1 minute read

회사 서비스의 추천 시스템을 개선하기 위해 팀 내에서 (아직까진 두 명이긴 하지만) 지난 두 달 동안 스터디를 진행했습니다. 얼마 전 두 번째 스터디가 끝났고 이에 대한 회고를 해보려고 합니다.

Back to top ↑

2019

GitHub 블로그에 Jupyter notebook 올리는 방법

3 minute read

여러분의 GitHub 블로그에 Jupyter notebook 을 바꿔서 올릴 수 있도록 도와줄 글이다. 직접 바꾸는 방법은 1회성 글들을 위해서 추가했고, 변환 과정과 파일 이동, 그리고 여러분의 블로그에 올리는 것까지 한 번에 할 수 있는 자동화 bash 를 만드는 자세한 방법...

Back to top ↑

less than 1 minute read

1 minute read

Back to top ↑
0 Comments