1 minute read

자기회귀 모형이란 무엇인가?

자기회귀(AR; Autoregressive) 모형은 과거의 움직임에 기반해서 미래를 예측하는 것을 말한다. 이는 시계열에서 한 값과 그 이전, 이후의 값들 사이에 상관관계가 있는 경우 예측을 하는데에 사용한다. 움직임을 모형화할 때 과거의 값만을 사용하기 때문에 자기회귀(그리스어의 접두사 auto- 는 “자기”를 의미한다)라는 이름을 붙였다. 이 과정(process)은 현재 시계열 데이터를 한 개 이상의 과거값에 대해 선형회귀분석을 한 것과 같다고 할 수 있다.

AR 모형에서 특정 시점 t 의 종속변수(Y)의 값은 “일반적인” 선형회귀와 마찬가지로 독립변수(X) 와 직접적인 관련이 있다. 단순선형회귀와 AR 모형의 차이점이라면 종속변수(Y) 가 독립변수 X와 이전의 종속변수 (Y) 에 영향을 받는다는 점이다.

AR 과정은 확률과정(stochastic process) 의 일종이며, 어느 정도의 비확실성(uncertainty) 또는 임의성(randomness)이 포함되어 있다. 임의성이란 과거의 데이터로 미래를 꽤나 정확하게 예측할 수도 있지만, 100% 확실하지는 않다는 것이다. 일반적으로 이 과정은 대부분의 시나리오에서 사용할 수 있을 정도로 “충분히 가까운” 결과를 도출해준다.

AR 모형은 조건부 모형, 마코프 모형(Markov model) 또는 변이 모형(transition model)이라고도 부른다.

AR(p) 모형

AR(p) 모형은 $y_t$ 의 특정 시차(lag) 값을 독립변수(예측변수; predictor variables) 로 사용하는 자기회귀 모형이다. 시차(lag)란 특정 기간의 결과가 이후의 기간에 영향을 끼치는 경우를 의미한다.

p 값은 차수(order) 라고 부른다. 예를 들어 AR(1) 모형은 “차수가 1인 자기회귀 과정” 이라고 할 수 있다. 차수가 1인 자기회귀 과정에서 t 시점 에서의 종속변수는 한(1) 시점 떨어진 값(예를 들자면 t-1 시점)에만 영향을 받는다. 2차 또는 3차 자기회귀 모형은 두 시점, 또는 세 시점 이전의 값과 관련이 있다는 뜻이다.

AR(p) 모형은 아래의 방정식으로 정의 된다:

$y_t = \delta + \phi_1 y_{t-1} + \phi_2 y_{t-2} + … + \phi_p y_{t-p} + \epsilon_t$

  • y_{t-1}, y_{t-2}, …, y_{t-p}: p 시점 이전의 시계열 값
  • \epsilon_t: 백색잡음과정
  • $\delta = (1 - \sum_i=1^p)$