29가지 통계 개념 - 자기회귀 모형의 정의와 자기회귀 과정(AR Process)

자기회귀 모형이란 무엇인가?

자기회귀(AR; Autoregressive) 모형은 과거의 움직임에 기반해서 미래를 예측하는 것을 말한다. 이는 시계열에서 한 값과 그 이전, 이후의 값들 사이에 상관관계가 있는 경우 예측을 하는데에 사용한다. 움직임을 모형화할 때 과거의 값만을 사용하기 때문에 자기회귀(그리스어의 접두사 auto- 는 “자기”를 의미한다)라는 이름을 붙였다. 이 과정(process)은 현재 시계열 데이터를 한 개 이상의 과거값에 대해 선형회귀분석을 한 것과 같다고 할 수 있다.

AR 모형에서 특정 시점 t 의 종속변수(Y)의 값은 “일반적인” 선형회귀와 마찬가지로 독립변수(X) 와 직접적인 관련이 있다. 단순선형회귀와 AR 모형의 차이점이라면 종속변수(Y) 가 독립변수 X와 이전의 종속변수 (Y) 에 영향을 받는다는 점이다.

AR 과정은 확률과정(stochastic process) 의 일종이며, 어느 정도의 비확실성(uncertainty) 또는 임의성(randomness)이 포함되어 있다. 임의성이란 과거의 데이터로 미래를 꽤나 정확하게 예측할 수도 있지만, 100% 확실하지는 않다는 것이다. 일반적으로 이 과정은 대부분의 시나리오에서 사용할 수 있을 정도로 “충분히 가까운” 결과를 도출해준다.

AR 모형은 조건부 모형, 마코프 모형(Markov model) 또는 변이 모형(transition model)이라고도 부른다.

AR(p) 모형

AR(p) 모형은 $y_t$ 의 특정 시차(lag) 값을 독립변수(예측변수; predictor variables) 로 사용하는 자기회귀 모형이다. 시차(lag)란 특정 기간의 결과가 이후의 기간에 영향을 끼치는 경우를 의미한다.

p 값은 차수(order) 라고 부른다. 예를 들어 AR(1) 모형은 “차수가 1인 자기회귀 과정” 이라고 할 수 있다. 차수가 1인 자기회귀 과정에서 t 시점 에서의 종속변수는 한(1) 시점 떨어진 값(예를 들자면 t-1 시점)에만 영향을 받는다. 2차 또는 3차 자기회귀 모형은 두 시점, 또는 세 시점 이전의 값과 관련이 있다는 뜻이다.

AR(p) 모형은 아래의 방정식으로 정의 된다:

$y_t = \delta + \phi_1 y_{t-1} + \phi_2 y_{t-2} + … + \phi_p y_{t-p} + \epsilon_t$

  • $y_{t-1}, y_{t-2}, …, y_{t-p}$: p 시점 이전의 시계열 값
  • $\epsilon_t$: 백색잡음과정
  • $\delta = (1 - \sum_i=1^p)$

2023

영어랑 친해지는 방법

7 minute read

가장 좋은 방법은 당연히 영어 밖에 사용하지 못하는 환경에 강제로 처해지는 것이겠지만 그것이 어려우니…

Back to top ↑

2022

Back to top ↑

2020

사내 스터디에 대한 회고

2 minute read

회사 서비스의 추천 시스템을 개선하기 위해 팀 내에서 (아직까진 두 명이긴 하지만) 지난 두 달 동안 스터디를 진행했습니다. 얼마 전 두 번째 스터디가 끝났고 이에 대한 회고를 해보려고 합니다.

Back to top ↑

2019

GitHub Pages Jekyll Blog 에 MathJax 추가하기

3 minute read

이 글은 MathJax 를 GitHub Pages Jekyll blog 에 추가하는 방법을 다룬다. 이탤릭체로 된 부분은 본문에는 없고 제가 따라하면서 고치거나 추가한 부분이니 참고하세요.

GitHub 블로그에 Jupyter notebook 올리는 방법

4 minute read

여러분의 GitHub 블로그에 Jupyter notebook 을 바꿔서 올릴 수 있도록 도와줄 글입니다. 직접 바꾸는 방법은 1회성 글들을 위해서 추가했고, 변환 과정과 파일 이동, 그리고 여러분의 블로그에 올리는 것까지 한 번에 할 수 있는 자동화 bash 를 만드는 자세한 방법...

Back to top ↑