[시계열] 시계열 모델 기초(3) - 다변량 시계열 ARCH, GARCH 모델
*실무에서 많이 쓰는 모델은 아니나 개념적으로 알고 있어야 하는 모델
변동성 시계열 모델은 불안정 시계열 모델들과 기본적으로 가지는 가정 자체가 다르다. 다변량 시계열 모델은 기본적으로 훨씬 더 제한적인 통계적 속성 하의 제한들을 가지고 있다. 따라서 범용성이 낮은 모델이며, 이 모델을 쓸 수 있는 데이터 역시 제한적이라는 것을 알고 가자. 복잡도가 높은 모델일수록 그러함.
지금까지 봤던 모형들은 (ARIMA 이하) 기본적인 가정이 정규분포를 따르고, 등분산성을 따른다는 것이었다. 하지만 변동성 모형의 기본 가정은 말그대로 "변동성이 존재하고" 그 변동성이 시간에 따라 크거나 작아질 수 있다는 것이다.
(금융시계열 데이터에서 주로 나타나는 패턴이고, 거시경제 학자들이 이 데이터를 예측하기 위해 만든 모델이라고 한다)
따라서 우리는 실제값이 아니라 이 변동성을 예측함으로서, 우리는 결국 실제 예측값의 오차를 줄일 수 있다!
(예측오차의 분산이 작아진다고 표현함)
또한, 지금까지의 모델들은 종속변수 자체의 과거값, 쉽게 말하자면 변수의 t-1 부터의 값과 t-p 까지의 값을 이용해 예측했다면, 지금부터는 변동성에 시그마를 붙여서 (변동성을 다 더해서) 예측해보자는 아이디어로부터 출발한 모델을 배우게 될것이다. (금융시장의 경우에는 시간이 지남에 따라 변동성이 올라가는게 일반적이라고 한다. 시장에 유입되는 정보의 양이 많아지기 땨문.. 이라고 함. 상한선도 높아지고 하한선도 낮아지고. 이런 가정과 예시를 기저에 두고 만들어진 모델이라는 것을 이해하고 있자.)
1. 변동성이란
그렇다면 변동성 모델들에서 정의내리는 변동성 자체에 대해 먼저 짚고 넘어가도록 하자. 여기서의 변동성은 그냥 표준편차 혹은 분산을 말한다. 그러니까 분산이 크고 일정하지 않은 모델에 쓰는거다. 금융시계열 모델은 앞서 말했듯 주로 시간에 따라 변동성이 커지는 양상을 보인다. 따라서 이런 양상을 보이는 데이터는 우리가 앞서 계속 이야기했던 오차항의 분산은 일정하다는 회귀모델의 기본 가정을 위배함으로, 일반 회귀모델을 사용할 수 없다.
예를 들어,
금융시장의 경우, 각종 경제지표의 발표나 금융위기, 재정위기와 같은 외부 충격에 (shock) 데이터가 영향받을 것이며,
엔터시장의 경우, 아이돌의 데뷔, 컴백, 해체, 각종 이슈들과 스캔들같은 외부 충격에 (shock) 데이터가 영향을 받을 것이다.
또한 이러한 충격은 일정기간 동안 영향을 미치는 것이 일반적임으로, 시계열상 이분산성 (분산일정x) 가 발생하게 된다.
2. ARCH 모델 (AutoRegressive Conditional Heteroskedasticity)
*자기회귀 조건부 이분산성 모델, 즉 시계열에서 자주 보이는 자기회귀 모델인데, 분산의 변동성이 큰 모델 ~ 이라고 이름으로부터 모델의 정의를 도출해낼 수 있겠다 그러니까, 왜생적인 데이터 뿐만 아니라 나의 (데이터 그 자신의) 데이터에 영향력이 크다고 보는 모델임
ARCH 는 기본적으로 오늘의 변동성이 이전의 변동성에 의존, 이전의 변동성은 그 이전의 변동성에, 그 이전의 변동성은 그 이전의 이전 변동성에 의존한다는 가정임.
ARCH 모델 내부를 공식으로 표현하면 다음과 같이 나온다.
ARCH 는 다음과 같은 세 가지 수식을 결합해서 만든 공식을 쓰는데,
1. 평균 모형 (평균방정식 이용) : y_t 는 시점 t 에서의 시계열 데이터 값. 끝에 달려있는ε_t 는 오차항으로 변동성을 의미하는데, 이 모델에서는 이걸 상수가 아니라 변수로 취급한다는 점이 표인트다. (변화하는 값 -> 모델이 더 강하게 예측)
2. 변동성 모형 (분산방정식 이용) : 0시점부터 t-1 시점 ~ t-q 시점까지의 변동성을 다 합한 것이 마지막 분산방정식이다. (분산방정식 앞쪽에 곱셈으로 붙은 알파는 가중치 weight)
3. 잔차 모형 (ε_t = a_t√h_t 수식 이용) : 평균 모형과 변동성 모형으로부터 예측된 값을 바탕으로 남은 오차를 나타낸다. 이때 h_t 는 조건부 분산이다.
이러한 수식들을 조합하여 arch 모형은 다양한 형태의 모형을 만들 수 있다. 이 수식들이 의미하는 바는 시계열 데이터의 평균, 분산, 오차항 등을 모형화하여 예측하는 것으로, 세 모델이 조합되어 탄생한 모델이라고 쉽게 이해하면 될 듯 하다
때문에 ARCH 모형은 다음과 같은 단점을 가진다. 시계열 데이터 중 금융 데이터의 변동성을 예측한다는 것을 기저에 두고 만든 모델이지만....
1. 양의 변동성과 음의 변동성 (shock) 을 동일하게 다루고 있다 (변동성의 방향이 양수거나 음수인 경우를 모두 동일하게 고려함. 가격이 내리는 것, 오르는 것을 비슷한 규모로 취급한다는 뜻)
2. 기본적으로 정상성을 가정한 모델 (비정상적인 시계열 데이터에 사용 불가, 길이가 짧아도 안됨)
3. 파라미터를 결정하기 어렵다. 이유는 모델이 복잡하기 땨문에.. 수식이 3갠데 당연하쥬 (실제로는 차수인 q 값이 상당히 클 수 있다)
이런 이유 때문에 ARCH 를 개선한 GARCH 모델을 주로 쓴다. GARCH 역시 시계열 데이터에서 변동성이 일정하지 않다는 가정을 가진 모델인데, 변동성의 시계열 의존성, 즉 자기상관을 포현하는 데 있어 모수의 수를 줄일 수 있다는 장점이 있다.
3. GARCH 모델 (Generalized AutoRegressive Conditional Hereroskedasticity 일반화된 자동회귀 조건부 이분산성 모델 )
GARCH 모형은 ARCH 모형과 마찬가지로 변동성이 어떻게 변하는지를 예측하는 모형이다. 이 모형은 변동성을 설명하는 가중치, 알파와 베타를 이용해서 조건부 분산을 계산하는데, GARCH 모형은 변동성이 양의 변동성과 음의 변동성을 동일하게 다룬다는 점에서 ARCH 모형과는 다르다. (앞서 언급한 ARCH 의 이 한계를 계산한 것)
수식을 자세히 뜯어보면 ARCH 와는 이 점이 다르다. 시그마 t (변동성) 부분을 계산하는 루트에서 또 다른 변동성 요인 하나가 영향을 받는다고 보는 것이다. 그러니까 나의 현재값을 예상하기 위해 사용하는 직전값의 변동값이 그 직전값의 변동성 두가지에게 영향을 받는다고 보는것이다. 그렇기 때문에 예측한 시계열 값을 그래프고 그렸을때 덜 bursty 한 (폭발적으로 상승하거나 하강하는) 모습을 보인다. 왜냐면 이전 기간의 변동성을 더 강한 수준으로 고려하기 때문이다. (더 많은 기간을 고려하기 때문이다)
GARCH 모델을 이해하는 데 인강이 뭔말을 하는지 정말 1도 모르겠어서 이 선생님의 도움을 받았다...
(참조)
https://www.youtube.com/watch?v=inoBpq1UEn4
파이썬 실습도 가능하긴 하나 어차피 실무에서 안 쓰니까 포스팅에서는 생략
(참조)
https://www.youtube.com/watch?v=96nSIMS9_Y0