[시계열] 일반 머신러닝 모델로 시계열 데이터 돌리는 법
·
데이터 과학 Data Science/시계열 데이터
다들 알고 계셨나요? 주니어인 저는 이번 프로젝트 하면서 생판 처음 알게 된 사실이랍니다... 말그대로 일반 머신러닝 예측, 분류 문제를 시계열 데이터에 활용하면 된다는건데요. 딥러닝을 그닥 좋아하지 않는 저로서는 이 소식이 정말 반갑고.. 놀라워 같이 작업하신 데사분께 배워온 내용들을 기록해 두려고 합니다 우선 기본 원리는 다음과 같습니다 1. 시계열 데이터의 형태를 일반 모델에 들어갈 수 있는 수치 형태로 바꿔준다 (이때 인덱스가 날짜일 필요는 없어지며 순서만 잘 유지해주면 되는 듯 하다) 2. 하지만 그렇게 되면 시계열 모델이 가지는 장점인 (시간 순서에 따른 패턴 등을 잘 학습한다는 점) 은 사라지게되니 이를 상쇠할만한 다른 컬럼들을 생성해 주거나, (이동평균이라던지, 푸리에변환이라던지) 공휴일 ..
[시계열] 시계열 모델 기초(1) 안정시계열 -AR , MA , ARMA (세상에서 제일 쉬운 설명)
·
데이터 과학 Data Science/시계열 데이터
머신러닝에서 수학은 곧 모델의 설명력과 같으나, 모두 이해하기엔 너무 많은 리소스가 드는 관계로 수학은 최소화하여 이해할 수 있는 수준으로 세상에서 가장 쉬운 버젼으로 AR 모델, MA 모델, 둘의 결합인 ARMA 모델의 원리를 공부해 보겠다. 0. Intro 시계열 모델의 기본인 AR, MA, ARMA 모델은 기본적으로 안정시계열 모델이다. 대부분의 데이터는 불안정시계열이기 때문에 이를 쉽게 적용할 수 없어 추가적인 가정이 있는 ARIMA, SARIMA, VARMA 등을 이용하게 되지만, 기본적인 원리를 이해하기 위해 해당 게시글을 작성하였다. 1. AR 모델 AR 모델은 자기회귀 (Autoregressive Model) 의 약어로, 자기 자신의 과거 데이터를 이용해 미래를 예측하는 모델이라고 쉽게 이..
[시계열] 시계열 모델들의 종류와 경우에 따른 시계열 모델 선정법
·
데이터 과학 Data Science/시계열 데이터
우선 시계열 모델들은 이렇게 크게 세 가지 유형의 모델들로 분류될 수 있다. 모델링이 원래 그렇듯, 우리 데이터에 가장 적합할 것으로 예상되는 모델을 이용하면 되는데, 이를 위해 나누어진 모델들의 대분류는 각각 어떤 특징들을 가지는지 먼저 알아보고, 가장 전통적인 모델들부터 하나씩 소개해 보도록 하겠다. 1. 시간 영역의 시계열 모델 시간 영역의 시계열 모델들은 AR, MA 모델들, 그리고 가장 유명하고 전통적인 ARIMA 모델들의 파생 모델로부터 나온 모델들이다. 이들은 시간 변동의 폭이 discrete 하지 않고 이상적일 때 쓴다. 계량통계학, 계량경제학으로부터 생겨난 모델이며, 따라서 차후의 모델들과는 다르게 조금 더 variation 이 작고 인간이 이해할 수 있는 데이터에 주로 적용한다. 2. ..
[시계열] 시계열 데이터의 전처리 - 차분, 로그변환, ACF
·
데이터 과학 Data Science/시계열 데이터
앞선 글에서 살펴본 시계열 데이터는 데이터 통계의 가장 기본적인 가정인 등분산성도, 자기상관성도, 정상성도 파괴해 버리는 특이한 데이터라는 점을 알 수 있다. 이런 데이터들의 경우 전통적인 머신러닝 기법들인 ARIMA 시리즈에 데이터를 집어넣기 어렵기 때문에 우리는 이 데이터들의 특수성을 제거해준 뒤 머신러닝에 넣어줄 필요가 있는데, 이때 주로 사용하는 방법들은 다음과 같다 1. 차분 (differencing) 데이터를 차분한다는것은 t 시점과 t-1 시점의 값의 차이를 구하는 것이다 쉽게 말하면, 데이터를 차분하면 우리는 데이터의 변동값을 알게 되어 데이터의 앞뒤에 받았던 영향을 제거하고 랜덤한 데이터만으로 머신러닝 예측을 할 수 있는 것이다. 차분을 수학 공식으로 나타내면 다음과 같다 이때, 차분하는..
허니비 honeybee