
[시계열] 시계열 데이터의 전처리 - 차분, 로그변환, ACF
·
데이터 과학 Data Science/시계열 데이터
앞선 글에서 살펴본 시계열 데이터는 데이터 통계의 가장 기본적인 가정인 등분산성도, 자기상관성도, 정상성도 파괴해 버리는 특이한 데이터라는 점을 알 수 있다. 이런 데이터들의 경우 전통적인 머신러닝 기법들인 ARIMA 시리즈에 데이터를 집어넣기 어렵기 때문에 우리는 이 데이터들의 특수성을 제거해준 뒤 머신러닝에 넣어줄 필요가 있는데, 이때 주로 사용하는 방법들은 다음과 같다 1. 차분 (differencing) 데이터를 차분한다는것은 t 시점과 t-1 시점의 값의 차이를 구하는 것이다 쉽게 말하면, 데이터를 차분하면 우리는 데이터의 변동값을 알게 되어 데이터의 앞뒤에 받았던 영향을 제거하고 랜덤한 데이터만으로 머신러닝 예측을 할 수 있는 것이다. 차분을 수학 공식으로 나타내면 다음과 같다 이때, 차분하는..