시계열 모델: 가이드
금융 시장 동향을 예측하든, 전력 소비를 예측하든, 시간은 모델에서 고려해야 하는 중요한 요소입니다. 예를 들어, 전력 소비가 가장 많은 시간을 예측하는 것은 흥미로울 것입니다. 이는 가격을 조정하거나 전기 생산을 조정하는 데 유용할 수 있습니다.
시계열을 입력하세요. 시계열은 시간순으로 정렬된 일련의 데이터 포인트입니다. 시계열에서 시간은 독립 변수인 경우가 많으며 목표는 일반적으로 미래를 예측하는 것입니다.
그러나 시계열을 다룰 때 작용하는 다른 측면도 있습니다.
이 게시물에서는 시계열의 다양한 특성과 이를 모델링하여 최대한 정확한 예측을 얻는 방법을 소개하겠습니다.
비공식적으로, 자기상관은 관측치 사이의 시간 지연에 따른 관측치 간의 유사성입니다.
위는 자기 상관 플롯의 예입니다. 자세히 살펴보면 첫 번째 값과 24번째 값의 자기 상관이 높다는 것을 알 수 있습니다. 마찬가지로 12번째 관측치와 36번째 관측치도 높은 상관관계가 있습니다. 이는 매 24번째 단위 시간마다 매우 유사한 값을 찾을 수 있음을 의미합니다.
플롯이 어떻게 정현파 함수처럼 보이는지 확인하세요. 이것은 계절성에 대한 힌트입니다.,위 그래프에서 기간(24시간)을 찾아 그 값을 찾을 수 있습니다.
데이터 과학에 대한 추가 정보순환 신경망 가이드: RNN 및 LSTM 네트워크 이해
계절성은 주기적인 변동을 의미합니다. 예를 들어, 낮에는 전력 소비량이 많고 밤에는 적거나, 크리스마스 기간 동안 온라인 판매가 늘었다가 다시 둔화되는 경우 등이 있습니다.
위에서 볼 수 있듯이 매일 계절성이 있습니다. 매일 저녁 무렵에 최고점을 보이고, 최저점은 하루의 시작과 끝입니다.
계절성은 정현파 형태인 경우 자기상관 도표에서 파생될 수도 있다는 점을 기억하십시오. 단순히 기간을 보면 계절의 길이를 알 수 있습니다.
정상성은 시계열의 중요한 특성입니다. 시계열의 통계적 속성이 시간이 지나도 변하지 않으면 시계열은 고정되어 있다고 합니다. 즉, 일정한 평균과 분산을 가지며, 공분산은 시간과 무관합니다.
동일한 플롯을 보면 위의 프로세스가 고정되어 있음을 알 수 있습니다. 평균과 분산은 시간이 지나도 변하지 않습니다.
종종 주가는 고정된 과정이 아닙니다. 증가하는 추세를 볼 수도 있고 시간이 지남에 따라 변동성이 증가할 수도 있습니다(즉, 분산이 변하고 있음을 의미함).
이상적으로는 모델링을 위해 고정된 시계열을 갖고 싶습니다. 물론, 그것들 모두가 고정되어 있는 것은 아니지만, 고정되게 만들기 위해 다양한 변형을 가할 수 있습니다.
위 줄거리의 제목이 "Dickey-Fuller"라는 것을 눈치챘을 것입니다. 이는 시계열이 고정되어 있는지 여부를 확인하기 위해 실행하는 통계 테스트입니다.
기술적인 세부 사항을 다루지 않고 Dickey-Fuller 테스트는 귀무 가설을 테스트하여 단위근이 존재하는지 확인합니다.
만약 그렇다면, p > 0이고, 그 과정은 정상적이지 않습니다.
그렇지 않은 경우 p = 0이면 귀무 가설이 기각되고 프로세스가 정상인 것으로 간주됩니다.
예를 들어 아래 프로세스는 고정되어 있지 않습니다. 평균이 시간에 따라 일정하지 않다는 점에 주목하세요.
예측을 위해 시계열을 모델링하는 방법에는 여러 가지가 있습니다. 가장 널리 사용되는 방법은 다음과 같습니다.
이동 평균 모델은 아마도 시계열 모델링에 대한 가장 순진한 접근 방식일 것입니다. 이 모델은 단순히 다음 관측치가 모든 과거 관측치의 평균임을 나타냅니다.
단순하지만 이 모델은 놀라울 정도로 효과적일 수 있으며 좋은 출발점이 됩니다.
그렇지 않으면 이동 평균을 사용하여 데이터의 흥미로운 추세를 식별할 수 있습니다. 시계열을 평활화하고 다양한 추세를 강조하기 위해 이동 평균 모델을 적용하는 창을 정의할 수 있습니다.
위 그림에서는 이동 평균 모델을 24시간 기간에 적용했습니다. 녹색 선은 시계열을 평활화하여 24시간 동안 두 개의 최고점이 있음을 알 수 있습니다.