[시계열 분해 (Time Series Decomposition)]
시계열 분해
시계열 데이터는 여러가지 성분으로 나눠서 생각해볼 수 있다. 대표적으로 시계열 데이터에는 계절성분 S, 추세-주기 성분 T, 그 외의 나머지 성분 R이 있다. 그러므로 시계열 데이터를 분해한다면 S, T, R의 조합으로 분해할 수 있게 된다.
분해 방법
시계열 데이터는 S, T, R로 분해될 때 두 가지 방법으로 분해될 수 있다. 바로 덧셈 분해(Additive Decomposition)과 곱셈 분해(Multiplicative Decomposition)이다.
덧셈 분해(Additive Decomposition)
덧셈 분해는 위 수식과 같이 덧셈으로 시계열 데이터를 설명한 것이다. 덧셈 분해는 계절성 요동의 크기(S의 요동)나 추세-주기 주위의 변동(T의 변동)이 시계열 수준에서 변하지 않을 때 가장 적절하게 사용될 수 있다.
곱셈 분해(Multiplicative Decomposition)
곱셈 분해는 시계열 수준에 비례해서 계절성 패턴 변동이나 추세-주기 주위의 변동이 나타날 때 적절하다. 다만 곱셈분해를 log scale과 같은 scale 변경으로 데이터를 계속해서 변경하다가 시간에 따른 변동이 안정적으로 변하면 덧셈 분해로도 가능할 수 있다.
예제
이 데이터는 전자 장비에 대한 신규 주문량을 나타낸다. 주문량은 매우 큰 수이기 때문에 지수로 변경하여 표시되었다.
위 데이터 그래프에서 빨간색 선이 추세-주기 성분으로 T에 해당한다. 이런 방식으로 시계열 분해가 이루어진다고 볼 수 있으며 더 자세하여 분해해보자!
위에서 나왔던 원본 시계열 데이터를 이와 같이 덧셈 분해로 나타낼 수 있다. trend는 추세-주기, seasonal은 계절성(반복주기), remainder는 나머지 성분임을 볼 수 있다. 여기서 remainder(R)은 원본 데이터에서 trend(T)와 seasonal(S)를 빼고 남은 결과이다.
각 그래프의 오른쪽에 위치하는 회색 막대 그래프는 상대적인 크기를 알 수 있도록 하는 장치이다. 이 회색 막대들은 모두 같은 크기이다. 즉, 맨 아래의 Remainder 성분은 실제 데이터에서는 1/4 크기라는 의미이다.(회색 막대가 원본 막대보다 4배 크기 때문)
계절성으로 조정된 데이터(Seasonally Adjusted)
원본 시계열 데이터에서 계절 성분을 제거한 결과를 계절성으로 조정된 데이터라고 부른다. 이 결과값은 덧셈 분해에서는 y - S, 곱셈 분해에서는 y/S를 뜻한다. 계절성으로 조정된 데이터, 즉, 계절성이 없는 데이터는 어디에서 유용하게 쓰일까?
우리가 가진 task가 계절성에 의한 변동이 주 관심사가 아니라면, 계절성이 제외된 시계열 데이터가 중요할 수 있다. 예를 들어, 물가 상승에 대한 시계열 데이터가 있다고 한다면, 이는 계절에 의해서 변동하는 것을 강조하기 보다는 중요한 경제상황에 대해서 나타나는 변동에 주목할 필요가 있다. 즉, 이런 경우의 데이터에는 비-계절성 변동이 더 중요하기 때문에 계절 성분을 제거하여(조정하여) 다룰 수 있다.
추가
만약 시계열 데이터에서 우리가 찾으려는 task가 전환점을 확인하는 것 또는 변화를 해석하는 것에 있다면, 계절성을 조정한 데이터를 보기보다는 추세-주기 성분을 따로 이용하는 것이 낫다고 한다.
Reference
https://otexts.com/fppkr/components.html
6.1 시계열 성분 | Forecasting: Principles and Practice
2nd edition
otexts.com