Stationarity và differencing của dữ liệu time series
Stationarity sự đứng yên
Chuỗi thời gian cố định là chuỗi mà các thuộc tính của nó không phụ thuộc vào thời gian mà chuỗi đó được quan sát.
Do đó, chuỗi thời gian có xu hướng hoặc có tính thời vụ, không cố định - xu hướng và tính thời vụ sẽ ảnh hưởng đến giá trị của chuỗi thời gian tại các thời điểm khác nhau.
Mặt khác, white noise series là đứng yên - không quan trọng khi bạn quan sát nó, nó sẽ trông giống nhau tại bất kỳ thời điểm nào.
Một số trường hợp có thể gây nhầm lẫn - một chuỗi thời gian có hành vi theo chu kỳ (nhưng không có xu hướng) là cố định. Điều này là do các chu kỳ không có độ dài cố định, vì vậy trước khi quan sát chuỗi, chúng ta không thể chắc chắn đâu sẽ là đỉnh và đáy của các chu kỳ.
Nói chung, một chuỗi thời gian cố định sẽ không có mô hình dự đoán được trong dài hạn. Biểu đồ thời gian sẽ cho thấy chuỗi gần như nằm ngang (mặc dù có thể xảy ra một số hành vi theo chu kỳ), với phương sai không đổi.
Hãy xem xét chín ảnh được vẽ trong hình trên. Bạn nghĩ cái nào trong số này là đứng yên?
Tính thời vụ rõ ràng quy ra chuỗi (d), (h) và (i). Các xu hướng và mức độ thay đổi quy định chuỗi (a), (c), (e), (f) và (i). Phương sai tăng cũng loại trừ (i). Điều đó chỉ để lại (b) và (g) là chuỗi đứng yên.
Thoạt nhìn, các chu kỳ mạnh trong chuỗi (g) Tổng số linh miêu bị mắc kẹt hàng năm ở sông McKenzie tây bắc Canada; có thể làm cho nó không đứng yên. Nhưng những chu kỳ này là không theo chu kỳ - chúng xảy ra khi quần thể linh miêu trở nên quá lớn so với nguồn thức ăn sẵn có, khiến chúng ngừng sinh sản và quần thể giảm xuống số lượng thấp, sau đó sự tái tạo nguồn thức ăn cho phép quần thể phát triển trở lại, và như vậy trên. Trong dài hạn, thời gian của các chu kỳ này là không thể dự đoán được. Do đó, series là đứng yên.
Differencing - sự khác biệt
Trong Hình trên, lưu ý rằng giá cổ phiếu của Google không cố định trong bảng (a), nhưng những thay đổi hàng ngày vẫn cố định trong bảng (b). Điều này cho thấy một cách để làm cho chuỗi thời gian không đứng yên là tĩnh - tính toán sự khác biệt giữa các lần quan sát liên tiếp. Điều này được gọi là sự khác biệt (differencing).
Các phép biến đổi như logarit có thể giúp ổn định phương sai của chuỗi thời gian. Sự khác biệt có thể giúp ổn định giá trị trung bình của một chuỗi thời gian bằng cách loại bỏ các thay đổi về cấp độ của chuỗi thời gian, do đó loại bỏ (hoặc giảm) xu hướng và tính thời vụ
Ngoài việc xem xét biểu đồ thời gian của dữ liệu, biểu đồ ACF cũng hữu ích để xác định chuỗi thời gian không cố định. Đối với chuỗi thời gian tĩnh, ACF sẽ giảm xuống 0 tương đối nhanh chóng, trong khi ACF của dữ liệu không tĩnh giảm chậm. Ngoài ra, đối với dữ liệu không cố định, giá trị của r1 thường lớn và dương.
Box.test(diff(goog200), lag=10, type="Ljung-Box")
#>
#> Box-Ljung test
#>
#> data: diff(goog200)
#> X-squared = 11, df = 10, p-value = 0.4
ACF của giá cổ phiếu Google khác biệt trông giống như của một chuỗi nhiễu trắng. Không có tự tương quan nào nằm ngoài giới hạn 95% và Ljung-Box Q ∗ statistic có giá trị p là 0,355 (đối với h = 10 h = 10). Điều này cho thấy rằng sự thay đổi hàng ngày của giá cổ phiếu Google về cơ bản là một số tiền ngẫu nhiên không liên quan đến sự thay đổi của những ngày trước đó.