Pourquoi une série chronologique doit-elle être stationnaire?

92

Je comprends qu'une série temporelle stationnaire en est une dont la moyenne et la variance sont constantes dans le temps. Quelqu'un peut-il expliquer s'il vous plaît pourquoi nous devons nous assurer que notre ensemble de données est stationnaire avant de pouvoir exécuter différents modèles ARIMA ou ARM sur celui-ci? Cela s'applique-t-il également aux modèles de régression normale où l'autocorrélation et / ou le temps ne sont pas un facteur?

alex
la source
2
Que sont les modèles ARM? Voulez-vous dire ARMA?
Mpiktas
9
La stationnarité nécessite plus qu'une moyenne et une variance constantes. Une stationnarité faible nécessite que la fonction de covariance cov(Xt,Xt+h) ne dépende pas de t .
Mpiktas
11
Vous n'avez pas besoin de la stationnarité pour exécuter un modèle AR MA, car si l'ordre est , il est explicitement non stationnaire. La stationnarité est une hypothèse d'ARMA, cependant. I ( ) > 0jeI()>0
Glen_b
1
+1 pour le commentaire de commande, bien que ce ne soit strictement que si dans . Pour les ordres arbitraires, il y a ARFIMA{ 0 , 1 , 2 , . . . }je{0,1,2,...}
conjugateprior
@Glen_b Les modèles ARIMA peuvent-ils être appliqués à des séries non stationnaires? Ou bien existe-t-il des cas spécifiques non stationnaires dans lesquels ARIMA peut être appliqué?
Nizar le

Réponses:

75

La stationnarité est un type de structure de dépendance.

Supposons que nous ayons une donnée . L'hypothèse la plus élémentaire est que sont indépendants, c'est-à-dire que nous avons un échantillon. L'indépendance est une belle propriété, car son utilisation donne de nombreux résultats utiles. Le problème est que parfois (ou fréquemment, en fonction de la vue) cette propriété ne tient pas.X iX1,...,XnXje

Maintenant, l'indépendance est une propriété unique, deux variables aléatoires ne peuvent être indépendantes que d'une manière, mais elles peuvent être dépendantes de différentes manières. La stationnarité est donc un moyen de modéliser la structure de dépendance. Il s'avère que beaucoup de bons résultats valent pour les variables aléatoires indépendantes (loi des grands nombres, théorème limite central pour n'en nommer que quelques-uns) pour les variables aléatoires stationnaires (nous devrions strictement dire séquences). Et bien sûr, il s'avère que beaucoup de données peuvent être considérées comme stationnaires. Le concept de stationnarité est donc très important dans la modélisation de données non indépendantes.

Une fois que nous avons déterminé que nous avons une stationnarité, nous voulons naturellement la modéliser. C’est là que les modèles ARMA entrent en jeu. Il s’avère que toute donnée stationnaire peut être approximée avec le modèle ARMA stationnaire, grâce au théorème de décomposition de Wold . C'est pourquoi les modèles ARMA sont très populaires et que nous devons nous assurer que la série est immobile pour pouvoir utiliser ces modèles.

Maintenant, encore une fois, la même histoire s’applique avec l’indépendance et la dépendance. La stationnarité est définie de manière unique, c’est-à-dire que les données sont stationnaires ou non. Il n’ya donc qu’un moyen pour que les données soient stationnaires, mais il existe de nombreuses manières de les rendre non stationnaires. Encore une fois, il s'avère que beaucoup de données deviennent stationnaires après une certaine transformation. Le modèle ARIMA est un modèle de non-stationnarité. Il suppose que les données deviennent stationnaires après différenciation.

Dans le contexte de la régression, la stationnarité est importante car les mêmes résultats que pour les données indépendantes valent si les données sont stationnaires.

mpiktas
la source
4
Je vous suggérerais de mettre cette partie de votre réponse ("C’est là que les modèles ARMA entrent en jeu. Il s’avère que toute donnée stationnaire peut être approximée avec un modèle ARMA stationnaire, grâce au théorème de décomposition de Wold. C’est pourquoi les modèles ARMA sont très populaire et c’est pourquoi nous devons nous assurer que la série est immobile pour utiliser ces modèles. ") en gras parce que c’est ce qui répond avant tout à la question.
Poete Maudit
34

En quelles quantités sommes-nous généralement intéressés lorsque nous effectuons des analyses statistiques sur une série chronologique? Nous voulons savoir

  • Sa valeur attendue,
  • Sa variance, et
  • La corrélation entre les valeurs périodes à part pour un ensemble de s valeurs.ss

Comment calculons-nous ces choses? Utilisation d'une moyenne sur plusieurs périodes.

La moyenne sur plusieurs périodes est uniquement informative si la valeur attendue est la même sur toutes ces périodes. Si ces paramètres de population peuvent varier, que estimons-nous réellement en prenant une moyenne dans le temps?

La stationnarité (faible) exige que ces quantités de population soient identiques dans le temps, ce qui fait de la moyenne de l'échantillon un moyen raisonnable de les estimer.

De plus, les processus stationnaires évitent le problème de la régression parasite .

Charlie
la source
12

Une idée sous-jacente à l’apprentissage statistique est que vous pouvez apprendre en répétant une expérience. Par exemple, nous pouvons continuer à feuilleter une punaise pour connaître la probabilité qu'une punaise se pose sur sa tête.

Dans le contexte des séries chronologiques, nous observons une seule exécution d'un processus stochastique plutôt que des exécutions répétées du processus stochastique. Nous observons 1 longue expérience plutôt que de multiples expériences indépendantes.

Nous avons besoin de stationnarité et d'ergodicité pour que l'observation d'une longue séquence d'un processus stochastique s'apparente à l'observation de nombreuses exécutions indépendantes d'un processus stochastique.

Quelques définitions (imprécises)

Soit Ω un espace échantillon. Un processus stochastique {Yt} est une fonction du temps t{1,2,3,} et le résultat ωΩ .

  • Pour tout instant t , Yt est une variable aléatoire (c'est-à-dire une fonction de Ω vers un espace tel que l'espace des nombres réels).
  • Pour tout résultat ω nous avons X(ω) est une série déterministe {Y1(ω),Y2(ω),Y3(ω),}

Une question fondamentale dans les séries chronologiques

Dans Statistiques 101, nous apprenons une série de variables indépendantes et identiquement distribuées X1 , X2 , X3 etc. Nous observons plusieurs expériences identiques je=1,,n où un est choisi au hasard et cela nous permet d' en apprendre davantage sur la variable aléatoire . Selon la loi des grands nombres , nous avons convergeant presque sûrement vers .ωjeΩX11nΣje=1nXjeE[X]

Une différence fondamentale dans le réglage de la série temporelle est que nous observons plusieurs observations sur une période plutôt que plusieurs dessins de .tΩ

Dans le cas général, ne peut pas converger vers quoi que ce soit!1TΣt=1TYt

Pour que plusieurs observations au fil du temps puissent accomplir une tâche similaire lorsque plusieurs prélèvements sont effectués dans l'espace échantillon , nous avons besoin de stationnarité et d' ergodicité .

Si une moyenne inconditionnelle existe et que les conditions du théorème ergodique sont remplies, la série temporelle, la moyenne de l'échantillon convergeront à la moyenne inconditionnelle .E[Y]1TΣt=1TYtE[Y]

Exemple 1: défaillance de la stationnarité

Soit le processus dégénéré . Nous pouvons voir que n'est pas une stationnaire (la distribution jointe n'est pas invariante dans le temps).{Yt}Yt=t{Yt}

Soit St=1tΣje=1tYjeêtre l'échantillonsérie de temps, et il est évident queStne converge pas quoi que ce soitt:S1=1,S2=32,S3=2,,St=t+12 . La moyenne deYtn'existe pas etStne converge pas à quoi que ce soitt.

Exemple: échec de l'ergodicité

XYt=Xt{Yt}=(0,0,0,0,0,0,0,){Yt}=(1,1,1,1,1,1,1,

E[Yt]=12St=1tΣje=1tYjeYt

Matthew Gunn
la source
11

Pour ajouter une réponse de haut niveau à certaines des autres réponses qui sont bonnes mais plus détaillées, la stationnarité est importante car, en son absence, un modèle décrivant les données variera en précision à des moments différents. En tant que telle, la stationnarité est nécessaire pour les statistiques d'échantillon telles que les moyennes, les variances et les corrélations afin de décrire avec précision les données à tous les points temporels présentant un intérêt.

600<t<800200<t<400

entrez la description de l'image ici

Jeffrey Girard
la source
8

Xt=Xt-1+et

Cependant, nous recherchons souvent la stationnarité. Pourquoi?

Considérez le problème de prévision. Comment prévoyez-vous? Si tout est différent demain alors il est impossible de prévoir, parce que tout va être différent. Donc , la clé de la prévision est de trouver quelque chose qui sera le même demain et étendre que demain. Ce quelque chose peut être n'importe quoi. Je vais vous donner quelques exemples.

et~N(0,σ2)σ2ΔXtXt-Xt-1=etΔXt

Xt=αt+etE[et]=0α

Pour la prévision, nous devons absolument trouver la composante constante (invariante dans le temps) de la série, sinon il est impossible de prévoir par définition. La stationnarité n'est qu'un cas particulier de l'invariance.

Aksakal
la source
5

Dans la mesure où ARIMA régresse en grande partie sur lui-même, il utilise un type de régression multiple auto-induit qui serait inutilement influencé par une tendance forte ou une saisonnalité. Cette technique de régression multiple est basée sur les valeurs des séries chronologiques précédentes, en particulier celles des dernières périodes, et nous permet d'extraire une "interrelation" très intéressante entre plusieurs valeurs passées qui permettent d'expliquer une valeur future.

Robert
la source
2

X(Xt+1,,Xt+k)(X1,,Xk)tk. From Wiki: un processus stationnaire (ou processus strictement stationnaire ou processus fortement stationnaire) est un processus stochastique dont la distribution de probabilité conjointe ne change pas lorsque décalée dans le temps ou dans l'espace. Par conséquent, les paramètres tels que la moyenne et la variance, s’ils existent, ne changent pas non plus avec le temps ou la position. De plus, comme Cardinal l’a bien souligné ci-dessous, la fonction d’autocorrélation doit être invariante dans le temps (ce qui signifie que la fonction de covariance est constante dans le temps) est convertie en paramètres du modèle ARMA invariants / constants pour tous les intervalles de temps.

L'idée de stationnarité du modèle ARMA est étroitement liée à l'idée d'inversibilité.

y(t)=1.1y(t-1)(1-1.1B)

IrishStat
la source
1
X
La mention de papeterie de second ordre semble avoir été perdue dans votre édition la plus récente. Était-ce intentionnel? (Mon commentaire initial était davantage axé sur la stationnarité de second ordre que sur la stationnarité stricte.)
cardinal
: cardinal, je pense que j’ai senti que votre commentaire était important et a précisé ce qui était supposé. Si vous pensez que l’idée de "stationnaire de second ordre" ajoute de la clarté, aidez-moi à l’ajouter à ma réponse de manière à éclairer un anglais simple et clair.
IrishStat
-2

ARMA et ARIMA sont construits en supposant que la série est stationnaire. Si la série n'est pas alors la prédiction sera incorrecte.

Les statistiques d'échantillon - moyenne, variance, co variance - sont utiles pour décrire le comportement futur uniquement si la série est stationnaire. Par exemple, si la série augmente régulièrement avec le temps, la moyenne et la variance de l'échantillon augmenteront avec la taille de l'échantillon et sous-estimeront toujours la moyenne et la variance au cours des périodes futures. Il est important d’être prudent lorsque vous essayez d’extrapoler des modèles de régression adaptés à des données non stationnaires.

Rama Thamman
la source
-3

À mon avis, le processus stochastique est régi par trois propriétés statistiques qui doivent être invariantes dans le temps. Ce sont la variance moyenne et la fonction d'auto-corrélation. Bien que les deux premières ne disent rien de l'évolution la troisième propriété, qui est une fonction d'auto-corrélation, devrait indiquer quelle façon la dépendance décroît avec le temps (lag).

Curiosité
la source
5
Cela confond le fait d'être un processus stochastique et d'être stationnaire, donc cela commence par une erreur fondamentale. Qu'est-ce que votre réponse ajoute à ceux déjà postés?
Nick Cox
-3

Pour résoudre n'importe quoi, nous devons modéliser les équations de manière mathématique en utilisant la statique.

  1. Pour résoudre de telles équations, il doit être indépendant et stationnaire (ne bouge pas)
  2. Dans les données stationnaires uniquement, nous pouvons obtenir des informations et effectuer des opérations mathématiques (moyenne, variance, etc.) pour des applications multiples.
  3. En mode non stationnaire, il est difficile d’obtenir des données

Pendant le processus de conversion, nous aurons une tendance et une saisonnalité

saravanan saminathan
la source
2
Aucune de vos réponses n'a de sens. La prémisse de la question est fausse. De nombreuses séries chronologiques peuvent être considérées comme non stationnaires à la fois théoriquement et par l'observation. Par exemple, il existe de nombreuses méthodes pour y faire face! différenciation ou différenciation saisonnière de la série ou 2. comprenant des composantes cycliques telles que les ondes sinusoïdales.
Michael Chernick
@MichaelChernick Pendant la différenciation et la différenciation saisonnière, nous convertissons des séries non stationnaires en séries stationnaires. J'accepte votre point de vue selon lequel de nombreuses séries chronologiques ne sont pas stationnaires mais pour le résoudre mathématiquement, nous devons le convertir en stationnaire à droite
saravanan saminathan