Je comprends qu'une série temporelle stationnaire en est une dont la moyenne et la variance sont constantes dans le temps. Quelqu'un peut-il expliquer s'il vous plaît pourquoi nous devons nous assurer que notre ensemble de données est stationnaire avant de pouvoir exécuter différents modèles ARIMA ou ARM sur celui-ci? Cela s'applique-t-il également aux modèles de régression normale où l'autocorrélation et / ou le temps ne sont pas un facteur?
92
Réponses:
La stationnarité est un type de structure de dépendance.
Supposons que nous ayons une donnée . L'hypothèse la plus élémentaire est que sont indépendants, c'est-à-dire que nous avons un échantillon. L'indépendance est une belle propriété, car son utilisation donne de nombreux résultats utiles. Le problème est que parfois (ou fréquemment, en fonction de la vue) cette propriété ne tient pas.X iX1, . . . , Xn Xje
Maintenant, l'indépendance est une propriété unique, deux variables aléatoires ne peuvent être indépendantes que d'une manière, mais elles peuvent être dépendantes de différentes manières. La stationnarité est donc un moyen de modéliser la structure de dépendance. Il s'avère que beaucoup de bons résultats valent pour les variables aléatoires indépendantes (loi des grands nombres, théorème limite central pour n'en nommer que quelques-uns) pour les variables aléatoires stationnaires (nous devrions strictement dire séquences). Et bien sûr, il s'avère que beaucoup de données peuvent être considérées comme stationnaires. Le concept de stationnarité est donc très important dans la modélisation de données non indépendantes.
Une fois que nous avons déterminé que nous avons une stationnarité, nous voulons naturellement la modéliser. C’est là que les modèles ARMA entrent en jeu. Il s’avère que toute donnée stationnaire peut être approximée avec le modèle ARMA stationnaire, grâce au théorème de décomposition de Wold . C'est pourquoi les modèles ARMA sont très populaires et que nous devons nous assurer que la série est immobile pour pouvoir utiliser ces modèles.
Maintenant, encore une fois, la même histoire s’applique avec l’indépendance et la dépendance. La stationnarité est définie de manière unique, c’est-à-dire que les données sont stationnaires ou non. Il n’ya donc qu’un moyen pour que les données soient stationnaires, mais il existe de nombreuses manières de les rendre non stationnaires. Encore une fois, il s'avère que beaucoup de données deviennent stationnaires après une certaine transformation. Le modèle ARIMA est un modèle de non-stationnarité. Il suppose que les données deviennent stationnaires après différenciation.
Dans le contexte de la régression, la stationnarité est importante car les mêmes résultats que pour les données indépendantes valent si les données sont stationnaires.
la source
En quelles quantités sommes-nous généralement intéressés lorsque nous effectuons des analyses statistiques sur une série chronologique? Nous voulons savoir
Comment calculons-nous ces choses? Utilisation d'une moyenne sur plusieurs périodes.
La moyenne sur plusieurs périodes est uniquement informative si la valeur attendue est la même sur toutes ces périodes. Si ces paramètres de population peuvent varier, que estimons-nous réellement en prenant une moyenne dans le temps?
La stationnarité (faible) exige que ces quantités de population soient identiques dans le temps, ce qui fait de la moyenne de l'échantillon un moyen raisonnable de les estimer.
De plus, les processus stationnaires évitent le problème de la régression parasite .
la source
Une idée sous-jacente à l’apprentissage statistique est que vous pouvez apprendre en répétant une expérience. Par exemple, nous pouvons continuer à feuilleter une punaise pour connaître la probabilité qu'une punaise se pose sur sa tête.
Dans le contexte des séries chronologiques, nous observons une seule exécution d'un processus stochastique plutôt que des exécutions répétées du processus stochastique. Nous observons 1 longue expérience plutôt que de multiples expériences indépendantes.
Nous avons besoin de stationnarité et d'ergodicité pour que l'observation d'une longue séquence d'un processus stochastique s'apparente à l'observation de nombreuses exécutions indépendantes d'un processus stochastique.
Quelques définitions (imprécises)
SoitΩ un espace échantillon. Un processus stochastique { Yt} est une fonction du temps t ∈ { 1 , 2 , 3 , … } et le résultat co ∈ Ohm .
Une question fondamentale dans les séries chronologiques
Dans Statistiques 101, nous apprenons une série de variables indépendantes et identiquement distribuéesX1 , X2 , X3 etc. Nous observons plusieurs expériences identiques i = 1 , … , n où un est choisi au hasard et cela nous permet d' en apprendre davantage sur la variable aléatoire . Selon la loi des grands nombres , nous avons convergeant presque sûrement vers .ωje∈ Ω X 11nΣni = 1Xje E[ X]
Une différence fondamentale dans le réglage de la série temporelle est que nous observons plusieurs observations sur une période plutôt que plusieurs dessins de .t Ω
Dans le cas général, ne peut pas converger vers quoi que ce soit!1TΣTt = 1Yt
Pour que plusieurs observations au fil du temps puissent accomplir une tâche similaire lorsque plusieurs prélèvements sont effectués dans l'espace échantillon , nous avons besoin de stationnarité et d' ergodicité .
Si une moyenne inconditionnelle existe et que les conditions du théorème ergodique sont remplies, la série temporelle, la moyenne de l'échantillon convergeront à la moyenne inconditionnelle .E[ Y] 1TΣTt = 1Yt E[ Y]
Exemple 1: défaillance de la stationnarité
Soit le processus dégénéré . Nous pouvons voir que n'est pas une stationnaire (la distribution jointe n'est pas invariante dans le temps).{ Yt} Yt= t { Yt}
SoitSt= 1tΣti = 1Yje être l'échantillonsérie de temps, et il est évident queSt ne converge pas quoi que ce soitt → ∞ :S1= 1 , S2= 32, S3= 2 , … , St= t + 12 . La moyenne deYt n'existe pas etSt ne converge pas à quoi que ce soitt → ∞ .
Exemple: échec de l'ergodicité
la source
Pour ajouter une réponse de haut niveau à certaines des autres réponses qui sont bonnes mais plus détaillées, la stationnarité est importante car, en son absence, un modèle décrivant les données variera en précision à des moments différents. En tant que telle, la stationnarité est nécessaire pour les statistiques d'échantillon telles que les moyennes, les variances et les corrélations afin de décrire avec précision les données à tous les points temporels présentant un intérêt.
la source
Cependant, nous recherchons souvent la stationnarité. Pourquoi?
Considérez le problème de prévision. Comment prévoyez-vous? Si tout est différent demain alors il est impossible de prévoir, parce que tout va être différent. Donc , la clé de la prévision est de trouver quelque chose qui sera le même demain et étendre que demain. Ce quelque chose peut être n'importe quoi. Je vais vous donner quelques exemples.
Pour la prévision, nous devons absolument trouver la composante constante (invariante dans le temps) de la série, sinon il est impossible de prévoir par définition. La stationnarité n'est qu'un cas particulier de l'invariance.
la source
Dans la mesure où ARIMA régresse en grande partie sur lui-même, il utilise un type de régression multiple auto-induit qui serait inutilement influencé par une tendance forte ou une saisonnalité. Cette technique de régression multiple est basée sur les valeurs des séries chronologiques précédentes, en particulier celles des dernières périodes, et nous permet d'extraire une "interrelation" très intéressante entre plusieurs valeurs passées qui permettent d'expliquer une valeur future.
la source
L'idée de stationnarité du modèle ARMA est étroitement liée à l'idée d'inversibilité.
la source
ARMA et ARIMA sont construits en supposant que la série est stationnaire. Si la série n'est pas alors la prédiction sera incorrecte.
Les statistiques d'échantillon - moyenne, variance, co variance - sont utiles pour décrire le comportement futur uniquement si la série est stationnaire. Par exemple, si la série augmente régulièrement avec le temps, la moyenne et la variance de l'échantillon augmenteront avec la taille de l'échantillon et sous-estimeront toujours la moyenne et la variance au cours des périodes futures. Il est important d’être prudent lorsque vous essayez d’extrapoler des modèles de régression adaptés à des données non stationnaires.
la source
À mon avis, le processus stochastique est régi par trois propriétés statistiques qui doivent être invariantes dans le temps. Ce sont la variance moyenne et la fonction d'auto-corrélation. Bien que les deux premières ne disent rien de l'évolution la troisième propriété, qui est une fonction d'auto-corrélation, devrait indiquer quelle façon la dépendance décroît avec le temps (lag).
la source
Pour résoudre n'importe quoi, nous devons modéliser les équations de manière mathématique en utilisant la statique.
Pendant le processus de conversion, nous aurons une tendance et une saisonnalité
la source