J'ai une série chronologique que j'essaie de prévoir, pour laquelle j'ai utilisé le modèle saisonnier ARIMA (0,0,0) (0,1,0) [12] (= fit2). C'est différent de ce que R a suggéré avec auto.arima (R calculé ARIMA (0,1,1) (0,1,0) [12] serait un meilleur ajustement, je l'ai nommé fit1). Cependant, au cours des 12 derniers mois de ma série chronologique, mon modèle (fit2) semble être un meilleur ajustement lorsqu'il est ajusté (il était biaisé de manière chronique, j'ai ajouté la moyenne résiduelle et le nouvel ajustement semble s'ajuster plus étroitement à la série temporelle d'origine). Voici l'exemple des 12 derniers mois et MAPE pour les 12 derniers mois pour les deux ajustements:
La série chronologique ressemble à ceci:
Jusqu'ici tout va bien. J'ai effectué une analyse résiduelle pour les deux modèles, et voici la confusion.
L'acf (resid (fit1)) a fière allure, très blanc-bruyant:
Cependant, le test Ljung-Box ne semble pas bon pour, par exemple, 20 retards:
Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1)
J'obtiens les résultats suivants:
X-squared = 26.8511, df = 19, p-value = 0.1082
À ma connaissance, c'est la confirmation que les résidus ne sont pas indépendants (la valeur de p est trop grande pour rester avec l'hypothèse d'indépendance).
Cependant, pour le lag 1, tout est super:
Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1)
me donne le résultat:
X-squared = 0.3512, df = 0, p-value < 2.2e-16
Soit je ne comprends pas le test, soit il contredit légèrement ce que je vois sur le graphique ACF. L'autocorrélation est ridiculement faible.
Ensuite, j'ai vérifié fit2. La fonction d'autocorrélation ressemble à ceci:
Malgré une autocorrélation aussi évidente à plusieurs premiers retards, le test de Ljung-Box m'a donné de bien meilleurs résultats à 20 retards que fit1:
Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0)
résulte en :
X-squared = 147.4062, df = 20, p-value < 2.2e-16
alors que la simple vérification de l'autocorrélation à lag1, me donne également la confirmation de l'hypothèse nulle!
Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0)
X-squared = 30.8958, df = 1, p-value = 2.723e-08
Suis-je en train de comprendre le test correctement? La valeur de p devrait être de préférence inférieure à 0,05 afin de confirmer l'hypothèse nulle d'indépendance des résidus. Quel ajustement est préférable d'utiliser pour la prévision, ajustement1 ou ajustement2?
Informations supplémentaires: les résidus de fit1 affichent une distribution normale, ceux de fit2 non.
X-squared
) augmente à mesure que les auto-corrélations des échantillons des résidus augmentent (voir sa définition), et sa valeur p est la probabilité d'obtenir une valeur aussi grande ou plus grande que celle observée sous la valeur nulle hypothèse que les véritables innovations sont indépendantes. Par conséquent, une petite valeur p est une preuve contre l' indépendance.fitdf
), vous testiez donc une distribution chi carré avec zéro degré de liberté.Réponses:
Vous avez mal interprété le test. Si la valeur de p est supérieure à 0,05, les résidus sont indépendants, ce que nous voulons que le modèle soit correct. Si vous simulez une série temporelle de bruit blanc en utilisant le code ci-dessous et utilisez le même test pour cela, la valeur p sera supérieure à 0,05.
la source
De nombreux tests statistiques sont utilisés pour essayer de rejeter une hypothèse nulle. Dans ce cas particulier, le test de Ljung-Box tente de rejeter l'indépendance de certaines valeurs. Qu'est-ce que ça veut dire?
Si p-valeur <0,05 1 : Vous pouvez rejeter l'hypothèse nulle en supposant 5% de chances de faire une erreur. Vous pouvez donc supposer que vos valeurs montrent une dépendance les unes envers les autres.
Si p-valeur> 0,05 1 : Vous n'avez pas suffisamment de preuves statistiques pour rejeter l'hypothèse nulle. Vous ne pouvez donc pas supposer que vos valeurs sont dépendantes. Cela peut signifier que vos valeurs dépendent de toute façon ou cela peut signifier que vos valeurs sont indépendantes. Mais vous ne prouvez aucune possibilité spécifique, ce que votre test a réellement dit, c'est que vous ne pouvez pas affirmer la dépendance des valeurs, ni affirmer l'indépendance des valeurs.
En général, ce qui est important ici est de garder à l'esprit qu'une valeur de p <0,05 vous permet de rejeter l'hypothèse nulle, mais une valeur de p> 0,05 ne vous permet pas de confirmer l'hypothèse nulle.
En particulier, vous ne pouvez pas prouver l'indépendance des valeurs des séries chronologiques à l'aide du test Ljung-Box. Vous ne pouvez que prouver la dépendance.
la source
D'après les graphes ACF, il est évident que l'ajustement 1 est meilleur puisque le coefficient de corrélation au décalage k (k> 1) chute fortement, et proche de 0.
la source
Si vous jugez avec ACF, l'ajustement 1 est plus approprié. Au lieu d'être confus sur le test de Ljung, vous pouvez toujours utiliser le corrélogramme des résidus pour déterminer le meilleur ajustement entre fit1 et fit2
la source