La communauté des économétriciens a de fortes voix contre la validité de la statistique de Ljung-Box pour le test d'autocorrélation basé sur les résidus d'un modèle autorégressif (c'est-à-dire avec des variables dépendantes décalées dans la matrice de régression), voir notamment Maddala (2001). "Introduction to Econometrics (3ème édition), ch. 6.7 et 13. 5 p . 528. Maddala déplore littéralement l'utilisation répandue de ce test et considère plutôt comme approprié le test" Langrange Multiplier "de Breusch et Godfrey.Q
L'argument de Maddala contre le test de Ljung-Box est le même que celui avancé contre un autre test d'autocorrélation omniprésent, le test de "Durbin-Watson": avec des variables dépendantes décalées dans la matrice des régresseurs, le test est biaisé en faveur du maintien de l'hypothèse nulle de "non-autocorrélation" (les résultats de Monte-Carlo obtenus à @javlacalle répondent à cela). Maddala mentionne également la faible puissance du test, voir par exemple Davies, N., & Newbold, P. (1979). Quelques études de puissance d’un test sur portemanteau de la spécification d’un modèle de série chronologique. Biometrika, 66 (1), 153-155 .
Hayashi (2000) , ch. 2.10 "Testing for serial correlation" , présente une analyse théorique unifiée et, je crois, clarifie la question. Hayashi commence à partir de zéro: pour que lastatistiqueLjung-Box-statistic soit distribuée asymptotiquement sous la forme d’un chi-carré, il faut que le processus { z t } (quel que soit z ), dont les autocorrélations d'échantillon que nous introduisons dans la statistique est , sous l'hypothèse nulle d'absence d'autocorrélation, une séquence de différence de martingale, c'est-à-dire qu'elle satisfaitQ{zt}z
E( zt∣ zt - 1, zt - 2, . . . ) = 0
et aussi il expose "propre" homoskédasticité conditionnelle
E( z2t∣ zt - 1, zt - 2, . . . ) = σ2> 0
Dans ces conditions, la statistique de Ljung-Box (qui est une variante corrigée du nombre d'échantillons finis de la statistique de Box-Pierce Q d' origine) a une distribution asymptotique, et son utilisation est justifiée de manière asymptotique. QQ
Supposons maintenant que nous avons spécifié un modèle autorégressif (qui inclut peut-être aussi des régresseurs indépendants en plus des variables dépendantes décalées), par exemple
yt= x′tβ+ ϕ ( L ) yt+ ut
où est un polynôme dans l'opérateur de décalage et nous voulons tester la corrélation en série en utilisant les résidus de l'estimation. Donc , ici z t ≡ u t . φ ( L )zt≡ u^t
Hayashi montre que pour que la statistique Ljung-Box basée sur les autocorrélations des résidus dans l'échantillon ait une distribution asymptotique du khi-deux sous l'hypothèse nulle d'absence d'autocorrélation, il faut que tous les régresseurs soient "strictement exogènes". " au terme d'erreur dans le sens suivant:Q
E( xt⋅ us) = 0 ,E( yt⋅ us) = 0∀ t , s
Le "pour tous les " est la condition cruciale ici, celle qui reflète l'exogénéité stricte. Et cela ne tient pas lorsqu'il existe des variables dépendantes retardées dans la matrice du régresseur. Cela se voit facilement: définissez s = t - 1 puist , ss=t−1
E[ytut−1]=E[(x′tβ+ϕ(L)yt+ut)ut−1]=
E[ x′tβ⋅ ut - 1] + E[ Φ ( L ) yt⋅ ut - 1] + E[ ut⋅ ut - 1] ≠ 0
même si les s » sont indépendants du terme d'erreur, et même si le terme d'erreur n'a pas d' autocorrélation- : le terme E [ φ ( L ) y t ⋅ u t - 1 ] est non nulle. XE[ Φ ( L ) yt⋅ ut - 1]
Mais cela prouve que la statistique de Ljung-Box n’est pas valable dans un modèle autorégressif, car on ne peut pas dire qu’elle ait une distribution asymptotique du Khi-deux sous le zéro.Q
Supposons maintenant qu'une condition plus faible qu'une exogénéité stricte est satisfaite, à savoir que
E( ut∣ xt, xt - 1, . . . , ϕ ( L ) yt, voust - 1, voust - 2, . . . ) = 0
La force de cette condition réside "entre" l'exogénéité stricte et l'orthogonalité. En vertu du caractère nul ou sans autocorrélation du terme d'erreur, cette condition est satisfaite "automatiquement" par un modèle autorégressif, en ce qui concerne les variables dépendantes en retard (pour les , elle doit bien entendu être supposée séparément).X
Ensuite, il existe une autre statistique basée sur les autocorrélations d'échantillon résiduel ( pas celle de Ljung-Box), qui présente une distribution asymptotique du Khi deux sous le zéro. Cette autre statistique peut être calculée, à titre de commodité, en utilisant la voie de la « régression auxiliaire »: régression des résidus sur la matrice complète régresseur et sur les résidus passés (jusqu'à le retard que nous avons utilisé dans le cahier des charges), obtenir le R 2 non centré de cette régression auxiliaire et le multiplier par la taille de l'échantillon.{ u^t} R2
Cette statistique est utilisée dans ce que nous appelons le "test de Breusch-Godfrey pour la corrélation en série" .
Il semble donc que, lorsque les régresseurs incluent des variables dépendantes décalées (et donc dans tous les cas de modèles autorégressifs également), le test de Ljung-Box devrait être abandonné au profit du test de Breusch-Godfrey LM. , non pas parce que "les performances sont pires", mais parce qu’elles ne possèdent pas de justification asymptotique. Un résultat assez impressionnant, à en juger par la présence omniprésente et l’application de l’ancien.
MISE À JOUR: Répondant aux doutes soulevés dans les commentaires quant à savoir si tout ce qui précède s'applique également aux modèles de séries chronologiques "pures" (c'est-à-dire sans les régénérateurs " "), j'ai posté un examen détaillé du modèle AR (1), dans https://stats.stackexchange.com/a/205262/28746 .X
Conjecture
Je ne connais aucune étude comparant ces tests. Je soupçonnais que le test de Ljung-Box était plus approprié dans le contexte de modèles de séries chronologiques tels que les modèles ARIMA, où les variables explicatives sont des décalages des variables dépendantes. Le test de Breusch-Godfrey pourrait être plus approprié pour un modèle de régression général où les hypothèses classiques sont remplies (en particulier les régresseurs exogènes).
Ma conjecture est que la distribution du test de Breusch-Godfrey (qui repose sur les résidus d'une régression ajustée par les moindres carrés ordinaires) peut être affectée par le fait que les variables explicatives ne sont pas exogènes.
J'ai fait un petit exercice de simulation pour vérifier cela et les résultats suggèrent le contraire: le test de Breusch-Godfrey donne de meilleurs résultats que le test de Ljung-Box lorsqu'il teste l'autocorrélation dans les résidus d'un modèle autorégressif. Des détails et le code R permettant de reproduire ou de modifier l'exercice sont donnés ci-dessous.
Petit exercice de simulation
Une application typique du test de Ljung-Box consiste à tester la corrélation en série dans les résidus d'un modèle ARIMA ajusté. Ici, je génère des données à partir d’un modèle AR (3) et adapte un modèle AR (3).
Les résidus répondent à l'hypothèse nulle d'absence de corrélation automatique. Nous nous attendons donc à des valeurs de p uniformément distribuées. L’hypothèse nulle doit être rejetée dans un pourcentage de cas proche du seuil de signification choisi, par exemple 5%.
Test de Ljung-Box:
Les résultats montrent que l'hypothèse nulle est rejetée dans de très rares cas. Pour un niveau de 5%, le taux de rejets est nettement inférieur à 5%. La distribution des valeurs p montre un biais en faveur du non-rejet de la valeur nulle.
Modifier En principe,
fitdf=3
il convient de définir dans tous les cas. Cela expliquera les degrés de liberté perdus après l’ajustement du modèle AR (3) pour récupérer les résidus. Cependant, pour les décalages d'ordre inférieur à 4, cela donnera un degré de liberté négatif ou nul, rendant le test inapplicable. Selon la documentation?stats::Box.test
: Ces tests sont parfois appliqués aux résidus d'un ajustement ARMA (p, q), auquel cas les références suggèrent une meilleure approximation de la distribution de l'hypothèse nulle est obtenue par réglagefitdf = p+q
, à condition bien sûr quelag > fitdf
.Test de Breusch-Godfrey:
Les résultats du test de Breusch-Godfrey semblent plus raisonnables. Les valeurs de p sont uniformément distribuées et les taux de rejet sont plus proches du niveau de signification (comme prévu dans l'hypothèse nulle).
la source
LB.pvals[i,j]
fitdf=3
lag<fitdf
fitdf=0
en place,fitdf=3
vous vous trompez peut-être.Greene (Analyse économétrique, 7ème édition, p. 963, section 20.7.2):
(Je sais que la question concerne Ljung-Box et que ce qui précède fait référence à Box-Pierce, mais le premier est un simple raffinement du dernier et par conséquent, toute comparaison entre GB et BP s'appliquerait également à une comparaison entre GB et LB.)
Comme d'autres réponses l'ont déjà expliqué de manière plus rigoureuse, Greene suggère également que l'utilisation de Ljung-Box par rapport à Godfrey-Breusch n'a rien à gagner (hormis une efficacité de calcul peut-être), mais potentiellement beaucoup à perdre (la validité du test).
la source
Il semble que les tests de Box-Pierce et de Ljung-Box soient principalement des tests univariés, mais le test de Breusch-Godfrey repose sur certaines hypothèses lorsqu'il teste si une structure linéaire est laissée derrière les résidus de régression en série chronologique (processus MA ou AR).
Voici un lien vers la discussion:
http://www.stata.com/meeting/new-orleans13/abstracts/materials/nola13-baum.pdf
la source
La principale différence entre les tests est la suivante:
Le test de Breusch-Godfrey est le test de Lagrange Multiplier dérivé de la fonction de vraisemblance (correctement spécifiée) (et donc des premiers principes).
Le test de Ljung-Box est basé sur les seconds moments des résidus d'un processus stationnaire (et donc d'une nature comparativement plus ad hoc).
Le test de Breusch-Godfrey est, en tant que test de Lagrange Multiplier, asymptotiquement équivalent au test uniformément le plus puissant. Quoi qu’il en soit, il n’est asymptotiquement que le plus puissant de l’hypothèse alternative des régresseurs omis (qu’ils soient ou non des variables décalées). Le point fort du test de Ljung-Box peut être son pouvoir contre un large éventail d’hypothèses alternatives.
la source