À partir de Wikipedia, il existe une définition du critère d'information d'Akaike (AIC) comme , où est le nombre de paramètres et est la log-vraisemblance du modèle.k log L
Cependant, notre économétrie note dans une université bien respectée que . Ici est la variance estimée pour les erreurs dans un modèle ARMA et est le nombre d'observations dans l'ensemble de données de séries chronologiques.σ 2T
Cette dernière définition est-elle équivalente à la première, mais simplement adaptée aux modèles ARMA? Ou existe-t-il une sorte de conflit entre les deux définitions?
Réponses:
La formule que vous citez de vos notes n'est pas exactement AIC.
AIC est .- 2 bûchesL +2k
Ici, je vais donner un aperçu d'une dérivation approximative qui rend suffisamment clair ce qui se passe.
Si vous avez un modèle avec des erreurs normales indépendantes à variance constante,
qui peut être estimée selon la probabilité maximale
(en supposant que l'estimation de est l'estimation ML)σ2
Donc (jusqu'au décalage par une constante)−2logL+2k=nlogσ^2+2k
Maintenant, dans le modèle ARMA, si est vraiment grand par rapport à et , alors la probabilité peut être approximée par un tel cadre gaussien (par exemple, vous pouvez écrire l'ARMA approximativement comme un AR plus long et conditionner en suffisamment de termes pour écrire cet AR comme modèle de régression), donc avec au lieu de :pT p T nq T n
Par conséquent
Maintenant, si vous comparez simplement des AIC, cette division par n'a pas d'importance du tout, car elle ne change pas l'ordre des valeurs AIC.T
Cependant, si vous utilisez AIC à d'autres fins qui dépendent de la valeur réelle des différences dans AIC (comme pour faire l'inférence multimodèle comme décrit par Burnham et Anderson), alors cela compte.
De nombreux textes économétriques semblent utiliser ce formulaire AIC / T. Curieusement, certains livres semblent faire référence à Hurvich et Tsai 1989 ou Findley 1985 pour cette forme, mais Hurvich & Tsai et Findley semblent discuter de la forme originale (bien que je n'ai qu'une indication indirecte de ce que Findley fait en ce moment, donc peut-être qu'il y a quelque chose dans Findley dessus).
Une telle mise à l'échelle peut être effectuée pour diverses raisons - par exemple, les séries temporelles, en particulier les séries temporelles à haute fréquence, peuvent être très longues et les AIC ordinaires peuvent avoir tendance à devenir difficiles à manier, surtout si est très petit. (Il y a d'autres raisons possibles, mais comme je ne sais vraiment pas pourquoi cela a été fait, je ne commencerai pas à énumérer toutes les raisons possibles.)σ2
Vous voudrez peut-être consulter la liste des faits et des erreurs de l'AIC de Rob Hyndman , en particulier les points 3 à 7. Certains de ces points pourraient vous amener à être au moins un peu prudent à trop compter sur l'approximation par la probabilité gaussienne, mais il y a peut-être une meilleure justification que celle que je propose ici.
Je ne suis pas sûr qu'il y ait une bonne raison d'utiliser cette approximation de la vraisemblance logarithmique plutôt que l'AIC réelle, car de nombreux packages de séries chronologiques ont tendance à calculer (/ maximiser) la vraisemblance logarithmique réelle pour les modèles ARMA. Il semble qu'il y ait peu de raisons de ne pas l'utiliser.
la source
Je crois que cela est basé sur l'hypothèse d'erreurs normales. En économétrie, vous opérez en utilisant des asymptotiques, en particulier dans les applications de séries chronologiques utilisant l'AIC. Par conséquent, l'hypothèse normale devrait tenir asymptotiquement pour justifier ce schéma de sélection de modèle (asymptotique).
Rappelons que le logarithme de la vraisemblance normale est , où nous utilisons et si vos données sont tirées de X. Dans ce qui suit, nous négligeons le premier terme, comme l'échantillon observé ne l'affecte pas.ln(L)=−(T/2)ln(2π)−(T/2)ln(σ2)−(1/2σ2)∑(xi−μ) E(X)=μ Var(X)=σ2 x1,...,xT
Utilisez simplement la formule plus générale (première) et branchez pour la probabilité normale. Le premier terme peut être ignoré (c'est une constante quel que soit le choix du régresseur). Le deuxième terme devient . Le troisième terme devient , où nous avons utilisé . Encore une fois, ne pas utiliser de correction d'échantillon fini est justifié ici parce que cet estimateur n'est valide que de manière asymptotique si les erreurs ne sont pas normales. Puisque nous ne connaissons pas , nous devons estimer le troisième terme comme = T.L Tln(σ2) (1/σ2)(Tσ^2) σ^2=T−1∑(xi−x¯) σ2 (1/σ2)(Tσ^2)=(1/σ^2)(Tσ^2)
En résumé, cela signifie que nous obtenons pour la probabilité normale que . Inutile de dire que la minimisation n'est pas affectée en ignorant la constante . Le terme est maintenant simplement divisé par , étant donné que cela ne change pas le problème de minimisation à l' échelle de tous les composants additifs par . Cela vous amène au deuxième résultat, car et sont identiques à des fins de minimisation.1 T T A I C A I C / TAIC=2k+Tln(σ2)+1 1 T T AIC AIC/T
la source