Dans les modèles de séries chronologiques, comme ARMA-GARCH, pour sélectionner le décalage ou l'ordre approprié du modèle, différents critères d'information, comme AIC, BIC, SIC, etc., sont utilisés.
Ma question est très simple, pourquoi ne pas utiliser le ajusté pour choisir le modèle approprié? Nous pouvons sélectionner un modèle qui conduit à une valeur plus élevée de ajusté . Parce que les deux ajustés et le critère d'information pénalisent pour un nombre supplémentaire de régresseurs dans le modèle, où l'ancien pénalise et plus tard pénalisent la valeur de vraisemblance.
Réponses:
Je dirais qu'au moins en discutant des modèles linéaires (comme les modèles AR), et AIC ajustés ne sont pas si différents.R2
Considérez la question de savoir si doit être inclus dans Cela équivaut à comparer les modèles où . Nous disons que est le vrai modèle si . Notez que . Les modèles sont ainsi imbriqués . Une procédure de sélection de modèle est une règle dépendante des données qui sélectionne le plus plausible de plusieurs modèles. y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ M 1X2
Nous disons que est cohérent si lim n → ∞ P ( M = M 1 | M 1 )Mˆ
Considérez ajusté . Autrement dit, choisissez if . Comme diminue de façon monotone dans , cette procédure équivaut à minimiser . À son tour, cela équivaut à minimiser . Pour un suffisamment grand , ce dernier peut être écrit comme oùM 1 ˉ R 2 1 >R2 M1 ˉ R 2s2s2log(s2)nlog( s 2 )R¯21> R¯22 R¯2 s2 s2 Journal( s2) n
Proposition :
Preuve : où suit l'avant-dernière ligne car la statistique est la statistique LR dans le cas de régression linéaire qui suit un asymptotique distribution nulle. QED
Considérons maintenant le critère d'Akaike, Ainsi, l'AIC échange également la réduction de la SSR impliquée par des régresseurs supplémentaires contre le "terme de pénalité". , "qui pointe dans la direction opposée. Ainsi, choisissez si , sinon sélectionnez .
On peut voir que l' est également incohérent en continuant la preuve ci-dessus à la ligne trois avec . Le ajusté et l' choisissent donc le "grand" modèle avec une probabilité positive, même si est le vrai modèle.P (AIC P(nlog(σˆ21)+2K1<nlog(σˆ22)+2(K1+K2)|M1) R2 AIC M2 M1
Comme la pénalité pour la complexité dans AIC est un peu plus grande que pour ajusté , elle peut cependant être moins sujette à une sur-sélection. Et il a d'autres belles propriétés (minimisant la divergence KL vers le vrai modèle si ce n'est pas dans l'ensemble des modèles considérés) qui ne sont pas abordées dans mon article.R2
la source
La pénalité dans ne donne pas les belles propriétés en termes de sélection de modèle comme le possèdent l'AIC ou le BIC. La pénalité dans est suffisante pour faire de un estimateur non biaisé de la population quand aucun des régresseurs n'appartient réellement au modèle (selon les articles du blog de Dave Giles "In What Sense" le R-Squared "ajusté" est-il non biaisé? " et " Plus sur les propriétés du coefficient de détermination "ajusté" ); cependant, n'est pas un sélecteur de modèle optimal. R 2 a d j R 2 a d j R 2 R 2 a d jR2adj R2adj R2adj R2 R2adj
(Il pourrait y avoir une preuve par contradiction: si AIC est optimal dans un sens et BIC est optimal dans un autre, et n'est équivalent à aucun des deux, alors n'est pas optimal dans les deux cas de ces deux sens.) R 2 a d jR2adj R2adj
la source