Pourquoi le critère d'information ( non ajusté ) est-il utilisé pour sélectionner l'ordre de décalage approprié dans le modèle de série chronologique?

9

Dans les modèles de séries chronologiques, comme ARMA-GARCH, pour sélectionner le décalage ou l'ordre approprié du modèle, différents critères d'information, comme AIC, BIC, SIC, etc., sont utilisés.

Ma question est très simple, pourquoi ne pas utiliser le ajusté pour choisir le modèle approprié? Nous pouvons sélectionner un modèle qui conduit à une valeur plus élevée de ajusté . Parce que les deux ajustés et le critère d'information pénalisent pour un nombre supplémentaire de régresseurs dans le modèle, où l'ancien pénalise et plus tard pénalisent la valeur de vraisemblance. R2R2R2R2

Neeraj
la source
Il se peut que je manque quelque chose dans les réponses (ci-dessous), mais les carrés R ainsi que les carrés R ajustés conviennent à la classe relativement limitée de modèles estimés OLS tandis que les AIC, BIC, etc., conviennent à la classe plus large de linéaires généralisés modèles estimés, peut-être, avec ML ou une variante.
Mike Hunter

Réponses:

12

Je dirais qu'au moins en discutant des modèles linéaires (comme les modèles AR), et AIC ajustés ne sont pas si différents.R2

Considérez la question de savoir si doit être inclus dans Cela équivaut à comparer les modèles où . Nous disons que est le vrai modèle si . Notez que . Les modèles sont ainsi imbriqués . Une procédure de sélection de modèle est une règle dépendante des données qui sélectionne le plus plausible de plusieurs modèles. y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ M 1X2

y=X1(n×K1)β1+X2(n×K2)β2+ϵ
E(u|X1,X2)=0M2β20M1M2 M
M1:y=X1β1+uM2:y=X1β1+X2β2+u,
E(u|X1,X2)=0M2β20M1M2M^

Nous disons que est cohérent si lim n P ( M = M 1 | M 1 )M^

limnP(M^=M1|M1)=1limnP(M^=M2|M2)=1

Considérez ajusté . Autrement dit, choisissez if . Comme diminue de façon monotone dans , cette procédure équivaut à minimiser . À son tour, cela équivaut à minimiser . Pour un suffisamment grand , ce dernier peut être écrit comme oùM 1 ˉ R 2 1 >R2M1ˉ R 2s2s2log(s2)nlog( s 2 )R¯12>R¯22R¯2s2s2log(s2)n

log(s2)=log(σ^2nnK)=log(σ^2)+log(1+KnK)log(σ^2)+KnKlog(σ^2)+Kn,
σ^2est l'estimateur ML de la variance d'erreur. La sélection de modèle basée sur équivaut donc asymptotiquement à choisir le modèle avec le plus petit . Cette procédure est incohérente.R¯2log(σ^2)+K/n

Proposition :

limnP(R¯12>R¯22|M1)<1

Preuve : où suit l'avant-dernière ligne car la statistique est la statistique LR dans le cas de régression linéaire qui suit un asymptotique distribution nulle. QED

P(R¯12>R¯22|M1)P(log(s12)<log(s22)|M1)=P(nlog(s12)<nlog(s22)|M1)P(nlog(σ^12)+K1<nlog(σ^22)+K1+K2|M1)=P(n[log(σ^12)log(σ^22)]<K2|M1)P(χK22<K2)<1,
χK22

Considérons maintenant le critère d'Akaike, Ainsi, l'AIC échange également la réduction de la SSR impliquée par des régresseurs supplémentaires contre le "terme de pénalité". , "qui pointe dans la direction opposée. Ainsi, choisissez si , sinon sélectionnez .

AIC=log(σ^2)+2Kn
M1AIC1<AIC2M2

On peut voir que l' est également incohérent en continuant la preuve ci-dessus à la ligne trois avec . Le ajusté et l' choisissent donc le "grand" modèle avec une probabilité positive, même si est le vrai modèle.P (AICP(nlog(σ^12)+2K1<nlog(σ^22)+2(K1+K2)|M1)R2AICM2M1

Comme la pénalité pour la complexité dans AIC est un peu plus grande que pour ajusté , elle peut cependant être moins sujette à une sur-sélection. Et il a d'autres belles propriétés (minimisant la divergence KL vers le vrai modèle si ce n'est pas dans l'ensemble des modèles considérés) qui ne sont pas abordées dans mon article.R2

Christoph Hanck
la source
1
Grande réponse: pas trop lourde mais toujours exacte! S'il avait été là hier, je n'aurais pas posté le mien.
Richard Hardy
Et pour le boîtier ARMA-GARCH? Comment ferait-il pour sélectionner les termes amung MA et GARCH? Radj2
Zachary Blumenfeld
Je n'oserais pas dire. Comme vous l'expliquez, il n'est même pas clair ce que R2 signifie pour l'ajustement d'un tel modèle.
Christoph Hanck
5

La pénalité dans ne donne pas les belles propriétés en termes de sélection de modèle comme le possèdent l'AIC ou le BIC. La pénalité dans est suffisante pour faire de un estimateur non biaisé de la population quand aucun des régresseurs n'appartient réellement au modèle (selon les articles du blog de Dave Giles "In What Sense" le R-Squared "ajusté" est-il non biaisé? " et " Plus sur les propriétés du coefficient de détermination "ajusté" ); cependant, n'est pas un sélecteur de modèle optimal. R 2 a d j R 2 a d j R 2 R 2 a d jRadj2Radj2Radj2R2Radj2

(Il pourrait y avoir une preuve par contradiction: si AIC est optimal dans un sens et BIC est optimal dans un autre, et n'est équivalent à aucun des deux, alors n'est pas optimal dans les deux cas de ces deux sens.) R 2 a d jRadj2Radj2

Richard Hardy
la source
Combien de paramètres GARCH dois-je ajouter avant que n'augmente? :) .... Je crois qu'un argument similaire pourrait être avancé pour l'hypothèse d'erreurs corrélées (comme dans un modèle MA), Un modèle GLS ne réduit pas la somme des carrés des résidus par rapport aux moindres carrés ordinaires. Dans MA et GARCH, des paramètres (et non des variables explicatives pour lesquelles est ajusté) sont ajoutés au modèle. Les paramètres MA et GARCH ne sont pas ajoutés pour réduire la , ils sont plutôt ajoutés pour augmenter la probabilité et / ou diminuer une somme pondérée de résidus au carré pour refléter le manque de termes d'erreur iid. R 2 a d j S S RR2R2adjSSR
Zachary Blumenfeld
Est-ce que cela concerne réellement le message d'origine ou ma réponse? En tout cas, je suis d'accord avec vos points.
Richard Hardy
Ce que j'essayais de souligner, c'est que ne peut pas vraiment être utilisé pour sélectionner les composants GARCH (et peut-être aussi les composants MA) car il est basé sur la fraction de sur qui sont des estimateurs biaisés de variance lorsque les termes d'erreur ne sont pas iid. (ce n'est qu'un cas spécifique du parti pris dont vous parliez). Dans le cas d'ARMA-GARCH, vous ne sélectionneriez jamais un modèle avec des composants GARCH, même s'il y avait une volatilité stochastique dans les données, car cela n'augmente pas . En gros, je suis d'accord avec vous en essayant de donner des exemples précis. S S T - S S R S S T R 2Radj2SSTSSRSSTR2
Zachary Blumenfeld