L'AIC est fréquemment recommandé comme critère pour comparer les modèles de prévision de séries chronologiques. Voir par exemple ceci dans le contexte des modèles de régression dynamique :
L'AIC peut être calculé pour le modèle final et cette valeur peut être utilisée pour déterminer les meilleurs prédicteurs. C'est-à-dire que la procédure doit être répétée pour tous les sous-ensembles de prédicteurs à prendre en considération et le modèle avec la valeur AICc la plus basse sélectionnée.
Pourquoi ne pas comparer les modèles en fonction de leurs performances hors échantillon? (par exemple, choisir le modèle avec l'ESS la plus faible dans les prévisions hors échantillon). J'ai lu plusieurs manuels et sites Web sur les prévisions de séries chronologiques et je n'ai pas trouvé cette discussion. Le plus proche que j'ai obtenu était cette entrée de blog sur les faits et les erreurs de l'AIC :
L'AIC n'est pas vraiment une mesure «dans l'échantillon». Oui, il est calculé à l'aide des données d'entraînement. Mais asymptotiquement, la minimisation de l'AIC est équivalente à la minimisation de la MSE de validation croisée avec sortie pour les données transversales, et équivalente à la minimisation de la MSE de prévision en une étape hors échantillon pour les modèles de séries chronologiques. Cette propriété est ce qui en fait un critère si attrayant pour la sélection de modèles de prévision.
Dans un exemple sur lequel j'ai travaillé (je n'ai pas pu poster les tracés ici, cependant; j'ai besoin de plus de réputation sur ce site), j'ai essayé les deux approches et la plupart du temps l'AIC et l'ESS hors échantillon ne donnent pas le même résultat. La procédure que j'ai utilisée était la suivante:
- J'ai divisé les données en échantillons de formation et de test (à un moment arbitraire; une question à ce sujet ci-dessous)
- J'ai estimé les modèles concurrents (ARIMA avec régresseurs externes, modification des paramètres ARIMA et des régresseurs) en utilisant l'échantillon d'entraînement (230 premières périodes; tous les modèles ont le même nombre d'observations, donc AIC est comparable).
- Ensuite, j'ai prévu la série pour les mêmes périodes que l'échantillon de test (périodes 231-260).
- Pour chaque modèle, j'ai calculé une SSE simple comme où est la valeur observée de la série (échantillon de test) et est la valeur prévue par le modèle.
- J'ai comparé le modèle indiqué par AIC (calculé à l'aide des données d'apprentissage) avec le modèle avec l'ESS hors échantillon la plus faible. La plupart du temps, les modèles sélectionnés sont différents (et au moins visuellement, ceux sélectionnés par SSE fonctionnent mieux).
Si quelqu'un pouvait m'expliquer ce qui se passait derrière cela, je lui en serais très reconnaissant. Je ne suis clairement pas un expert en la matière. J'essaie juste de m'enseigner un peu, alors veuillez m'excuser si j'ai oublié quelque chose d'important dans les manuels que j'ai lus.
Enfin, une question concernant la répartition des données dans les échantillons de formation et de test pour les séries chronologiques. Il me semble qu'il y a quelque chose de fondamentalement différent que d'utiliser la même procédure pour les données transversales. Pour les données transversales, vous pouvez prélever deux échantillons aléatoires de l'ensemble de vos données. Pour les séries chronologiques, cela n'a pas beaucoup de sens. Vous devez donc prendre un point arbitraire pour diviser la série en échantillons d'apprentissage et de test. Le fait est que le meilleur modèle est généralement différent pour chaque point arbitraire. C'est peut-être pourquoi cette approche ne semble pas être fréquemment utilisée. Est-ce la raison pour laquelle l'AIC est préféré pour la sélection des modèles? (Étant donné que "asymptotiquement, la minimisation de l'AIC est ... équivalente à la minimisation du MSE prévisionnel en une étape hors échantillon pour les modèles de séries chronologiques".)
la source