Je suis intéressé par la sélection de modèles dans un cadre de séries chronologiques. Pour être concret, supposons que je veuille sélectionner un modèle ARMA à partir d'un pool de modèles ARMA avec différents ordres de décalage. L' intention ultime est la prévision .
La sélection du modèle peut être effectuée par
- validation croisée,
- utilisation de critères d'information (AIC, BIC),
entre autres méthodes.
Rob J. Hyndman fournit un moyen d'effectuer une validation croisée pour les séries chronologiques . Pour des échantillons relativement petits, la taille de l'échantillon utilisée dans la validation croisée peut être qualitativement différente de la taille de l'échantillon d'origine. Par exemple, si la taille de l'échantillon d'origine est de 200 observations, alors on pourrait penser à commencer la validation croisée en prenant les 101 premières observations et en élargissant la fenêtre à 102, 103, ..., 200 observations pour obtenir 100 résultats de validation croisée. De toute évidence, un modèle raisonnablement parcimonieux pour 200 observations peut être trop grand pour 100 observations et donc son erreur de validation sera importante. Ainsi, la validation croisée est susceptible de favoriser systématiquement les modèles trop parcimonieux. Il s'agit d'un effet indésirable en raison de l'inadéquation des tailles d'échantillon .
Une alternative à la validation croisée utilise des critères d'information pour la sélection du modèle. Puisque je me soucie des prévisions, j'utiliserais AIC. Même si AIC est asymptotiquement équivalent à minimiser le MSE prévisionnel en une seule étape hors échantillon pour les modèles de séries chronologiques (selon ce post de Rob J. Hyndman), je doute que cela soit pertinent ici puisque l'échantillon les tailles qui me tiennent à cœur ne sont pas si grandes ...
Question: devrais-je choisir l'AIC sur la validation croisée des séries chronologiques pour les échantillons petits / moyens?
Quelques questions connexes peuvent être trouvées ici , ici et ici .
la source
Réponses:
Mis à part les considérations théoriques, Akaike Information Criterion est simplement pénalisé par les degrés de liberté. Ce qui suit, l'AIC tient compte de l'incertitude dans les données ( -2LL ) et fait l'hypothèse que plus de paramètres conduisent à un risque plus élevé de sur-ajustement ( 2k ). La validation croisée examine simplement les performances de l'ensemble de test du modèle, sans aucune autre hypothèse.
Si vous vous souciez principalement de faire des prédictions et que vous pouvez supposer que les ensembles de tests seraient raisonnablement similaires aux données du monde réel, vous devriez opter pour une validation croisée. Le problème possible est que lorsque vos données sont petites, puis en les divisant, vous vous retrouvez avec de petits ensembles de formation et de test. Moins de données pour la formation est mauvais, et moins de données pour l'ensemble de test rend les résultats de la validation croisée plus incertains (voir Varoquaux, 2018 ). Si votre échantillon de test est insuffisant, vous pouvez être contraint d'utiliser l'AIC, mais en gardant à l'esprit ce qu'il mesure et quelles hypothèses il peut faire.
D'autre part, comme déjà mentionné dans les commentaires, AIC vous donne des garanties asymptomatiques, et ce n'est pas le cas avec de petits échantillons. De petits échantillons peuvent également induire en erreur sur l'incertitude des données.
la source
Hm - si votre objectif ultime est de prédire, pourquoi avez-vous l'intention de faire une sélection de modèle? Pour autant que je sache, il est bien établi à la fois dans la littérature statistique "traditionnelle" et dans la littérature sur l'apprentissage automatique que la moyenne des modèles est supérieure en matière de prédiction. En termes simples, la moyenne du modèle signifie que vous estimez tous les modèles plausibles, laissez-les tous prédire et faire la moyenne de leurs prédictions pondérées par leurs preuves de modèle relatives.
Une référence utile pour commencer est https://journals.sagepub.com/doi/10.1177/0049124104268644
Ils l'expliquent tout simplement et se réfèrent à la littérature pertinente.
J'espère que cela t'aides.
la source
Mon idée est de faire les deux et de voir. Il est direct d'utiliser AIC. Plus l'AIC est petit, meilleur est le modèle. Mais on ne peut pas dépendre de l'AIC et dire qu'un tel modèle est le meilleur. Donc, si vous avez un pool de modèles ARIMA, prenez-les chacun et vérifiez les prévisions pour les valeurs existantes et voyez quel modèle prédit le plus proche des données de séries chronologiques existantes. Deuxièmement, vérifiez également l'AIC et, compte tenu des deux, faites un bon choix. Il n'y a pas de règles strictes et rapides. Optez simplement pour le modèle qui prédit le meilleur.
la source