Comment utiliser l'AIC ou le BIC à la place de la séparation train / test?

J'ai récemment rencontré plusieurs sources "informelles" qui indiquent que dans certaines circonstances, si nous utilisons l' AIC ou le BIC pour former un modèle de série chronologique, nous n'avons pas besoin de diviser les données en test et en formation - nous pouvons utiliser tous les données pour la formation. (Les sources incluent entre autres, une discussion sur le blog de Rob Hyndman sur CV , cette présentation de Stanford ou la section 4 de ce texte ).

En particulier, ils semblent indiquer que l'AIC ou le BIC peuvent être utilisés lorsque l'ensemble de données est trop petit pour permettre une répartition train / essai.

Le commentaire de Rob Hyndman par exemple: "Il est beaucoup plus efficace d'utiliser AIC / BIC que d'utiliser des ensembles de test ou CV, et cela devient essentiel pour les courtes séries chronologiques où il n'y a pas assez de données pour faire autrement."

Je n'arrive cependant pas à trouver de textes ou d'articles qui en discutent en détail.

Une chose qui me rend particulièrement perplexe est que l'AIC et le BIC tendent asymptotiquement vers la validation croisée, ce qui signifie que si possible, ils remplaceraient le CV pour les grands ensembles de données - ce qui va à l'encontre de l'idée qu'ils soient utiles pour les petits ensembles de données.

Quelqu'un peut-il m'indiquer une discussion formelle (chapitres de livre, articles, tutoriels) de cette idée?

time-series cross-validation aic train bic Skander H.
la source

Dans le chapitre 5.5 de ce livre , ils discutent de la façon dont un grand nombre de ces critères de sélection de modèle se posent. Ils commencent par le critère FPE d'Akaike pour les modèles AR, puis discutent de AIC, AICc et BIC. Ils parcourent les dérivations de manière assez approfondie.

Ce qu'ils ont en commun, c'est qu'ils enquêtent sur ce qui se passe lorsque vous utilisez des données observées dans l'échantillon $\{X_t\}$ pour estimer les paramètres du modèle, puis examiner une fonction de perte (erreur de prédiction quadratique moyenne ou divergence KL) sur certaines données hors échantillon non observées / hypothétiques $\{Y_t\}$ qui découle de l'utilisation du modèle estimé sur ces nouvelles données. Les idées principales sont les suivantes: a) vous prenez l'attente par rapport à toutes les données et 2) vous utilisez des résultats asymptotiques pour obtenir des expressions pour certaines des attentes. La quantité de (1) vous donne les performances globales attendues, mais (2) suppose que vous avez beaucoup plus de données que vous n'en avez réellement. Je ne suis pas un expert, mais je suppose que les approches de validation croisée ciblent également ces mesures de performance; mais au lieu de considérer les données hors échantillon comme hypothétiques, ils utilisent des données réelles qui ont été séparées des données de formation.

L'exemple le plus simple est le critère FPE. Supposons que vous estimez votre modèle AR sur l'ensemble des données (un peu comme l'ensemble de test) et obtenez $\{\hat{\phi}_i\}_i$ . Ensuite, la perte attendue sur les données non observées $\{Y_t\}$ (c'est hypothétique, pas divisé comme dans la validation croisée) est

\begin{aligned} E ({Oui}_{n + 1} - {\hat{ϕ}}_{1} {Oui}_{n} - \dots - {\hat{ϕ}}_{p} {Oui}_{n + 1 - p})^{2} \\ = E ({Oui}_{n + 1} - ϕ_{1} {Oui}_{n} - \dots - ϕ_{p} {Oui}_{n + 1 - p} - \\ ({\hat{ϕ}}_{1} - ϕ_{1}) {Oui}_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) {Oui}_{n + 1 - p})^{2} \\ = E (Z_{t} + ({\hat{ϕ}}_{1} - ϕ_{1}) {Oui}_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) {Oui}_{n + 1 - p})^{2} \\ = σ^{2} + E [E [(({\hat{ϕ}}_{1} - ϕ_{1}) {Oui}_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) {Oui}_{n + 1 - p})^{2} | {X_{t}}]] \\ = σ^{2} + E [\sum_{je = 1}^{p} \sum_{j = 1}^{p} ({\hat{ϕ}}_{je} - ϕ_{je}) ({\hat{ϕ}}_{j} - ϕ_{j}) E [{Oui}_{n + 1 - je} {Oui}_{n + 1 - j} | {X_{t}}]] \\ = σ^{2} + E [({\hat{ϕ}}_{p} - ϕ_{p})^{'} Γ_{p} ({\hat{ϕ}}_{p} - ϕ_{p})] \\ (faute de frappe dans le livre: n^{- 1 / 2} devrait être n^{1 / 2}) & \approx σ^{2} (1 + \frac{p}{n}) \\ (n {\hat{σ}}^{2} / σ^{2} environ. χ_{n - p}^{2}) & \approx \frac{n {\hat{σ}}^{2}}{n - p} (1 + \frac{p}{n}) = {\hat{σ}}^{2} \frac{n + p}{n - p} . \end{aligned}

$\begin{align*} & E(Y_{n+1} -\hat{\phi}_1Y_n -\cdots - \hat{\phi}_p Y_{n+1-p} )^2 \\ &= E(Y_{n+1} -\phi_1Y_n -\cdots - \phi_p Y_{n+1-p} - \\ & \hspace{30mm} (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= E( Z_t + (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= \sigma^2 + E[E[((\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 | \{X_t\} ]] \\ &= \sigma^2 + E\left[ \sum_{i=1}^p \sum_{j=1}^p (\hat{\phi}_i - \phi_i)(\hat{\phi}_j - \phi_j)E\left[ Y_{n+1-i}Y_{n+1-j} |\{X_t\} \right] \right] \\ &= \sigma^2 + E[({\hat{\phi}}_p -{\phi}_p )' \Gamma_p ({\hat{\phi}}_p -{\phi}_p )] \\ &\approx \sigma^2 ( 1 + \frac{p}{n}) \tag{typo in book: $n^{-1/2}$ should be $n^{1/2}$} \\ &\approx \frac{n \hat{\sigma}^2}{n-p} ( 1 + \frac{p}{n}) = \hat{\sigma}^2 \frac{n+p}{n-p} \tag{$n \hat{\sigma}^2/\sigma^2$ approx. $\chi^2_{n-p}$ }. \\ \end{align*}$

Je ne connais pas d'articles sur le dessus de ma tête qui comparent empiriquement la performance de ces critères avec des techniques de validation croisée. Cependant, ce livre donne beaucoup de ressources sur la façon dont FPE, AIC, AICc et BIC se comparent.

Taylor
la source

Comment utiliser l'AIC ou le BIC à la place de la séparation train / test?

Réponses: