Stepwise AIC - Existe-t-il une controverse autour de ce sujet?

J'ai lu d'innombrables articles sur ce site qui sont incroyablement contre l'utilisation de la sélection pas à pas de variables en utilisant n'importe quel type de critère, qu'il s'agisse de valeurs p, AIC, BIC, etc.

Je comprends pourquoi ces procédures sont en général assez médiocres pour la sélection des variables. Le poste probablement célèbre de Gung ici illustre clairement pourquoi; en fin de compte, nous vérifions une hypothèse sur le même ensemble de données que nous avons utilisé pour formuler l'hypothèse, qui n'est que du dragage de données. De plus, les valeurs de p sont affectées par des quantités telles que la colinéarité et les valeurs aberrantes, qui biaisent fortement les résultats, etc.

Cependant, j'ai étudié les prévisions chronologiques assez récemment et j'ai rencontré le manuel très respecté de Hyndman dans lequel il mentionne ici l'utilisation de la sélection pas à pas pour trouver l'ordre optimal des modèles ARIMA en particulier. En fait, dans le forecastpackage de R, l'algorithme bien connu connu sous le nom auto.arimautilise par défaut la sélection pas à pas (avec AIC, pas de valeurs p). Il critique également la sélection de fonctionnalités basée sur la valeur p qui s'aligne bien avec plusieurs publications sur ce site.

En fin de compte, nous devrions toujours valider d'une manière ou d'une autre à la fin si l'objectif est de développer de bons modèles de prévision / prédiction. Cependant, il s'agit certainement d'un désaccord ici en ce qui concerne la procédure elle-même pour les mesures d'évaluation autres que les valeurs p.

Quelqu'un a-t-il des opinions sur l'utilisation de l'AIC pas à pas dans ce contexte, mais aussi en général hors de ce contexte? On m'a appris à croire que toute sélection par étapes est mauvaise, mais pour être honnête, cela auto.arima(stepwise = TRUE)m'a donné de meilleurs résultats sur les échantillons que, auto.arima(stepwise = FALSE)mais ce n'est peut-être qu'une coïncidence.

forecasting predictive-models arima aic stepwise-regression aranglol
la source

L'une des rares choses sur lesquelles les prévisionnistes peuvent s'entendre est que la sélection d'un «meilleur» modèle fonctionne généralement moins bien que la combinaison de plusieurs modèles différents.

S.Kolassa - Rétablir Monica

Réponses:

Il y a ici quelques problèmes différents.

Le principal problème est probablement que la sélection du modèle (que ce soit en utilisant des valeurs de p ou des AIC, par étapes ou tous les sous-ensembles ou autre) est principalement problématique pour l' inférence (par exemple, obtenir des valeurs de p avec une erreur de type I appropriée, des intervalles de confiance avec une couverture appropriée). Pour la prédiction , la sélection du modèle peut en effet choisir un meilleur emplacement sur l'axe de compromis biais-variance et améliorer l'erreur hors échantillon.
Pour certaines classes de modèles, AIC est asymptotiquement équivalent à une erreur CV avec omission [voir par exemple http://www.petrkeil.com/?p=836 ], il est donc raisonnable d'utiliser AIC comme proxy de calcul efficace pour CV.
La sélection pas à pas est souvent dominée par d'autres méthodes de sélection (ou de moyennage ) de modèle (tous les sous-ensembles si les calculs sont réalisables, ou les méthodes de rétrécissement). Mais c'est simple et facile à mettre en œuvre, et si la réponse est assez claire (certains paramètres correspondant à des signaux forts, d'autres faibles, peu intermédiaires), alors cela donnera des résultats raisonnables. Encore une fois, il y a une grande différence entre l'inférence et la prédiction. Par exemple, si vous avez quelques prédicteurs fortement corrélés, choisir celui qui est incorrect (du point de vue de la «vérité» / causalité) est un gros problème pour l'inférence, mais choisir celui qui vous donne le meilleur AIC est une raison raisonnable stratégie de prédiction (même si elle échouera si vous essayez de prévoir une situation où la corrélation des prédicteurs change ...)

Conclusion: pour des données de taille moyenne avec un rapport signal / bruit raisonnable, la sélection pas à pas basée sur AIC peut en effet produire un modèle prédictif défendable ; voir Murtaugh (2009) pour un exemple.

Murtaugh, Paul A. "Performance de plusieurs méthodes de sélection de variables appliquées à des données écologiques réelles." Lettres écologiques 12, non. 10 (2009): 1061-1068.

Ben Bolker
la source

(+1) Très informatif. L'approche utilisant AIC / BIC ou d'autres critères d'information ne doit pas être mélangée avec des statistiques inférentielles utilisant

p

$p$ -valeurs en tout cas selon le livre de Burnham & Anderson "Sélection de modèles et inférence multimodèle: une approche théorique pratique de l'information."

COOLSerdash

S'il vous plaît, ne me lancez pas sur Burnham et Anderson. github.com/bbolker/discretization

Ben Bolker