D'après ce que je comprends, la sélection de variables basée sur les valeurs de p (au moins dans le contexte de régression) est très imparfaite. Il semble que la sélection de variables basée sur AIC (ou similaire) soit également considérée comme imparfaite par certains, pour des raisons similaires, bien que cela semble un peu flou (par exemple, voir ma question et certains liens sur ce sujet ici: Qu'est - ce exactement que la "sélection de modèle par étapes"? ).
Mais supposons que vous optiez pour l'une de ces deux méthodes pour choisir le meilleur ensemble de prédicteurs dans votre modèle.
Burnham et Anderson 2002 (Sélection de modèles et inférence multimodèle: une approche théorique pratique de l'information, page 83) déclarent qu'il ne faut pas mélanger la sélection des variables basée sur l'AIC avec celle basée sur le test d'hypothèse : "Les tests d'hypothèses nulles et les approches théoriques de l'information devraient ne pas être utilisés ensemble, ce sont des paradigmes d'analyse très différents. "
En revanche, Zuur et al. 2009 (modèles à effets mixtes avec extensions en écologie avec R, page 541) semblent préconiser l'utilisation de l' AIC pour trouver d'abord le modèle optimal, puis effectuer un "réglage fin" à l'aide de tests d'hypothèse : "L'inconvénient est que l'AIC peut être conservateur , et vous devrez peut-être appliquer un réglage fin (en utilisant les tests d'hypothèses obtenus à partir de l'approche 1) une fois que l'AIC aura sélectionné un modèle optimal. "
Vous pouvez voir comment cela laisse le lecteur des deux livres confus quant à l'approche à suivre.
1) S'agit-il simplement de «camps» de pensée statistique différents et d'un sujet de désaccord entre statisticiens? L'une de ces approches est-elle simplement "dépassée" maintenant, mais a-t-elle été jugée appropriée au moment de la rédaction? Ou est-ce simplement faux dès le départ?
2) Y aurait-il un scénario dans lequel cette approche serait appropriée? Par exemple, je viens d'un milieu biologique, où j'essaie souvent de déterminer quelles variables, le cas échéant, semblent affecter ou conduire ma réponse. J'ai souvent un certain nombre de variables explicatives candidates et j'essaie de trouver celles qui sont «importantes» (en termes relatifs). Notez également que l'ensemble des variables candidates prédictives est déjà réduit à celles considérées comme ayant une certaine pertinence biologique, mais cela peut toujours inclure 5 à 20 candidats prédicteurs.
Réponses:
Une réponse courte.
L'approche consistant à effectuer une sélection ou un ajustement du modèle basé sur les données , puis à utiliser des méthodes inférentielles standard sur le modèle sélectionné / réglé (à la Zuur et al. , Et de nombreux autres écologistes respectés tels que Crawley), donnera toujours des résultats trop optimistes : une confiance trop étroite intervalles (couverture médiocre), valeurs de p trop petites (erreur de type I élevée). En effet, les méthodes inférentielles standard supposent que le modèle est spécifié a priori ; ils ne prennent pas en compte le processus de réglage du modèle.
C'est pourquoi des chercheurs comme Frank Harrell ( Regression Modeling Strategies ) désapprouvent fortement les techniques de sélection basées sur les données comme la régression pas à pas, et préviennent qu'il faut faire toute réduction de la complexité du modèle ("réduction de dimension", par exemple en calculant une PCA des variables prédictives). et sélectionner les premiers axes de l'ACP comme prédicteurs) en ne regardant que les variables prédictives.
Si vous êtes intéressé uniquement à trouver le meilleur modèle prédictif (et que vous n'êtes intéressé par aucune sorte d'estimation fiable de l'incertitude de votre prédiction, qui relève du domaine de l'inférence!), Alors le réglage du modèle basé sur les données est correct (bien que la sélection par étapes est rarement la meilleure option disponible); les algorithmes d'apprentissage automatique / d'apprentissage statistique font beaucoup de réglages pour essayer d'obtenir le meilleur modèle prédictif. L'erreur "test" ou "hors échantillon" doit être évaluée sur un échantillon séparé, ou toute méthode de réglage doit être intégrée dans une procédure de validation croisée.
Il semble qu'il y ait eu une évolution historique des opinions sur ce sujet; de nombreux manuels statistiques classiques, en particulier ceux qui se concentrent sur la régression, présentent des approches par étapes suivies de procédures inférentielles standard sans prendre en compte les effets de la sélection du modèle [citation nécessaire ...]
Il existe de nombreuses façons de quantifier l'importance des variables, et toutes ne tombent pas dans le piège de sélection post-variable.
la source
Je viens d'un milieu biologique et je suis un biostatisticien engagé, travaillant dans un hôpital universitaire. J'ai lu beaucoup de choses à ce sujet, en particulier récemment, y compris en particulier les opinions de Harrell sur le www, et son livre Regression Modeling Strategies. Je ne le cite plus, mais je parle d'expérience: c'est très lié au domaine, je pense que c'est le premier niveau à prendre en compte. Le deuxième niveau serait d'obtenir une bonne approche rationnelle, ce qui signifie que vos prédicteurs devraient être essentiels pour exprimer ce que vous voulez prédire, par expérience scientifique. La troisième consisterait à prendre en compte les interactions, ce qui est super crucial, et peut être traité par l'approche statistique adoptée ou la perspicacité. Seulement 4ème est la méthode choisie, dans mon cas avec les données hospitalières, qui a assez souvent environ x * 10 ^ 3 points de données et x * 10 ^ 1 observations par exemple
la source