Bien que les mérites de la sélection de modèle pas à pas aient été discutés précédemment, il devient peu clair pour moi ce qu'est exactement la " sélection de modèle pas à pas " ou la " régression pas à pas ". Je pensais l'avoir compris, mais je n'en suis plus si sûr.
Ma compréhension est que ces deux termes sont synonymes (au moins dans un contexte de régression) et qu'ils se réfèrent à la sélection du meilleur ensemble de variables prédictives dans un modèle "optimal" ou "meilleur" , compte tenu des données. (Vous pouvez trouver la page Wikipedia ici et un autre aperçu potentiellement utile ici .)
Sur la base de plusieurs threads précédents (par exemple ici: Algorithmes pour la sélection automatique de modèle ), il apparaît que la sélection de modèle pas à pas est considérée comme un péché cardinal. Et pourtant, il semble être utilisé tout le temps, y compris par des statisticiens qui semblent bien respectés. Ou est-ce que je mélange la terminologie?
Mes principales questions sont:
Par «sélection de modèle pas à pas» ou «régression pas à pas», entendons-nous:
A ) effectuer des tests d'hypothèse séquentiels tels que des tests de rapport de vraisemblance ou examiner des valeurs de p? (Il y a un article connexe ici: pourquoi les valeurs p sont-elles trompeuses après avoir effectué une sélection pas à pas? ) Est-ce ce que cela signifie et pourquoi est-ce mauvais?
Ou
B ) considérons-nous également que la sélection basée sur l'AIC (ou un critère d'information similaire) est également mauvaise? D'après la réponse d' Algorithmes pour la sélection automatique de modèle , il semble que cela aussi soit critiqué. D'un autre côté, Whittingham et al. (2006; pdf ) 1 semble suggérer que la sélection de variables basée sur une approche de la théorie de l'information (TI) est différente de la sélection par étapes (et semble être une approche valide) ...?Et c'est la source de toute ma confusion.
Pour le suivi, si la sélection basée sur AIC tombe sous "pas à pas" et est jugée inappropriée, voici d'autres questions:
Si cette approche est fausse, pourquoi est-elle enseignée dans les manuels, les cours universitaires, etc.? Est-ce que tout cela est faux?
Quelles sont les bonnes alternatives pour sélectionner les variables qui doivent rester dans le modèle? J'ai rencontré des recommandations pour utiliser des ensembles de données de validation croisée et de test de formation, et LASSO.
Je pense que tout le monde peut convenir qu'il est problématique de lancer sans discernement toutes les variables possibles dans un modèle, puis de faire une sélection par étapes. Bien sûr, un jugement sensé devrait guider ce qui se passe au départ. Mais que se passe-t-il si nous commençons déjà avec un nombre limité de variables prédictives possibles basées sur certaines connaissances (dites biologiques), et tous ces prédicteurs pourraient bien expliquer notre réponse? Cette approche de la sélection des modèles serait-elle toujours imparfaite? Je reconnais également que la sélection du «meilleur» modèle pourrait ne pas être appropriée si les valeurs AIC entre différents modèles sont très similaires (et l'inférence multimodèle peut être appliquée dans de tels cas). Mais le problème sous-jacent de l'utilisation de la sélection par étapes basée sur AIC est-il toujours problématique?
Si nous cherchons à voir quelles variables semblent expliquer la réponse et de quelle manière, pourquoi cette approche est-elle mauvaise, car nous savons que "tous les modèles sont faux, mais certains sont utiles"?
1. Whittingham, MJ, Stephens, PA, Bradbury, RB et Freckleton, RP (2006). Pourquoi utilisons-nous toujours la modélisation pas à pas en écologie et comportement? Journal of Animal Ecology, 75, p. 1182–1189.
Réponses:
1) La raison pour laquelle vous êtes confus est que le terme "pas à pas" est utilisé de manière incohérente. Parfois, cela signifie des procédures assez spécifiques dans lesquellesp -les valeurs des coefficients de régression, calculées de manière ordinaire, sont utilisées pour déterminer quelles covariables sont ajoutées ou supprimées d'un modèle, et ce processus est répété plusieurs fois. Il peut se référer à (a) une variation particulière de cette procédure dans laquelle des variables peuvent être ajoutées ou supprimées à n'importe quelle étape (je pense que c'est ce que SPSS appelle "pas à pas"), ou il peut se référer à (b) cette variation avec d'autres des variations telles que l'ajout ou la suppression de variables uniquement. Plus largement, "pas à pas" peut être utilisé pour désigner (c) toute procédure dans laquelle des fonctions sont ajoutées ou supprimées d'un modèle en fonction d'une valeur calculée chaque fois qu'une fonction (ou un ensemble de fonctions) est ajoutée ou supprimée.
Ces différentes stratégies ont toutes été critiquées pour diverses raisons. Je dirais que la plupart des critiques portent sur (b), l'élément clé de cette critique est quep -les valeurs sont mal équipées pour la sélection des fonctionnalités (les tests de signification ici testent vraiment quelque chose de très différent de "dois-je inclure cette variable dans le modèle?"), et les statisticiens les plus sérieux le déconseillent en toutes circonstances. (c) est plus controversé.
2) Parce que l'enseignement des statistiques est vraiment mauvais. Pour ne donner qu'un exemple: pour autant que je puisse en juger par ma propre formation, il est apparemment considéré comme un élément clé de l'enseignement des statistiques pour les majors en psychologie de dire aux étudiants d'utiliser la correction de Bessel pour obtenir des estimations impartiales du DD de la population. Il est vrai que la correction de Bessel rend l'estimation de la variance non biaisée, mais il est facile de prouver que l'estimation de l'écart-type est toujours biaisée. Mieux encore, la correction de Bessel peut augmenter le MSE de ces estimations.
3) La sélection variable est pratiquement un domaine en soi. La validation croisée et le fractionnement des tests de train sont des moyens d'évaluer un modèle, éventuellement après la sélection des caractéristiques; ils ne proposent pas eux-mêmes les fonctionnalités à utiliser. Le lasso est souvent un bon choix. Il en va de même des meilleurs sous-ensembles.
4) Dans mon esprit, il n'y a toujours aucun sens à utiliser (b), surtout quand vous pourriez faire autre chose à la place (c), comme utiliser AIC. Je n'ai aucune objection à la sélection par étapes basée sur AIC, mais sachez qu'elle sera sensible à l'échantillon (en particulier, à mesure que les échantillons grandissent arbitrairement, AIC, comme le lasso, choisit toujours le modèle le plus complexe), alors ne le faites pas '' t présenter la sélection du modèle elle-même comme s'il s'agissait d'une conclusion généralisable.
En fin de compte, si vous voulez regarder les effets de toutes les variables, vous devez inclure toutes les variables, et si votre échantillon est trop petit pour cela, vous avez besoin d'un plus grand échantillon. N'oubliez pas que les hypothèses nulles ne sont jamais vraies dans la vraie vie. Il ne va pas y avoir un tas de variables qui sont associées à un résultat et un tas d'autres variables qui ne le sont pas . Chaque variable sera associée au résultat - les questions sont de savoir dans quelle mesure, dans quelle direction, dans quelles interactions avec d'autres variables, etc.
la source
En ce qui concerne pas à pas vs AIC
Pas à pas est un terme décrivant la manière dont une séquence de modèles est construite et éventuellement la façon dont un modèle est sélectionné dans la séquence.
Pendant ce temps,
L'AIC peut être appliqué pour sélectionner un modèle dans un groupe de candidats. Il peut être utilisé comme critère de sélection dans la sélection pas à pas, mais pas seulement.
Ainsi , par étapes et AIC sont deux aspects différents de la sélection de modèles qui peuvent être utilisés ensemble ou séparément, et en fonction de cela et sur d' autres considérations peuvent ou peuvent ne pas être approprié.
la source