Les techniques de sélection variables, en général (par étapes, en arrière, en avant, tous les sous-ensembles, AIC, etc.), tirent parti des modèles aléatoires ou aléatoires dans les données d'échantillon qui n'existent pas dans la population. Le terme technique pour cela est trop adapté et il est particulièrement problématique avec les petits ensembles de données, bien qu'il ne leur soit pas exclusif. En utilisant une procédure qui sélectionne les variables en fonction du meilleur ajustement, toute la variation aléatoire qui ressemble à l'ajustement dans cet échantillon particulier contribue aux estimations et aux erreurs types. C'est un problème à la fois pour la prédiction et l'interprétation du modèle.
Plus précisément, le carré r est trop élevé et les estimations des paramètres sont biaisées (elles sont trop éloignées de 0), les erreurs standard pour les paramètres sont trop petites (et donc les valeurs de p et les intervalles autour des paramètres sont trop petits / étroits).
La meilleure ligne de défense contre ces problèmes est de construire des modèles de manière réfléchie et d'inclure les prédicteurs qui ont du sens sur la base de la théorie, de la logique et des connaissances antérieures. Si une procédure de sélection des variables est nécessaire, vous devez sélectionner une méthode qui pénalise les estimations des paramètres (méthodes de retrait) en ajustant les paramètres et les erreurs standard pour tenir compte du sur-ajustement. Certaines méthodes de retrait courantes sont la régression de crête, la régression du moindre angle ou le lasso. De plus, la validation croisée à l'aide d'un ensemble de données d'apprentissage et d'un ensemble de données de test ou de la moyenne du modèle peut être utile pour tester ou réduire les effets du sur-ajustement.
Harrell est une excellente source pour une discussion détaillée de ces problèmes. Harrell (2001). «Stratégies de modélisation de la régression».
Dans le contexte des sciences sociales d'où je viens, la question est de savoir si vous êtes intéressé par (a) la prédiction ou (b) tester une question de recherche ciblée. Si le but est la prédiction, des approches basées sur les données sont appropriées. Si le but est d'examiner une question de recherche ciblée, il est important de considérer quel modèle de régression teste spécifiquement votre question.
Par exemple, si votre tâche consistait à sélectionner un ensemble de tests de sélection pour prédire le rendement au travail, l'objectif peut dans un certain sens être considéré comme l'un de maximiser la prédiction du rendement au travail. Ainsi, des approches basées sur les données seraient utiles.
En revanche, si vous vouliez comprendre le rôle relatif des variables de personnalité et des variables de capacité dans l'influence sur les performances, une approche de comparaison de modèle spécifique pourrait être plus appropriée.
Généralement, lors de l'exploration de questions de recherche ciblées, le but est d'élucider quelque chose sur les processus causaux sous-jacents qui fonctionnent plutôt que de développer un modèle avec une prédiction optimale.
Lorsque je suis en train de développer des modèles de processus basés sur des données transversales, je me méfierais: (a) d'inclure des prédicteurs qui pourraient théoriquement être considérés comme des conséquences de la variable de résultat. Par exemple, la croyance d'une personne qu'elle est un bon interprète est un bon prédicteur de la performance au travail, mais il est probable que cela soit au moins partiellement dû au fait qu'elle a observé sa propre performance. (b) comprenant un grand nombre de prédicteurs qui reflètent tous les mêmes phénomènes sous-jacents. Par exemple, comprenant 20 articles mesurant tous la satisfaction à l'égard de la vie de différentes manières.
Ainsi, les questions de recherche ciblées reposent beaucoup plus sur des connaissances spécifiques au domaine. Cela explique probablement en partie pourquoi les approches fondées sur les données sont moins souvent utilisées en sciences sociales.
la source
Je ne pense pas qu'il soit possible de faire Bonferoni ou des corrections similaires pour ajuster la sélection des variables en régression car tous les tests et étapes impliqués dans la sélection des modèles ne sont pas indépendants.
Une approche consiste à formuler le modèle en utilisant un seul ensemble de données et à faire des inférences sur un autre ensemble de données. Cela se fait en prévoyant tout le temps où nous avons un ensemble de formation et un ensemble de test. Elle n'est pas très courante dans d'autres domaines, probablement parce que les données sont si précieuses que nous voulons utiliser chaque observation pour la sélection du modèle et pour l'inférence. Cependant, comme vous le notez dans votre question, l'inconvénient est que l'inférence est en fait trompeuse.
Il existe de nombreuses situations où une approche fondée sur la théorie est impossible car il n'y a pas de théorie bien développée. En fait, je pense que c'est beaucoup plus courant que les cas où la théorie suggère un modèle.
la source
Richard Berk a un article récent où il démontre, par simulation, les problèmes de l'espionnage de données et de l'inférence statistique. Comme Rob l'a suggéré, il est plus problématique que de simplement corriger plusieurs tests d'hypothèse.
Inférence statistique après la sélection du modèle par: Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, Vol. 26, no 2. (1er juin 2010), p. 217-236.
Version PDF ici
la source
Si je comprends bien votre question, la réponse à votre problème est de corriger les valeurs de p en fonction du nombre d'hypothèses.
Par exemple, les corrections Holm-Bonferoni, où vous triez l'hypothèse (= vos différents modèles) par leur valeur p et rejetez celles avec un samller supérieur à (valeur p / indice souhaité).
Plus d'informations sur le sujet peuvent être trouvées sur Wikipedia
la source