Je connais bien les problèmes de sélection pas à pas / avant / arrière dans les modèles de régression. Il existe de nombreux cas de chercheurs dénonçant les méthodes et pointant vers de meilleures alternatives. J'étais curieux de savoir s'il existe des histoires où une analyse statistique existe:
- a utilisé une régression pas à pas;
- tiré des conclusions importantes sur la base du modèle final
- la conclusion était erronée, entraînant des conséquences négatives pour l'individu, sa recherche ou son organisation
Ma pensée à ce sujet si les méthodes par étapes sont mauvaises, alors il devrait y avoir des conséquences dans le "monde réel" pour les utiliser.
regression
stepwise-regression
history
probabilitéislogique
la source
la source
Réponses:
Il y a plus d'une question posée. Le plus étroit demande un exemple de cas où la régression pas à pas a causé un préjudice parce qu'elle a été réalisée pas à pas. Cela est bien sûr vrai, mais ne peut être établi sans équivoque que lorsque les données utilisées pour la régression pas à pas sont également publiées, et que quelqu'un les réanalyse et publie une correction évaluée par les pairs avec une rétraction des auteurs principaux publiée. Porter des accusations dans tout autre contexte risque d'engager une action en justice et, si nous utilisons un ensemble de données différent, nous pourrions soupçonner qu'une erreur a été commise, mais "les statistiques ne prouvent jamais rien" et nous ne serions pas en mesure d'établir qu'une erreur a été commise. fait; "au-delà de tout doute raisonnable".
En fait, on obtient souvent des résultats différents selon que l'on fait une élimination par étapes ou une construction par étapes d'une équation de régression, ce qui nous suggère qu'aucune des deux approches n'est suffisamment correcte pour recommander son utilisation. De toute évidence, quelque chose d'autre se passe, et cela nous amène à une question plus large, également posée ci-dessus, mais sous forme de puce, équivalant à "Quels sont les problèmes avec la régression pas à pas, de toute façon? C'est la question la plus utile pour répondre et a le avantage supplémentaire que je n'aurai pas de poursuite intentée contre moi pour y avoir répondu.
Le faire correctement pour la MLR par étapes, signifie utiliser 1) des unités physiquement correctes (voir ci-dessous), et 2) une transformation de variable appropriée pour les meilleures corrélations et le type de distribution d'erreur (pour l'homoscédasticité et la physicalité), et 3) en utilisant toutes les permutations de combinaisons de variables, non étape par étape, tous , et 4) si l'on effectue des diagnostics de régression exhaustifs, alors on évite de manquer des combinaisons de variables VIF (colinéarité) élevées qui seraient autrement trompeuses, alors la récompense est une meilleure régression.
Comme promis pour # 1 ci-dessus, nous explorons ensuite les unités correctes pour un système physique. Étant donné que les bons résultats de la régression dépendent du traitement correct des variables, nous devons être conscients des dimensions habituelles des unités physiques et équilibrer nos équations de manière appropriée. De plus, pour les applications biologiques, une prise de conscience et une prise en compte de la dimensionnalité de la mise à l'échelle allométrique sont nécessaires.
la source