Supposons que je veuille régresser contre un X normalisé , mais je voudrais une solution clairsemée. Après la régression, pourquoi la suppression des coefficients de moindre ampleur n'est-elle pas autorisée?
Pour mémoire, j'ai entendu parler des méthodes LARS et LASSO et je les utilise souvent. Je suis simplement curieux de savoir pourquoi l'approche ci-dessus n'est pas applicable.
regression
regression-coefficients
Cam.Davidson.Pilon
la source
la source
Réponses:
Il n'y aurait aucun problème si était orthonormé. Cependant, la possibilité d'une forte corrélation entre les variables explicatives devrait nous faire réfléchir.X
Lorsque vous considérez l' interprétation géométrique de la régression des moindres carrés , les contre-exemples sont faciles à trouver. Prenez pour avoir, disons, des coefficients presque normalement distribués et X 2 pour être presque parallèle à lui. Soit X 3 orthogonal au plan généré par X 1 et X 2 . Nous pouvons imaginer un Y qui est principalement dans la direction X 3 , mais qui est déplacé d'une quantité relativement minime par rapport à l'origine dans le plan X 1 , X 2 . Parce que X 1 etX1 X2 X3 X1 X2 Y X3 X1,X2 X1 sont presque parallèles, ses composants dans ce plan pourraient tous deux avoir de grands coefficients, ce qui nousferaitchuter X 3 , ce qui serait une énorme erreur.X2 X3
La géométrie peut être recréée avec une simulation, comme celle effectuée par ces
R
calculs:Les variances de sont suffisamment proches de 1 pour que nous puissions inspecter les coefficients des ajustements en tant que proxys pour les coefficients standardisés. Dans le modèle complet, les coefficients sont 0,99, -0,99 et 0,1 (tous très significatifs), le plus petit (de loin) étant associé à X 3 , par conception. L'erreur standard résiduelle est de 0,00498. Dans le modèle réduit ("clairsemé"), l'erreur-type résiduelle, à 0,09803, est 20 fois plus importante: une augmentation énorme, reflétant la perte de presque toutes les informations sur Y suite à la suppression de la variable avec le plus petit coefficient standardisé. Le RXi 1 X3 20 Y est passé de 0,9975R2 0.9975 presque à zéro. Aucun des deux coefficients n'est significatif à un niveau supérieur à .0.38
La matrice de nuage de points révèle tout:
La forte corrélation entre et y ressort clairement des alignements linéaires des points en bas à droite. La faible corrélation entre x 1 et y et x 2 et y ressort également de la diffusion circulaire dans les autres panneaux. Néanmoins, le plus petit coefficient standardisé appartient à x 3 plutôt qu'à x 1 ou x 2 .x3 y x1 y x2 y x3 x1 x2
la source
Il me semble que si un coefficient estimé est proche de 0 et que les données sont normalisées, la prédiction ne serait pas affectée par la suppression de la variable. Certes, si le coefficient n'était pas statistiquement significatif, il ne semblerait pas y avoir de problème. Mais cela doit être fait avec soin. Les IV peuvent être corrélés et leur suppression pourrait changer les coefficients des autres. Cela devient plus dangereux si vous commencez à supprimer plusieurs variables de cette façon. Les procédures de sélection des sous-ensembles sont conçues pour éviter de tels problèmes et utilisent des critères raisonnables pour inclure et exclure des variables. Si vous demandez à Frank Harrell, il serait contre les procédures par étapes. Vous mentionnez LARS et LASSO qui sont deux méthodes très modernes. Mais il y en a beaucoup d'autres, y compris des critères d'information qui permettent d'introduire trop de variables.
Si vous essayez une procédure de sélection de sous-ensemble qui a été soigneusement étudiée avec beaucoup de littérature à son sujet, vous constaterez probablement qu'elle conduira à une solution qui supprime les variables avec de petits coefficients, surtout si elles échouent au test pour être statistiquement significativement différentes de 0.
la source