Clarté en écartant le coefficient des moindres carrés

14

Supposons que je veuille régresser contre un X normalisé , mais je voudrais une solution clairsemée. Après la régression, pourquoi la suppression des coefficients de moindre ampleur n'est-elle pas autorisée?YX

Pour mémoire, j'ai entendu parler des méthodes LARS et LASSO et je les utilise souvent. Je suis simplement curieux de savoir pourquoi l'approche ci-dessus n'est pas applicable.

Cam.Davidson.Pilon
la source
2
+1 Ces questions simples peuvent être difficiles - elles font réfléchir les concepts de base.
whuber

Réponses:

14

Il n'y aurait aucun problème si était orthonormé. Cependant, la possibilité d'une forte corrélation entre les variables explicatives devrait nous faire réfléchir.X

Lorsque vous considérez l' interprétation géométrique de la régression des moindres carrés , les contre-exemples sont faciles à trouver. Prenez pour avoir, disons, des coefficients presque normalement distribués et X 2 pour être presque parallèle à lui. Soit X 3 orthogonal au plan généré par X 1 et X 2 . Nous pouvons imaginer un Y qui est principalement dans la direction X 3 , mais qui est déplacé d'une quantité relativement minime par rapport à l'origine dans le plan X 1 , X 2 . Parce que X 1 etX1X2X3X1X2OuiX3X1,X2X1 sont presque parallèles, ses composants dans ce plan pourraient tous deux avoir de grands coefficients, ce qui nousferaitchuter X 3 , ce qui serait une énorme erreur.X2X3

La géométrie peut être recréée avec une simulation, comme celle effectuée par ces Rcalculs:

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

Les variances de sont suffisamment proches de 1 pour que nous puissions inspecter les coefficients des ajustements en tant que proxys pour les coefficients standardisés. Dans le modèle complet, les coefficients sont 0,99, -0,99 et 0,1 (tous très significatifs), le plus petit (de loin) étant associé à X 3 , par conception. L'erreur standard résiduelle est de 0,00498. Dans le modèle réduit ("clairsemé"), l'erreur-type résiduelle, à 0,09803, est 20 fois plus importante: une augmentation énorme, reflétant la perte de presque toutes les informations sur Y suite à la suppression de la variable avec le plus petit coefficient standardisé. Le RXi1X320Y est passé de 0,9975R20.9975presque à zéro. Aucun des deux coefficients n'est significatif à un niveau supérieur à .0.38

La matrice de nuage de points révèle tout:

Matrice de nuage de points de x1, x2, x3 et y

La forte corrélation entre et y ressort clairement des alignements linéaires des points en bas à droite. La faible corrélation entre x 1 et y et x 2 et y ressort également de la diffusion circulaire dans les autres panneaux. Néanmoins, le plus petit coefficient standardisé appartient à x 3 plutôt qu'à x 1 ou x 2 .x3yx1yx2yx3x1x2

whuber
la source
2

Il me semble que si un coefficient estimé est proche de 0 et que les données sont normalisées, la prédiction ne serait pas affectée par la suppression de la variable. Certes, si le coefficient n'était pas statistiquement significatif, il ne semblerait pas y avoir de problème. Mais cela doit être fait avec soin. Les IV peuvent être corrélés et leur suppression pourrait changer les coefficients des autres. Cela devient plus dangereux si vous commencez à supprimer plusieurs variables de cette façon. Les procédures de sélection des sous-ensembles sont conçues pour éviter de tels problèmes et utilisent des critères raisonnables pour inclure et exclure des variables. Si vous demandez à Frank Harrell, il serait contre les procédures par étapes. Vous mentionnez LARS et LASSO qui sont deux méthodes très modernes. Mais il y en a beaucoup d'autres, y compris des critères d'information qui permettent d'introduire trop de variables.

Si vous essayez une procédure de sélection de sous-ensemble qui a été soigneusement étudiée avec beaucoup de littérature à son sujet, vous constaterez probablement qu'elle conduira à une solution qui supprime les variables avec de petits coefficients, surtout si elles échouent au test pour être statistiquement significativement différentes de 0.

Michael R. Chernick
la source