J'essaie d'interpréter les résultats d'un article, où ils ont appliqué une régression multiple pour prédire divers résultats. Cependant les (coefficients B normalisés définis comme où est la personne à charge variable et est un prédicteur) rapporté ne semble pas correspondre au rapporté :β x 1 = B x 1 ⋅ S D x 1 yx1R2
Malgré les de -0,83, -0,29, -0,16, -0,43, 0,25 et -0,29, le rapporté n'est que de 0,20.R 2
De plus, les trois prédicteurs: poids, IMC et% de graisse sont multi-colinéaires, corrélés autour de r = 0,8-0,9 les uns avec les autres au sein des sexes.
La valeur est-elle plausible avec ces , ou n'y a-t-il pas de relation directe entre les et le ? β β R 2
De plus, des problèmes avec les prédicteurs multicollinéaires pourraient-ils affecter la d'un quatrième prédicteur (VO2max), qui est corrélée autour de r = 0,4 avec les trois variables susmentionnées?
la source
Réponses:
L' interprétation géométrique de la régression des moindres carrés ordinaires fournit la perspicacité requise.
La plupart de ce que nous devons savoir peut être vu dans le cas de deux régresseurs et x 2 avec la réponse y . Les coefficients normalisés, ou «bêtas», surviennent lorsque les trois vecteurs sont normalisés à une longueur commune (que nous pouvons considérer comme étant l'unité). Ainsi, x 1 et x 2 sont des vecteurs unitaires dans un plan E 2 - ils sont situés sur le cercle unitaire - et y est un vecteur unitaire dans un espace euclidien tridimensionnel E 3 contenant ce plan. La valeur ajustée y est la projection orthogonale (perpendiculaire) deX1 X2 y X1 X2 E2 y E3 y^ sur E 2 . Parce que R 2 est simplement la longueurcarré de y , nous ne devons pas visualiser même les trois dimensions: toutes les informations nécessaires peuvent être tirées dans ce plan.y E2 R2 y^
Régresseurs orthogonaux
La situation la plus agréable est lorsque les régresseurs sont orthogonaux, comme dans la première figure.
Dans ceci et le reste des figures, je dessine systématiquement le disque de l'unité en blanc et les régresseurs sous forme de flèches noires. pointera toujours directement vers la droite. Les flèches rouges épais représentent les composantes de y dans les x 1 et x 2 directions: qui est, β 1 x 1 et β 2 x 2 . La longueur de y est le rayon du cercle gris sur laquelle il se trouve - mais se rappeler que R 2 est leX1 y^ X1 X2 β1X1 β2X2 y^ R2 carré de cette longueur.
Le théorème de Pythagore affirme
Parce que le théorème de Pythagore tient dans n'importe quel nombre de dimensions, ce raisonnement se généralise à n'importe quel nombre de régresseurs, donnant notre premier résultat:
Un corollaire immédiat est que lorsqu'il n'y a qu'un seul régresseur - régression univariée - est le carré de la pente normalisée.R2
Corrélé
Les régresseurs à corrélation négative se rencontrent à des angles supérieurs à un angle droit.
Il apparaît visuellement sur cette image que la somme des carrés des bêtas est strictement supérieure à . Cela peut être prouvé algébriquement en utilisant la loi des cosinus ou en travaillant avec une solution matricielle des équations normales.R2
En rendant les deux régresseurs presque parallèle, on peut positionner y près de l'origine (pour R 2 près 0 ) alors qu'elle continue d'avoir de grands composants de la x 1 et x 2 direction. Ainsi, il n'y a pas de limite à la taille du R 2 .y^ R2 0 X1 X2 R2
Mémorisons ce résultat évident, notre deuxième généralité:
Cependant, ce n'est pas une relation universelle, comme le montre la figure suivante.
Maintenant, dépasse strictement la somme des carrés des bêtas. En tirant les deux régresseurs rapprochés et en gardant y entre eux, nous pouvons faire à la fois approche les bêtas 1 / 2 , même lorsque R 2 est proche de 1 . Une analyse plus approfondie peut nécessiter une algèbre: je prends cela en compte ci-dessous.R2 y^ 1 / 2 R2 1
Je laisse à votre imagination le soin de construire des exemples similaires avec des régresseurs positivement corrélés, qui se rencontrent ainsi sous des angles aigus.
Notez que ces conclusions sont incomplètes: il y a des limites à combien moins de peut être comparé à la somme des carrés des bêtas. En particulier, en examinant attentivement les possibilités, vous pouvez conclure (pour une régression avec deux régresseurs) queR2
Résultats algébriques
Généralement, que les régresseurs soient (vecteurs colonnes) et la réponse soit y . Les moyens de normalisation (a) sont chacun orthogonaux au vecteur ( 1 , 1 , … , 1 ) ' et (b) ils ont des longueurs unitaires:X1, x2, … , Xp y ( 1 , 1 , … , 1 )′
Assembler les vecteurs colonnes dans un n × p matrice X . Les règles de multiplication matricielle impliquent queXje n × p X
est la matrice de corrélation des . Les bêtas sont donnés par les équations normales,Xje
De plus, par définition, l'ajustement est
Sa longueur au carré donne par définition:R2
L'inégalité de Cauchy-Schwarz implique
Conclusions
la source