Où est la variance partagée entre tous les IV dans une équation de régression multiple linéaire?

Dans une équation de régression multiple linéaire, si les poids bêta reflètent la contribution de chaque variable indépendante individuelle au-delà de la contribution de tous les autres IV, où dans l'équation de régression la variance est-elle partagée par tous les IV qui prédit la DV?

Par exemple, si le diagramme de Venn affiché ci-dessous (et extrait de la page `` À propos '' de CV ici: https://stats.stackexchange.com/about ) était renommé 3 IV et 1 DV, où entrerait la zone avec l'astérisque dans l'équation de régression multiple?

entrez la description de l'image ici

multiple-regression sums-of-squares Joel W.
la source

Je ne vois pas la nécessité d'un downvote ici. Je pense que cette question porte sur ce qui se passe dans la régression multiple à un niveau fondamental, et offre une opportunité d'expliquer quelque chose sur la RM qui autrement ne serait jamais discuté.

gung - Réintègre Monica

Réponses:

$Wiki$ $Digg$ $Forum$ $Blog$ $Wiki$ répond pour vous.

$Wiki$ , mais la figure montre également les variances des prédicteurs. Il y a quelques choses à noter sur notre silhouette. Tout d'abord, chaque variable a la même quantité de variance - elles sont toutes de la même taille (bien que tout le monde n'utilisera pas les diagrammes de Venn littéralement). De plus, il y a la même quantité de chevauchement, etc., etc. Une chose plus importante à noter est qu'il y a beaucoup de chevauchement entre les variables prédictives. Cela signifie qu'ils sont corrélés. Cette situation est très courante lorsqu’il s’agit de données secondaires (c.-à-d. D’archivage), de recherches observationnelles ou de scénarios de prédiction réels. D'un autre côté, s'il s'agissait d'une expérience conçue, cela impliquerait probablement une mauvaise conception ou exécution. Pour continuer avec cet exemple un peu plus longtemps, nous pouvons voir que notre capacité prédictive sera modérée; la plupart de la variabilité $Wiki$ $R^2\approx.35$ $Digg$ $Blog$ $Forum$ $Wiki$

Maintenant, après avoir ajusté un modèle avec plusieurs prédicteurs, les gens veulent souvent tester ces prédicteurs pour voir s'ils sont liés à la variable de réponse (bien qu'il ne soit pas clair que ce soit aussi important que les gens semblent le croire). Notre problème est que pour tester ces prédicteurs, nous devons partitionner la somme des carrés , et puisque nos prédicteurs sont corrélés, il existe des SS qui pourraient être attribués à plusieurs prédicteurs. En fait, dans la région marquée d'un astérisque, le SS pouvait être attribué à l' un des trois prédicteurs. Cela signifie qu'il n'y a pas de partition unique du SS, et donc pas de test unique. La manière dont ce problème est traité dépend du type de SS utilisé par le chercheur etautres jugements du chercheur . Étant donné que de nombreuses applications logicielles renvoient des SS de type III par défaut, de nombreuses personnes jettent les informations contenues dans les régions qui se chevauchent sans se rendre compte qu'elles ont rendu un jugement . J'explique ces problèmes, les différents types de SS, et j'entre dans les détails ici .

La question, comme indiqué, demande spécifiquement où tout cela apparaît dans l' équation bêta / régression. La réponse est que non. Certaines informations à ce sujet sont contenues dans ma réponse ici (même si vous devrez lire un peu entre les lignes).

gung - Réintégrer Monica
la source

Bonjour Gung, Merci pour ta publication. C'est très intéressant et m'a ouvert les yeux dans certains domaines. Cependant, j'ai du mal à lire entre les lignes de la publication à laquelle vous avez lié. Donc, ma question demeure: dans une équation de régression multiple linéaire, si les poids bêta reflètent la contribution de chaque variable indépendante individuelle au-delà de la contribution de tous les autres IV, où dans l'équation de régression est la variance partagée par tous les IV qui prédit le DV?

Joel W.

W i k i

$Wiki$

D i g g

$Digg$

F o r u m

$Forum$

gung - Réintégrer Monica

Si «le chevauchement apparaît dans le premier et non dans le second», comment l'équation de régression peut-elle refléter la variance partagée? Si les Betas indiquent la contribution de chaque IV lorsque les effets de tous les autres IV sont statistiquement supprimés, quelle partie de la formule de régression reflète le pouvoir prédictif de la variance partagée supprimée? Ou, comment l'équation de régression peut-elle montrer ce qui arriverait au Y prévu si vous augmentez l'un des IV de 1 si le chevauchement n'est pas reflété dans le Betas? Une troisième question: dans une analyse RM des données sous-jacentes au diagramme de Venn, le Forum beta = 0?

Joel W.

β_{F} = 0

$\beta_{F}=0$

@MarkWhite, la réponse de l'étudiant est généralement OK. L'affirmation selon laquelle lorsque X1 et X2 sont parfaitement corrélés, leurs bêtas sont la moitié n'est pas correcte; lorsque r = 1 le modèle n'est pas identifiable (cf. ici ). À mesure que r se rapproche de 1, les bêtas estimés dépendront des relations dans les données de l'échantillon et peuvent varier considérablement d'un échantillon à l'autre.

gung - Rétablir Monica

Peter Kennedy a une belle description des diagrammes de régression Ballentine / Venn dans son livre et son article JSE , y compris les cas où ils peuvent vous induire en erreur.

$R^2$

Dimitriy V. Masterov
la source

R^{2}

$R^2$

En effet et fait.

Dimitriy V. Masterov

La zone étoilée est-elle utilisée pour calculer y prévu? Si oui, où dans la formule de prédiction la zone étoilée contribue-t-elle au y prévu? Autrement dit, quel (s) terme (s) dans la formule de prédiction reflètent la zone étoilée?

Joel W.24

Je me rends compte que c'est un fil (très) daté, mais comme un de mes collègues m'a posé cette même question cette semaine et ne trouvant rien sur le Web que je pourrais lui indiquer, j'ai pensé ajouter mes deux cents "pour la postérité" ici. Je ne suis pas convaincu que les réponses fournies à ce jour répondent à la question du PO.

Je vais simplifier le problème pour n'impliquer que deux variables indépendantes; il est très simple de l'étendre à plus de deux. Considérez le scénario suivant: deux variables indépendantes (X1 et X2), une variable dépendante (Y), 1000 observations, les deux variables indépendantes sont fortement corrélées l'une avec l'autre (r = .99), et chaque variable indépendante est corrélée avec la dépendante variable (r = 0,60). Sans perte de généralité, normalisez toutes les variables à une moyenne de zéro et à un écart-type d'une, de sorte que le terme d'interception sera nul dans chacune des régressions.

L'exécution d'une régression linéaire simple de Y sur X1 produira un r au carré de 0,36 et une valeur b1 de 0,6. De même, l'exécution d'une régression linéaire simple de Y sur X2 produira un r au carré de 0,36 et une valeur b1 de 0,6.

L'exécution d'une régression multiple de Y sur X1 et X2 produira un r au carré d'un tout petit peu supérieur à 0,36, et b1 et b2 prennent la valeur de 0,3. Ainsi, la variation partagée de Y est capturée dans les DEUX b1 et b2 (également).

Je pense que l'OP a peut-être fait une hypothèse fausse (mais totalement compréhensible): à savoir que lorsque X1 et X2 se rapprochent de plus en plus d'être parfaitement corrélés, leurs valeurs b dans l'équation de régression multiple se rapprochent de plus en plus de ZERO. Ce n'est pas le cas. En fait, lorsque X1 et X2 se rapprochent de plus en plus d'être parfaitement corrélés, leurs valeurs b dans la régression multiple se rapprochent de plus en plus de la moitié de la valeur b dans la régression linéaire simple de l'un ou l'autre. Cependant, à mesure que X1 et X2 se rapprochent de plus en plus d'être parfaitement corrélées, l'ERREUR STANDARD de b1 et b2 se rapproche de plus en plus de l'infini, de sorte que les valeurs t convergent vers zéro. Ainsi, les valeurs t convergeront vers zéro (c'est-à-dire, aucune relation linéaire UNIQUE entre X1 et Y ou X2 et Y),

Ainsi, la réponse à la question de l'OP est que, comme la corrélation entre X1 et X2 s'approche de l'unité, CHACUN des coefficients de pente partielle approche contribuant également à la prédiction de la valeur Y, même si aucune variable indépendante n'offre une explication UNIQUE de la dépendance variable.

Si vous souhaitez vérifier cela empiriquement, générez un ensemble de données fabriqué (... j'ai utilisé une macro SAS nommée Corr2Data.sas ...) qui a les caractéristiques décrites ci-dessus. Vérifiez les valeurs b, les erreurs standard et les valeurs t: vous constaterez qu'elles sont exactement comme décrites ici.

HTH // Phil

Étudiant
la source

Ceci est une explication fantastique, merci. J'ai essayé de simuler différentes situations dans R, et je suis arrivé à la conclusion que vous ne pouvez pas vous débarrasser de la variabilité partagée si n est trop grand, ou si la corrélation entre la sortie (Y) et le composant partagé (X1 et X2 ) est trop élevé. Mais pourquoi les valeurs t refléteraient-elles quelque chose qui n'est pas les contributions uniques de X1 et X2, pour commencer? Si les valeurs t de régression reflètent les contributions uniques des prédicteurs, nous ne devrions pas voir la variabilité partagée affecte du tout les valeurs t, mais nous le faisons. Pourquoi donc?

Galit