Quelle est la corrélation attendue entre la variable résiduelle et la variable dépendante?

26

En régression linéaire multiple, je peux comprendre que les corrélations entre le résidu et les prédicteurs sont nulles, mais quelle est la corrélation attendue entre le résiduel et la variable critère? Doit-on s'attendre à ce qu'il soit nul ou fortement corrélé? Quelle est la signification de cela?

Jfly
la source
4
Qu'est-ce qu'une "variable critère" ??
whuber
2
@whuber Je suppose que Jfly fait référence à la réponse / le résultat / la personne à charge / etc. variable. davidmlane.com/hyperstat/A101702.html Il est intéressant de voir les nombreux noms de ces variables passer: en.wikipedia.org/wiki/…
Jeromy Anglim
@ Jeromy Merci! J'avais deviné que c'était le sens mais je n'en étais pas sûr. C'est un nouveau terme pour moi - et pour Wikipédia, évidemment.
whuber
J'aurais pensé que ce serait égal àE[R2] ou quelque chose de similaire, comme R2=[corr(y,y^)]2
probabilityislogic
y=f(x)+e , oùf est la fonction de régression,e est l'erreur etCov(f(x),e)=0 . AlorsCorr(y,e)=SD(e)/SD(y)=1R2 . Voilà l'exemple de statistique; sa valeur attendue serait similaire mais plus désordonnée.
Ray Koopman

Réponses:

20

Dans le modèle de régression:

yi=xiβ+ui

l'hypothèse est que d' habitude , i = 1 , . . . , n est un échantillon iid. Dans l'hypothèse où E x i u i = 0 et E ( x i x i ) a un rang complet, l'estimateur des moindres carrés ordinaires:(yi,xi,ui)i=1,...,nExiui=0E(xixi)

β^=(i=1nxixi)1i=1xiyi

est cohérent et asymptotiquement normal. La covariance attendue entre un résiduel et la variable de réponse est alors:

Eyiui=E(xiβ+ui)ui=Eui2

Si l' on suppose en outre que et E ( u 2 i | x 1 , . . . , X n ) = σ 2 , on peut calculer la covariance attendue entre y i et son résidu de régression:E(ui|x1,...,xn)=0E(ui2|x1,...,xn)=σ2yi

Eyiu^i=Eyi(yixiβ^)=E(xiβ+ui)(uixi(β^β))=E(ui2)(1Exi(j=1nxjxj)1xi)

Maintenant , pour obtenir la corrélation que nous devons calculer et Var ( u i ) . Il se trouve queVar(yi)Var(u^i)

Var(u^i)=E(yiu^i),

Par conséquent

Corr(yi,u^i)=1Exi(j=1nxjxj)1xi

Maintenant, le terme provient dediagonale de la matrice de chapeauH=X(X'X)-1X', oùX=[xi,. . . ,xN]. La matriceHest idempotente, donc elle satisfait une propriété suivantexi(j=1nxjxj)1xiH=X(XX)1XX=[xi,...,xN]H

trace(H)=ihii=rank(H),

est le terme diagonal de H . Le rang ( H ) est le nombre de variables linéairement indépendantes dans x i , qui est généralement le nombre de variables. Appelons cela p . Le nombre de h i i est la taille de l' échantillon N . Nous avons donc N termes non négatifs qui devraient résumer à p . Habituellement, N est beaucoup plus grand que p , donc beaucoup de h i ihiiHrank(H)xiphiiNNpNphii serait proche du zéro, ce qui signifie que la corrélation entre le résiduel et la variable de réponse serait proche de 1 pour la plus grande partie des observations.

Le terme est également utilisé dans divers diagnostics de régression pour déterminer les observations influentes.hii

mpiktas
la source
10
+1 C'est exactement la bonne analyse. Mais pourquoi ne finissez-vous pas le travail et ne répondez-vous pas à la question? Le PO demande si cette corrélation est "élevée" et ce qu'elle pourrait signifier .
whuber
On pourrait donc dire que la corrélation est à peu près 1pN
probabilitéislogic
1
La corrélation est différente pour chaque observation, mais oui, vous pouvez le dire, à condition que X n'ait pas de valeurs aberrantes.
mpiktas
21

La corrélation dépend du . Si R 2 est élevé, cela signifie qu'une grande partie de la variation de votre variable dépendante peut être attribuée à la variation de vos variables indépendantes, et NON à votre terme d'erreur.R2R2

Cependant, si est faible, cela signifie qu'une grande partie de la variation de votre variable dépendante n'est pas liée à la variation de vos variables indépendantes et doit donc être liée au terme d'erreur.R2

Considérez le modèle suivant:

, où Y et X ne sont pas corrélés.Y=Xβ+εYX

En supposant des conditions de régularité suffisantes pour que le CLT tienne.

converge vers0, étant donnéXetYsont pas corrélés. Par conséquent , Y =X β sera toujours nul. Ainsi, leε:=Y - Y =Y-0=Y. εetYsont parfaitement corrélés !!!β^0XYY^=Xβ^ε:=YY^=Y0=YεY

En maintenant tout le reste fixe, l'augmentation de diminuera la corrélation entre l'erreur et la dépendance. Une forte corrélation n'est pas nécessairement alarmante. Cela peut simplement signifier que le processus sous-jacent est bruyant. Cependant, un faible R 2 (et donc une forte corrélation entre l'erreur et la dépendance) peut être dû à une mauvaise spécification du modèle.R2R2

Mat
la source
Je trouve cette réponse confusion, en partie grâce à son utilisation de « » pour se tenir à la fois pour les termes d'erreur dans le modèle et les résidus Y - Y . Un autre point de confusion est la référence à "converger vers" même s'il n'y a aucune séquence de quoi que ce soit en évidence à laquelle la convergence pourrait s'appliquer. L'hypothèse selon laquelle X et Y ne sont pas corrélés semble particulière et n'illustre pas les circonstances générales. Tout cela obscurcit ce que cette réponse pourrait essayer de dire ou quelles affirmations sont généralement vraies. εYY^XY
whuber
17

Je trouve ce sujet assez intéressant et les réponses actuelles sont malheureusement incomplètes ou partiellement trompeuses - malgré la pertinence et la grande popularité de cette question.

Par définition du cadre classique OLS il devrait y avoir aucune relation entre et uŷu^ , étant donné que les résidus obtenus sont par construction décorrélé lors du calcul de l'estimateur OLS. La propriété minimisant la variance sous homoscédasticité garantit que l'erreur résiduelle est répartie de manière aléatoire autour des valeurs ajustées. Cela peut être formellement démontré par:ŷ

= P σ 2 - P σ 2 = 0

Cov(ŷ,û|X)=Cov(Py,My|X)=Cov(Py,(IP)y|X)=PCov(y,y)(IP)
=Pσ2Pσ2=0

et P sont des matrices idempotent définies comme étant: P = X ( X ' X ) X ' et M = I - P .MPP=X(XX)XM=IP

Ce résultat est basé sur une exogénéité et une homoskédasticité strictes, et tient pratiquement dans de grands échantillons. L'intuition pour leur non corrélation est la suivante: Les valeurs ajustées à X sont centrées autour de u , qui sont considérés comme indépendamment et identiquement distribués. Cependant, tout écart par rapport à l'hypothèse d'exogénéité stricte et homoscédasticité pourrait provoquer des variables explicatives pour être endogènes et stimuler une corrélation latente entre u et y . ŷXûûŷ

Maintenant , la corrélation entre les résidus l ' « original » y est une histoire complètement différente:ûy

Cov(y,û|X)=Cov(yMy|X)=Cov(y,(1P)y)=Cov(y,y)(1P)=σ2M

Certains vérifier dans la théorie et nous savons que cette matrice de covariance est identique à la matrice de covariance du résidu u lui - même ( la preuve omise). On a:u^

Var(û)=σ2M=Cov(y,û|X)

Si nous voulons calculer la covariance entre (scalaire) et u tel que demandé par l'OP, on obtient:yu^

Covscalar(y,û|X)=Var(û|X)=(ui2)/N

(= en additionnant les entrées diagonales de la matrice de covariance et en divisant par N)

La formule ci-dessus indique un point intéressant. Si nous testons la relation en régressant y sur les résidus u (+ constante), le coefficient de pente β u , y = 1 , qui peut être facilement déduite lorsque l' on divise l'expression ci - dessus par le Var ( u | X ) .u^βu^,y=1Var(û|X)

En revanche, la corrélation est la covariance standardisée par les écarts-types respectifs. Maintenant, la matrice de variance des résidus est , tandis que la variance de y est σ 2 I . La corrélation Corr ( y , u ) devient donc:σ2Myσ2ICorr(y,û)

Corr(y,û)=Var(û)Var(u^)Var(y)=Var(û)Var(y)=Var(û)σ2

C'est le résultat principal qui devrait tenir dans une régression linéaire. L'intuition est que le exprime l'erreur entre la vraie variance du terme d'erreur et une approximation de la variance surbaserésidus. Notez que la variance de y est égale à la variance de y plus la variance des résidus u . Il peut donc être réécrit de manière plus intuitive:Corr(y,û)yy^u^

Corr(y,û)=11+Var(y)^Var(û)

Les deux forces sont ici au travail. Si nous avons un grand ajustement de la ligne de régression, la corrélation devrait être faible en raison du . D'autre part, Var ( y ) est un peu fudge à l' estime qu'il est inconditionnel et une ligne dans l' espace des paramètres. La comparaison des variances inconditionnelles et conditionnelles au sein d'un ratio peut ne pas être un indicateur approprié après tout. C'est peut-être pourquoi c'est rarement fait dans la pratique.Var(û)0Var(y^)

Une tentative de conclure à la question: La corrélation entre et u est positif et se rapporte au rapport de la variance des résidus et de la variance du terme d'erreur vraie, approximé par la variance inconditionnelle en y . Par conséquent, c'est un peu un indicateur trompeur.yûy

En dépit de cet exercice peut nous donner une certaine intuition sur le fonctionnement et les hypothèses théoriques inhérentes à une régression OLS, nous évaluons rarement la corrélation entre et u . Il existe certainement des tests plus établis pour vérifier les propriétés du vrai terme d'erreur. En second lieu , garder à l' esprit que les résidus ne sont pas le terme d'erreur, et les tests sur les résidus u que les prévisions de maquillage des caractéristiques sur le vrai terme d'erreur u sont limitées et leur besoin de validité à manipuler avec le plus grand soin.yûûu

Par exemple, je voudrais souligner ici une déclaration faite par une affiche précédente. Il est dit que,

"Si vos résidus sont corrélés avec vos variables indépendantes, alors votre modèle est hétéroscédastique ..."

Je pense que ce n'est peut-être pas tout à fait valable dans ce contexte. Croyez - le ou non, mais les résidus OLS par construction faits pour être décorrélé la variable indépendante x k . Pour voir cela, considérez:ûxk

= X y - X X ( X

Xui=XMy=X(IP)y=XyXPy
=XyXX(XX)Xy=XyXy=0
Xui=0Cov(X,ui|X)=0Cov(xki,ui|xki)=0

Cependant, vous avez peut-être entendu des affirmations selon lesquelles une variable explicative est corrélée avec le terme d'erreur . Notez que ces affirmations sont basées sur des hypothèses concernant l'ensemble de la population avec un véritable modèle de régression sous-jacent, que nous n'observons pas de première main. Par conséquent, vérifier la corrélation entreyûXX, comme c'est souvent le cas avec les estimateurs FGSL. Ceci est différent de l'évaluation de la simple corrélation. J'espère que cela aidera à clarifier les choses.

Majte
la source
1
var(u^)var(y)=SSETSS=1R2corr(y,u^)=1R2
probabilitéislogic
2
Ce que je trouve intéressant dans cette réponse, c'est que la corrélation est toujours positive.
probabilitéislogic
Var(y)
@probabilityislogic: Je ne sais pas si je peux suivre votre démarche. Ce serait alors sous la racine carrée 1+ (1/1-R ^ 2), qui est (2-R ^ 2) / (1-R ^ 2)? Pourtant, ce qui est vrai, c'est qu'il reste positif. L'intuition est que si vous avez une ligne à travers un nuage de points et que vous régressez cette ligne sur les erreurs de cette ligne, il devrait être évident que lorsque la valeur y de cette ligne augmente, la valeur des résidus augmente également. En effet, les résidus dépendent positivement de y par construction.
Majte
@mpiktas: Dans ce cas, la matrice devient un scalaire car nous avons affaire à y étant uniquement dans une dimension.
Majte
6

La réponse d'Adam est fausse. Même avec un modèle qui s'adapte parfaitement aux données, vous pouvez toujours obtenir une forte corrélation entre les résidus et la variable dépendante. C'est la raison pour laquelle aucun livre de régression ne vous demande de vérifier cette corrélation. Vous pouvez trouver la réponse dans le livre "Applied Regression Analysis" du Dr Draper.

Jeff
la source
3
Même si c'est correct, c'est plus une affirmation qu'une réponse selon les normes de CV, @Jeff. Pourriez-vous élaborer / sauvegarder votre demande? Même juste un numéro de page et une édition de Draper & Smith suffiraient.
gung - Réintégrer Monica
4

Ainsi, les résidus sont votre variance inexpliquée, la différence entre les prévisions de votre modèle et le résultat réel que vous modélisez. En pratique, peu de modèles produits par régression linéaire auront tous les résidus proches de zéro à moins que la régression linéaire soit utilisée pour analyser un processus mécanique ou fixe.

Idéalement, les résidus de votre modèle devraient être aléatoires, ce qui signifie qu'ils ne devraient pas être corrélés avec vos variables indépendantes ou dépendantes (ce que vous appelez la variable critère). Dans la régression linéaire, votre terme d'erreur est normalement distribué, donc vos résidus doivent également être normalement distribués également. Si vous avez des valeurs aberrantes significatives, ou si vos résidus sont corrélés avec votre variable dépendante ou vos variables indépendantes, alors vous avez un problème avec votre modèle.

Si vous avez des valeurs aberrantes importantes et une distribution non normale de vos résidus, alors les valeurs aberrantes peuvent fausser vos poids (Betas), et je suggérerais de calculer DFBETAS pour vérifier l'influence de vos observations sur vos poids. Si vos résidus sont corrélés avec votre variable dépendante, il y a une quantité significativement importante de variance inexpliquée que vous ne tenez pas compte. Vous pouvez également le voir si vous analysez des observations répétées de la même chose, en raison de l'autocorrélation. Cela peut être vérifié en voyant si vos résidus sont corrélés avec votre variable de temps ou d'index. Si vos résidus sont corrélés avec vos variables indépendantes, alors votre modèle est hétéroscédastique (voir: http://en.wikipedia.org/wiki/Heteroscedasticity). Vous devriez vérifier (si vous ne l'avez pas déjà fait) si vos variables d'entrée sont normalement distribuées, et sinon, vous devriez envisager de mettre à l'échelle ou de transformer vos données (les types les plus courants sont log et racine carrée) afin de les rendre plus normalisé.

Dans le cas des deux, vos résidus et vos variables indépendantes, vous devez prendre un QQ-Plot, ainsi que réaliser un test de Kolmogorov-Smirnov (cette implémentation particulière est parfois appelée test de Lilliefors) pour vous assurer que vos valeurs s'adapter à une distribution normale.

Trois choses qui sont rapides et peuvent être utiles pour résoudre ce problème, examinent la médiane de vos résidus, elle devrait être aussi proche de zéro que possible (la moyenne sera presque toujours nulle en raison de la façon dont le terme d'erreur est ajusté. en régression linéaire), un test de Durbin-Watson pour l'autocorrélation dans vos résidus (en particulier comme je l'ai mentionné précédemment, si vous regardez plusieurs observations des mêmes choses), et effectuer un tracé résiduel partiel vous aidera à rechercher l'hétéroscédasticité et les valeurs aberrantes.

Adam
la source
Merci beaucoup. Votre explication est très utile pour moi.
Jfly
1
+1 Belle réponse complète. Je vais taper sur 2 points. "Si vos résidus sont corrélés avec vos variables indépendantes, alors votre modèle est hétéroscédastique" - je dirais que si la variance de vos résidus dépend du niveau d'une variable indépendante, alors vous avez une hétéroscédasticité. De plus, j'ai entendu les tests de Kolmogorov-Smirnov / Lilliefors décrits comme «notoirement peu fiables» et, dans la pratique, j'ai certainement trouvé que c'était vrai. Mieux vaut faire une détermination subjective basée sur un tracé QQ ou un simple histogramme.
rolando2
4
L'affirmation selon laquelle "les résidus de votre modèle ... ne devraient pas être corrélés avec ... votre ... variable dépendante" n'est généralement pas vraie, comme expliqué dans d'autres réponses sur ce fil. Pourriez-vous corriger ce message?
gung - Rétablir Monica
1
(-1) Je pense que ce post n'est pas suffisamment pertinent pour la question posée. C'est un bon conseil général, mais peut-être un cas de «bonne réponse à la mauvaise question».
probabilitéislogic