En régression linéaire multiple, je peux comprendre que les corrélations entre le résidu et les prédicteurs sont nulles, mais quelle est la corrélation attendue entre le résiduel et la variable critère? Doit-on s'attendre à ce qu'il soit nul ou fortement corrélé? Quelle est la signification de cela?
regression
residuals
Jfly
la source
la source
Réponses:
Dans le modèle de régression:
l'hypothèse est que d' habitude , i = 1 , . . . , n est un échantillon iid. Dans l'hypothèse où E x i u i = 0 et E ( x i x ′ i ) a un rang complet, l'estimateur des moindres carrés ordinaires:(yi,xi,ui) i=1,...,n Exiui=0 E(xix′i)
est cohérent et asymptotiquement normal. La covariance attendue entre un résiduel et la variable de réponse est alors:
Si l' on suppose en outre que et E ( u 2 i | x 1 , . . . , X n ) = σ 2 , on peut calculer la covariance attendue entre y i et son résidu de régression:E(ui|x1,...,xn)=0 E(u2i|x1,...,xn)=σ2 yi
Maintenant , pour obtenir la corrélation que nous devons calculer et Var ( u i ) . Il se trouve queVar(yi) Var(u^i)
Par conséquent
Maintenant, le terme provient dediagonale de la matrice de chapeauH=X(X'X)-1X', oùX=[xi,. . . ,xN]′. La matriceHest idempotente, donc elle satisfait une propriété suivantex′i(∑nj=1xjx′j)−1xi H=X(X′X)−1X′ X=[xi,...,xN]′ H
où est le terme diagonal de H . Le rang ( H ) est le nombre de variables linéairement indépendantes dans x i , qui est généralement le nombre de variables. Appelons cela p . Le nombre de h i i est la taille de l' échantillon N . Nous avons donc N termes non négatifs qui devraient résumer à p . Habituellement, N est beaucoup plus grand que p , donc beaucoup de h i ihii H rank(H) xi p hii N N p N p hii serait proche du zéro, ce qui signifie que la corrélation entre le résiduel et la variable de réponse serait proche de 1 pour la plus grande partie des observations.
Le terme est également utilisé dans divers diagnostics de régression pour déterminer les observations influentes.hii
la source
La corrélation dépend du . Si R 2 est élevé, cela signifie qu'une grande partie de la variation de votre variable dépendante peut être attribuée à la variation de vos variables indépendantes, et NON à votre terme d'erreur.R2 R2
Cependant, si est faible, cela signifie qu'une grande partie de la variation de votre variable dépendante n'est pas liée à la variation de vos variables indépendantes et doit donc être liée au terme d'erreur.R2
Considérez le modèle suivant:
, où Y et X ne sont pas corrélés.Y=Xβ+ε Y X
En supposant des conditions de régularité suffisantes pour que le CLT tienne.
converge vers0, étant donnéXetYsont pas corrélés. Par conséquent , Y =X β sera toujours nul. Ainsi, leε:=Y - Y =Y-0=Y. εetYsont parfaitement corrélés !!!β^ 0 X Y Y^=Xβ^ ε:=Y−Y^=Y−0=Y ε Y
En maintenant tout le reste fixe, l'augmentation de diminuera la corrélation entre l'erreur et la dépendance. Une forte corrélation n'est pas nécessairement alarmante. Cela peut simplement signifier que le processus sous-jacent est bruyant. Cependant, un faible R 2 (et donc une forte corrélation entre l'erreur et la dépendance) peut être dû à une mauvaise spécification du modèle.R2 R2
la source
Je trouve ce sujet assez intéressant et les réponses actuelles sont malheureusement incomplètes ou partiellement trompeuses - malgré la pertinence et la grande popularité de cette question.
Par définition du cadre classique OLS il devrait y avoir aucune relation entre et uŷ u^ , étant donné que les résidus obtenus sont par construction décorrélé lors du calcul de l'estimateur OLS. La propriété minimisant la variance sous homoscédasticité garantit que l'erreur résiduelle est répartie de manière aléatoire autour des valeurs ajustées. Cela peut être formellement démontré par:ŷ
= P σ 2 - P σ 2 = 0
Où et P sont des matrices idempotent définies comme étant: P = X ( X ' X ) X ' et M = I - P .M P P=X(X′X)X′ M=I−P
Ce résultat est basé sur une exogénéité et une homoskédasticité strictes, et tient pratiquement dans de grands échantillons. L'intuition pour leur non corrélation est la suivante: Les valeurs ajustées à X sont centrées autour de u , qui sont considérés comme indépendamment et identiquement distribués. Cependant, tout écart par rapport à l'hypothèse d'exogénéité stricte et homoscédasticité pourrait provoquer des variables explicatives pour être endogènes et stimuler une corrélation latente entre u et y .ŷ X û û ŷ
Maintenant , la corrélation entre les résidus l ' « original » y est une histoire complètement différente:û y
Certains vérifier dans la théorie et nous savons que cette matrice de covariance est identique à la matrice de covariance du résidu u lui - même ( la preuve omise). On a:u^
Si nous voulons calculer la covariance entre (scalaire) et u tel que demandé par l'OP, on obtient:y u^
(= en additionnant les entrées diagonales de la matrice de covariance et en divisant par N)
La formule ci-dessus indique un point intéressant. Si nous testons la relation en régressanty sur les résidus u (+ constante), le coefficient de pente β u , y = 1 , qui peut être facilement déduite lorsque l' on divise l'expression ci - dessus par le Var ( u | X ) .u^ βu^,y=1 Var(û |X)
En revanche, la corrélation est la covariance standardisée par les écarts-types respectifs. Maintenant, la matrice de variance des résidus est , tandis que la variance de y est σ 2 I . La corrélation Corr ( y , u ) devient donc:σ2M y σ2I Corr(y,û )
C'est le résultat principal qui devrait tenir dans une régression linéaire. L'intuition est que le exprime l'erreur entre la vraie variance du terme d'erreur et une approximation de la variance surbaserésidus. Notez que la variance de y est égale à la variance de y plus la variance des résidus u . Il peut donc être réécrit de manière plus intuitive:Corr(y,û ) y y^ u^
Les deux forces sont ici au travail. Si nous avons un grand ajustement de la ligne de régression, la corrélation devrait être faible en raison du . D'autre part, Var ( y ) est un peu fudge à l' estime qu'il est inconditionnel et une ligne dans l' espace des paramètres. La comparaison des variances inconditionnelles et conditionnelles au sein d'un ratio peut ne pas être un indicateur approprié après tout. C'est peut-être pourquoi c'est rarement fait dans la pratique.Var(û )≈0 Var(y^)
Une tentative de conclure à la question: La corrélation entre et u est positif et se rapporte au rapport de la variance des résidus et de la variance du terme d'erreur vraie, approximé par la variance inconditionnelle en y . Par conséquent, c'est un peu un indicateur trompeur.y û y
En dépit de cet exercice peut nous donner une certaine intuition sur le fonctionnement et les hypothèses théoriques inhérentes à une régression OLS, nous évaluons rarement la corrélation entre et u . Il existe certainement des tests plus établis pour vérifier les propriétés du vrai terme d'erreur. En second lieu , garder à l' esprit que les résidus ne sont pas le terme d'erreur, et les tests sur les résidus u que les prévisions de maquillage des caractéristiques sur le vrai terme d'erreur u sont limitées et leur besoin de validité à manipuler avec le plus grand soin.y û û u
Par exemple, je voudrais souligner ici une déclaration faite par une affiche précédente. Il est dit que,
Je pense que ce n'est peut-être pas tout à fait valable dans ce contexte. Croyez - le ou non, mais les résidus OLS par construction faits pour être décorrélé la variable indépendante x k . Pour voir cela, considérez:û xk
= X ′ y - X ′ X ( X ′
Cependant, vous avez peut-être entendu des affirmations selon lesquelles une variable explicative est corrélée avec le terme d'erreur . Notez que ces affirmations sont basées sur des hypothèses concernant l'ensemble de la population avec un véritable modèle de régression sous-jacent, que nous n'observons pas de première main. Par conséquent, vérifier la corrélation entrey û X X , comme c'est souvent le cas avec les estimateurs FGSL. Ceci est différent de l'évaluation de la simple corrélation. J'espère que cela aidera à clarifier les choses.
la source
La réponse d'Adam est fausse. Même avec un modèle qui s'adapte parfaitement aux données, vous pouvez toujours obtenir une forte corrélation entre les résidus et la variable dépendante. C'est la raison pour laquelle aucun livre de régression ne vous demande de vérifier cette corrélation. Vous pouvez trouver la réponse dans le livre "Applied Regression Analysis" du Dr Draper.
la source
Ainsi, les résidus sont votre variance inexpliquée, la différence entre les prévisions de votre modèle et le résultat réel que vous modélisez. En pratique, peu de modèles produits par régression linéaire auront tous les résidus proches de zéro à moins que la régression linéaire soit utilisée pour analyser un processus mécanique ou fixe.
Idéalement, les résidus de votre modèle devraient être aléatoires, ce qui signifie qu'ils ne devraient pas être corrélés avec vos variables indépendantes ou dépendantes (ce que vous appelez la variable critère). Dans la régression linéaire, votre terme d'erreur est normalement distribué, donc vos résidus doivent également être normalement distribués également. Si vous avez des valeurs aberrantes significatives, ou si vos résidus sont corrélés avec votre variable dépendante ou vos variables indépendantes, alors vous avez un problème avec votre modèle.
Si vous avez des valeurs aberrantes importantes et une distribution non normale de vos résidus, alors les valeurs aberrantes peuvent fausser vos poids (Betas), et je suggérerais de calculer DFBETAS pour vérifier l'influence de vos observations sur vos poids. Si vos résidus sont corrélés avec votre variable dépendante, il y a une quantité significativement importante de variance inexpliquée que vous ne tenez pas compte. Vous pouvez également le voir si vous analysez des observations répétées de la même chose, en raison de l'autocorrélation. Cela peut être vérifié en voyant si vos résidus sont corrélés avec votre variable de temps ou d'index. Si vos résidus sont corrélés avec vos variables indépendantes, alors votre modèle est hétéroscédastique (voir: http://en.wikipedia.org/wiki/Heteroscedasticity). Vous devriez vérifier (si vous ne l'avez pas déjà fait) si vos variables d'entrée sont normalement distribuées, et sinon, vous devriez envisager de mettre à l'échelle ou de transformer vos données (les types les plus courants sont log et racine carrée) afin de les rendre plus normalisé.
Dans le cas des deux, vos résidus et vos variables indépendantes, vous devez prendre un QQ-Plot, ainsi que réaliser un test de Kolmogorov-Smirnov (cette implémentation particulière est parfois appelée test de Lilliefors) pour vous assurer que vos valeurs s'adapter à une distribution normale.
Trois choses qui sont rapides et peuvent être utiles pour résoudre ce problème, examinent la médiane de vos résidus, elle devrait être aussi proche de zéro que possible (la moyenne sera presque toujours nulle en raison de la façon dont le terme d'erreur est ajusté. en régression linéaire), un test de Durbin-Watson pour l'autocorrélation dans vos résidus (en particulier comme je l'ai mentionné précédemment, si vous regardez plusieurs observations des mêmes choses), et effectuer un tracé résiduel partiel vous aidera à rechercher l'hétéroscédasticité et les valeurs aberrantes.
la source