Interprétation de sortie de régression linéaire simple

20

J'ai effectué une régression linéaire simple du logarithme naturel de 2 variables pour déterminer si elles sont corrélées. Ma sortie est la suivante:

R^2 = 0.0893

slope = 0.851

p < 0.001

Je suis confus. En regardant la valeur R2 , je dirais que les deux variables ne sont pas corrélées, car elle est si proche de 0 . Cependant, la pente de la droite de régression est presque de 1 (bien qu'elle semble presque horizontale dans le graphique), et la valeur de p indique que la régression est très significative.

Est-ce à dire que les deux variables sont fortement corrélées? Si oui, qu'est-ce que la valeur R2 indique?

Je dois ajouter que la statistique Durbin-Watson a été testée dans mon logiciel et n'a pas rejeté l'hypothèse nulle (elle était égale à 1.357 ). Je pensais que cela testait l'indépendance entre les 2 variables. Dans ce cas, je m'attendrais à ce que les variables soient dépendantes, car il s'agit de 2 mesures d'un oiseau individuel. Je fais cette régression dans le cadre d'une méthode publiée pour déterminer l'état corporel d'un individu, j'ai donc supposé que l'utilisation d'une régression de cette manière avait du sens. Cependant, étant donné ces résultats, je pense que peut-être pour ces oiseaux, cette méthode ne convient pas. Cela semble-t-il une conclusion raisonnable?

Minou
la source
1
La statistique de Durbin-Watson est un test de corrélation série: c'est-à-dire pour voir si les termes d'erreur adjacents sont mutuellement corrélés. Cela ne dit rien sur la corrélation entre votre X et votre Y! Un échec du test indique que la pente et la valeur p doivent être interprétées avec prudence.
whuber
Ah ok. Cela a un peu plus de sens que de savoir si les deux variables elles-mêmes sont corrélées ... après tout, je pensais que c'était ce que j'essayais de trouver en utilisant la régression. Et que l'échec du test indique que je devrais être prudent en interprétant la pente et la valeur de p est encore plus logique dans ce cas! Merci @whuber!
Mog
1
Je voudrais juste ajouter qu'une pente peut être très significative (valeur p <0,001) même si la relation est faible, surtout avec un échantillon de grande taille. Cela a été indiqué dans la plupart des réponses car la pente (même si elle est significative) ne dit rien sur la force de la relation.
Glen
Vous avez besoin de pour déterminer la force de la relation. Voir également stats.stackexchange.com/a/265924/99274 . n
Carl

Réponses:

22

La valeur estimée de la pente ne vous indique pas en soi la force de la relation. La force de la relation dépend de la taille de la variance d'erreur et de la plage du prédicteur. De plus, une valeur significative ne vous dit pas nécessairement qu'il existe une relation forte; la valeur p teste simplement si la pente est exactement 0. Pour une taille d'échantillon suffisamment grande, même de petits écarts par rapport à cette hypothèse (par exemple ceux qui n'ont pas d'importance pratique) donneront une valeur p significative .ppp

Des trois quantités que vous avez présentées, , le coefficient de détermination , donne la meilleure indication de la force de la relation. Dans votre cas, R 2 = 0,089 , signifie que 8,9 % de la variation de votre variable de réponse peut s'expliquer par une relation linéaire avec le prédicteur. Ce qui constitue un «grand» R 2 dépend de la discipline. Par exemple, en sciences sociales, R 2 = .2 peut être "grand" mais dans des environnements contrôlés comme un réglage d'usine, R 2 > .9R2R2=.0898.9%R2R2=.2R2>.9peut être amené à dire qu'il existe une relation "forte". Dans la plupart des situations, est un très petit R 2 , donc votre conclusion selon laquelle il existe une relation linéaire faible est probablement raisonnable..089R2

Macro
la source
Merci Macro. Réponse très utile. Je suis heureux que vous ayez inclus la partie sur ce que la valeur de p teste exactement. Il est très logique que la valeur de p soit si faible compte tenu de la proximité de 1 de la pente. Il me semble, à la lumière de votre réponse et de @jedfrancis ', que la valeur r ^ 2 décrit ce' nuage 'de points de données autour de la ligne de régression. Excellent! C'est beaucoup plus clair maintenant!
Mog
@Macro (+1), bonne réponse. Mais comment la "force de la relation" dépend-elle de la "taille de l'interception"? AFAIK l'interception ne dit rien du tout sur la corrélation ou la "force" d'une relation linéaire.
whuber
@whuber, vous avez raison - l'interception n'est pas pertinente et ne change certainement pas la corrélation - je pensais à la fonction de régression vs y = x et pensais que la seconde était une relation plus forte ( toutes les autres choses étant égales par ailleurs), car une plus grande ampleur de y était due à x dans ce dernier cas. Cela n'a plus beaucoup de sens maintenant que j'y pense. J'ai édité le post. y=10000+xy=xyx
Macro
4
@macro Excellente réponse, mais je voudrais souligner (pour ceux qui ne connaissent pas ce sujet) que R ^ 2 peut être très faible même avec une relation forte, si la relation est non linéaire, et en particulier si elle n'est pas monotone. Mon exemple préféré est la relation entre le stress et le score à l'examen; un stress très faible et un stress très élevé ont tendance à être pires qu'un stress modéré.
Peter Flom - Réintègre Monica
1
@macro Oui, votre réponse était bonne, mais j'ai travaillé avec des gens qui ne connaissent pas beaucoup de statistiques, et j'ai vu ce qui se passe ... parfois ce que nous disons n'est pas ce qu'ils entendent!
Peter Flom - Réintègre Monica
14

Le vous indique la variation de la variable dépendante expliquée par un modèle. Cependant, on peut interpréter le R 2 ainsi que la corrélation entre les valeurs d'origine de la variable dépendante et les valeurs ajustées. L'interprétation exacte et la dérivation du coefficient de détermination R 2 peuvent être trouvées ici .R2R2R2

La preuve que le coefficient de détermination est l'équivalent du coefficient de corrélation de Pearson Squared entre les valeurs observées et les valeurs ajustées y i peut être trouvé ici .yiy^i

Le ou coefficient de détermination indique la force de votre modèle pour expliquer la variable dépendante. Dans votre cas, R 2 = 0,089 . Ceci que votre modèle est capable d'expliquer 8,9% de variation de votre variable dépendante. Ou, le coefficient de corrélation entre votre y i et vos valeurs prédites y i est 0,089. Qu'est-ce qui constitue un bon R 2R2R2=0.089yiy^iR2 dépend la discipline.

Enfin, jusqu'à la dernière partie de votre question. Vous ne pouvez pas obtenir le test de Durbin-Watson pour dire quelque chose sur la corrélation entre vos variables dépendantes et indépendantes. Le test de Durbin-Watson teste la corrélation série. Il est effectué pour vérifier si vos termes d'erreur sont mutuellement corrélés.

Lionel Benza
la source
9

R2

R2 valeur de votre étude suggère que vos données sont probablement largement réparties autour de la droite de régression, ce qui signifie que le modèle de régression ne peut expliquer (très peu) 8,9% de la variation des données.

Avez-vous vérifié si un modèle linéaire est approprié? Jetez un œil à la distribution de vos résidus, car vous pouvez l'utiliser pour évaluer l'ajustement du modèle à vos données. Idéalement, vos résidus ne devraient pas montrer de relation avec votrex

jedfrancis
la source
Merci @jed. Oui, j'avais vérifié la normalité des résidus, et tout allait bien. Votre suggestion selon laquelle les données sont largement diffusées autour de cette ligne de régression est tout à fait juste - les points de données ressemblent à un nuage autour de la ligne de régression tracée par le logiciel.
Mog
1
Bienvenue sur notre site, @jed, et merci pour votre réponse! Veuillez noter que la pente elle-même ne dit presque rien sur la corrélation, à part son signe, car la corrélation ne dépend pas des unités dans lesquelles X et Y sont mesurées, mais c'est la pente.
whuber
1
@whuber dit que la valeur de la pente ne pas tout ce que vous dites au sujet de la force de l'association à moins que les variables sont normalisées. Voir la réponse de shabbychefs.
wolf.rauch
@ wolf.rauch gotcha
jedfrancis
@jed Ce serait bien si vous corrigiez votre réponse.
whuber
7

Pour une régression linéaire, la pente ajustée sera la corrélation (qui, lorsqu'elle est au carré, donne le coefficient de détermination, la R2) multiplié par l'écart-type empirique de la régression (le y) divisé par l'écart-type empirique du régresseur (le X). En fonction de l'échelle duX et y, vous pouvez avoir une pente d'ajustement égale à un mais arbitrairement petite R2 valeur.

En bref, la pente n'est pas un bon indicateur de l'ajustement du modèle, sauf si vous êtes certain que les échelles des variables dépendantes et indépendantes doivent être égales.

shabbychef
la source
1

J'aime les réponses déjà données, mais permettez-moi de les compléter par une approche différente (et plus ironique).

Supposons que nous collections un tas d'observations auprès de 1000 personnes aléatoires essayant de savoir si les coups de poing au visage sont associés à des maux de tête:

Heuneuneches=β0+β1Punch_jen_the_Funece+ε

ε contient toutes les variables omises qui provoquent des maux de tête dans la population générale: stress, degré de contamination de votre ville, manque de sommeil, consommation de café, etc.

Pour cette régression, le β1 peut être très important et très grand, mais le R2sera faible. Pourquoi? Pour la grande majorité de la population, les maux de tête ne s'expliqueront pas beaucoup par des coups de poing au visage. En d'autres termes, la plupart des variations dans les données (c'est-à-dire si les gens ont peu ou beaucoup de maux de tête) resteront inexpliquées si vous n'incluez que des coups de poing dans le visage, mais les coups de poing dans le visage sont TRÈS importants pour les maux de tête.

Graphiquement, cela ressemble probablement à une pente raide mais avec une très grande variation autour de cette pente.

cd98
la source
0

@Macro a eu une excellente réponse.

La valeur estimée de la pente ne vous indique pas en soi la force de la relation. La force de la relation dépend de la taille de la variance d'erreur et de la plage du prédicteur. De plus, une valeur pp significative ne vous dit pas nécessairement qu'il existe une relation forte; la valeur pp teste simplement si la pente est exactement 0.

Je veux juste ajouter un exemple numérique pour montrer à quoi ressemble un cas OP décrit.

  • Faible R2
  • Significatif sur la valeur p
  • Pente proche de 1.0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

entrez la description de l'image ici

Haitao Du
la source