J'ai effectué une régression linéaire simple du logarithme naturel de 2 variables pour déterminer si elles sont corrélées. Ma sortie est la suivante:
R^2 = 0.0893
slope = 0.851
p < 0.001
Je suis confus. En regardant la valeur , je dirais que les deux variables ne sont pas corrélées, car elle est si proche de . Cependant, la pente de la droite de régression est presque de (bien qu'elle semble presque horizontale dans le graphique), et la valeur de p indique que la régression est très significative.
Est-ce à dire que les deux variables sont fortement corrélées? Si oui, qu'est-ce que la valeur indique?
Je dois ajouter que la statistique Durbin-Watson a été testée dans mon logiciel et n'a pas rejeté l'hypothèse nulle (elle était égale à ). Je pensais que cela testait l'indépendance entre les variables. Dans ce cas, je m'attendrais à ce que les variables soient dépendantes, car il s'agit de mesures d'un oiseau individuel. Je fais cette régression dans le cadre d'une méthode publiée pour déterminer l'état corporel d'un individu, j'ai donc supposé que l'utilisation d'une régression de cette manière avait du sens. Cependant, étant donné ces résultats, je pense que peut-être pour ces oiseaux, cette méthode ne convient pas. Cela semble-t-il une conclusion raisonnable?
la source
Réponses:
La valeur estimée de la pente ne vous indique pas en soi la force de la relation. La force de la relation dépend de la taille de la variance d'erreur et de la plage du prédicteur. De plus, une valeur significative ne vous dit pas nécessairement qu'il existe une relation forte; la valeur p teste simplement si la pente est exactement 0. Pour une taille d'échantillon suffisamment grande, même de petits écarts par rapport à cette hypothèse (par exemple ceux qui n'ont pas d'importance pratique) donneront une valeur p significative .p p p
Des trois quantités que vous avez présentées, , le coefficient de détermination , donne la meilleure indication de la force de la relation. Dans votre cas, R 2 = 0,089 , signifie que 8,9 % de la variation de votre variable de réponse peut s'expliquer par une relation linéaire avec le prédicteur. Ce qui constitue un «grand» R 2 dépend de la discipline. Par exemple, en sciences sociales, R 2 = .2 peut être "grand" mais dans des environnements contrôlés comme un réglage d'usine, R 2 > .9R2 R2=.089 8.9% R2 R2= .2 R2> .9 peut être amené à dire qu'il existe une relation "forte". Dans la plupart des situations, est un très petit R 2 , donc votre conclusion selon laquelle il existe une relation linéaire faible est probablement raisonnable..089 R2
la source
Le vous indique la variation de la variable dépendante expliquée par un modèle. Cependant, on peut interpréter le R 2 ainsi que la corrélation entre les valeurs d'origine de la variable dépendante et les valeurs ajustées. L'interprétation exacte et la dérivation du coefficient de détermination R 2 peuvent être trouvées ici .R2 R2 R2
La preuve que le coefficient de détermination est l'équivalent du coefficient de corrélation de Pearson Squared entre les valeurs observées et les valeurs ajustées y i peut être trouvé ici .yi y^i
Le ou coefficient de détermination indique la force de votre modèle pour expliquer la variable dépendante. Dans votre cas, R 2 = 0,089 . Ceci que votre modèle est capable d'expliquer 8,9% de variation de votre variable dépendante. Ou, le coefficient de corrélation entre votre y i et vos valeurs prédites y i est 0,089. Qu'est-ce qui constitue un bon R 2R2 R2=0.089 yi y^i R2 dépend la discipline.
Enfin, jusqu'à la dernière partie de votre question. Vous ne pouvez pas obtenir le test de Durbin-Watson pour dire quelque chose sur la corrélation entre vos variables dépendantes et indépendantes. Le test de Durbin-Watson teste la corrélation série. Il est effectué pour vérifier si vos termes d'erreur sont mutuellement corrélés.
la source
Avez-vous vérifié si un modèle linéaire est approprié? Jetez un œil à la distribution de vos résidus, car vous pouvez l'utiliser pour évaluer l'ajustement du modèle à vos données. Idéalement, vos résidus ne devraient pas montrer de relation avec votrex
la source
Pour une régression linéaire, la pente ajustée sera la corrélation (qui, lorsqu'elle est au carré, donne le coefficient de détermination, laR2 ) multiplié par l'écart-type empirique de la régression (le y ) divisé par l'écart-type empirique du régresseur (le X ). En fonction de l'échelle duX et y , vous pouvez avoir une pente d'ajustement égale à un mais arbitrairement petite R2 valeur.
En bref, la pente n'est pas un bon indicateur de l'ajustement du modèle, sauf si vous êtes certain que les échelles des variables dépendantes et indépendantes doivent être égales.
la source
J'aime les réponses déjà données, mais permettez-moi de les compléter par une approche différente (et plus ironique).
Supposons que nous collections un tas d'observations auprès de 1000 personnes aléatoires essayant de savoir si les coups de poing au visage sont associés à des maux de tête:
Pour cette régression, leβ1 peut être très important et très grand, mais le R2 sera faible. Pourquoi? Pour la grande majorité de la population, les maux de tête ne s'expliqueront pas beaucoup par des coups de poing au visage. En d'autres termes, la plupart des variations dans les données (c'est-à-dire si les gens ont peu ou beaucoup de maux de tête) resteront inexpliquées si vous n'incluez que des coups de poing dans le visage, mais les coups de poing dans le visage sont TRÈS importants pour les maux de tête.
Graphiquement, cela ressemble probablement à une pente raide mais avec une très grande variation autour de cette pente.
la source
@Macro a eu une excellente réponse.
Je veux juste ajouter un exemple numérique pour montrer à quoi ressemble un cas OP décrit.
Pente proche de1.0
la source