Petit historique
Je travaille sur l'interprétation de l'analyse de régression mais je suis vraiment confus quant à la signification de r, r au carré et de l'écart-type résiduel. Je connais les définitions:
Caractérisations
r mesure la force et la direction d'une relation linéaire entre deux variables sur un nuage de points
Le R au carré est une mesure statistique de la proximité des données avec la droite de régression ajustée.
L'écart type résiduel est un terme statistique utilisé pour décrire l'écart type des points formés autour d'une fonction linéaire et est une estimation de la précision de la variable dépendante mesurée. ( Je ne sais pas quelles sont les unités, toute information sur les unités ici serait utile )
(sources: ici )
Question
Bien que je "comprenne" les caractérisations, je comprends comment ces termes parviennent à tirer une conclusion sur l'ensemble de données. Je vais insérer un petit exemple ici, cela peut peut - être servir de guide pour répondre à ma question ( ne hésitez pas à utiliser un exemple de votre propre!)
Exemple
Ce n'est pas une question de howework, mais je cherchai dans mon livre pour obtenir un exemple simple (l'ensemble de données actuel que j'analyse est trop complexe et trop volumineux pour être affiché ici)
Vingt parcelles de 10 x 4 mètres chacune ont été choisies au hasard dans un grand champ de maïs. Pour chaque parcelle, la densité des plantes (nombre de plantes dans la parcelle) et le poids moyen des épis (gm de grains par épi) ont été observés. Les résultats sont donnés dans le tableau suivant:
(source: Statistiques des sciences de la vie )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
Je vais d'abord faire un nuage de points pour visualiser les données:
Je peux donc calculer r, R 2 et l'écart type résiduel.
d'abord le test de corrélation:
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
et deuxièmement un résumé de la ligne de régression:
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
Donc, sur la base de ce test: r = -0.9417954
, R au carré: 0.887
et erreur standard résiduelle: 8.619
que nous disent ces valeurs sur l'ensemble de données? (voir Question )
la source
Réponses:
Ces statistiques peuvent vous dire s'il y a une composante linéaire dans la relation, mais pas beaucoup si la relation est strictement linéaire. Une relation avec une petite composante quadratique peut avoir un r ^ 2 de 0,99. Un graphique des résidus en fonction des prévisions peut être révélateur. Dans l'expérience de Galileo ici https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html la corrélation est très élevée mais la relation est clairement non linéaire.
la source
Voici une deuxième tentative de réponse après avoir reçu des commentaires sur les problèmes avec ma première réponse.
L'erreur standard résiduelle est l'écart type d'une distribution normale, centrée sur la droite de régression prédite, représentant la distribution des valeurs réellement observées. En d'autres termes, si nous devions mesurer uniquement la densité de la plante pour une nouvelle parcelle, nous pouvons prédire le poids de l'épi en utilisant les coefficients du modèle ajusté, c'est la moyenne de cette distribution. Le RSE est l'écart-type de cette distribution et donc une mesure sur la mesure dans laquelle nous nous attendons à ce que les poids des épis réellement observés s'écartent des valeurs prédites par le modèle. Un RSE de ~ 8 dans ce cas doit être comparé à l'écart-type de l'échantillon du poids de l'épi, mais plus le RSE est comparé à l'échantillon SD, plus le modèle est prédictif ou adéquat.
la source