Que signifie expliquer la variance?

15

En particulier, je me demande pourquoi nous avons ce concept Multiple R (que je peux comprendre comme la corrélation entre les scores observés et prédits dans la régression multiple), puis un concept séparé R au carré qui est juste le carré ou R.

J'ai été informé que le R au carré est la variation en pourcentage expliquée et que R ne l'est pas, mais je ne comprends pas la distinction qui est faite entre la corrélation et la variation expliquée.

user1205901 - Réintégrer Monica
la source
6
Un de mes plus grands professeurs a raconté sa soutenance de thèse dans laquelle il a expliqué à un groupe d'océanographes physiques que sa régression pouvait expliquer XX% de la variation de certaines données. Un éminent examinateur s'est levé et a proclamé "Avec vos corrélations, vous n'avez rien expliqué exactement; vous nous avez plutôt proposé une suggestion qui s'effondre 10% du temps"
gregory_britten
3
Ceci est un doublon de: stats.stackexchange.com/questions/90793/…
Aksakal

Réponses:

7

Un problème principal ici est que la mesure de la "variation" dans l'analyse de régression est liée aux différences quadratiques des variables observées par rapport à leurs valeurs moyennes prévues. Il s'agit d'un choix utile d'une mesure de variation, à la fois pour l'analyse théorique et dans les travaux pratiques, car les différences au carré de la moyenne sont liées à la variance d'une variable aléatoire, et la variance de la somme de deux variables aléatoires indépendantes est simplement la somme de leurs variances individuelles.

R2 dans la régression multiple représente la fraction de "variation" dans la variable observée qui est prise en compte par le modèle de régression lorsque des différences quadratiques par rapport aux moyennes prédites sont utilisées comme mesure de la variation. Le Multiple R est simplement la racine carrée de .R2

Je crains de n'avoir jamais compris l'utilité de spécifier la valeur du Multiple R plutôt que . Contrairement au coefficient de corrélation dans une régression univariée, qui montre à la fois la direction et la force de la relation entre 2 variables, la spécification du multiple R ne semble pas ajouter beaucoup au-delà d'une chance de confusion supplémentaire.R2r

EdM
la source