Can soit supérieur à 1?

8

La page Wikipedia sur R2 dit que peut prendre une valeur supérieure à 1. Je ne vois pas comment cela est possible.R2

Des valeurs de R2 dehors de la plage de 0 à 1 peuvent apparaître lorsqu'elles sont utilisées pour mesurer l'accord entre les valeurs observées et modélisées et lorsque les valeurs "modélisées" ne sont pas obtenues par régression linéaire et selon la formulation de R2 utilisée. . Si la première formule ci-dessus est utilisée, les valeurs peuvent être inférieures à zéro. Si la deuxième expression est utilisée, les valeurs peuvent être supérieures à un.

Cette citation fait référence à la "deuxième expression" mais je ne vois pas de deuxième expression sur la page.

Y a-t-il un scénario où R2 peut être supérieur à 1? Je pense à cette question pour la régression non linéaire, mais je voudrais obtenir une réponse générale.

[Pour quelqu'un qui regarde cette page avec la question opposée en tête: Oui; R2 peut être négatif. Cela se produit lorsque vous ajustez un modèle qui correspond aux données pire qu'une ligne horizontale. Cela est généralement dû à une erreur dans la sélection d'un modèle ou de contraintes.]

Harvey Motulsky
la source
6
Ce problème a déjà été traité au moins une fois sur ce site stats.stackexchange.com/questions/251337 et j'imagine qu'il y a plus de questions qui s'y rapportent ou l'expliquent complètement. , cela n'est vrai en général que si le modèle comprend une ordonnée à l'origine et si la moyenne de l'erreur / résiduelle est 0. Si rapporte, le plus simplement , à la corrélation, et il n'y a pas de corrections, alors elle ne doit en effet pas être supérieure à 1. C'est juste qu'elle n'est pas toujours calculée de la même manière qu'une corrélation.
SST(totunel)=RSS(moel)+SSE(error)
SSt>SSeR2
Sextus Empiricus
1
Vous avez donc les deux expressions: il est possible que
R2=1-SSe/SSt=SSm/SSt
SSm>SSt
Sextus Empiricus
Je calcule le R au carré comme "1.0 - (Absolute_error_variance / dependent_data_variance)" et puisque la variance d'erreur absolue ne peut pas être inférieure à zéro, dans mes calculs, la valeur maximale du R au carré est 1.0
James Phillips
2
Ce sont des bizarreries comme celles-ci qui me font penser que est généralement considéré comme le carré de la corrélation entre observé et prévu. R2
Nick Cox
Si R au carré plus d'un, cela signifie que 1 + 1 est supérieur à 2
Ibrahim

Réponses:

8

J'ai trouvé la réponse, je posterai donc la réponse à ma question. Comme l'a souligné Martijn, avec la régression linéaire, vous pouvez calculerR2 par deux expressions équivalentes:

R2=1-SSe/SSt=SSm/SSt

Avec la régression non linéaire, vous ne pouvez pas additionner la somme des carrés des résidus et la somme des carrés de la régression pour obtenir la somme totale des carrés. Cette équation n'est tout simplement pas vraie. L'équation ci-dessus n'est donc pas correcte. Ces deux expériences calculent deux valeurs différentes pourR2.

La seule équation qui a du sens et qui est (je pense) universellement utilisée est:

R2=1-SSe/SSt

Sa valeur n'est jamais supérieure à 1,0, mais elle peut être négative lorsque vous ajustez le mauvais modèle (ou les mauvaises contraintes) de sorte que le SSe (somme des carrés des résidus) est supérieur à SSt (somme des carrés de la différence entre les valeurs Y réelles et moyennes).

L'autre équation n'est pas utilisée avec la régression non linéaire:

R2=SSm/SSt

Mais si cette équation était utilisée, elle se traduit par R2 supérieur à 1,0 dans les cas où le modèle correspond très mal aux données afin SSm est plus grand que SSt. Cela se produit lorsque l'ajustement du modèle est pire que l'ajustement d'une ligne horizontale, les mêmes cas qui conduisent àR2<0 avec l'autre équation.

Conclusion: R2 peut être supérieur à 1.0 uniquement lorsqu'une équation non valide (ou non standard) est utilisée pour calculer R2 et lorsque le modèle choisi (avec des contraintes, le cas échéant) correspond très mal aux données, pire que l'ajustement d'une ligne horizontale.

Harvey Motulsky
la source
Ce dernier point est-il correct? Considérez les données dans une ligne parfaite. Considérons maintenant un modèle qui correspond exactement à cette ligne. Cela a SS_m / SS_t = 1. Considérons maintenant le même modèle mais avec un gradient légèrement plus raide. Maintenant SS_m est légèrement plus grand et SS_m / SS_t> 1. Le modèle est un peu pire mais il correspond toujours bien aux données, pas "vraiment mal".
Denziloe
@Denziloe. Vos données sont parfaites ou presque parfaites avec une pente positive. Ajustez maintenant une ligne de régression linéaire avec la contrainte que la pente soit négative avec une pente inférieure à -100. Le modèle d'ajustement s'adaptera moins bien qu'une ligne horizontale, donc SSe est supérieur à SSt. Avec la première équation, le R2 sera négatif. Avec la deuxième équation, R2 sera supérieur à 1. Non, ce n'est pas une situation réaliste ou courante.
Harvey Motulsky
@Denziloe. Le modèle s'adaptera vraiment mal aux données (pire que l'hypothèse nulle d'une ligne horizontale), uniquement si vous contraignez la pente ou interceptez à une valeur qui n'a aucun sens. Dans votre exemple, le modèle correspond bien aux données, mieux qu'une ligne horizontale.
Harvey Motulsky
Désolé, je ne suis pas vraiment de répondre à cela. Dans mon exemple, SS_m / SS_t> +1 - êtes-vous d'accord? Et le modèle est un bon ajustement - encore une fois, vous êtes d'accord? Cela semble contredire votre affirmation, "R2 ne peut être supérieur à 1 que lorsque ... le modèle choisi correspond vraiment mal aux données".
Denziloe
@Denziloe Veuillez envoyer des données réelles et des ajustements, afin que je puisse / nous pouvons voir ce que vous voulez dire.
Harvey Motulsky
4

Par définition, R2=1-SSe/SStoù les deux termes SS sont une somme de carrés et donc non négatifs. Le maximum est atteint àSSe=0 résultant en R2=1.

AlexR
la source
1
Cela n'est pas vrai en général et ne s'applique que lorsque la variance du modèle est inférieure à la variance d'erreur. Par exemple, prenez une régression linéaire sans coefficient d'interception.
Alex R.
@AlexR. Voir Harveys Answer (beaucoup mieux que le mien btw) - cela ne s'applique que si vous utilisez une autre définition deR2.
AlexR