Est utiles ou dangereux?

234

J'ai parcouru quelques notes de cours de Cosma Shalizi (en particulier, la section 2.1.1 de la deuxième leçon ), et il m'a été rappelé que vous pouvez obtenir un très faible même avec un modèle complètement linéaire.R2

Pour paraphraser l'exemple de Shalizi: supposons que vous ayez un modèle , où est connu. Alors \ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon] et la quantité de variance expliquée est a ^ 2 \ Var [X] , donc R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Cela va à 0 comme \ Var [X] \ rightarrow 0 et à 1 comme \ Var [X] \ rightarrow \ infty .unY=aX+ϵaVar[Y]=a2Var[x]+Var[ϵ]a2Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

Inversement, vous pouvez obtenir un R ^ 2 élevé R2même lorsque votre modèle est sensiblement non linéaire. (Quelqu'un a-t-il un bon exemple au dépourvu?)

Alors, quand est-ce que R2 une statistique utile et quand faut-il l’ignorer?

Raegtin
la source
5
Veuillez noter le fil de commentaires associé dans une autre question récente
whuber
36
Je n'ai rien de statistique à ajouter aux excellentes réponses données (en particulier celle de @whuber) mais je pense que la bonne réponse est "R-squared: Utile et dangereux". Comme à peu près toutes les statistiques.
Peter Flom
32
La réponse à cette question est: "Oui"
Fomite
Voir stats.stackexchange.com/a/265924/99274 pour une autre réponse.
Carl
L'exemple du script n'est pas très utile si vous ne pouvez pas nous dire ce que est? Si est aussi une constante, alors votre argument est faux, car alors Cependant, si est non constant , s'il vous plaît, tracez contre pour le petit et dites-moi que c'est linéaire ........Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Dan

Réponses:

264

Pour répondre à la première question , considérons le modèle

Y=X+sin(X)+ε

avec iid de moyenne et nulle variance. Au fur et à mesure que la plage de (considérée comme fixe ou aléatoire) augmente, passe à 1. Néanmoins, si la variance de est faible (environ 1 ou moins), les données sont "sensiblement non linéaires". Dans les tracés, .εXR2εvar(ε)=1

Courte portée de X

Large gamme de X

Incidemment, un moyen simple d’obtenir un petit consiste à découper les variables indépendantes en plages très étroites. La régression (utilisant exactement le même modèle ) dans chaque plage aura un faible, même lorsque la régression complète basée sur toutes les données aura un élevé . Contempler cette situation est un exercice d’information et une bonne préparation à la deuxième question.R2R2R2

Les deux graphiques suivants utilisent les mêmes données. Le pour la régression complète est de 0,86. Les pour les tranches (de largeur 1/2 de -5/2 à 5/2) sont 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,01, 0,01 , .00, lecture de gauche à droite. Au mieux , les ajustements s'améliorent dans la situation par tranches car les 10 lignes distinctes peuvent mieux se conformer aux données dans leurs plages étroites. Bien que les de toutes les tranches soient bien inférieures à la valeur complète , ni la force de la relation , ni la linéarité , ni aucun aspect des données (à l'exception de la plage de utilisée pour la régression) n'ont changé.R2R2R2R2X

Nuage de points avec régression complète

Nuage de points en tranches avec 10 régressions

(On pourrait objecter que cette procédure de découpage modifie la distribution de C’est vrai, mais elle correspond néanmoins à l’utilisation la plus courante de dans la modélisation à effets fixes et révèle à quel point nous parle de la variance de dans la situation à effets aléatoires, en particulier lorsque est contraint de varier dans un intervalle plus petit de son étendue naturelle, diminue généralement.)XR2R2XXR2

Le problème fondamental de est que cela dépend de trop de choses (même après ajustement en régression multiple), mais surtout de la variance des variables indépendantes et de la variance des résidus. Normalement, cela ne nous dit rien sur la "linéarité", la "force de la relation" ou même la "qualité de l'ajustement" pour comparer une séquence de modèles.R2

La plupart du temps, vous pouvez trouver une meilleure statistique que . Pour la sélection du modèle, vous pouvez consulter AIC et BIC; pour exprimer l'adéquation d'un modèle, regardez la variance des résidus. R2

Cela nous amène finalement à la deuxième question . Une situation dans laquelle pourrait avoir une certaine utilité est lorsque les variables indépendantes sont définies sur des valeurs standard, contrôlant essentiellement l’effet de leur variance. Alors, est vraiment un indicateur de la variance des résidus, convenablement normalisée.R21R2

whuber
la source
26
Quelle réponse étonnamment complète et réactive de @whuber
Peter Flom
L'AIC et le BIC ne tiennent-ils pas explicitement compte du nombre de paramètres estimés? Si tel est le cas, faire une comparaison avec R2 sans ajustement semble injuste. Je vous demande donc si votre critique tient R 2 ajusté? Il semble que si vous étiez pénalisé pour "découpage", R ^ 2 ajusté pourrait recommencer à vous informer de la qualité de l'ajustement du modèle.
russellpierce
7
@dr Ma critique s'applique parfaitement à ajusté . Les seuls cas où il existe une grande différence entre et le ajusté se lorsque vous utilisez des charges de paramètres comparées aux données. Dans l'exemple de découpage, il y avait près de 1 000 points de données et le découpage n'a ajouté que 18 paramètres; les ajustements sur n'affecteraient même pas la deuxième décimale, sauf éventuellement dans les segments d'extrémité où il n'y aurait que quelques dizaines de points de données: et cela les abaisserait , renforçant même l'argument. R2R2R2R2
whuber
5
La réponse à la question dans votre premier commentaire devrait dépendre de votre objectif et il existe plusieurs façons d'interpréter "tester une relation linéaire". La première consiste à vérifier si le coefficient est différent de zéro. Vous voudrez également savoir s’il existe une preuve de non-linéarité. (par lui-même) n'est d'aucune utilité, bien que nous sachions qu'un élevé contenant beaucoup de données signifie que leur diagramme de dispersion a un aspect approximativement linéaire - comme le second ou celui de @ macro. Pour chaque objectif, il existe un test approprié et sa valeur p associée. R2R2
whuber
4
Pour votre deuxième question, nous devrions nous demander ce que l’on entend par "meilleur" ajustement linéaire. Un candidat serait tout ajustement qui minimise la somme résiduelle de carrés. Vous pouvez utiliser en toute sécurité comme proxy, mais pourquoi ne pas examiner l'erreur (moyenne ajustée) de la racine carrée? C'est une statistique plus utile. R2
whuber
47

Votre exemple ne s'applique que lorsque la variable doit figurer dans le modèle . Cela ne s'applique certainement pas lorsque l'on utilise les estimations des moindres carrés habituelles. Pour voir cela, notez que si nous estimons par la méthode des moindres carrés dans votre exemple, nous obtenons:X a

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
Où est la variance (exemple) de et est la moyenne (échantillon) desX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

Maintenant, le deuxième terme est toujours inférieur à (égal à dans la limite), nous obtenons donc une limite supérieure pour la contribution à de la variable :11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

Et ainsi, à moins que également, nous verrons effectivement comme (car le numérateur va à zéro, mais le dénominateur va dans ). De plus, nous pouvons faire converger vers quelque chose entre et selon la rapidité avec laquelle les deux termes divergent. À présent, le terme ci-dessus divergent généralement plus rapidement que si doit figurer dans le modèle et plus lentement si ne doit pas figurer dans le modèle. Dans les deux cas, va dans la bonne direction.(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

Notez également que pour tout jeu de données fini (c’est-à-dire réel), nous ne pouvons jamais avoir moins que toutes les erreurs ne soient exactement nulles. Ceci indique fondamentalement que est une mesure relative, et non absolue. Pour moins que soit réellement égal à , on peut toujours trouver un meilleur modèle approprié. C’est probablement l’aspect "dangereux" de en ce sens qu’il peut être interprété de manière absolue entre et .R2=1R2R21R201

Il est probablement plus utile d’examiner la rapidité avec laquelle chute lorsque vous ajoutez des variables dans le modèle. Enfin, il ne doit jamais être ignoré dans la sélection de variables, car est en fait une statistique suffisante pour la sélection de variables. Il contient toutes les informations relatives à la sélection de variables contenues dans les données. La seule chose à faire est de choisir la goutte dans qui correspond à "corriger les erreurs" - ce qui dépend généralement de la taille de l'échantillon et du nombre de variables.R2R2R2

probabilislogic
la source
4
+1 Beaucoup de bons points. Les calculs ajoutent des informations quantitatives aux réponses précédentes.
whuber
27

Si je peux ajouter un exemple de quand est dangereux. Il y a de nombreuses années, je travaillais sur des données biométriques. Étant jeune et insensé, j'étais ravi de valeurs de statistiquement significatives pour mes régressions fantaisistes que j'avais construites à l'aide de fonctions pas à pas. Ce n’est que plus tard, après avoir présenté mon exposé à un large public international, je me suis rendu compte que, compte tenu de la variance considérable des données - combinée à la possible mauvaise représentation de l’échantillon par rapport à la population, un de 0,02 n’avait aucun sens. même si c'était "statistiquement significatif" ...R2R2R2

Ceux qui travaillent avec des statistiques doivent comprendre les données!

Sean
la source
15
Aucune statistique n'est dangereuse si vous comprenez ce que cela signifie. L'exemple de Sean n'a rien de spécial à faire avec R car c'est le problème général d'être séduit par la signification statistique. Lorsque nous effectuons des tests statistiques en pratique, nous ne nous intéressons qu'aux différences significatives. Deux populations n'ont jamais des distributions identiques. S'ils sont presque égaux, on s'en fiche. Avec des échantillons de très grande taille, nous pouvons détecter de petites différences sans importance. C'est pourquoi, dans mes consultations en recherche médicale, j'insiste sur la différence entre signification clinique et statistique.
Michael Chernick
11
Au début, mes clients pensaient souvent que la signification statistique était l’objectif de la recherche. Il faut leur montrer que ce n'est pas le cas.
Michael Chernick
Un statistiquement significatif à 0,02 signifie simplement que vous disposiez de suffisamment de données pour affirmer que n'est pas égal à 0. Mais il est proche de 0. Il existe donc très peu de relation entre les variables indépendantes et la variable dépendante. R2R2
Michael Chernick
1
Tout à fait d'accord Michael. Un peu de connaissance des statistiques peut être dangereux! :) Sur la base de cette idée il y a plusieurs années, j'ai travaillé dur pour ne pas répéter cette erreur stupide en faisant beaucoup d'études pour mieux comprendre la signification des statistiques. Une maîtrise et un doctorat en statistiques et je pense toujours avoir un long chemin à parcourir avec mes études!
Sean
Merci Sean. J'apprécie vos commentaires et votre humilité.
Michael Chernick
16

Lorsque vous avez un seul facteur prédictif est exactement interprété comme la proportion de la variation de qui peut être expliqué par la linéaire relation avec . Cette interprétation doit être gardée à l’esprit lorsque l’on examine la valeur de .R2YXR2

Vous pouvez obtenir un grand partir d'une relation non linéaire uniquement lorsque la relation est proche de la relation linéaire. Par exemple, supposons que où et . Si vous faites le calcul deR2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

vous constaterez qu'il se autour de (je ne l'ai approximée que par simulation), même si la relation n'est clairement pas linéaire. La raison en est que ressemble énormément à une fonction linéaire sur l'intervalle ..914eX(2,3)

Macro
la source
1
Aux remarques ci-dessous de Erik et Macro, je ne pense pas que quiconque me l'ait dit et qu'il soit probablement préférable d'avoir une réponse combinée plutôt que trois, mais pourquoi est-ce si important que tant de discussions aient eu lieu écrire des choses et où vous écrivez au lieu de vous concentrer sur ce qui est dit?
Michael Chernick
8
@MichaelChernick, je ne pense pas qu'il y ait "tellement" de discussions sur la façon dont on écrit les choses. Les directives que nous avons essayé de vous aider vont plus dans le sens de "si tout le monde faisait cela, ce site serait très désorganisé et difficile à suivre". Il peut sembler que beaucoup de discussions ont eu lieu à ce sujet, mais c'est sans doute parce que vous avez été un participant très actif depuis votre adhésion, ce qui est formidable, car vous apportez manifestement beaucoup à la table. Si vous souhaitez en parler davantage, envisagez de commencer un fil de discussion sur la méta plutôt que sur une discussion de commentaire dans le cadre de ma réponse sans lien :)
Macro
que se passe-t-il si l'on élargit le soutien de la distribution uniforme dans votre exemple?
Qbik
Comme j'ai acquis de l'expérience sur ce site, je suis d'accord avec Macro sur le fait qu'il est important d'être concis et de consolider.
Michael Chernick
15

Une situation que vous voudriez éviter est la régression multiple, où l’ajout de variables prédictives non pertinentes au modèle peut dans certains cas augmenter . Ce problème peut être résolu en utilisant plutôt la valeur ajustée , calculée comme suit:R2R2R2

R¯2=1(1R2)n1np1 où est le nombre d'échantillons de données et le nombre de régresseurs sans compter le terme constant .np

jedfrancis
la source
21
Notez que l' ajout de variables non pertinentes est garantie pour augmenter (non seulement dans « certains cas ») à moins que ces variables sont colinéaires complètement avec les variables existantes. R2
whuber
6
  1. Un bon exemple de élevé avec une fonction non linéaire est la fonction quadratique limitée à l'intervalle . Avec 0 bruit, il n’aura pas de carré de 1 si vous avez 3 points ou plus car ils ne tiendront pas parfaitement sur une ligne droite. Mais si les points de calcul sont répartis uniformément sur le le obtenu sera élevé, ce qui peut être surprenant. Ce n'est peut-être pas le cas si vous avez beaucoup de points près de 0 et beaucoup près de 1 avec peu ou rien au milieu.R2y=x2[0,1]R2[0,1]R2

  2. R2 sera faible dans le cas linéaire parfait si le terme de bruit présente une variance importante. Donc vous pouvez prendre le modèle qui est techniquement un modèle linéaire parfait, mais laissez la variance dans e tendre à l'infini et vous aurez allant à 0. Malgré ses défauts, R square mesure le pourcentage de la variance expliquée par les données et mesure donc la qualité de l'ajustement. Un élevé signifie un bon ajustement, mais nous devons néanmoins faire attention au bon ajustement causé par trop de paramètres pour la taille de l'ensemble de données que nous avons.Y=x+ϵR2R2

  3. Dans la situation de régression multiple, il y a le problème de surajustement. Ajoutez des variables et augmentera toujours. Le ajusté y remédie quelque peu car il prend en compte le nombre de paramètres.R2R2

Michael Chernick
la source