J'ai parcouru quelques notes de cours de Cosma Shalizi (en particulier, la section 2.1.1 de la deuxième leçon ), et il m'a été rappelé que vous pouvez obtenir un très faible même avec un modèle complètement linéaire.
Pour paraphraser l'exemple de Shalizi: supposons que vous ayez un modèle , où est connu. Alors \ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon] et la quantité de variance expliquée est a ^ 2 \ Var [X] , donc R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Cela va à 0 comme \ Var [X] \ rightarrow 0 et à 1 comme \ Var [X] \ rightarrow \ infty .un
Inversement, vous pouvez obtenir un R ^ 2 élevé même lorsque votre modèle est sensiblement non linéaire. (Quelqu'un a-t-il un bon exemple au dépourvu?)
Alors, quand est-ce que une statistique utile et quand faut-il l’ignorer?
la source
Réponses:
Pour répondre à la première question , considérons le modèle
avec iid de moyenne et nulle variance. Au fur et à mesure que la plage de (considérée comme fixe ou aléatoire) augmente, passe à 1. Néanmoins, si la variance de est faible (environ 1 ou moins), les données sont "sensiblement non linéaires". Dans les tracés, .ε X R2 ε var(ε)=1
Incidemment, un moyen simple d’obtenir un petit consiste à découper les variables indépendantes en plages très étroites. La régression (utilisant exactement le même modèle ) dans chaque plage aura un faible, même lorsque la régression complète basée sur toutes les données aura un élevé . Contempler cette situation est un exercice d’information et une bonne préparation à la deuxième question.R2 R2 R2
Les deux graphiques suivants utilisent les mêmes données. Le pour la régression complète est de 0,86. Les pour les tranches (de largeur 1/2 de -5/2 à 5/2) sont 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,01, 0,01 , .00, lecture de gauche à droite. Au mieux , les ajustements s'améliorent dans la situation par tranches car les 10 lignes distinctes peuvent mieux se conformer aux données dans leurs plages étroites. Bien que les de toutes les tranches soient bien inférieures à la valeur complète , ni la force de la relation , ni la linéarité , ni aucun aspect des données (à l'exception de la plage de utilisée pour la régression) n'ont changé.R2 R2 R2 R2 X
(On pourrait objecter que cette procédure de découpage modifie la distribution de C’est vrai, mais elle correspond néanmoins à l’utilisation la plus courante de dans la modélisation à effets fixes et révèle à quel point nous parle de la variance de dans la situation à effets aléatoires, en particulier lorsque est contraint de varier dans un intervalle plus petit de son étendue naturelle, diminue généralement.)X R2 R2 X X R2
Le problème fondamental de est que cela dépend de trop de choses (même après ajustement en régression multiple), mais surtout de la variance des variables indépendantes et de la variance des résidus. Normalement, cela ne nous dit rien sur la "linéarité", la "force de la relation" ou même la "qualité de l'ajustement" pour comparer une séquence de modèles.R2
La plupart du temps, vous pouvez trouver une meilleure statistique que . Pour la sélection du modèle, vous pouvez consulter AIC et BIC; pour exprimer l'adéquation d'un modèle, regardez la variance des résidus.R2
Cela nous amène finalement à la deuxième question . Une situation dans laquelle pourrait avoir une certaine utilité est lorsque les variables indépendantes sont définies sur des valeurs standard, contrôlant essentiellement l’effet de leur variance. Alors, est vraiment un indicateur de la variance des résidus, convenablement normalisée.R2 1−R2
la source
Votre exemple ne s'applique que lorsque la variable doit figurer dans le modèle . Cela ne s'applique certainement pas lorsque l'on utilise les estimations des moindres carrés habituelles. Pour voir cela, notez que si nous estimons par la méthode des moindres carrés dans votre exemple, nous obtenons:X a
Maintenant, le deuxième terme est toujours inférieur à (égal à dans la limite), nous obtenons donc une limite supérieure pour la contribution à de la variable :1 1 R2 X
Et ainsi, à moins que également, nous verrons effectivement comme (car le numérateur va à zéro, mais le dénominateur va dans ). De plus, nous pouvons faire converger vers quelque chose entre et selon la rapidité avec laquelle les deux termes divergent. À présent, le terme ci-dessus divergent généralement plus rapidement que si doit figurer dans le modèle et plus lentement si ne doit pas figurer dans le modèle. Dans les deux cas, va dans la bonne direction.(1N∑Ni=1XiYi)2→∞ R2→0 s2X→∞ Var[ϵ]>0 R2 0 1 s2X X X R2
Notez également que pour tout jeu de données fini (c’est-à-dire réel), nous ne pouvons jamais avoir moins que toutes les erreurs ne soient exactement nulles. Ceci indique fondamentalement que est une mesure relative, et non absolue. Pour moins que soit réellement égal à , on peut toujours trouver un meilleur modèle approprié. C’est probablement l’aspect "dangereux" de en ce sens qu’il peut être interprété de manière absolue entre et .R2=1 R2 R2 1 R2 0 1
Il est probablement plus utile d’examiner la rapidité avec laquelle chute lorsque vous ajoutez des variables dans le modèle. Enfin, il ne doit jamais être ignoré dans la sélection de variables, car est en fait une statistique suffisante pour la sélection de variables. Il contient toutes les informations relatives à la sélection de variables contenues dans les données. La seule chose à faire est de choisir la goutte dans qui correspond à "corriger les erreurs" - ce qui dépend généralement de la taille de l'échantillon et du nombre de variables.R2 R2 R2
la source
Si je peux ajouter un exemple de quand est dangereux. Il y a de nombreuses années, je travaillais sur des données biométriques. Étant jeune et insensé, j'étais ravi de valeurs de statistiquement significatives pour mes régressions fantaisistes que j'avais construites à l'aide de fonctions pas à pas. Ce n’est que plus tard, après avoir présenté mon exposé à un large public international, je me suis rendu compte que, compte tenu de la variance considérable des données - combinée à la possible mauvaise représentation de l’échantillon par rapport à la population, un de 0,02 n’avait aucun sens. même si c'était "statistiquement significatif" ...R2 R2 R2
Ceux qui travaillent avec des statistiques doivent comprendre les données!
la source
Lorsque vous avez un seul facteur prédictif est exactement interprété comme la proportion de la variation de qui peut être expliqué par la linéaire relation avec . Cette interprétation doit être gardée à l’esprit lorsque l’on examine la valeur de .R2 Y X R2
Vous pouvez obtenir un grand partir d'une relation non linéaire uniquement lorsque la relation est proche de la relation linéaire. Par exemple, supposons que où et . Si vous faites le calcul deR2 Y=eX+ε X∼Uniform(2,3) ε∼N(0,1)
vous constaterez qu'il se autour de (je ne l'ai approximée que par simulation), même si la relation n'est clairement pas linéaire. La raison en est que ressemble énormément à une fonction linéaire sur l'intervalle ..914 eX (2,3)
la source
Une situation que vous voudriez éviter est la régression multiple, où l’ajout de variables prédictives non pertinentes au modèle peut dans certains cas augmenter . Ce problème peut être résolu en utilisant plutôt la valeur ajustée , calculée comme suit:R2 R2 R2
la source
Un bon exemple de élevé avec une fonction non linéaire est la fonction quadratique limitée à l'intervalle . Avec 0 bruit, il n’aura pas de carré de 1 si vous avez 3 points ou plus car ils ne tiendront pas parfaitement sur une ligne droite. Mais si les points de calcul sont répartis uniformément sur le le obtenu sera élevé, ce qui peut être surprenant. Ce n'est peut-être pas le cas si vous avez beaucoup de points près de 0 et beaucoup près de 1 avec peu ou rien au milieu.R2 y=x2 [0,1] R2 [0,1] R2
Dans la situation de régression multiple, il y a le problème de surajustement. Ajoutez des variables et augmentera toujours. Le ajusté y remédie quelque peu car il prend en compte le nombre de paramètres.R2 R2
la source