Je lis cette note .
À la page 2, il indique:
"Quelle part de la variance des données s'explique par un modèle de régression donné?"
"L'interprétation de la régression concerne la moyenne des coefficients; l'inférence concerne leur variance."
J'ai lu de telles déclarations à plusieurs reprises, pourquoi nous soucierions-nous de "quelle part de la variance dans les données est expliquée par le modèle de régression donné?" ... plus précisément, pourquoi "variance"?
Réponses:
pourquoi nous soucierions-nous de "quelle part de la variance des données est expliquée par le modèle de régression donné?"
Pour y répondre, il est utile de réfléchir à ce que signifie exactement un certain pourcentage de la variance à expliquer par le modèle de régression.
LaissezOui1, . . . , Yn est la variable de résultat. La variance d'échantillon habituelle de la variable dépendante dans un modèle de régression est Soit maintenantla prédiction debasée sur un linéaire des moindres carrés modèle de régression avec valeurs prédictives. Comme démontréici, cette variance ci-dessus peut être partitionnée comme:
Dans la régression des moindres carrés, la moyenne des valeurs prédites est , donc la variance totale est égale à la différence quadratique moyenne entre les valeurs observées et prédites (variance résiduelle) plus la variance d'échantillon des prédictions elles-mêmes (expliquées variance), qui ne sont qu'une fonction des s . Par conséquent, la variance "expliquée" peut être considérée comme la variance de qui est attribuable à la variation de . La proportion de la variance de qui est "expliquée" (c'est-à-dire la proportion de variation de qui est attribuable à la variation de XYiXiYiYiXiR2Oui¯¯¯¯ X Ouije Xje Ouije Ouije Xje ) est parfois appelé . R2
Maintenant, nous utilisons deux exemples extrêmes pour expliquer pourquoi cette décomposition de la variance est importante:
(1) Les prédicteurs n'ont rien à voir avec les réponses . Dans ce cas, le meilleur prédicteur non biaisé (dans le sens des moindres carrés) pour est . Par conséquent, la variance totale de est juste égale à la variance résiduelle et n'est pas liée à la variance des prédicteurs .Y i = ¯ Y Y i X iOuije Ouiˆje= Y¯¯¯¯ Ouije Xje
(2) Les prédicteurs sont parfaitement liés linéairement aux prédicteurs . Dans ce cas, les prédictions sont exactement correctes et . Il n'y a donc pas de variance résiduelle et toute la variance du résultat est la variance des prédictions elles-mêmes, qui ne sont qu'une fonction des prédicteurs. Par conséquent, toute la variance du résultat est simplement due à la variance des prédicteurs .XiOuiˆje= Yje Xje
Les situations avec des données réelles se situent souvent entre les deux extrêmes, de même que la proportion de variance qui peut être attribuée à ces deux sources. Plus il y a de "variance expliquée" - c.-à-d. Plus la variation de est due à la variation de - meilleures sont les prédictions (c'est-à-dire plus la «variance résiduelle» est), ce qui est une autre façon de dire que le modèle des moindres carrés s’adapte bien. X i Y iOuije Xje Ouiˆje
la source
Je ne peux pas courir avec les gros chiens des statistiques qui ont répondu avant moi, et peut-être que ma pensée est naïve, mais je regarde les choses de cette façon ...
Imaginez que vous êtes dans une voiture et que vous descendez la route et que vous tournez le volant à gauche et à droite et que vous appuyez frénétiquement sur la pédale d'accélérateur et les freins. Pourtant, la voiture se déplace en douceur, sans être affectée par vos actions. Vous soupçonneriez immédiatement que vous n'étiez pas dans une vraie voiture, et peut-être que si nous regardions attentivement, nous déterminerions que vous êtes en balade à Disney World. (Si vous étiez dans une vraie voiture, vous courriez un danger mortel, mais n'y allons pas.)
D'un autre côté, si vous conduisiez sur la route dans une voiture et que vous tourniez légèrement le volant à gauche ou à droite, la voiture bougeait immédiatement, le fait de coller les freins entraînait une forte décélération, tout en appuyant sur la pédale d'accélérateur vous renvoyait dans le siège. Vous pourriez penser que vous étiez dans une voiture de sport haute performance.
En général, vous rencontrez probablement quelque chose entre ces deux extrêmes. La mesure dans laquelle vos entrées (direction, freins, gaz) affectent directement le mouvement de la voiture vous donne un indice quant à la qualité de la voiture. C'est-à-dire que plus la variance de mouvement de votre voiture qui est liée à vos actions est meilleure, et plus la voiture se déplace indépendamment de votre contrôle, plus la voiture est mauvaise.
De la même manière, vous parlez de créer un modèle pour certaines données (appelons ces données ), basé sur d'autres ensembles de données (appelons-les ). Si ne varie pas, c'est comme une voiture qui ne bouge pas et il n'y a vraiment aucun intérêt à discuter si la voiture (modèle) fonctionne bien ou non, nous supposerons donc que varie.x 1 , x 2 , . . . , x i y yy X1, x2, . . . , xje y y
Tout comme la voiture, un modèle de bonne qualité aura une bonne relation entre les résultats variant et les entrées variant. Contrairement à une voiture, les ne reflètent pas nécessairement la cause changer, mais si le modèle va être utile le besoin de changement dans une relation étroite avec . En d'autres termes, les expliquent une grande partie de la variance de .x i x i y x i y x i yy Xje Xje y Xje y Xje y
PS Je n'ai pas pu trouver d'analogie avec Winnie l'Ourson, mais j'ai essayé.
PPS [EDIT:] Notez que je réponds à cette question particulière. Ne soyez pas confus en pensant que si vous représentez 100% de la variance, votre modèle fonctionnera à merveille. Vous devez également penser au sur-ajustement, où votre modèle est si flexible qu'il s'adapte très étroitement aux données de formation - y compris ses bizarreries et bizarreries aléatoires. Pour utiliser l'analogie, vous voulez une voiture qui a une bonne direction et de bons freins, mais vous voulez qu'elle fonctionne bien sur la route, pas seulement sur la piste d'essai que vous utilisez.
la source