Expliquer la variance d'un modèle de régression

13

Cela peut être une explication simple (j'espère quand même).

J'ai fait une analyse de régression dans Matlab en utilisant la boîte à outils de régression. Cependant, je suis tombé sur une étude qui dit ceci:

"Grâce à l'analyse de régression, il a été possible de mettre en place un modèle prédictif utilisant seulement quatre caractéristiques sonores qui expliquent 60% de la variance"

Le lien vers l'article est ici si besoin: Article

Je ne suis pas sûr à 100% de ce que cela signifie, mais j'espère que c'est quelque chose de simple. Est-ce que 60% est également une bonne chose? J'ai essayé de chercher cela, mais parce qu'il y a toujours un pourcentage avant le mot «variance», il est difficile de trouver une réponse.

user1574598
la source

Réponses:

9

Je vais essayer de l'expliquer en termes simples.

Le modèle de régression se concentre sur la relation entre une variable dépendante et un ensemble de variables indépendantes . La variable dépendante est le résultat que vous essayez de prédire en utilisant une ou plusieurs variables indépendantes.

Supposons que vous ayez un modèle comme celui-ci:

Weight_i = 3.0 + 35 * Height_i + ε

Maintenant, l'une des questions évidentes est la suivante: dans quelle mesure ce modèle fonctionne-t-il? En d'autres termes, dans quelle mesure la taille d'une personne prédit-elle - ou explique - t-elle - avec précision le poids de cette personne?

Avant de répondre à cette question, nous devons d'abord comprendre combien de fluctuations nous observons dans les poids des personnes. Ceci est important, car ce que nous essayons de faire ici est d'expliquer la fluctuation (variation) des poids entre différentes personnes, en utilisant leurs hauteurs. Si la taille des gens est capable d'expliquer cette variation de poids, alors nous avons un bon modèle.

La variance est une bonne mesure à utiliser à cette fin, car elle mesure dans quelle mesure un ensemble de nombres est étalé (à partir de leur valeur moyenne).

Cela nous aide à reformuler notre question initiale: quelle variation de poids d' une personne peut s'expliquer par sa taille ?

C'est de là que vient le «% de variance expliqué». Soit dit en passant, pour l'analyse de régression, il est égal au coefficient de corrélation R au carré .

Pour le modèle ci-dessus, nous pourrions être en mesure de faire une déclaration comme: En utilisant l'analyse de régression, il a été possible de mettre en place un modèle prédictif en utilisant la taille d'une personne qui explique 60% de la variance de poids ».

Maintenant, quelle est la qualité de 60%? Il est difficile de porter un jugement objectif à ce sujet. Mais si vous avez d'autres modèles concurrents - par exemple, un autre modèle de régression qui utilise l' âge d'une personne pour prédire son poids - vous pouvez comparer différents modèles en fonction de la variance expliquée par eux et décider quel modèle est le meilleur. (Il y a quelques mises en garde à ce sujet, voir «Interprétation et utilisation de la régression» - Christopher H. Achen http://www.sagepub.in/books/Book450/authors )

Vishal
la source
1
Cela a certainement répondu à une grande partie de ma question. Pour ce qui est des raisons pour lesquelles les auteurs déclarent cela comme étant d'une importance énorme, je ne sais pas. Donc, si c'est la valeur R-sqaured et nous revenons à votre exemple: disons que nous avons utilisé un modèle pour 'âge' qui avait une variance de 80%, puis et un modèle pour 'taille' qui avait une variance de 85 % pour prédire le poids d'une personne, je suppose que ce dernier modèle serait plus significatif? Merci pour le lien du livre, je l'ai acheté hier soir car j'utiliserai beaucoup de régression dans les prochains mois.
user1574598
1
Oui, vous pouvez conclure que ce dernier modèle est meilleur dans sa capacité de prédire (ou d'expliquer) le poids d'une personne, ceteris paribus. BTW, vous avez déclaré que "le modèle avait une variance de 80%", mais ce devrait être "le modèle explique 80% de la variance".
Vishal
4

R2

je=1n(y^je-y¯)2je=1n(yje-y¯)2

yjey^jejeey¯R2

je=1n(yje-y¯)2=je=1n(y^je-y¯)2+je=1n(yje-y^je)2,

R2

dsaxton
la source