Pourquoi mon R au carré est-il si bas alors que mes statistiques t sont si grandes?

17

J'ai effectué une régression avec 4 variables, et toutes sont très statistiquement significatives, avec des valeurs T 7,9,26 et 31 (je dis car il ne semble pas pertinent d'inclure les décimales) qui sont très élevées et clairement significatives. Mais alors le R2 est seulement .2284. Suis-je mal interprété les valeurs t ici pour signifier quelque chose qu'ils ne sont pas? Ma première réaction en voyant les valeurs t était que le R2 serait assez élevé, mais peut-être que c'est un R2 élevé ?

Kyle
la source
1
Je parie que votre est modérément grand, non? n
Glen_b -Reinstate Monica
@Glen_b oui, vers 6000.
Kyle
10
Ensuite, les grandes statistiques associées à un petit R 2 sont totalement banales. Comme les erreurs standard diminuent de 1 / tR2 ,t-ratios augmentera comme1/nt , tandis queR2tendra à rester constant avec l'augmentation den. Pourquoi vous souciez-vous de ce qu'est leR2? Pourquoi vous souciez-vous des ratios t? nR2nR2
Glen_b -Reinstate Monica

Réponses:

45

Les valeurs t et R2 sont utilisées pour juger des choses très différentes. Les valeurs t sont utilisées pour juger de la précision de votre estimation des βi , mais R2 mesure la quantité de variation de votre variable de réponse expliquée par vos covariables. Supposons que vous estimez un modèle de régression avec n observations,

Yi=β0+β1X1i+...+βkXki+ϵi

ϵii.i.dN(0,σ2) , i=1,...,n .

De grandes valeurs t (en valeur absolue) vous conduisent à rejeter l'hypothèse nulle que βi=0 . Cela signifie que vous pouvez être sûr d'avoir correctement estimé le signe du coefficient. Aussi, si |t|> 4 et vous avez n>5 , alors 0 n'est pas dans un intervalle de confiance de 99% pour le coefficient. La valeur t pour un coefficient βi est la différence entre l'estimation βi^ et 0 normalisée par l'erreur standard se{βi^} .

t=βi^se{βi^}

qui est simplement l'estimation divisée par une mesure de sa variabilité. Si vous avez un ensemble de données suffisamment grand, vous aurez toujours des valeurs t statistiquement significatives (grandes) . Cela ne signifie pas nécessairement que vos covariables expliquent en grande partie la variation de la variable de réponse.

Comme mentionné @stat, R2 mesure la quantité de variation dans la variable de réponse expliquée par vos variables dépendantes. Pour en savoir plusR2 , rendez-vous surwikipedia. Dans votre cas, il semble que vous disposiez d'un ensemble de données suffisamment grand pour estimer avec précision lesβi , mais vos covariables expliquent et / ou prédisent mal les valeurs de réponse.

caburke
la source
1
(+1) Il est clair dès le début qu'il s'agit d'une explication bien réfléchie et informative.
whuber
Bonne réponse. Je trouve que les termes «signification pratique» et «signification statistique» sont souvent utiles pour réfléchir à cette question.
Aaron - Rétablir Monica
3
Il existe également une transformation simple entre les deux statistiques: R2=t2t2+df
Jeff
7

Pour dire la même chose que caburke mais plus simplement, vous êtes très confiant que la réponse moyenne causée par vos variables n'est pas nulle. Mais il y a beaucoup d'autres choses que vous n'avez pas dans la régression qui font sauter la réponse.

utilisateur_générique
la source
0

Se pourrait-il que, bien que vos prédicteurs aient une tendance linéaire en termes de variable de réponse (la pente est significativement différente de zéro), ce qui rend les valeurs de t significatives, mais le R au carré est faible car les erreurs sont importantes, ce qui signifie que la variabilité dans vos données sont volumineuses et donc votre modèle de régression n'est pas adapté (les prévisions ne sont pas aussi précises)?

Juste mes 2 cents.

Peut-être que ce message peut aider: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- valeurs

mel
la source
0

Plusieurs réponses données sont proches mais toujours fausses.

"Les valeurs t sont utilisées pour juger de la précision de votre estimation des βi" est celle qui me préoccupe le plus.

La valeur T n'est qu'une indication de la probabilité d'occurrence aléatoire. Grand signifie peu probable. Petit signifie très probablement. Positif et négatif n'ont pas d'importance pour l'interprétation de la probabilité.

«R2 mesure la quantité de variation de votre variable de réponse expliquée par vos covariables» est correcte.

(J'aurais commenté mais je ne suis pas encore autorisé par cette plateforme.)

Kevin
la source
2
Vous semblez écrire sur les valeurs t comme s'il s'agissait de valeurs p.
whuber
-4

La seule façon de gérer un petit R au carré, vérifiez les points suivants:

  1. La taille de votre échantillon est-elle suffisamment grande? Si oui, effectuez l'étape 2. mais si non, augmentez la taille de votre échantillon.
  2. Combien de covariables avez-vous utilisées pour votre estimation de modèle? Si plus de 1 comme dans votre cas, traitez le problème de multicolinéarité des covariables ou tout simplement, relancez la régression et cette fois sans la constante dite beta zéro.

  3. Cependant, si le problème persiste, effectuez une régression pas à pas et sélectionnez le modèle avec un R élevé au carré. Mais que je ne peux pas vous recommander car cela provoque des biais dans les covariables

katleho
la source