J'ai effectué une régression avec 4 variables, et toutes sont très statistiquement significatives, avec des valeurs T et (je dis car il ne semble pas pertinent d'inclure les décimales) qui sont très élevées et clairement significatives. Mais alors le est seulement .2284. Suis-je mal interprété les valeurs t ici pour signifier quelque chose qu'ils ne sont pas? Ma première réaction en voyant les valeurs t était que le serait assez élevé, mais peut-être que c'est un élevé ?
17
Réponses:
Les valeurst et R2 sont utilisées pour juger des choses très différentes. Les valeurs t sont utilisées pour juger de la précision de votre estimation des βi , mais R2 mesure la quantité de variation de votre variable de réponse expliquée par vos covariables. Supposons que vous estimez un modèle de régression avec n observations,
oùϵi∼i.i.dN(0,σ2) , i=1,...,n .
De grandes valeurst (en valeur absolue) vous conduisent à rejeter l'hypothèse nulle que βi=0 . Cela signifie que vous pouvez être sûr d'avoir correctement estimé le signe du coefficient. Aussi, si |t| > 4 et vous avez n>5 , alors 0 n'est pas dans un intervalle de confiance de 99% pour le coefficient. La valeur t pour un coefficient βi est la différence entre l'estimation βi^ et 0 normalisée par l'erreur standard se{βi^} .
qui est simplement l'estimation divisée par une mesure de sa variabilité. Si vous avez un ensemble de données suffisamment grand, vous aurez toujours des valeurst statistiquement significatives (grandes) . Cela ne signifie pas nécessairement que vos covariables expliquent en grande partie la variation de la variable de réponse.
Comme mentionné @stat,R2 mesure la quantité de variation dans la variable de réponse expliquée par vos variables dépendantes. Pour en savoir plusR2 , rendez-vous surwikipedia. Dans votre cas, il semble que vous disposiez d'un ensemble de données suffisamment grand pour estimer avec précision lesβi , mais vos covariables expliquent et / ou prédisent mal les valeurs de réponse.
la source
Pour dire la même chose que caburke mais plus simplement, vous êtes très confiant que la réponse moyenne causée par vos variables n'est pas nulle. Mais il y a beaucoup d'autres choses que vous n'avez pas dans la régression qui font sauter la réponse.
la source
Se pourrait-il que, bien que vos prédicteurs aient une tendance linéaire en termes de variable de réponse (la pente est significativement différente de zéro), ce qui rend les valeurs de t significatives, mais le R au carré est faible car les erreurs sont importantes, ce qui signifie que la variabilité dans vos données sont volumineuses et donc votre modèle de régression n'est pas adapté (les prévisions ne sont pas aussi précises)?
Juste mes 2 cents.
Peut-être que ce message peut aider: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- valeurs
la source
Plusieurs réponses données sont proches mais toujours fausses.
"Les valeurs t sont utilisées pour juger de la précision de votre estimation des βi" est celle qui me préoccupe le plus.
La valeur T n'est qu'une indication de la probabilité d'occurrence aléatoire. Grand signifie peu probable. Petit signifie très probablement. Positif et négatif n'ont pas d'importance pour l'interprétation de la probabilité.
«R2 mesure la quantité de variation de votre variable de réponse expliquée par vos covariables» est correcte.
(J'aurais commenté mais je ne suis pas encore autorisé par cette plateforme.)
la source
La seule façon de gérer un petit R au carré, vérifiez les points suivants:
Combien de covariables avez-vous utilisées pour votre estimation de modèle? Si plus de 1 comme dans votre cas, traitez le problème de multicolinéarité des covariables ou tout simplement, relancez la régression et cette fois sans la constante dite beta zéro.
Cependant, si le problème persiste, effectuez une régression pas à pas et sélectionnez le modèle avec un R élevé au carré. Mais que je ne peux pas vous recommander car cela provoque des biais dans les covariables
la source