Qu'est-ce que cela signifie qu'une régression linéaire soit statistiquement significative mais a un très faible r au carré?

14

Je comprends que cela signifie que le modèle est mauvais pour prédire des points de données individuels, mais a établi une tendance ferme (par exemple, y augmente lorsque x augmente).

PaperRockBazooka
la source
9
Cela peut suggérer un très grand échantillon
Henry
2
R-squared a des bagages. stats.stackexchange.com/questions/13314/…
EngrStudent - Réintégrer Monica

Réponses:

27

Cela signifie que vous pouvez expliquer une petite partie de la variance des données. Par exemple, vous pouvez établir qu'un diplôme universitaire a un impact sur les salaires, mais en même temps, ce n'est qu'un petit facteur. Il existe de nombreux autres facteurs qui influent sur votre salaire, et la contribution du diplôme universitaire est très faible, mais détectable.

Concrètement, cela pourrait signifier qu'en moyenne, le diplôme universitaire augmente le salaire de 500 $ par an, tandis que l'écart-type des salaires des personnes est de 10 000 $ . Ainsi, de nombreuses personnes diplômées d'université ont des salaires inférieurs à ceux des non-diplômés, et la valeur de votre modèle de prévision est faible.

Aksakal presque sûrement binaire
la source
11

Cela signifie que "l'erreur irréductible est élevée", c'est-à-dire que la meilleure chose que nous pouvons faire (avec un modèle linéaire) est limitée. Par exemple, l'ensemble de données suivant:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

Remarque, l'astuce dans cet ensemble de données est que, étant donné une valeur , il y a trop de valeurs y différentes , que nous ne pouvons pas faire une bonne prédiction pour les satisfaire toutes. Dans le même temps, il existe des corrélations linéaires "fortes" entre x et y . Si nous ajustons un modèle linéaire, nous obtiendrons des coefficients significatifs, mais un faible R au carré.XyXy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

entrez la description de l'image ici

Haitao Du
la source
3

Qu'est-ce que cela signifie qu'une régression linéaire soit statistiquement significative mais a un très faible r au carré?

Cela signifie qu'il existe une relation linéaire entre la variable indépendante et la variable dépendante, mais que cette relation ne vaut peut-être pas la peine d'être discutée.

Cependant, la signification de la relation dépend beaucoup de ce que vous examinez, mais en général, vous pouvez considérer que la signification statistique ne doit pas être confondue avec la pertinence.

Avec un échantillon suffisamment grand, même les relations les plus triviales peuvent être jugées statistiquement significatives.

faustus
la source
1
En fait, une régression linéaire signifie linéaire dans les paramètres. Les variables dépendantes brutes peuvent être transformées et vous avez toujours une régression linéaire. Je suis un peu perplexe quant à ce que vous pensez que la signification statistique est. Pour moi, cela signifie que les estimations des paramètres sont grandes.
Michael R. Chernick
^ la signification fait référence à la probabilité que les résultats aient été purement fortuits et qu'il n'y ait pas de relation entre les prédicteurs et la variable dépendante. si vous avez un petit échantillon et que les résultats sont significatifs, alors oui, les estimations des paramètres seraient grandes. cependant, avec un échantillon ridiculement grand, vous pouvez obtenir des résultats significatifs même avec une très petite estimation de paramètre. essayez-le ici: danielsoper.com/statcalc/calculator.aspx
faustus
Ce que vous dites ressemble à une description générale de ce qu'est l'inférence. Mais la signification statistique est un terme spécifique qui a à voir avec le dépassement d'une ou plusieurs valeurs critiques où la ou les valeurs critiques dépendent d'un niveau de signification particulier que l'analyste choisit (par exemple 0,05, 0,01, etc.). La taille de l'échantillon est un autre facteur. En régression, vous testez plusieurs hypothèses (signification des coefficients de régression individuels ainsi que le test qu'il n'y a pas de relation. Cela peut aussi être compliqué en faisant des procédures pas à pas qui choisissent entre plusieurs modèles possibles.
Michael R. Chernick
1
La statistique est en partie science et en partie art mais elle est basée sur des principes mathématiques.
Michael R. Chernick
2
@MichaelChernik Pouvez-vous élaborer un peu? Je suis d'accord avec faustus (en fait, il m'est arrivé de donner une réponse similaire) et je ne comprends pas votre point. Dans la régression linéaire, la signification ((que ce soit la signification des coefficients de régression individuels ou la régression entière) est testée par rapport à l'hypothèse d'absence de relation (coefficient exactement 0). Avec suffisamment de données, vous pouvez être en mesure de dire que les coefficients sont non nuls, mais terriblement petit. (continue)
Luca Citi
2

Une autre façon de formuler cela est que cela signifie que vous pouvez prédire en toute confiance un changement au niveau de la population mais pas au niveau individuel. c'est-à-dire qu'il y a une grande variance dans les données individuelles, mais quand un échantillon suffisamment grand est utilisé, un effet sous-jacent peut être observé dans l'ensemble. C'est une des raisons pour lesquelles certains conseils de santé du gouvernement ne sont d'aucune utilité pour l'individu. Les gouvernements ressentent parfois le besoin d'agir parce qu'ils peuvent voir qu'une plus grande partie de l'activité mène à plus de décès dans la population. Ils produisent des conseils ou une politique qui «sauve» ces vies. Cependant, en raison de la forte variance des réponses individuelles, il est très peu probable qu'un individu en voie personnellement un quelconque avantage (ou, pire, en raison de conditions génétiques spécifiques, sa propre santé se serait en fait améliorée en obéissant aux conseils opposés, mais cela est caché dans l'agrégation de la population). Si l'individu tire profit (par exemple le plaisir) de l'activité `` malsaine '', suivre les conseils peut signifier qu'il renonce à ce plaisir défini tout au long de sa vie, mais ne change pas réellement personnellement s'il aurait ou non souffert de la maladie.

healthcynic
la source
Très bon exemple!
kjetil b halvorsen
R2