J'ai une question sur la façon dont un statisticien interpréterait normalement une sortie anova. Disons que j'ai une sortie anova de R.
> summary(fitted_data)
Call:
lm(formula = V1 ~ V2)
Residuals:
Min 1Q Median 3Q Max
-2.74004 -0.33827 0.04062 0.44064 1.22737
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.11405 0.32089 6.588 1.3e-09 ***
V2 0.03883 0.01277 3.040 0.00292 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262, Adjusted R-squared: 0.06476
F-statistic: 9.24 on 1 and 118 DF, p-value: 0.002917
> anova(fit)
Analysis of Variance Table
Response: V1
Df Sum Sq Mean Sq F value Pr(>F)
V2 1 3.588 3.5878 9.2402 0.002917 **
Residuals 118 45.818 0.3883
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
D'après ce qui précède, je suppose que la valeur la plus importante est Pr (> F), non? Donc, ce Pr est inférieur à 0,05 (niveau de 95%). Comment mon "expliquer" cela? Dois-je l'expliquer en "association", c'est-à-dire que V2 et V1 sont associés (ou non)? ou en termes de "signification"? J'ai toujours senti que je ne pouvais pas comprendre quand les gens disaient "Cette valeur est importante ...". Alors qu'est-ce qui est "significatif"? Existe-t-il une forme d'explication plus intuitive? comme "Je suis sûr à 95% que ....".
De plus, la valeur Pr est-elle la seule information importante? ou puis-je également regarder les résidus et le reste de la sortie pour "expliquer" le résultat? Merci
la source
fitted_data
Réponses:
Pas à moi. L'idée que la taille de la valeur de p est la chose la plus importante dans une ANOVA est omniprésente, mais je pense presque entièrement erronée. Pour commencer, la valeur de p est une quantité aléatoire (plus lorsque la valeur nulle est vraie, lorsqu'elle est uniformément répartie entre 0 et 1). En tant que telle une valeur de p inférieure peut ne pas être particulièrement informative dans tous les cas, mais même au-delà de la question de la taille de la valeur de p, des choses comme la taille des effets sont généralement beaucoup plus importantes.
Vous aimerez peut-être lire un peu
Cohen, J. (1990). Ce que j'ai appris (jusqu'à présent), American Psychologist 45, 1304-1312.
Cohen, J. (1994). La terre est ronde (p <0,05). Psychologue américain, 49, 997-1003.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/
http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf
http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Ongoing_Controversy
-
Je n'ai pas vraiment abordé l'interprétation de la sortie lorsqu'une valeur p est inférieure à . Sans dire exactement quelle hypothèse est envisagée, mentionner la «signification» semble inutile. En ce sens, il serait alors préférable de mentionner la conclusion qui résulte du rejet du nul.α
Dans le cas que vous présentez, il est difficile d'interpréter sans contexte (je ne sais même pas si V2 est catégorique ou continu), mais si V2 était continu, je pourrais dire quelque chose sur la conclusion qu'il y a une association entre V1 et V2. Si V2 était catégorique (0-1), je pourrais dire quelque chose sur les différences de moyenne V1 pour les deux catégories, et ainsi de suite.
Maintenant, certaines choses à ne pas dire:
Ne jamais appeler p <0,05 "significatif au niveau de 95%". C'est faux. Vous ne devriez pas non plus l'appeler 95% autrement.
Ne dites jamais cela non plus. C'est faux.
la source
Le morceau de sortie que je pourrais regarder en premier est le suivant:
Il vous indique que le modèle global était significatif (F (1 118) = 9,24, p = 0,003) Et V1 représente environ 7% de la variance de V2.
La taille de l'effet (0,039) vous indique que si V2 augmente de 1, votre modèle prédit que V1 augmentera (relation positive) de ~ 0,04). L'erreur type sur cette estimation (0,013) indique que (grosso modo), l'intervalle de confiance à 95% de l'effet est CI95 = [.0135, .064] (c.-
.039- 1.96*.013
à- d., À.039+ 1.96*.013
)L'intervalle de confiance ne comprend pas zéro, qui correspond (comme il se doit) à la valeur de p.
Si vous voulez une sortie anova (comme vous le dites), vous devez le demander (pas un résumé de régression, ce qui
summary()
donne).anova
(), ou, à partir de l'car
emballage,Anova
vous donnera ceci. Selon vos besoins, vous pouvez préférer la sortie par défaut Anova de la voiture, qui donne l'effet de chaque variable de votre ANOVA comme si elle avait été entrée en dernier, ce que l'on appelle les « sommes de carrés de type III ».Si nous passons à un exemple intégré utilisant un
mtcars
ensemble de données Rs de miles par gallon et d'autres données comme le poids et la taille du moteur, vous pouvez générer un exemple Anova:Cela suggère que le poids du véhicule et le nombre de cylindres sont des facteurs importants dans le kilométrage atteint par gallon. Bien sûr, toutes ces variables sont confondues dans le jeu de données des voitures, ce qui montre que nous avons vraiment besoin d'une théorie de la consommation de carburant pour progresser ici.
la source