Anova de l'interprétation de sortie R

8

J'ai une question sur la façon dont un statisticien interpréterait normalement une sortie anova. Disons que j'ai une sortie anova de R.

> summary(fitted_data)

Call:
lm(formula = V1 ~ V2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.74004 -0.33827  0.04062  0.44064  1.22737 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.11405    0.32089   6.588  1.3e-09 ***
V2           0.03883    0.01277   3.040  0.00292 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262,    Adjusted R-squared: 0.06476 
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.002917 

> anova(fit)
Analysis of Variance Table

Response: V1
           Df Sum Sq Mean Sq F value   Pr(>F)   
V2          1  3.588  3.5878  9.2402 0.002917 **
Residuals 118 45.818  0.3883                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

D'après ce qui précède, je suppose que la valeur la plus importante est Pr (> F), non? Donc, ce Pr est inférieur à 0,05 (niveau de 95%). Comment mon "expliquer" cela? Dois-je l'expliquer en "association", c'est-à-dire que V2 et V1 sont associés (ou non)? ou en termes de "signification"? J'ai toujours senti que je ne pouvais pas comprendre quand les gens disaient "Cette valeur est importante ...". Alors qu'est-ce qui est "significatif"? Existe-t-il une forme d'explication plus intuitive? comme "Je suis sûr à 95% que ....".

De plus, la valeur Pr est-elle la seule information importante? ou puis-je également regarder les résidus et le reste de la sortie pour "expliquer" le résultat? Merci

dorothy
la source
Veuillez en montrer plus sur votre modèlefitted_data
Stéphane Laurent
Les réponses à cette question sont (généreusement) incomplètes. Voir plutôt stats.stackexchange.com/questions/12398/… ... ou toute autre question / réponse connexe.
michael

Réponses:

2

D'après ce qui précède, je suppose que la valeur la plus importante est Pr (> F), non?

Pas à moi. L'idée que la taille de la valeur de p est la chose la plus importante dans une ANOVA est omniprésente, mais je pense presque entièrement erronée. Pour commencer, la valeur de p est une quantité aléatoire (plus lorsque la valeur nulle est vraie, lorsqu'elle est uniformément répartie entre 0 et 1). En tant que telle une valeur de p inférieure peut ne pas être particulièrement informative dans tous les cas, mais même au-delà de la question de la taille de la valeur de p, des choses comme la taille des effets sont généralement beaucoup plus importantes.

Vous aimerez peut-être lire un peu

Cohen, J. (1990). Ce que j'ai appris (jusqu'à présent), American Psychologist 45, 1304-1312.

Cohen, J. (1994). La terre est ronde (p <0,05). Psychologue américain, 49, 997-1003.

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/

http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf

http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Ongoing_Controversy

-

Je n'ai pas vraiment abordé l'interprétation de la sortie lorsqu'une valeur p est inférieure à . Sans dire exactement quelle hypothèse est envisagée, mentionner la «signification» semble inutile. En ce sens, il serait alors préférable de mentionner la conclusion qui résulte du rejet du nul.α

Dans le cas que vous présentez, il est difficile d'interpréter sans contexte (je ne sais même pas si V2 est catégorique ou continu), mais si V2 était continu, je pourrais dire quelque chose sur la conclusion qu'il y a une association entre V1 et V2. Si V2 était catégorique (0-1), je pourrais dire quelque chose sur les différences de moyenne V1 pour les deux catégories, et ainsi de suite.

Maintenant, certaines choses à ne pas dire:

est inférieur à 0,05 (niveau 95%)

Ne jamais appeler p <0,05 "significatif au niveau de 95%". C'est faux. Vous ne devriez pas non plus l'appeler 95% autrement.

comme "Je suis sûr à 95% que ....".

Ne dites jamais cela non plus. C'est faux.

Glen_b -Reinstate Monica
la source
salut merci. Je regarderais ces articles pour mieux comprendre les valeurs de p. Si les valeurs de p ne sont pas "fiables", à votre avis, lesquels des paramètres devraient nous dire plus ou moins quelque chose sur la relation entre V1 et V2? R au carré?
dorothy
> Si les valeurs de p ne doivent pas être "fiables" --- je ne dirais pas automatiquement cela non plus. Je pense que vous êtes allé trop loin dans l'autre sens. Ce n'est pas qu'ils ne peuvent pas être `` dignes de confiance '' (bien que si vous les utilisez mal, ils vous égareront assez bien). C'est plutôt qu'ils - et les tests d'hypothèse plus généralement - ne vous disent pas souvent ce que vous voulez qu'ils fassent. Les tailles d'effet et les intervalles de confiance sont plus pertinents. n'est pas nécessairement une mesure très utile non plus. R2
Glen_b -Reinstate Monica
En bref - les valeurs p vous disent quelque chose - elles ne sont tout simplement pas, à mon avis, généralement les «plus importantes».
Glen_b -Reinstate Monica
Ah d'accord. Je vais regarder plus en détail l'intervalle de confiance de la ligne et la taille des effets pour expliquer les résultats. Merci beaucoup.
dorothy
1
Ce qui est important dépend principalement de ce que vous souhaitez savoir. Pour moi, ce sont généralement les coefficients et leurs erreurs-types, et parfois l'art. Parfois, les valeurs p m'intéressent également. Mais d'autres fois, je m'intéresse à une partie particulière de la sortie.
Glen_b -Reinstate Monica
1

Le morceau de sortie que je pourrais regarder en premier est le suivant:

Multiple R-squared: 0.073,    Adjusted R-squared: 0.065
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.003

Il vous indique que le modèle global était significatif (F (1 118) = 9,24, p = 0,003) Et V1 représente environ 7% de la variance de V2.

La taille de l'effet (0,039) vous indique que si V2 augmente de 1, votre modèle prédit que V1 augmentera (relation positive) de ~ 0,04). L'erreur type sur cette estimation (0,013) indique que (grosso modo), l'intervalle de confiance à 95% de l'effet est CI95 = [.0135, .064] (c.- .039- 1.96*.013à- d., À .039+ 1.96*.013)

L'intervalle de confiance ne comprend pas zéro, qui correspond (comme il se doit) à la valeur de p.

Si vous voulez une sortie anova (comme vous le dites), vous devez le demander (pas un résumé de régression, ce qui summary()donne).

anova(), ou, à partir de l' caremballage, Anovavous donnera ceci. Selon vos besoins, vous pouvez préférer la sortie par défaut Anova de la voiture, qui donne l'effet de chaque variable de votre ANOVA comme si elle avait été entrée en dernier, ce que l'on appelle les « sommes de carrés de type III ».

Si nous passons à un exemple intégré utilisant un mtcarsensemble de données Rs de miles par gallon et d'autres données comme le poids et la taille du moteur, vous pouvez générer un exemple Anova:

m1 = lm(mpg ~ wt + disp + cyl+gear+am, data = mtcars);
Anova(m1)
| | Sum Sq | Df | Valeur F | Pr (> F) |
|: --------- | ------: | -: | -------: | -------: |
| wt | 58.02 | 1 | 8.27 | 0,01 * |
| disp | 1,53 | 1 | 0,22 | 0,64 |
| cyl | 57,59 | 1 | 8.21 | 0,01 * |
| équipement | 6.02 | 1 | 0,86 | 0,36 |
| suis | 3,44 | 1 | 0,49 | 0,49 |
| Résidus | 182,41 | 26 | | |

Cela suggère que le poids du véhicule et le nombre de cylindres sont des facteurs importants dans le kilométrage atteint par gallon. Bien sûr, toutes ces variables sont confondues dans le jeu de données des voitures, ce qui montre que nous avons vraiment besoin d'une théorie de la consommation de carburant pour progresser ici.

Tim
la source