Comment interpréter les valeurs F et p dans l'ANOVA?

40

Je suis nouveau dans les statistiques et je traite actuellement avec ANOVA. J'effectue un test ANOVA en R avec

aov(dependendVar ~ IndependendVar)

Je reçois, entre autres, une valeur F et une valeur p.

Mon hypothèse nulle ( ) est que toutes les moyennes de groupe sont égales.H0

Il y a beaucoup d'informations disponibles sur la manière dont F est calculé , mais je ne sais pas comment lire une statistique F et comment F et p sont connectés.

Donc, mes questions sont:

  1. Comment déterminer la valeur F critique pour rejeter ?H0
  2. Chaque F a-t-il une valeur p correspondante, de sorte qu'ils signifient fondamentalement la même chose? (par exemple, si , alors H_0 est rejeté)p<0.05H0
JanD
la source
1
Avez-vous essayé les commandes summary(aov(dependendVar ~ IndependendVar)))ou summary(lm(dependendVar ~ IndependendVar))? Voulez-vous dire que toutes les moyennes du groupe sont égales les unes aux autres et égales à 0 ou juste les unes aux autres?
RyanB
oui, j'ai essayé le summary(aov...). Merci pour le lm.*, je ne savais pas à ce sujet :-) Je ne comprends pas ce que vous voulez dire par égal à 0. Si c'est court pour mon 0-Hypothèse, l'hypothèse aurait besoin d'une valeur, et je n'ai pas testé sur une valeur spécifique, alors dans ce cas: juste l'un à l'autre!
JanD
1
Pour une explication intuitive, consultez le blog Yhat sur le thème de la régression.
DataTx

Réponses:

14

Pour répondre à vos questions:

  1. Vous trouvez la valeur F critique d'une distribution F (voici un tableau ). Voir un exemple . Vous devez faire attention aux degrés de liberté du numérateur et du dénominateur à sens unique et à double sens.

  2. Oui.

dfrankow
la source
Il n’est pas utile de parler de comparaisons un ou deux dans un test Omnibus tel que le test F.
Marcus Morrisey
3
Marcus Morrisey: Je pense que vous confondez un contre deux avec un contre deux. Le test F n'a pas à choisir parmi plusieurs «queues», mais il faut prendre en compte l'ANOVA à une voie par rapport à l'ANOVA à deux voies lors de la construction de la statistique de test.
Emiller
29

La statistique F est un ratio de 2 mesures de variance différentes pour les données. Si l'hypothèse nulle est vraie, il s'agit d'estimations identiques et le rapport sera d'environ 1.

Le numérateur est calculé en mesurant la variance des moyennes et si les moyennes vraies des groupes sont identiques, cela dépend de la variance globale des données. Mais si l'hypothèse nulle est fausse et que les moyennes ne sont pas toutes égales, alors cette mesure de variance sera plus grande.

Le dénominateur est une moyenne des variances de l'échantillon pour chaque groupe, qui est une estimation de la variance globale de la population (en supposant que tous les groupes ont des variances égales).

Ainsi, lorsque le zéro de tous les moyens égaux est vrai, les 2 mesures (avec quelques termes supplémentaires pour les degrés de liberté) seront similaires et le rapport sera proche de 1. Si le zéro est faux, le numérateur sera grand par rapport à le dénominateur et le ratio seront supérieurs à 1. La recherche de ce ratio sur la table F (ou en le calculant avec une fonction telle que pf dans R) donnera la valeur p.

Si vous préférez utiliser une région de rejet qu'une valeur p, vous pouvez utiliser la table F ou la fonction qf dans R (ou un autre logiciel). La distribution F a 2 types de degrés de liberté. Les degrés de liberté du numérateur sont basés sur le nombre de groupes que vous comparez (pour 1 voie, il s'agit du nombre de groupes moins 1) et les degrés de liberté du dénominateur sont basés sur le nombre d'observations au sein des groupes (pour Il s’agit du nombre d’observations moins le nombre de groupes). Pour les modèles plus compliqués, les degrés de liberté deviennent plus compliqués, mais suivez les mêmes idées.

Greg Snow
la source
Merci pour l'explication! Je suppose que si je peux rechercher la valeur F sur une table pour voir la valeur p, alors que les valeurs p et F ne sont que deux façons d'exprimer la probabilité qu'un résultat tel que celui analysé puisse se produire si le H0 est correct?
JanD
2
Dans toutes les statistiques paramétriques, il existe un lien fonctionnel direct entre la statistique de test (F dans ce cas) et la valeur p. Celles-ci ont été placées dans un tableau pour plus de commodité, mais peuvent également être calculées directement. Vous pouvez utiliser alpha pour trouver la limite d'une région critique à laquelle comparer les statistiques de test (ce qui, à mon avis, est plus intuitif), ou utiliser la statistique de test calculée pour rechercher la valeur p à comparer à alpha. Dans les deux cas, nous commençons avec un niveau alpha et une formule statistique de test qui suit une distribution donnée lorsque la valeur NULL est vraie.
Greg Snow
20

Fp

entrez la description de l'image ici

FFFpFFpFp

Vous devriez remarquer quelques autres choses à propos de la distribution sous l'hypothèse nulle:

F

F

CCFCpp=0.175

FFdf1=3df1=2

entrez la description de l'image ici

Fχ2χ2Fχ2zFtt

C'est beaucoup plus que ce que je voulais dire, mais j'espère que cela répond à vos questions!

(Si vous vous demandez d'où proviennent les diagrammes, ils ont été générés automatiquement par l' assistant de statistiques du bureau .)

Emiller
la source