Un échantillon peut-il être trop grand pour l'ANOVA ou un test t?

9

J'ai près d'un million d'ensembles de données et chaque fois que je lance un test de comparaison moyenne, soit ANOVA ou un test t, j'obtiens un niveau de signification inférieur à 0,0001 sur SPSS. Je crains que mon échantillon soit si grand que, bien sûr, lorsque je compare les moyens, il apparaîtra comme étant sensiblement différent. Un échantillon peut-il être trop grand pour l'ANOVA ou un test t?

anova t-test effect-size large-data user24232
la source

3

La question est assez bien couverte, alors juste un commentaire - c'est plus une question à laquelle vous posez une question à laquelle vous connaissez déjà la réponse (vous ne pensez pas vraiment que les moyens de la population seront exactement égaux, n'est -ce pas?), Et vous avez une taille d'échantillon suffisante pour donner la réponse déjà évidente mais pas très intéressante qu'il existe en fait des différences, même si elles sont minuscules. Les tailles d'effet et les intervalles de confiance sont plus utiles que les valeurs de p, et vos questions intéressantes ont tendance à aller plus vers les problèmes de biais et à décrire les différences qui existent et à juger de leur importance pratique.

Glen_b -Reinstate Monica

16

Non, un échantillon ne peut pas être trop grand pour une ANOVA ou un test t. Vous obtiendrez presque toujours des résultats statistiquement significatifs parce que vous avez beaucoup de pouvoir; toutefois, cela ne signifie pas que vous détectez des différences fausses. En effet, quel que soit le nombre de cas dont vous disposez, un effet qui n'existe pas ne deviendra pas significatif. Il s'agit d'une idée fausse courante.

Cependant, beaucoup de puissance signifie que vous pouvez détecter des différences qui n'ont presque aucun sens en termes de taille. Par exemple, vous trouvez peut-être que deux races ont en moyenne des hauteurs différentes, mais la différence n'est que d'un demi-millimètre.

Assurez-vous d'interpréter la taille de l'effet associée à votre test statistique. Dans ce cas, la valeur p vaut moins que la taille de l'effet (comme c'est souvent le cas)!

Behacad
la source

Tout à fait correct (+1). Le seul problème que j'ai pu voir est si vous rencontrez des problèmes de mémoire et de temps d'exécution. Avec les ordinateurs modernes, je pense que cela prendrait beaucoup plus d'un million de cas pour des choses simples comme l'ANOVA ou le test t.

Peter Flom

Que se passe-t-il lorsque la taille de l'échantillon est égale à la taille de la population? Comment choisit-on alors la valeur p?

Sharath

2

Nous vous suggérons de regarder ce qui suit (tous très lisibles et non techniques).
1. Anderson DR, Burnham KP, Thompson WL (2000) Test d'hypothèse nulle: problèmes, prévalence et alternative. Journal of Wildlife Management 64: 912-923. 2. Gigerenzer G (2004) Statistiques stupides. Journal of Socio-Economics 33: 587-606. 3. Johnson DH (1999) L'insignifiance des tests de signification statistique. The Journal of Wildlife Management 63: 763-772.

Tom Wilding
la source

Un échantillon peut-il être trop grand pour l'ANOVA ou un test t?

Réponses: