Puis-je faire confiance à un résultat significatif d'un test t si la taille de l'échantillon est petite?

17

Si mon résultat de test t unilatéral est significatif mais que la taille de l'échantillon est petite (par exemple inférieure à 20 environ), puis-je toujours faire confiance à ce résultat? Sinon, comment dois-je traiter et / ou interpréter ce résultat?

Eric
la source
2
Très étroitement lié: Existe
Silverfish
8
Juste un commentaire, je ne veux pas ajouter aux merveilleux commentaires ci-dessous; vous ne faites pas confiance au résultat d'un test t, vous faites confiance à la procédure elle-même. Un résultat individuel est correct ou incorrect, mais sans enquête plus approfondie, vous ne saurez jamais lequel. Un test t dans la méthodologie de Fisher ou la méthodologie de Pearson et Neyman est fiable si les hypothèses sont remplies. Si vous définissez cela vous trompera, sur une répétition infinie, pas plus de 5% du temps, peut-être un peu moins. La question que vous devez vous poser est "les hypothèses sont-elles remplies?" α<.05
Dave Harris

Réponses:

15

En théorie, si toutes les hypothèses du test t sont vraies, il n'y a aucun problème avec une petite taille d'échantillon.

Dans la pratique, il existe certaines hypothèses pas tout à fait vraies avec lesquelles nous pouvons nous en tirer pour les grands échantillons, mais elles peuvent poser des problèmes pour les petits échantillons. Savez-vous si la distribution sous-jacente est normalement distribuée? Tous les échantillons sont-ils indépendants et distribués de manière identique?

Si vous doutez de la validité du test, alors une alternative que vous pouvez utiliser est le bootstrap. Le bootstrap consiste à rééchantillonner à partir de votre échantillon afin de voir à quelle fréquence l'hypothèse nulle est vraie ou fausse. Peut-être que votre hypothèse nulle est et votre valeur de p est 0,05 mais le bootstrapping montre que la moyenne de l'échantillon est inférieure à zéro 10% du temps. Cela indiquerait que c'est un coup de chance qui a provoqué une valeur de p de 0,05 et vous devriez être moins sûr que l'hypothèse nulle est fausse.μ<0

Hugh
la source
1
Par exemple, si vous savez que la distribution sous-jacente est à peu près une distribution normale et que les 10 de vos échantillons sont inférieurs à une valeur particulière, alors les probabilités que la population signifie être supérieure à cette valeur sont au plus une sur 2 ^ 10, ou un sur mille. Il s'agit clairement d'une chance sur 2 ^ 10 que les dix échantillons d'une population normalement distribuée soient du même côté de la moyenne. Le problème sera que vous obtiendrez des résultats fiables, mais ils seront très faibles - comme "la taille moyenne d'un homme adulte est presque certainement comprise entre 5 et 7 pieds".
David Schwartz
Merci beaucoup pour l'explication et l'approche alternative. Je les apprécie vraiment! Merci beaucoup!
Eric
Je ne reçois pas votre suggestion d'amorçage. Si vous rééchantillonnez à partir de l'échantillon (qui a p <0,05), vous vous attendez à ce que la majorité des rééchantillonnages bootstrap aient un résultat significatif, peut-être autour de 95%, pas 5 ou 10%. Pouvez-vous s'il vous plaît développer? Cc à @Eric.
amibe dit Réintégrer Monica
3
De manière plus générale, le bootstrap fonctionne bien dans les grands échantillons mais avec de petits échantillons, la couverture peut différer un peu du nominal. De plus, avec une taille d'échantillon très faible, la puissance est faible. Il n'est donc pas nécessairement vrai qu'un "test de bootstrap" soit toujours supérieur au t-test.
Amoeba dit Réintégrer Monica
3
@amoeba J'aime beaucoup votre style de correction. Vous ne m'avez pas seulement dit ce qui était bien / mal, vous avez souligné une conséquence étrange de mes idées et m'avez fait repenser ma réponse et comprendre la source de mon erreur. Merci pour ça! Dans le passé, Whuber m'a fait ça aussi
Hugh
21

Vous devez rarement faire confiance à un seul résultat significatif. Vous n'avez pas dit pourquoi vous utilisiez un test unilatéral au lieu d'un test bilatéral, alors j'espère que vous avez une bonne raison de le faire autre que de lutter pour pouvoir prétendre à un résultat statistiquement significatif!

En mettant cela de côté, considérons ce qui suit de la p. 261 de Sauro, J., & Lewis, JR (2016). Quantifier l'expérience utilisateur: statistiques pratiques pour la recherche d'utilisateurs, 2e éd. Cambridge, MA: Morgan-Kaufmann.


Comment Ronald Fisher a recommandé l'utilisation des valeurs de p

Lorsque Karl Pearson était le grand vieillard des statistiques et que Ronald Fisher était un nouveau venu, Pearson, apparemment menacé par les idées et les capacités mathématiques de Fisher, a utilisé son influence pour empêcher Fisher de publier dans les principales revues statistiques de l'époque, Biometrika et le Journal. de la Royal Statistical Society. Par conséquent, Fisher a publié ses idées dans divers autres lieux tels que des revues agricoles et météorologiques, y compris plusieurs articles pour les Actes de la Society for Psychical Research. C'est dans l'un des articles de ce dernier journal qu'il a mentionné la convention de fixer ce que nous appelons maintenant l'erreur de type I (alpha) acceptable à 0,05 et, de manière critique, a également mentionné l'importance de la reproductibilité en cas de résultat significatif inattendu:

Une observation est jugée significative, si elle avait rarement été produite, en l'absence d'une cause réelle du type de celle que nous recherchons. Il est courant de juger un résultat significatif, s'il est d'une telle ampleur qu'il aurait été produit par hasard au moins une fois sur vingt essais. Il s'agit d'un niveau de signification arbitraire, mais pratique, pour l'investigateur pratique, mais cela ne signifie pas qu'il se laisse tromper une fois sur vingt expériences. Le test de signification lui dit seulement ce qu'il faut ignorer, à savoir toutes les expériences dans lesquelles des résultats significatifs ne sont pas obtenus. Il devrait seulement prétendre qu'un phénomène est expérimentalement démontrable lorsqu'il sait comment concevoir une expérience de telle sorte qu'elle échouera rarement à donner un résultat significatif. Par conséquent, des résultats significatifs isolés qu'il ne sait pas reproduire sont laissés en suspens dans l'attente d'une enquête plus approfondie. (Fisher, 1929, p. 191)

Référence

Fisher, RA (1929). La méthode statistique dans la recherche psychique. Actes de la Society for Psychical Research, 39, 189-192.

Jim Lewis
la source
2
Fisher a également publié plusieurs articles importants reclassant l'estimation du maximum de vraisemblance dans The Annals of Eugenics. Sa méthode était souvent meilleure que la méthode des moments utilisée par Karl Pearson. Fisher a appelé sa méthode inférence fiduciaire. Il a ensuite été officialisé par Jerzy Neyman et Egon Pearson (le fils de Karl Pearson).
Michael R. Chernick
3
Neyman et Pearson n'ont pas officialisé l'inférence fiduciaire de Fisher. Ils ont développé une méthode alternative.
Michael Lew - réintègre Monica
5
À l'époque de Fisher, «significatif» signifiait qu'il signifiait quelque chose, pas qu'il soit important.
David Lane
1
Merci beaucoup pour les informations très détaillées! Ça m'aide beaucoup!
Eric
16

Imaginez-vous être dans une situation où vous effectuez de nombreux tests similaires, dans un ensemble de circonstances où une partie des valeurs nulles sont vraies.

t .

(1-β)β

n d'entre eux, disons) "au hasard", les effectuez et rejetez ou échouez à rejeter leur hypothèse. On peut supposer que le nombre total d'expériences dans l'urne (M, disons) est suffisamment grand pour que cela ne fasse aucune différence que ce soit un échantillonnage sans remplacement (c'est-à-dire que nous serions heureux d'approcher cela comme un binôme si besoin est), et n et M sont assez grands pour que nous puissions discuter de ce qui se passe en moyenne comme si c'était ce que nous vivions.

Quelle proportion de vos refus sera "correcte"?

Nombre total de refus prévu: ntα+n(1-t)(1-β)
Nombre total prévu de refus corrects: n(1-t)(1-β)

Proportion globale de fois où un rejet était en fait la bonne décision: (1-t)(1-β)tα+(1-t)(1-β)

Proportion globale de fois où un rejet était une erreur: tαtα+(1-t)(1-β)

Pour que la proportion de refus corrects soit supérieure à un petit nombre, vous devez éviter la situation où (1-t)(1-β)tα

Étant donné que dans notre configuration, une fraction substantielle des valeurs nulles sont vraies, si 1-β n'est pas sensiblement plus grand que α (c'est-à-dire si vous n'avez pas une puissance assez élevée), beaucoup de nos rejets sont des erreurs!

Ainsi, lorsque la taille de votre échantillon est petite (et donc la puissance est faible), si une fraction raisonnable de nos valeurs nulles était vraie, nous commettions souvent une erreur lorsque nous rejetions.

La situation n'est pas beaucoup meilleure si presque toutes nos nullités sont strictement fausses - alors que la plupart de nos rejets seront corrects (trivialement, car de minuscules effets sont toujours strictement faux), si la puissance n'est pas élevée, une fraction substantielle de ceux-ci les rejets seront "dans la mauvaise direction" - nous conclurons que le null est faux assez souvent parce que par hasard l'échantillon s'est avéré être du mauvais côté (cela peut être un argument pour utiliser des tests unilatéraux - quand des tests unilatéraux font sens - pour au moins éviter les rejets qui n'ont aucun sens si de grands échantillons sont difficiles à obtenir).

Nous pouvons voir que de petites tailles d'échantillon peuvent certainement être un problème.

[Cette proportion de refus incorrects est appelée le taux de fausses découvertes ]


Si vous avez une idée de la taille probable de l'effet, vous êtes mieux placé pour juger de la taille adéquate d'un échantillon. Avec de grands effets anticipés, un rejet avec un échantillon de petite taille ne serait pas nécessairement une préoccupation majeure.

Glen_b -Reinstate Monica
la source
Merci beaucoup! C'est un point que je peux manquer très facilement. Merci beaucoup pour cette épingle!
Eric
1
Bon travail. Cela pourrait être la réponse acceptée.
Richard Hardy
@Eric, la réponse originale s'est un peu embrouillée au milieu; Je l'ai corrigé.
Glen_b -Reinstate Monica
9

Certains travaux originaux de Gosset (alias Student), pour lesquels il a développé le test t, impliquaient des échantillons de levure de n = 4 et 5. Le test a été spécifiquement conçu pour de très petits échantillons. Sinon, l'approximation normale conviendrait. Cela dit, Gosset faisait des expériences contrôlées très prudentes sur des données qu'il comprenait très bien. Il y a une limite au nombre de choses qu'une brasserie doit tester, et Gosset a passé sa vie professionnelle chez Guinness. Il connaissait ses données.

Je doute un peu de votre insistance sur les tests unilatéraux. La logique du test est la même quelle que soit l'hypothèse, mais j'ai vu des gens passer un test unilatéral significatif lorsque le test bilatéral n'était pas significatif.

C'est ce qu'implique un test unilatéral (supérieur). Vous testez qu'une moyenne est 0. Vous faites le calcul et êtes prêt à rejeter lorsque T> 2,5. Vous exécutez votre expérience et observez que T = -50 000. Vous dites "phhhhht" et la vie continue. À moins qu'il ne soit physiquement impossible que la statistique de test descende bien en dessous de la valeur de paramètre hypothétique, et à moins que vous ne preniez jamais de décision si la statistique de test va dans la direction opposée à ce que vous attendez, vous devriez utiliser un test bilatéral.

Placidia
la source
6

La principale chose dont vous devez vous soucier est la puissance de votre test. En particulier, vous voudrez peut-être faire une analyse de puissance post-hoc pour déterminer votre probabilité, compte tenu de la taille de votre échantillon, d'identifier un véritable effet significatif d'une taille raisonnable. Si les effets typiques sont très importants, un n de 8 pourrait être totalement adéquat (comme pour de nombreuses expériences en biologie moléculaire). Si les effets qui vous intéressent sont généralement subtils, cependant (comme dans de nombreuses expériences de psychologie sociale), un n de milliers pourrait encore être sous-alimenté.

Ceci est important car des tests insuffisants peuvent donner des résultats très trompeurs. Par exemple, si votre test est sous-alimenté, même si vous trouvez un résultat significatif, vous avez une probabilité relativement élevée de faire ce que Andrew Gelman appelle une erreur de "Type S", c'est-à-dire qu'il y a un effet réel mais dans la direction opposée, ou une erreur de "type M", c'est-à-dire qu'il y a un effet réel mais la véritable amplitude est beaucoup plus faible que ce qui est estimé à partir des données.

Gelman et Carlin ont écrit un article utile sur la réalisation d'une analyse de puissance post-hoc qui, je pense, s'applique à votre cas. Surtout, ils recommandent d'utiliser des données indépendantes (c.-à-d. Non pas les données que vous avez testées, mais les revues, la modélisation, les résultats d'expériences similaires, etc.) pour estimer la taille réelle d'un effet plausible. En effectuant une analyse de puissance à l'aide de cette taille d'effet estimée plausible et en les comparant à vos résultats, vous pouvez déterminer la probabilité de commettre une erreur de type S et le "taux d'exagération" typique, et ainsi avoir une meilleure idée de la force réelle de vos preuves.

Patrick B.
la source
4

On pourrait dire que tout l'intérêt statistique est de répondre à la question "puis-je faire confiance à ce résultat, compte tenu de la taille de l'échantillon?". En d'autres termes, il s'agit de contrôler le fait qu'avec de petits échantillons, vous pouvez obtenir des douves, quand aucun effet réel n'existe. La signification statistique, c'est-à-dire la valeur de p, est précisément la réponse à la question "si aucun effet réel n'existait, quelle serait la probabilité d'avoir un coup de chance aussi gros que celui-ci?". Si c'est très peu probable, cela indique que ce n'est pas un coup de chance.

Donc, la réponse est "oui", si la valeur de p est faible, et si vous avez suivi les procédures statistiques correctes et que vous remplissez les hypothèses pertinentes, alors oui, c'est une bonne preuve et a le même poids que si vous obtenu la même valeur de p avec une très grande taille d'échantillon.

Denziloe
la source