Si mon résultat de test t unilatéral est significatif mais que la taille de l'échantillon est petite (par exemple inférieure à 20 environ), puis-je toujours faire confiance à ce résultat? Sinon, comment dois-je traiter et / ou interpréter ce résultat?
17
Réponses:
En théorie, si toutes les hypothèses du test t sont vraies, il n'y a aucun problème avec une petite taille d'échantillon.
Dans la pratique, il existe certaines hypothèses pas tout à fait vraies avec lesquelles nous pouvons nous en tirer pour les grands échantillons, mais elles peuvent poser des problèmes pour les petits échantillons. Savez-vous si la distribution sous-jacente est normalement distribuée? Tous les échantillons sont-ils indépendants et distribués de manière identique?
Si vous doutez de la validité du test, alors une alternative que vous pouvez utiliser est le bootstrap. Le bootstrap consiste à rééchantillonner à partir de votre échantillon afin de voir à quelle fréquence l'hypothèse nulle est vraie ou fausse. Peut-être que votre hypothèse nulle est et votre valeur de p est 0,05 mais le bootstrapping montre que la moyenne de l'échantillon est inférieure à zéro 10% du temps. Cela indiquerait que c'est un coup de chance qui a provoqué une valeur de p de 0,05 et vous devriez être moins sûr que l'hypothèse nulle est fausse.μ<0
la source
Vous devez rarement faire confiance à un seul résultat significatif. Vous n'avez pas dit pourquoi vous utilisiez un test unilatéral au lieu d'un test bilatéral, alors j'espère que vous avez une bonne raison de le faire autre que de lutter pour pouvoir prétendre à un résultat statistiquement significatif!
En mettant cela de côté, considérons ce qui suit de la p. 261 de Sauro, J., & Lewis, JR (2016). Quantifier l'expérience utilisateur: statistiques pratiques pour la recherche d'utilisateurs, 2e éd. Cambridge, MA: Morgan-Kaufmann.
Comment Ronald Fisher a recommandé l'utilisation des valeurs de p
Lorsque Karl Pearson était le grand vieillard des statistiques et que Ronald Fisher était un nouveau venu, Pearson, apparemment menacé par les idées et les capacités mathématiques de Fisher, a utilisé son influence pour empêcher Fisher de publier dans les principales revues statistiques de l'époque, Biometrika et le Journal. de la Royal Statistical Society. Par conséquent, Fisher a publié ses idées dans divers autres lieux tels que des revues agricoles et météorologiques, y compris plusieurs articles pour les Actes de la Society for Psychical Research. C'est dans l'un des articles de ce dernier journal qu'il a mentionné la convention de fixer ce que nous appelons maintenant l'erreur de type I (alpha) acceptable à 0,05 et, de manière critique, a également mentionné l'importance de la reproductibilité en cas de résultat significatif inattendu:
Référence
Fisher, RA (1929). La méthode statistique dans la recherche psychique. Actes de la Society for Psychical Research, 39, 189-192.
la source
Imaginez-vous être dans une situation où vous effectuez de nombreux tests similaires, dans un ensemble de circonstances où une partie des valeurs nulles sont vraies.
Quelle proportion de vos refus sera "correcte"?
Nombre total de refus prévu:n t α + n ( 1 - t ) ( 1 - β) n ( 1 - t ) ( 1 - β)
Nombre total prévu de refus corrects:
Proportion globale de fois où un rejet était en fait la bonne décision:( 1 - t ) ( 1 -β)t α + ( 1 - t ) ( 1 - β)
Proportion globale de fois où un rejet était une erreur:t αt α + ( 1 - t ) ( 1 - β)
Pour que la proportion de refus corrects soit supérieure à un petit nombre, vous devez éviter la situation où( 1 - t ) ( 1 - β) ≪ t α
Étant donné que dans notre configuration, une fraction substantielle des valeurs nulles sont vraies, si1 - β n'est pas sensiblement plus grand que α (c'est-à-dire si vous n'avez pas une puissance assez élevée), beaucoup de nos rejets sont des erreurs!
Ainsi, lorsque la taille de votre échantillon est petite (et donc la puissance est faible), si une fraction raisonnable de nos valeurs nulles était vraie, nous commettions souvent une erreur lorsque nous rejetions.
La situation n'est pas beaucoup meilleure si presque toutes nos nullités sont strictement fausses - alors que la plupart de nos rejets seront corrects (trivialement, car de minuscules effets sont toujours strictement faux), si la puissance n'est pas élevée, une fraction substantielle de ceux-ci les rejets seront "dans la mauvaise direction" - nous conclurons que le null est faux assez souvent parce que par hasard l'échantillon s'est avéré être du mauvais côté (cela peut être un argument pour utiliser des tests unilatéraux - quand des tests unilatéraux font sens - pour au moins éviter les rejets qui n'ont aucun sens si de grands échantillons sont difficiles à obtenir).
Nous pouvons voir que de petites tailles d'échantillon peuvent certainement être un problème.
[Cette proportion de refus incorrects est appelée le taux de fausses découvertes ]
Si vous avez une idée de la taille probable de l'effet, vous êtes mieux placé pour juger de la taille adéquate d'un échantillon. Avec de grands effets anticipés, un rejet avec un échantillon de petite taille ne serait pas nécessairement une préoccupation majeure.
la source
Certains travaux originaux de Gosset (alias Student), pour lesquels il a développé le test t, impliquaient des échantillons de levure de n = 4 et 5. Le test a été spécifiquement conçu pour de très petits échantillons. Sinon, l'approximation normale conviendrait. Cela dit, Gosset faisait des expériences contrôlées très prudentes sur des données qu'il comprenait très bien. Il y a une limite au nombre de choses qu'une brasserie doit tester, et Gosset a passé sa vie professionnelle chez Guinness. Il connaissait ses données.
Je doute un peu de votre insistance sur les tests unilatéraux. La logique du test est la même quelle que soit l'hypothèse, mais j'ai vu des gens passer un test unilatéral significatif lorsque le test bilatéral n'était pas significatif.
C'est ce qu'implique un test unilatéral (supérieur). Vous testez qu'une moyenne est 0. Vous faites le calcul et êtes prêt à rejeter lorsque T> 2,5. Vous exécutez votre expérience et observez que T = -50 000. Vous dites "phhhhht" et la vie continue. À moins qu'il ne soit physiquement impossible que la statistique de test descende bien en dessous de la valeur de paramètre hypothétique, et à moins que vous ne preniez jamais de décision si la statistique de test va dans la direction opposée à ce que vous attendez, vous devriez utiliser un test bilatéral.
la source
La principale chose dont vous devez vous soucier est la puissance de votre test. En particulier, vous voudrez peut-être faire une analyse de puissance post-hoc pour déterminer votre probabilité, compte tenu de la taille de votre échantillon, d'identifier un véritable effet significatif d'une taille raisonnable. Si les effets typiques sont très importants, un n de 8 pourrait être totalement adéquat (comme pour de nombreuses expériences en biologie moléculaire). Si les effets qui vous intéressent sont généralement subtils, cependant (comme dans de nombreuses expériences de psychologie sociale), un n de milliers pourrait encore être sous-alimenté.
Ceci est important car des tests insuffisants peuvent donner des résultats très trompeurs. Par exemple, si votre test est sous-alimenté, même si vous trouvez un résultat significatif, vous avez une probabilité relativement élevée de faire ce que Andrew Gelman appelle une erreur de "Type S", c'est-à-dire qu'il y a un effet réel mais dans la direction opposée, ou une erreur de "type M", c'est-à-dire qu'il y a un effet réel mais la véritable amplitude est beaucoup plus faible que ce qui est estimé à partir des données.
Gelman et Carlin ont écrit un article utile sur la réalisation d'une analyse de puissance post-hoc qui, je pense, s'applique à votre cas. Surtout, ils recommandent d'utiliser des données indépendantes (c.-à-d. Non pas les données que vous avez testées, mais les revues, la modélisation, les résultats d'expériences similaires, etc.) pour estimer la taille réelle d'un effet plausible. En effectuant une analyse de puissance à l'aide de cette taille d'effet estimée plausible et en les comparant à vos résultats, vous pouvez déterminer la probabilité de commettre une erreur de type S et le "taux d'exagération" typique, et ainsi avoir une meilleure idée de la force réelle de vos preuves.
la source
On pourrait dire que tout l'intérêt statistique est de répondre à la question "puis-je faire confiance à ce résultat, compte tenu de la taille de l'échantillon?". En d'autres termes, il s'agit de contrôler le fait qu'avec de petits échantillons, vous pouvez obtenir des douves, quand aucun effet réel n'existe. La signification statistique, c'est-à-dire la valeur de p, est précisément la réponse à la question "si aucun effet réel n'existait, quelle serait la probabilité d'avoir un coup de chance aussi gros que celui-ci?". Si c'est très peu probable, cela indique que ce n'est pas un coup de chance.
Donc, la réponse est "oui", si la valeur de p est faible, et si vous avez suivi les procédures statistiques correctes et que vous remplissez les hypothèses pertinentes, alors oui, c'est une bonne preuve et a le même poids que si vous obtenu la même valeur de p avec une très grande taille d'échantillon.
la source