Certaines hypothèses peuvent être vérifiées à l'aide du test t de Student (peut-être à l'aide de la correction de Welch pour les variances inégales dans le cas à deux échantillons), ou par un test non paramétrique comme le test de Wilcoxon apparié signé, le test de Wilcoxon-Mann-Whitney U, ou le test du signe apparié. Comment pouvons-nous prendre une décision de principe concernant le test le plus approprié, en particulier si la taille de l'échantillon est "petite"?
De nombreux manuels d'introduction et notes de cours proposent une approche "organigramme" où la normalité est vérifiée (soit - à tort - par test de normalité, soit plus largement par QQ plot ou similaire) pour décider entre un test t- test ou non paramétrique. Pour le test t à deux échantillons non appariés, une vérification supplémentaire de l'homogénéité de la variance peut être nécessaire pour décider d'appliquer ou non la correction de Welch. Un problème avec cette approche est la façon dont la décision quant au test à appliquer dépend des données observées et son incidence sur les performances (puissance, taux d'erreur de type I) du test sélectionné.
Un autre problème est la difficulté de vérifier la normalité dans de petits ensembles de données: les tests formels ont une faible puissance, de sorte que les violations peuvent ne pas être détectées, mais des problèmes similaires appliquent un œil sur les données d'un graphe QQ. Même des violations flagrantes pourraient ne pas être détectées, par exemple si la distribution est mixte mais qu'aucune observation n'a été tirée d'un composant du mélange. Contrairement au grand , nous ne pouvons pas nous appuyer sur le filet de sécurité du théorème de la limite centrale et sur la normalité asymptotique de la statistique de test et de la distribution t .
Une réponse de principe à cela est "la sécurité d'abord": sans aucun moyen de vérifier de manière fiable l'hypothèse de normalité dans un petit échantillon, tenez-vous-en à des méthodes non paramétriques. Une autre solution consiste à examiner tous les motifs permettant de supposer la normalité, théoriquement (par exemple, la variable correspond à la somme de plusieurs composantes aléatoires et l'application du CLT) ou empiriquement (par exemple, les études précédentes avec une variable plus grande suggérant que est normale), et l'utilisation d'un test t uniquement si ces motifs existent. . Mais cela ne justifie généralement que la normalité approximative et, avec de faibles degrés de liberté, il est difficile de juger à quel point il doit être presque normal pour ne pas invalider un test t .
La plupart des guides pour choisir un test t ou non paramétrique se concentrent sur le problème de la normalité. Mais les petits échantillons soulèvent également quelques problèmes secondaires:
Si vous effectuez un test t "échantillons non liés" ou "non apparié", faut-il utiliser une correction de Welch ? Certaines personnes utilisent un test d’hypothèse pour l’égalité des variances, mais dans ce cas, le pouvoir serait faible; d'autres vérifient si les DS sont «raisonnablement» proches ou non (selon divers critères). Est-il plus sûr simplement de toujours utiliser la correction de Welch pour les petits échantillons, sauf s’il ya de bonnes raisons de croire que les variances de population sont égales?
Si vous considérez le choix des méthodes comme un compromis entre puissance et robustesse, les affirmations relatives à l'efficacité asymptotique des méthodes non paramétriques sont inutiles . La règle de base selon laquelle "les tests de Wilcoxon ont environ 95% de la puissance d'un test t si les données sont réellement normales , et sont souvent beaucoup plus puissantes si les données ne le sont pas, il est donc parfois utile d'utiliser un test Wilcoxon", mais si les 95% ne s’appliquent qu’aux gros , c’est un raisonnement imparfait pour des échantillons plus petits.
De petits échantillons peuvent rendre très difficile, voire impossible, d'évaluer si une transformation est appropriée pour les données car il est difficile de savoir si les données transformées appartiennent à une distribution (suffisamment) normale. Ainsi, si un graphique QQ révèle des données très positivement asymétriques, ce qui semble plus raisonnable après la prise de journaux, est-il prudent d'utiliser un test t sur les données enregistrées? Sur des échantillons plus grands, cela serait très tentant, mais avec un petit je m'attendrais probablement à moins qu'il y ait des raisons de s'attendre à une distribution log-normale au départ.
Qu'en est-il de la vérification des hypothèses pour les paramètres non paramétriques? Certaines sources recommandent de vérifier une distribution symétrique avant d'appliquer un test de Wilcoxon (en le considérant comme un test de localisation plutôt que de dominance stochastique), ce qui soulève des problèmes similaires pour la vérification de la normalité. Si la raison pour laquelle nous appliquons un test non paramétrique en premier lieu est une obéissance aveugle au mantra de "sécurité d'abord", alors la difficulté d'évaluer l'asymétrie d'un petit échantillon nous mènerait apparemment à la plus faible puissance d'un test de signe apparié .
En gardant à l’esprit ces petits problèmes, existe-t-il une bonne procédure à suivre pour décider entre des tests t et non paramétriques?
Il y a eu plusieurs excellentes réponses, mais une réponse tenant compte d'autres alternatives aux tests de classement, tels que les tests de permutation, serait également la bienvenue.
la source
Réponses:
Je vais changer l'ordre des questions sur.
Malheureusement, certaines discussions sur ce sujet dans des livres, etc. s'appuient sur les idées reçues. Parfois, la sagesse reçue est raisonnable, parfois elle l'est moins (du moins dans le sens où elle a tendance à être centrée sur un problème plus mineur, lorsqu'un problème plus vaste est ignoré); nous devrions examiner avec soin les justifications données pour le conseil (si aucune justification n’est offerte).
C'est vrai, mais c'est quelque peu erroné pour plusieurs raisons que je traite dans cette réponse.
Ceci (pour l'utiliser sauf si vous avez des raisons de penser que les écarts doivent être égaux) est l'avis de nombreuses références. Je pointe vers certains dans cette réponse.
Quelques références à ce sujet peuvent être vues ici et ici , bien qu’il y en ait plus qui disent des choses similaires.
Le problème des variances égales a de nombreuses caractéristiques similaires au problème de la normalité - les gens veulent le tester, les conseils suggèrent que le choix du conditionnement des tests sur les résultats des tests peut affecter négativement les résultats des deux types de tests ultérieurs - il est préférable de ne pas supposer quoi vous ne pouvez pas justifier de manière adéquate (en raisonnant sur les données, en utilisant les informations d'autres études portant sur les mêmes variables, etc.).
Cependant, il y a des différences. La première est que - du moins en ce qui concerne la distribution de la statistique de test sous l'hypothèse nulle (et donc sa robustesse en termes de niveau) - la non-normalité est moins importante dans les grands échantillons (du moins en ce qui concerne le niveau de signification, bien que la puissance toujours un problème si vous avez besoin de trouver de petits effets), alors que l’effet de variances inégales sous l’hypothèse de variance égale ne disparaît pas vraiment avec un échantillon de grande taille.
Avec les tests d'hypothèses, ce qui compte (dans certaines conditions) est principalement constitué de deux choses:
Quel est le taux d'erreur réel de type I?
Quel est le comportement de pouvoir?
Nous devons également garder à l’esprit que si nous comparons deux procédures, changer la première changera la seconde (c’est-à-dire que si elles ne sont pas menées au même niveau de signification, vous vous attendriez à ce que soit associé à puissance supérieure).α
J'examinerai un certain nombre de situations dans lesquelles je formulerai des recommandations, en tenant compte à la fois de la possibilité de non-normalité et de variances inégales. Dans tous les cas, prenons la mention du test t pour impliquer le test de Welch:
Non normal (ou inconnu), susceptible d'avoir une variance presque égale:
Si la distribution est lourde, vous serez généralement mieux avec un Mann-Whitney, bien que si elle est légèrement lourde, le test t devrait bien se dérouler. Avec des queues lumineuses, le test t peut (souvent) être préféré. Les tests de permutation sont une bonne option (vous pouvez même faire un test de permutation en utilisant une statistique t si vous le souhaitez). Les tests Bootstrap conviennent également.
Variance non normale (ou inconnue), inégale (ou relation de variance inconnue):
Si la distribution est lourde, vous serez généralement mieux avec un Mann-Whitney - si l'inégalité de variance est uniquement liée à l'inégalité de la moyenne - c'est-à-dire que si H0 est vrai, la différence d'étalement devrait également être absente. Les GLM sont souvent une bonne option, surtout s’il existe une asymétrie et que la propagation est liée à la moyenne. Un test de permutation est une autre option, avec une mise en garde similaire à celle des tests basés sur les rangs. Les tests bootstrap sont une bonne possibilité ici.
Zimmerman et Zumbo (1993) suggèrent un test de Welch sur les rangs qui, à leur avis, donne de meilleurs résultats que le test de Wilcoxon-Mann-Whitney dans les cas où les variances sont inégales.[ 1 ]
Les tests de classement sont des valeurs par défaut raisonnables ici si vous vous attendez à une non-normalité (à nouveau avec l'avertissement ci-dessus). Si vous avez des informations externes sur la forme ou la variance, vous pouvez envisager les GLM. Si vous vous attendez à ce que les choses ne soient pas trop éloignées de la normale, les tests t peuvent convenir.
En raison du problème posé par l’obtention de niveaux de signification appropriés, ni les tests de permutation ni les tests de classement ne sont appropriés, et pour les plus petites tailles, un test t peut être la meilleure option (il est possible de le renforcer légèrement). Cependant, il existe un bon argument pour utiliser des taux d'erreur plus élevés de type I avec de petits échantillons (sinon, vous laissez les taux d'erreur de type II gonfler tout en maintenant constants les taux d'erreur de type I). Voir aussi de Winter (2013) .[ 2 ]
Les conseils doivent être quelque peu modifiés lorsque les distributions sont à la fois fortement asymétriques et très discrètes, telles que les éléments d’échelle de Likert où la plupart des observations se trouvent dans l’une des catégories finales. Dans ce cas, le test Wilcoxon-Mann-Whitney n’est pas nécessairement meilleur que le test t.
La simulation peut aider à orienter davantage les choix lorsque vous avez des informations sur les circonstances probables.
Il est difficile de vérifier la normalité dans un petit ensemble de données, et dans une certaine mesure, c'est une question importante, mais je pense qu'il y a une autre question d'importance que nous devons examiner. Un problème fondamental est que le fait d’évaluer la normalité en tant que base de choix entre tests a un impact négatif sur les propriétés des tests que vous choisissez.
Voici un exemple de référence (il y en a d'autres) qui est sans équivoque (Fay et Proschan, 2010 ):[3]
Ils sont pareillement sans équivoque sur le fait de ne pas tester l'égalité de variance.
Ni même dans les grands échantillons - la normalité asymptotique du numérateur ne signifie pas que la statistique t aura une distribution t. Cependant, cela peut ne pas être très important, car vous devriez toujours avoir une normalité asymptotique (par exemple, CLT pour le numérateur, et le théorème de Slutsky suggèrent que la statistique t devrait finalement commencer à paraître normale, si les conditions des deux conditions sont réunies.)
C'est en fait le conseil que les références que je mentionne (ou le lien vers des mentions de) donnent.
Ces deux arguments sont de bons arguments, en particulier lorsque le test t est raisonnablement robuste contre les écarts modérés par rapport à la normalité. (Il faut cependant garder à l’esprit que "déviations modérées" est une phrase difficile; certains types de déviations par rapport à la normalité peuvent avoir un impact assez important sur la puissance du test t, même si ces déviations sont visuellement très petites - le t- Le test est moins robuste à certains écarts que d’autres, nous devons le garder à l’esprit chaque fois que nous discutons de petits écarts par rapport à la normalité.)
Attention, toutefois, le libellé "suggère que la variable est normale". Etre raisonnablement compatible avec la normalité n'est pas la même chose que la normalité. Nous pouvons souvent rejeter la normalité réelle sans même avoir besoin de voir les données - par exemple, si les données ne peuvent pas être négatives, la distribution ne peut pas être normale. Heureusement, l’important est plus proche de ce que nous pourrions en réalité tirer d’études ou de raisonnements antérieurs sur la composition des données, à savoir que les écarts par rapport à la normalité devraient être faibles.
Eh bien, c’est quelque chose dont nous pouvons évaluer l’impact assez facilement (par exemple, via des simulations, comme je l’ai mentionné plus tôt). D'après ce que j'ai vu, l'asymétrie semble avoir plus d'importance que les queues épaisses (mais d'un autre côté, j'ai vu des affirmations du contraire, bien que je ne sache pas sur quoi elles reposent).
Mais nous pouvons vérifier assez facilement la puissance de petits échantillons! Il est assez facile de simuler pour obtenir des courbes de puissance comme ici .[2]
(Encore une fois, voir aussi de Winter (2013) ).
Après avoir effectué de telles simulations dans diverses circonstances, à la fois pour les échantillons à deux échantillons et pour les échantillons à différence paire / paires, la faible efficacité de l'échantillon à la normale dans les deux cas semble être un peu inférieure à l'efficacité asymptotique, mais l'efficacité du rang signé et les tests de Wilcoxon-Mann-Whitney sont toujours très élevés, même avec des échantillons de très petite taille.
Du moins si les tests sont effectués au même niveau de signification réel; vous ne pouvez pas faire un test à 5% avec de très petits échantillons (et le moins pas sans tests aléatoires par exemple), mais si vous êtes prêt à faire (par exemple) un test à 5,5% ou 3,2% à la place, alors les tests de rang résiste très bien en effet par rapport à un test t à ce niveau de signification.
Il existe une autre alternative: faire une hypothèse paramétrique différente. Par exemple, s'il existe des données asymétriques, on pourrait par exemple, dans certaines situations, considérer raisonnablement une distribution gamma, ou une autre famille asymétrique comme une meilleure approximation - dans des échantillons moyennement volumineux, nous pourrions simplement utiliser un GLM, mais dans de très petits échantillons il peut être nécessaire de recourir à un test sur un petit échantillon - dans de nombreux cas, la simulation peut être utile.
Alternative 2: robustifier le test t (en prenant soin de choisir une procédure robuste afin de ne pas trop discrétiser la distribution résultante des statistiques du test) - cela présente certains avantages par rapport à une procédure non paramétrique à très petit échantillon, telle que la capacité considérer des tests à faible taux d'erreur de type I.
Je pense ici à utiliser, par exemple, les M-estimateurs de localisation (et les estimateurs d’échelle associés) dans la statistique t pour renforcer en douceur les écarts par rapport à la normalité. Quelque chose qui ressemble au Welch, comme:
où et , etc. étant des estimations robustes de l'emplacement et de l'échelle, respectivement.S∼2p=s∼2xnx+s∼2yny x∼ s∼x
Je chercherais à réduire toute tendance de la statistique à la discrétion. J'éviterais donc des choses telles que la compression et la minéralisation, car si les données d'origine étaient discrètes, la compression, etc., exacerberait cette situation; En utilisant des approches de type M-estimation avec une fonction lisse vous obtenez des effets similaires sans contribuer à la discrétion. N'oubliez pas que nous essayons de gérer la situation où est très petit (environ 3 à 5, dans chaque échantillon, par exemple), de sorte que même l'estimation M a potentiellement des problèmes.ψ n
Vous pouvez, par exemple, utiliser la simulation à la normale pour obtenir des valeurs p (si la taille des échantillons est très petite, je suggérerais de suramorcer - si les tailles des échantillons ne sont pas si petites, un bootstrap soigneusement implémenté peut très bien fonctionner , mais nous pourrions aussi bien revenir à Wilcoxon-Mann-Whitney). Il y a un facteur d'échelle ainsi qu'un ajustement df pour arriver à ce que j'imagine alors être une approximation t raisonnable. Cela signifie que nous devrions obtenir le type de propriétés que nous recherchons très près de la normale et avoir une robustesse raisonnable à proximité de la normale. Il y a un certain nombre de problèmes qui sortent du cadre de la question actuelle, mais je pense que dans un très petit échantillon, les avantages devraient l'emporter sur les coûts et les efforts supplémentaires requis.
[Je n'ai pas lu la littérature sur ce sujet depuis très longtemps, donc je n'ai pas de références appropriées à offrir sur ce point.]
Bien sûr, si vous ne vous attendiez pas à ce que la distribution soit un peu normale, mais plutôt similaire à une autre distribution, vous pouvez procéder à une robustification appropriée d'un test paramétrique différent.
En effet. Je suppose que vous voulez parler du test de rang signé *. Dans le cas de son utilisation sur des données appariées, si vous êtes prêt à supposer que les deux distributions ont la même forme, à l'exception du changement d'emplacement, vous êtes en sécurité, car les différences doivent alors être symétriques. En fait, nous n’avons même pas besoin de beaucoup; pour que le test fonctionne, vous avez besoin de la symétrie sous le zéro; cela n’est pas requis dans l’alternative (par exemple, considérons une situation appariée avec des distributions continues asymétriques de droite de forme identique sur la demi-ligne positive, où les échelles diffèrent selon l’alternative mais non sous la valeur nulle; le test de rang signé devrait fonctionner essentiellement comme prévu dans ce cas). L'interprétation du test est plus facile si l'alternative est un changement d'emplacement.
* (Le nom de Wilcoxon est associé aux tests de rangs à un et deux échantillons - rangs et totaux de rangs signés; avec leur test U, Mann et Whitney ont généralisé la situation étudiée par Wilcoxon et ont introduit d'importantes nouvelles idées pour évaluer la distribution nulle, mais La priorité entre les deux groupes d’auteurs du Wilcoxon-Mann-Whitney est clairement celle de Wilcoxon - donc du moins si nous ne considérons que Wilcoxon vs Mann & Whitney, Wilcoxon figure en premier dans mon livre, mais il semble que la loi de Stigler me bat encore une fois, et Wilcoxon. devrait peut-être partager une partie de cette priorité avec un certain nombre de contributeurs antérieurs et (à part Mann et Whitney) devrait partager le crédit avec plusieurs découvreurs d'un test équivalent. [4] [5])
Références
[1]: Zimmerman DW et Zumbo BN, (1993),
Les transformations de rang et le pouvoir du test t de Student et du test t de Welch pour les populations non normales,
Canadian Journal Experimental Psychology, 47 : 523–39.
[2]: JCF de Winter (2013),
"Utilisation du test t de Student avec des échantillons extrêmement petits"
, Évaluation pratique, recherche et évaluation , 18 : 10, août, ISSN 1531-7714
http://pareonline.net/. getvn.asp? v = 18 & n = 10
[3]: Michael P. Fay et Michael A. Proschan (2010),
«Wilcoxon-Mann-Whitney ou test t? Sur les hypothèses pour les tests d'hypothèses et les interprétations multiples des règles de décision»,
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4]: Berry, KJ, Mielke, PW et Johnston, JE (2012),
"Le test de classement par somme sur deux échantillons: développement précoce",
Revue électronique d'histoire de la probabilité et de statistiques , vol.8, décembre
pdf
[5]: Kruskal, WH (1957),
"Notes historiques sur le test de Wilcoxon non apparié à deux échantillons",
Journal de l'American Statistical Association , 52 , 356–360.
la source
À mon avis, l'approche fondée sur des principes reconnaît que (1) les tests et évaluations graphiques de la normalité ont une sensibilité insuffisante et que l'interprétation des graphiques n'est souvent pas objective, (2) les procédures en plusieurs étapes ont des caractéristiques de fonctionnement incertaines, (3) de nombreux tests non paramétriques ont d'excellentes caractéristiques de fonctionnement dans des situations dans lesquelles les tests paramétriques ont une puissance optimale, et (4) la transformation correcte de n'est généralement pas la fonction d'identité, et non paramétriquek t PY k -Les tests d'échantillon sont invariants par rapport à la transformation choisie (ce qui n'est pas le cas pour les tests à échantillon unique tels que le test de Wilcoxon avec classement signé). En ce qui concerne (2), les procédures en plusieurs étapes sont particulièrement problématiques dans des domaines tels que le développement de médicaments où les agences de surveillance telles que la FDA s'inquiètent à juste titre d'une possible manipulation des résultats. Par exemple, un chercheur peu scrupuleux peut facilement oublier de signaler le test de normalité si le test pour résultat une valeur faible .t P
En mettant tout cela ensemble, voici quelques conseils suggérés:
Ces recommandations sont assez générales, bien que votre kilométrage puisse varier pour certaines petites tailles d’échantillons. Mais nous savons que pour des échantillons plus grands, l'efficacité relative du test à 2 échantillons de Wilcoxon et des tests de rangs signés par rapport au test (si la variance est la même dans le cas des 2 échantillons) est de et que l'efficacité relative des tests de rangs est souvent très supérieure à 1,0 lorsque la distribution gaussienne ne tient pas. Pour moi, la perte d'information dans l' utilisation de tests de rang est très faible par rapport aux gains possibles, la robustesse et la liberté d'avoir à préciser la transformation de .3t Y3π Y
Les tests non paramétriques peuvent bien fonctionner même si leurs hypothèses d'optimalité ne sont pas satisfaites. Pour le problème de échantillon, les tests de rangs ne font aucune hypothèse sur la distribution d'un groupe donné; ils ne supposent que la façon dont les distributions des groupes sont connectées les unes aux autres, si vous souhaitez que le test soit optimal. Pour un modèle ordinal de probabilité cumulée les distributions sont supposées être en aléas proportionnels. Pour un modèle de probabilité cumulative de lien logit (modèle de probabilité proportionnelle), les distributions sont supposées être connectées par les hypothèses de probabilité proportionnelle, c'est-à-dire que les logits des fonctions de distribution cumulative sont parallèles. La forme de l'une des distributions est sans importance. Les détails peuvent être trouvés dansk - log - logk k −log−log http://biostat.mc.vanderbilt.edu/CourseBios330 au chapitre 15 de la documentation.
Deux types d’hypothèses d’une méthode statistique fréquentiste sont fréquemment envisagés. La première concerne les hypothèses nécessaires pour que la méthode préserve l’erreur de type I. La seconde concerne la préservation des erreurs de type II (optimalité; sensibilité). Je pense que le meilleur moyen d’exposer les hypothèses nécessaires pour la seconde étape consiste à intégrer un test non paramétrique dans un modèle semi-paramétrique, comme indiqué ci-dessus. La connexion réelle entre les deux provient de tests de scores efficaces de Rao issus du modèle semi-paramétrique. Le numérateur du test de score à partir d'un modèle de cotes proportionnelles pour le cas à deux échantillons est exactement la statistique de la somme des rangs.
la source
Rand Wilcox dans ses publications et livres soulignent des points très importants, dont beaucoup ont été énumérés par Frank Harrell et Glen_b dans des articles précédents.
Quelques suggestions clés sont:
Wilcox ( 2010 ) et Wilcox ( 2012 ) sont deux bonnes références .
la source
Bradley, dans son ouvrage intitulé Tests statistiques sans distribution (1968, p. 17-24) , présente treize contrastes entre ce qu'il appelle des tests "classiques" et des tests "sans distribution". Notez que Bradley fait la distinction entre "non paramétrique" et "sans distribution", mais pour les besoins de votre question, cette différence n'est pas pertinente. Ces treize éléments comprennent des éléments qui ne concernent pas uniquement les dérivations des tests, mais également leurs applications. Ceux-ci inclus:
la source
Commence à répondre à cette question très intéressante.
Pour les données non appariées:
Performance de cinq tests d'emplacement sur deux échantillons pour des distributions asymétriques à variances inégales par Morten W. Fagerland, Leiv Sandvik (derrière Paywall) effectue une série d'expériences avec 5 tests différents (test t, Welch U, Yuen-Welch, Wilcoxon-Mann -Whitney et Brunner-Munzel) pour différentes combinaisons de taille d’échantillon, de taux d’échantillon, de sortie de la normalité, etc. Le papier finit par suggérer Welch U en général,
Mais l'annexe A du document énumère les résultats pour chaque combinaison de tailles d'échantillons. Et pour des échantillons de petite taille (m = 10 n = 10 ou 25), les résultats sont plus confus (comme prévu) - d'après mon estimation des résultats (autres que ceux des auteurs), Welch U, Brunner-Munzel semble se comporter aussi bien et Le test t également bien dans m = 10 et n = 10 cas.
C'est ce que je sais jusqu'à présent.
Pour une solution «rapide», je citais auparavant Sensibilisation accrue des médecins à l’impact des statistiques sur les résultats de la recherche: Comparaison de la puissance du test t et du test de Wilcoxon Rank-Sum sur des échantillons réduits Recherche appliquée de Patrick D Bridge et Shlomo S Sawilowsky (également derrière paywall) et aller directement à Wilcoxon quelle que soit la taille de l’échantillon, mais attention , par exemple, devons-nous toujours choisir un test non paramétrique lorsque nous comparons deux distributions apparemment non normales? par Eva Skovlund et Grete U. Fensta .
Je n'ai pas encore trouvé de résultats similaires pour les données appariées
la source
Considérant les liens suivants:
Le test de normalité est-il «essentiellement inutile»?
Besoin et meilleur moyen de déterminer la normalité des données
Pour simplifier les choses, comme les tests non paramétriques sont raisonnablement bons même pour des données normales, pourquoi ne pas les utiliser toujours pour de petits échantillons.
la source
Simuler la différence de moyennes des populations gamma
Comparaison du test t et du test de Mann Whitney
Résumé des résultats
Expérience 1) Différentes moyennes, même variance
Sources:
Répartition de la population
Résultats de la simulation
Discussion
Discussion : lorsque la variance des deux populations est effectivement la même, le test de Mann Whitney surpasse largement le test t en termes de puissance pour un échantillon de petite taille, mais présente un taux d'erreur de type 1 plus élevé
Expérience 2: Différences différentes, même moyenne
Discussion Les résultats de la simulation montrent que le test t est très robuste face à une variance différente et que l'erreur de type I est proche de 5% pour toutes les tailles d'échantillon. Comme prévu, le test de Mann Whitney fonctionne mal dans ce cas car il ne teste pas une différence de moyenne mais une différence de distribution.
la source