Comment choisir entre le test t et le test non paramétrique, par exemple Wilcoxon dans de petits échantillons

96

Certaines hypothèses peuvent être vérifiées à l'aide du test t de Student (peut-être à l'aide de la correction de Welch pour les variances inégales dans le cas à deux échantillons), ou par un test non paramétrique comme le test de Wilcoxon apparié signé, le test de Wilcoxon-Mann-Whitney U, ou le test du signe apparié. Comment pouvons-nous prendre une décision de principe concernant le test le plus approprié, en particulier si la taille de l'échantillon est "petite"?

De nombreux manuels d'introduction et notes de cours proposent une approche "organigramme" où la normalité est vérifiée (soit - à tort - par test de normalité, soit plus largement par QQ plot ou similaire) pour décider entre un test t- test ou non paramétrique. Pour le test t à deux échantillons non appariés, une vérification supplémentaire de l'homogénéité de la variance peut être nécessaire pour décider d'appliquer ou non la correction de Welch. Un problème avec cette approche est la façon dont la décision quant au test à appliquer dépend des données observées et son incidence sur les performances (puissance, taux d'erreur de type I) du test sélectionné.

Un autre problème est la difficulté de vérifier la normalité dans de petits ensembles de données: les tests formels ont une faible puissance, de sorte que les violations peuvent ne pas être détectées, mais des problèmes similaires appliquent un œil sur les données d'un graphe QQ. Même des violations flagrantes pourraient ne pas être détectées, par exemple si la distribution est mixte mais qu'aucune observation n'a été tirée d'un composant du mélange. Contrairement au grand , nous ne pouvons pas nous appuyer sur le filet de sécurité du théorème de la limite centrale et sur la normalité asymptotique de la statistique de test et de la distribution t .n

Une réponse de principe à cela est "la sécurité d'abord": sans aucun moyen de vérifier de manière fiable l'hypothèse de normalité dans un petit échantillon, tenez-vous-en à des méthodes non paramétriques. Une autre solution consiste à examiner tous les motifs permettant de supposer la normalité, théoriquement (par exemple, la variable correspond à la somme de plusieurs composantes aléatoires et l'application du CLT) ou empiriquement (par exemple, les études précédentes avec une variable plus grande suggérant que est normale), et l'utilisation d'un test t uniquement si ces motifs existent. . Mais cela ne justifie généralement que la normalité approximative et, avec de faibles degrés de liberté, il est difficile de juger à quel point il doit être presque normal pour ne pas invalider un test t .n

La plupart des guides pour choisir un test t ou non paramétrique se concentrent sur le problème de la normalité. Mais les petits échantillons soulèvent également quelques problèmes secondaires:

  • Si vous effectuez un test t "échantillons non liés" ou "non apparié", faut-il utiliser une correction de Welch ? Certaines personnes utilisent un test d’hypothèse pour l’égalité des variances, mais dans ce cas, le pouvoir serait faible; d'autres vérifient si les DS sont «raisonnablement» proches ou non (selon divers critères). Est-il plus sûr simplement de toujours utiliser la correction de Welch pour les petits échantillons, sauf s’il ya de bonnes raisons de croire que les variances de population sont égales?

  • Si vous considérez le choix des méthodes comme un compromis entre puissance et robustesse, les affirmations relatives à l'efficacité asymptotique des méthodes non paramétriques sont inutiles . La règle de base selon laquelle "les tests de Wilcoxon ont environ 95% de la puissance d'un test t si les données sont réellement normales , et sont souvent beaucoup plus puissantes si les données ne le sont pas, il est donc parfois utile d'utiliser un test Wilcoxon", mais si les 95% ne s’appliquent qu’aux gros , c’est un raisonnement imparfait pour des échantillons plus petits.n

  • De petits échantillons peuvent rendre très difficile, voire impossible, d'évaluer si une transformation est appropriée pour les données car il est difficile de savoir si les données transformées appartiennent à une distribution (suffisamment) normale. Ainsi, si un graphique QQ révèle des données très positivement asymétriques, ce qui semble plus raisonnable après la prise de journaux, est-il prudent d'utiliser un test t sur les données enregistrées? Sur des échantillons plus grands, cela serait très tentant, mais avec un petit je m'attendrais probablement à moins qu'il y ait des raisons de s'attendre à une distribution log-normale au départ.n

  • Qu'en est-il de la vérification des hypothèses pour les paramètres non paramétriques? Certaines sources recommandent de vérifier une distribution symétrique avant d'appliquer un test de Wilcoxon (en le considérant comme un test de localisation plutôt que de dominance stochastique), ce qui soulève des problèmes similaires pour la vérification de la normalité. Si la raison pour laquelle nous appliquons un test non paramétrique en premier lieu est une obéissance aveugle au mantra de "sécurité d'abord", alors la difficulté d'évaluer l'asymétrie d'un petit échantillon nous mènerait apparemment à la plus faible puissance d'un test de signe apparié .

En gardant à l’esprit ces petits problèmes, existe-t-il une bonne procédure à suivre pour décider entre des tests t et non paramétriques?

Il y a eu plusieurs excellentes réponses, mais une réponse tenant compte d'autres alternatives aux tests de classement, tels que les tests de permutation, serait également la bienvenue.

Poisson d'argent
la source
2
Je devrais expliquer ce que pourrait être une "méthode de choix d'un test" - les textes d'introduction utilisent souvent des organigrammes. Pour les données non appariées, par exemple: "1. Utilisez une méthode pour vérifier si les deux échantillons sont distribués normalement (sinon passez à l'étape 3), 2. Utilisez une méthode pour vérifier les variances inégales: si tel est le cas, effectuez un test t à deux échantillons avec Si ce n'est pas le cas, effectuez la correction de Welch sans correction. 3. Essayez de transformer les données en normalité (si les travaux vont à 2, passez à 4). 4. Effectuez le test U à la place (éventuellement après avoir vérifié diverses hypothèses). " Mais beaucoup de ces étapes ne semblent pas satisfaisantes pour les petits n, comme j'espère expliqué par mon Q!
Silverfish
2
Question intéressante (+1) et un geste courageux pour mettre en place une prime. Dans l'attente de réponses intéressantes. À propos, ce que je vois souvent appliqué dans mon domaine est un test de permutation (au lieu du test t ou de Mann-Whitney-Wilcoxon). Je suppose que cela pourrait aussi être considéré comme un candidat valable. En dehors de cela, vous n'avez jamais précisé ce que vous entendiez par "petite taille d'échantillon".
amibe
1
@Alexis De nombreux livres prétendent que le test de Wilcoxon suppose une symétrie par rapport à la médiane, du moins si les résultats sont considérés comme une indication de la localisation (certains recommandent un diagramme en boîte à vérifier: voir ma discussion avec Glen ci-dessus / réponse de Frank Harrell ci-dessous pour les dangers de la répétition multiple procédure). De plus, certaines sources affirment que l’U de Wilcoxon-Mann-Whitney suppose que les distributions des groupes ne diffèrent que par la traduction (et suggèrent une vérification visuelle sur des histogrammes ou des CDF empiriques). Une sig. Le test U peut être dû à des distributions de formes différentes même si les médianes sont égales. Voir aussi les articles cités dans les commentaires sous la réponse de Frank Harrell.
Silverfish
3
@Silverfish "si les résultats sont vus comme une déclaration d'emplacement" Il s'agit d'une mise en garde importante, car ces tests sont le plus souvent des déclarations concernant la preuve de H . L'utilisation d'hypothèses supplémentaires sur la distribution réduit la portée de l'inférence (par exemple, les tests de différence médiane), mais n'est généralement pas requise pour les tests. 0:P(XA>XB)=0.5
Alexis
2
Il serait peut-être intéressant d’explorer à quel point le raisonnement "à 95% de puissance pour le Wilcoxon" est "erroné" pour de petits échantillons (cela dépend en partie de ce que l’on fait exactement et de la taille petite). Si, par exemple, vous êtes disposé à effectuer des tests à 5,5% au lieu de 5%, si le niveau de signification le plus proche est réalisable, le pouvoir a tendance à bien résister. Une fois que vous pouvez bien sûr, au stade du "calcul de la puissance" avant de collecter des données, déterminer quelles sont les circonstances et connaître les propriétés du Wilcoxon en fonction de la taille de l’échantillon que vous envisagez.
Glen_b

Réponses:

67

Je vais changer l'ordre des questions sur.

J'ai trouvé que les manuels et les notes de cours étaient souvent en désaccord et souhaiterais qu'un système fonctionne selon le choix qui peut être recommandé en toute sécurité comme meilleure pratique, et en particulier un manuel ou un document auquel il peut être cité.

Malheureusement, certaines discussions sur ce sujet dans des livres, etc. s'appuient sur les idées reçues. Parfois, la sagesse reçue est raisonnable, parfois elle l'est moins (du moins dans le sens où elle a tendance à être centrée sur un problème plus mineur, lorsqu'un problème plus vaste est ignoré); nous devrions examiner avec soin les justifications données pour le conseil (si aucune justification n’est offerte).

La plupart des guides pour choisir un test t ou non paramétrique se concentrent sur le problème de la normalité.

C'est vrai, mais c'est quelque peu erroné pour plusieurs raisons que je traite dans cette réponse.

Si vous effectuez un test t "échantillons non liés" ou "non apparié", faut-il utiliser une correction de Welch?

Ceci (pour l'utiliser sauf si vous avez des raisons de penser que les écarts doivent être égaux) est l'avis de nombreuses références. Je pointe vers certains dans cette réponse.

Certaines personnes utilisent un test d’hypothèse pour l’égalité des variances, mais dans ce cas, le pouvoir serait faible. En général, je me contente de savoir si les échantillons de SD sont «raisonnablement» proches (ou non) (ce qui est un peu subjectif, il doit donc exister une méthode plus raisonnée), mais là encore, avec un faible n, il se peut fort bien que les SD de la population soient un peu plus loin en dehors de ceux de l'échantillon.

Est-il plus sûr simplement de toujours utiliser la correction de Welch pour les petits échantillons, sauf s’il ya de bonnes raisons de croire que les variances de population sont égales? C'est ce que le conseil est. Les propriétés des tests sont affectées par le choix basé sur le test d'hypothèse.

Quelques références à ce sujet peuvent être vues ici et ici , bien qu’il y en ait plus qui disent des choses similaires.

Le problème des variances égales a de nombreuses caractéristiques similaires au problème de la normalité - les gens veulent le tester, les conseils suggèrent que le choix du conditionnement des tests sur les résultats des tests peut affecter négativement les résultats des deux types de tests ultérieurs - il est préférable de ne pas supposer quoi vous ne pouvez pas justifier de manière adéquate (en raisonnant sur les données, en utilisant les informations d'autres études portant sur les mêmes variables, etc.).

Cependant, il y a des différences. La première est que - du moins en ce qui concerne la distribution de la statistique de test sous l'hypothèse nulle (et donc sa robustesse en termes de niveau) - la non-normalité est moins importante dans les grands échantillons (du moins en ce qui concerne le niveau de signification, bien que la puissance toujours un problème si vous avez besoin de trouver de petits effets), alors que l’effet de variances inégales sous l’hypothèse de variance égale ne disparaît pas vraiment avec un échantillon de grande taille.

Quelle méthode de principe peut être recommandée pour choisir le test le plus approprié lorsque la taille de l'échantillon est "petite"?

Avec les tests d'hypothèses, ce qui compte (dans certaines conditions) est principalement constitué de deux choses:

  • Quel est le taux d'erreur réel de type I?

  • Quel est le comportement de pouvoir?

Nous devons également garder à l’esprit que si nous comparons deux procédures, changer la première changera la seconde (c’est-à-dire que si elles ne sont pas menées au même niveau de signification, vous vous attendriez à ce que soit associé à puissance supérieure).α

En gardant à l’esprit ces petits problèmes, existe-t-il une bonne liste de contrôle à utiliser pour décider entre les tests t et non paramétriques?

J'examinerai un certain nombre de situations dans lesquelles je formulerai des recommandations, en tenant compte à la fois de la possibilité de non-normalité et de variances inégales. Dans tous les cas, prenons la mention du test t pour impliquer le test de Welch:

  • n moyen-grand

Non normal (ou inconnu), susceptible d'avoir une variance presque égale:

Si la distribution est lourde, vous serez généralement mieux avec un Mann-Whitney, bien que si elle est légèrement lourde, le test t devrait bien se dérouler. Avec des queues lumineuses, le test t peut (souvent) être préféré. Les tests de permutation sont une bonne option (vous pouvez même faire un test de permutation en utilisant une statistique t si vous le souhaitez). Les tests Bootstrap conviennent également.

Variance non normale (ou inconnue), inégale (ou relation de variance inconnue):

Si la distribution est lourde, vous serez généralement mieux avec un Mann-Whitney - si l'inégalité de variance est uniquement liée à l'inégalité de la moyenne - c'est-à-dire que si H0 est vrai, la différence d'étalement devrait également être absente. Les GLM sont souvent une bonne option, surtout s’il existe une asymétrie et que la propagation est liée à la moyenne. Un test de permutation est une autre option, avec une mise en garde similaire à celle des tests basés sur les rangs. Les tests bootstrap sont une bonne possibilité ici.

Zimmerman et Zumbo (1993) suggèrent un test de Welch sur les rangs qui, à leur avis, donne de meilleurs résultats que le test de Wilcoxon-Mann-Whitney dans les cas où les variances sont inégales.[1]

  • n modérément petit

Les tests de classement sont des valeurs par défaut raisonnables ici si vous vous attendez à une non-normalité (à nouveau avec l'avertissement ci-dessus). Si vous avez des informations externes sur la forme ou la variance, vous pouvez envisager les GLM. Si vous vous attendez à ce que les choses ne soient pas trop éloignées de la normale, les tests t peuvent convenir.

  • n très petit

En raison du problème posé par l’obtention de niveaux de signification appropriés, ni les tests de permutation ni les tests de classement ne sont appropriés, et pour les plus petites tailles, un test t peut être la meilleure option (il est possible de le renforcer légèrement). Cependant, il existe un bon argument pour utiliser des taux d'erreur plus élevés de type I avec de petits échantillons (sinon, vous laissez les taux d'erreur de type II gonfler tout en maintenant constants les taux d'erreur de type I). Voir aussi de Winter (2013) .[2]

Les conseils doivent être quelque peu modifiés lorsque les distributions sont à la fois fortement asymétriques et très discrètes, telles que les éléments d’échelle de Likert où la plupart des observations se trouvent dans l’une des catégories finales. Dans ce cas, le test Wilcoxon-Mann-Whitney n’est pas nécessairement meilleur que le test t.

La simulation peut aider à orienter davantage les choix lorsque vous avez des informations sur les circonstances probables.

Je comprends que c’est un sujet d'actualité, mais la plupart des questions portent sur l'ensemble de données du questionneur, parfois sur une discussion plus générale du pouvoir, et parfois sur la marche à suivre si deux tests ne sont pas d'accord, mais j'aimerais qu'une procédure sélectionne le bon test la première place!

Le principal problème est combien il est difficile de vérifier l'hypothèse de normalité dans un petit ensemble de données:

Il est difficile de vérifier la normalité dans un petit ensemble de données, et dans une certaine mesure, c'est une question importante, mais je pense qu'il y a une autre question d'importance que nous devons examiner. Un problème fondamental est que le fait d’évaluer la normalité en tant que base de choix entre tests a un impact négatif sur les propriétés des tests que vous choisissez.

Tout test formel de normalité aurait une faible puissance, de sorte que les violations pourraient ne pas être détectées. (Personnellement, je ne voudrais pas tester à cette fin, et je ne suis clairement pas le seul, mais j'ai trouvé ce petit avantage lorsque des clients demandent qu'un test de normalité soit effectué, car c'est ce que leur manuel ou leurs anciennes notes de conférence ou un site Web qu'ils ont trouvé une fois C’est l’un des points où une citation plus sérieuse serait la bienvenue.)

Voici un exemple de référence (il y en a d'autres) qui est sans équivoque (Fay et Proschan, 2010 ):[3]

Le choix entre t et WMW DR ne devrait pas être basé sur un test de normalité.

Ils sont pareillement sans équivoque sur le fait de ne pas tester l'égalité de variance.

Pour aggraver les choses, il est dangereux d'utiliser le théorème de la limite centrale comme filet de sécurité: pour les petits n, nous ne pouvons pas nous fier à la normalité asymptotique pratique des statistiques de test et de la distribution t.

Ni même dans les grands échantillons - la normalité asymptotique du numérateur ne signifie pas que la statistique t aura une distribution t. Cependant, cela peut ne pas être très important, car vous devriez toujours avoir une normalité asymptotique (par exemple, CLT pour le numérateur, et le théorème de Slutsky suggèrent que la statistique t devrait finalement commencer à paraître normale, si les conditions des deux conditions sont réunies.)

Une réponse de principe à cela est «la sécurité d'abord»: comme il est impossible de vérifier de manière fiable l'hypothèse de normalité sur un petit échantillon, effectuez plutôt un test non paramétrique équivalent.

C'est en fait le conseil que les références que je mentionne (ou le lien vers des mentions de) donnent.

Une autre approche que j’ai vue mais que je me sens moins à l'aise consiste à effectuer une vérification visuelle et à effectuer un test t si rien d’observateur n’est observé ("aucune raison de rejeter la normalité", en ignorant la faible puissance de cette vérification). Mon penchant personnel est de déterminer s’il existe des motifs de supposer une normalité: théorique (par exemple, la variable est la somme de plusieurs composantes aléatoires et le CLT s’applique) ou empirique (par exemple, des études antérieures avec n plus grand suggèrent que la variable est normale).

Ces deux arguments sont de bons arguments, en particulier lorsque le test t est raisonnablement robuste contre les écarts modérés par rapport à la normalité. (Il faut cependant garder à l’esprit que "déviations modérées" est une phrase difficile; certains types de déviations par rapport à la normalité peuvent avoir un impact assez important sur la puissance du test t, même si ces déviations sont visuellement très petites - le t- Le test est moins robuste à certains écarts que d’autres, nous devons le garder à l’esprit chaque fois que nous discutons de petits écarts par rapport à la normalité.)

Attention, toutefois, le libellé "suggère que la variable est normale". Etre raisonnablement compatible avec la normalité n'est pas la même chose que la normalité. Nous pouvons souvent rejeter la normalité réelle sans même avoir besoin de voir les données - par exemple, si les données ne peuvent pas être négatives, la distribution ne peut pas être normale. Heureusement, l’important est plus proche de ce que nous pourrions en réalité tirer d’études ou de raisonnements antérieurs sur la composition des données, à savoir que les écarts par rapport à la normalité devraient être faibles.

Si tel est le cas, j'utiliserais un test t si les données passaient avec un contrôle visuel, sinon je m'en tenais à des paramètres non paramétriques. Mais tous les motifs théoriques ou empiriques ne justifient généralement que de supposer une normalité approximative, et par faibles degrés de liberté, il est difficile de juger à quel point il est normal que la situation soit normale pour ne pas invalider un test t.

Eh bien, c’est quelque chose dont nous pouvons évaluer l’impact assez facilement (par exemple, via des simulations, comme je l’ai mentionné plus tôt). D'après ce que j'ai vu, l'asymétrie semble avoir plus d'importance que les queues épaisses (mais d'un autre côté, j'ai vu des affirmations du contraire, bien que je ne sache pas sur quoi elles reposent).

Pour les personnes qui considèrent le choix des méthodes comme un compromis entre puissance et robustesse, les affirmations sur l'efficacité asymptotique des méthodes non paramétriques sont inutiles. Par exemple, la règle de base selon laquelle "les tests de Wilcoxon ont environ 95% de la puissance d'un test t si les données sont réellement normales, et sont souvent beaucoup plus puissantes si les données ne le sont pas, alors utilisez simplement un test Wilcoxon" est parfois entendu, mais si les 95% ne s’appliquent qu’aux grands n, c’est un raisonnement imparfait pour des échantillons plus petits.

Mais nous pouvons vérifier assez facilement la puissance de petits échantillons! Il est assez facile de simuler pour obtenir des courbes de puissance comme ici .
(Encore une fois, voir aussi de Winter (2013) ).[2]

Après avoir effectué de telles simulations dans diverses circonstances, à la fois pour les échantillons à deux échantillons et pour les échantillons à différence paire / paires, la faible efficacité de l'échantillon à la normale dans les deux cas semble être un peu inférieure à l'efficacité asymptotique, mais l'efficacité du rang signé et les tests de Wilcoxon-Mann-Whitney sont toujours très élevés, même avec des échantillons de très petite taille.

Du moins si les tests sont effectués au même niveau de signification réel; vous ne pouvez pas faire un test à 5% avec de très petits échantillons (et le moins pas sans tests aléatoires par exemple), mais si vous êtes prêt à faire (par exemple) un test à 5,5% ou 3,2% à la place, alors les tests de rang résiste très bien en effet par rapport à un test t à ce niveau de signification.

De petits échantillons peuvent rendre très difficile, voire impossible, d'évaluer si une transformation est appropriée pour les données car il est difficile de savoir si les données transformées appartiennent à une distribution (suffisamment) normale. Ainsi, si un graphique QQ révèle des données très positivement asymétriques, ce qui semble plus raisonnable après la prise de journaux, est-il prudent d'utiliser un test t sur les données enregistrées? Sur des échantillons plus grands, cela serait très tentant, mais avec un petit n, je m'attendrais probablement à moins qu'il y ait des raisons de s'attendre à une distribution log-normale au départ.

Il existe une autre alternative: faire une hypothèse paramétrique différente. Par exemple, s'il existe des données asymétriques, on pourrait par exemple, dans certaines situations, considérer raisonnablement une distribution gamma, ou une autre famille asymétrique comme une meilleure approximation - dans des échantillons moyennement volumineux, nous pourrions simplement utiliser un GLM, mais dans de très petits échantillons il peut être nécessaire de recourir à un test sur un petit échantillon - dans de nombreux cas, la simulation peut être utile.

Alternative 2: robustifier le test t (en prenant soin de choisir une procédure robuste afin de ne pas trop discrétiser la distribution résultante des statistiques du test) - cela présente certains avantages par rapport à une procédure non paramétrique à très petit échantillon, telle que la capacité considérer des tests à faible taux d'erreur de type I.

Je pense ici à utiliser, par exemple, les M-estimateurs de localisation (et les estimateurs d’échelle associés) dans la statistique t pour renforcer en douceur les écarts par rapport à la normalité. Quelque chose qui ressemble au Welch, comme:

xySp

où et , etc. étant des estimations robustes de l'emplacement et de l'échelle, respectivement.Sp2=sx2nx+sy2nyxsx

Je chercherais à réduire toute tendance de la statistique à la discrétion. J'éviterais donc des choses telles que la compression et la minéralisation, car si les données d'origine étaient discrètes, la compression, etc., exacerberait cette situation; En utilisant des approches de type M-estimation avec une fonction lisse vous obtenez des effets similaires sans contribuer à la discrétion. N'oubliez pas que nous essayons de gérer la situation où est très petit (environ 3 à 5, dans chaque échantillon, par exemple), de sorte que même l'estimation M a potentiellement des problèmes.ψn

Vous pouvez, par exemple, utiliser la simulation à la normale pour obtenir des valeurs p (si la taille des échantillons est très petite, je suggérerais de suramorcer - si les tailles des échantillons ne sont pas si petites, un bootstrap soigneusement implémenté peut très bien fonctionner , mais nous pourrions aussi bien revenir à Wilcoxon-Mann-Whitney). Il y a un facteur d'échelle ainsi qu'un ajustement df pour arriver à ce que j'imagine alors être une approximation t raisonnable. Cela signifie que nous devrions obtenir le type de propriétés que nous recherchons très près de la normale et avoir une robustesse raisonnable à proximité de la normale. Il y a un certain nombre de problèmes qui sortent du cadre de la question actuelle, mais je pense que dans un très petit échantillon, les avantages devraient l'emporter sur les coûts et les efforts supplémentaires requis.

[Je n'ai pas lu la littérature sur ce sujet depuis très longtemps, donc je n'ai pas de références appropriées à offrir sur ce point.]

Bien sûr, si vous ne vous attendiez pas à ce que la distribution soit un peu normale, mais plutôt similaire à une autre distribution, vous pouvez procéder à une robustification appropriée d'un test paramétrique différent.

Et si vous voulez vérifier les hypothèses pour les paramètres non paramétriques? Certaines sources recommandent de vérifier une distribution symétrique avant d'appliquer un test de Wilcoxon, ce qui soulève des problèmes similaires à la vérification de la normalité.

En effet. Je suppose que vous voulez parler du test de rang signé *. Dans le cas de son utilisation sur des données appariées, si vous êtes prêt à supposer que les deux distributions ont la même forme, à l'exception du changement d'emplacement, vous êtes en sécurité, car les différences doivent alors être symétriques. En fait, nous n’avons même pas besoin de beaucoup; pour que le test fonctionne, vous avez besoin de la symétrie sous le zéro; cela n’est pas requis dans l’alternative (par exemple, considérons une situation appariée avec des distributions continues asymétriques de droite de forme identique sur la demi-ligne positive, où les échelles diffèrent selon l’alternative mais non sous la valeur nulle; le test de rang signé devrait fonctionner essentiellement comme prévu dans ce cas). L'interprétation du test est plus facile si l'alternative est un changement d'emplacement.

* (Le nom de Wilcoxon est associé aux tests de rangs à un et deux échantillons - rangs et totaux de rangs signés; avec leur test U, Mann et Whitney ont généralisé la situation étudiée par Wilcoxon et ont introduit d'importantes nouvelles idées pour évaluer la distribution nulle, mais La priorité entre les deux groupes d’auteurs du Wilcoxon-Mann-Whitney est clairement celle de Wilcoxon - donc du moins si nous ne considérons que Wilcoxon vs Mann & Whitney, Wilcoxon figure en premier dans mon livre, mais il semble que la loi de Stigler me bat encore une fois, et Wilcoxon. devrait peut-être partager une partie de cette priorité avec un certain nombre de contributeurs antérieurs et (à part Mann et Whitney) devrait partager le crédit avec plusieurs découvreurs d'un test équivalent. [4] [5])

Références

[1]: Zimmerman DW et Zumbo BN, (1993),
Les transformations de rang et le pouvoir du test t de Student et du test t de Welch pour les populations non normales,
Canadian Journal Experimental Psychology, 47 : 523–39.

[2]: JCF de Winter (2013),
"Utilisation du test t de Student avec des échantillons extrêmement petits"
, Évaluation pratique, recherche et évaluation , 18 : 10, août, ISSN 1531-7714
http://pareonline.net/. getvn.asp? v = 18 & n = 10

[3]: Michael P. Fay et Michael A. Proschan (2010),
«Wilcoxon-Mann-Whitney ou test t? Sur les hypothèses pour les tests d'hypothèses et les interprétations multiples des règles de décision»,
Stat Surv ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Berry, KJ, Mielke, PW et Johnston, JE (2012),
"Le test de classement par somme sur deux échantillons: développement précoce",
Revue électronique d'histoire de la probabilité et de statistiques , vol.8, décembre
pdf

[5]: Kruskal, WH (1957),
"Notes historiques sur le test de Wilcoxon non apparié à deux échantillons",
Journal de l'American Statistical Association , 52 , 356–360.

Glen_b
la source
Quelques points sur lesquels j'aimerais des éclaircissements. Par exemple, vous mentionnez "Si la distribution est lourde, ..." (ou asymétrique, etc.) - cela devrait probablement être interprété comme "s'il est raisonnable de supposer que la distribution sera lourde" (de la théorie / études précédentes / peu importe) plutôt que «si l’échantillon est lourd», sinon nous reviendrons au test en plusieurs étapes, quelle est la chose que nous essayons d’éviter? (Il me semble qu'une question centrale dans ce sujet est de savoir comment justifier des croyances ou des hypothèses sur les distributions, sans en lire trop dans l'échantillon.)
Silverfish
Oui, cela devrait être compris comme suit: "on sait que la population est à queue lourde ou peut raisonnablement s'attendre à ce qu'elle soit à queue lourde". Cela inclut certainement des choses comme la théorie (ou parfois même un raisonnement général sur une situation qui n’atteint pas le statut de théorie ), des connaissances d’experts et des études antérieures. Cela ne suggère pas de tester la capacité de charge. Dans des situations où cela est tout simplement inconnu, il peut être intéressant d’enquêter sur les conséquences négatives de diverses distributions qui pourraient être plausibles dans votre situation particulière.
Glen_b
Toute chance que cette réponse déjà excellente puisse incorporer un peu plus de détails sur les options possibles pour "renforcer" le test t?
Silverfish
Silverfish - Je ne sais pas si j'ai suffisamment répondu à votre question en demandant des détails sur la robustification. Je vais en ajouter un peu plus maintenant.
Glen_b
Merci beaucoup pour l'addition, j'ai pensé que cela ajoutait beaucoup à la qualité de cette réponse. Maintenant, cette question s'est un peu calmée et a généré une bonne série de réponses. J'aimerais donc bien éditer le texte de la question d'origine et supprimer tout ce qui pourrait être trompeur (au profit des lecteurs qui ne lisent pas la question!). Est-ce que je peux quand même apporter les modifications appropriées à votre réponse afin que les citations correspondent à la question réorganisée?
Silverfish
22

À mon avis, l'approche fondée sur des principes reconnaît que (1) les tests et évaluations graphiques de la normalité ont une sensibilité insuffisante et que l'interprétation des graphiques n'est souvent pas objective, (2) les procédures en plusieurs étapes ont des caractéristiques de fonctionnement incertaines, (3) de nombreux tests non paramétriques ont d'excellentes caractéristiques de fonctionnement dans des situations dans lesquelles les tests paramétriques ont une puissance optimale, et (4) la transformation correcte de n'est généralement pas la fonction d'identité, et non paramétriquek t PYk-Les tests d'échantillon sont invariants par rapport à la transformation choisie (ce qui n'est pas le cas pour les tests à échantillon unique tels que le test de Wilcoxon avec classement signé). En ce qui concerne (2), les procédures en plusieurs étapes sont particulièrement problématiques dans des domaines tels que le développement de médicaments où les agences de surveillance telles que la FDA s'inquiètent à juste titre d'une possible manipulation des résultats. Par exemple, un chercheur peu scrupuleux peut facilement oublier de signaler le test de normalité si le test pour résultat une valeur faible .tP

En mettant tout cela ensemble, voici quelques conseils suggérés:

  1. S'il n'y a pas de raison impérieuse de supposer une distribution gaussienne avant d'examiner les données et qu'aucun ajustement de covariable n'est nécessaire, utilisez un test non paramétrique.
  2. Si un ajustement de la covariable est nécessaire, utilisez la généralisation par régression semiparamétrique du test de rang que vous préférez. Pour le test de Wilcoxon, il s’agit du modèle des probabilités proportionnelles et, pour un test des scores normaux, de la régression ordinale probit.

Ces recommandations sont assez générales, bien que votre kilométrage puisse varier pour certaines petites tailles d’échantillons. Mais nous savons que pour des échantillons plus grands, l'efficacité relative du test à 2 échantillons de Wilcoxon et des tests de rangs signés par rapport au test (si la variance est la même dans le cas des 2 échantillons) est de et que l'efficacité relative des tests de rangs est souvent très supérieure à 1,0 lorsque la distribution gaussienne ne tient pas. Pour moi, la perte d'information dans l' utilisation de tests de rang est très faible par rapport aux gains possibles, la robustesse et la liberté d'avoir à préciser la transformation de .3t Y3πY

Les tests non paramétriques peuvent bien fonctionner même si leurs hypothèses d'optimalité ne sont pas satisfaites. Pour le problème de échantillon, les tests de rangs ne font aucune hypothèse sur la distribution d'un groupe donné; ils ne supposent que la façon dont les distributions des groupes sont connectées les unes aux autres, si vous souhaitez que le test soit optimal. Pour un modèle ordinal de probabilité cumulée les distributions sont supposées être en aléas proportionnels. Pour un modèle de probabilité cumulative de lien logit (modèle de probabilité proportionnelle), les distributions sont supposées être connectées par les hypothèses de probabilité proportionnelle, c'est-à-dire que les logits des fonctions de distribution cumulative sont parallèles. La forme de l'une des distributions est sans importance. Les détails peuvent être trouvés dansk - log - logkklogloghttp://biostat.mc.vanderbilt.edu/CourseBios330 au chapitre 15 de la documentation.

Deux types d’hypothèses d’une méthode statistique fréquentiste sont fréquemment envisagés. La première concerne les hypothèses nécessaires pour que la méthode préserve l’erreur de type I. La seconde concerne la préservation des erreurs de type II (optimalité; sensibilité). Je pense que le meilleur moyen d’exposer les hypothèses nécessaires pour la seconde étape consiste à intégrer un test non paramétrique dans un modèle semi-paramétrique, comme indiqué ci-dessus. La connexion réelle entre les deux provient de tests de scores efficaces de Rao issus du modèle semi-paramétrique. Le numérateur du test de score à partir d'un modèle de cotes proportionnelles pour le cas à deux échantillons est exactement la statistique de la somme des rangs.

Frank Harrell
la source
1
Merci pour cela, je suis très sympathique à la philosophie de cette réponse - par exemple, de nombreuses sources suggèrent que je devrais au moins vérifier les données pour voir si les données sont normales avant de décider d'un test. Mais ce type de procédure en plusieurs étapes influence clairement, bien que de manière subtile, le fonctionnement des tests.
Silverfish
1
Quelques questions: (1) supposons qu'il y a de bonnes raisons de supposer une distribution gaussienne a priori (par exemple, des études précédentes), nous préférons donc un test t. Pour toute petite il n'y a pas de point d' essayer d'évaluer la normalité - il n'y aurait aucun moyen de détecter sa violation. Mais pour environ, un graphique QQ peut très bien apparaître, par exemple en cas de biais important. La philosophie consistant à éviter les procédures en plusieurs étapes signifie-t-elle que nous devrions simplement justifier notre hypothèse de normalité, puis continuer sans vérifier la distribution apparente de nos données? De la même manière, dans le cas de l'échantillon k , devrions-nous par défaut supposer des variances inégales plutôt que d'essayer de les vérifier? n = 15nn=15
Silverfish
3
(+1) Je me demande quelle est votre opinion sur les tests de permutation de Mann-Whitney-Wilcoxon (je fais référence au test de permutation de Monte-Carlo, lorsque les étiquettes de groupe sont mélangées, par exemple fois et que la valeur est calculée directement comme suit: le nombre de remaniements entraînant une différence de groupe plus grande)? p10000p
amibe
4
Les tests de permutation permettent de contrôler les erreurs de type I, mais ne traitent pas les erreurs de type II. Un test de permutation basé sur des statistiques sous-optimales (par exemple, moyenne et variance ordinaires lorsque les données proviennent d'une distribution log-gaussienne) souffrira en termes de puissance.
Frank Harrell
3
Oui, le chapitre 15 des documents est développé dans un nouveau chapitre de la deuxième édition de mon livre, que je soumettrai à l'éditeur le mois prochain.
Frank Harrell
13

Rand Wilcox dans ses publications et livres soulignent des points très importants, dont beaucoup ont été énumérés par Frank Harrell et Glen_b dans des articles précédents.

  1. La moyenne n'est pas nécessairement la quantité sur laquelle nous voulons faire des déductions. Il y a peut-être d'autres quantités qui illustrent mieux une observation typique .
  2. Pour les tests t, la puissance peut être faible, même pour de petits écarts par rapport à la normalité.
  3. Pour les tests t, la couverture de probabilité observée peut être substantiellement différente de la couverture nominale.

Quelques suggestions clés sont:

  1. Une alternative robuste consiste à comparer les moyennes ajustées ou les M-estimateurs à l’aide du test t. Wilcox suggère 20% de moyennes ajustées.
  2. Les méthodes empiriques de vraisemblance sont théoriquement plus avantageuses ( Owen, 2001 ), mais pas nécessairement pour les moyennes n petites.
  3. Les tests de permutation sont parfaits si l'on doit contrôler une erreur de type I, mais on ne peut pas obtenir de CI.
  4. Dans de nombreuses situations, Wilcox propose le bootstrap-t pour comparer les moyennes ajustées. Dans R, ceci est implémenté dans les fonctions youubt , yhbt du paquetage WRS .
  5. Le pourcentage d’amorçage peut être meilleur que le pourcentage-t lorsque la quantité de rognage est> / = 20%. En R, cela est implémenté dans la fonction pb2gen du progiciel WRS susmentionné .

Wilcox ( 2010 ) et Wilcox ( 2012 ) sont deux bonnes références .

Thomas Speidel
la source
8

Bradley, dans son ouvrage intitulé Tests statistiques sans distribution (1968, p. 17-24) , présente treize contrastes entre ce qu'il appelle des tests "classiques" et des tests "sans distribution". Notez que Bradley fait la distinction entre "non paramétrique" et "sans distribution", mais pour les besoins de votre question, cette différence n'est pas pertinente. Ces treize éléments comprennent des éléments qui ne concernent pas uniquement les dérivations des tests, mais également leurs applications. Ceux-ci inclus:

  • Choix du niveau de signification: les tests classiques ont des niveaux de signification continus; Les tests sans distribution ont généralement des observations discrètes sur les niveaux de signification, de sorte que les tests classiques offrent plus de flexibilité dans l'établissement de ce niveau.
  • Validité logique de la région de rejet: les régions de rejet du test sans distribution peuvent être moins compréhensibles intuitivement (ni nécessairement lisses ni continues) et peuvent créer une confusion quant au moment où le test doit être considéré comme ayant rejeté l'hypothèse nulle.
  • Types de statistiques qui peuvent être testées : Pour citer Bradley directement: "Les statistiques définies en termes d'opérations arithmétiques sur des grandeurs d'observation peuvent être testées par des techniques classiques, celles définies par des relations d'ordre (rang) ou des fréquences de catégorie, etc. Les moyennes et les variances sont des exemples de la première et des médianes et des étendues interquartiles de la dernière. "Surtout dans le cas de distributions non normales, la possibilité de tester d'autres statistiques devient précieuse, donnant du poids aux tests sans distribution. .
  • Testabilité des interactions d'ordre supérieur: beaucoup plus facile avec les tests classiques que les tests sans distribution.
  • Influence de la taille de l'échantillon:C’est assez important à mon avis. Lorsque la taille des échantillons est petite (Bradley dit autour de n = 10), il peut être très difficile de déterminer si les hypothèses paramétriques sous-jacentes aux tests classiques ont été violées ou non. Les tests sans distribution ne doivent pas violer ces hypothèses. De plus, même lorsque les hypothèses n’ont pas été violées, les tests sans distribution sont souvent presque aussi faciles à appliquer et presque aussi efficaces qu’un test. Donc, pour les petits échantillons (moins de 10, possible jusqu’à 30), Bradley est favorable à l’application presque systématique de tests sans distribution. Pour les grands échantillons, le théorème de la limite centrale a tendance à écraser les violations paramétriques en ce sens que la moyenne et la variance de l'échantillon tendent à la normale et que les tests paramétriques peuvent être supérieurs en termes d'efficacité.
  • Champ d'application: En l'absence de distribution, de tels tests sont applicables à une classe de population beaucoup plus large que les tests classiques supposant une distribution spécifique.
  • Détectabilité de la violation de l'hypothèse d'une distribution continue: Facile à voir dans les tests sans distribution (par exemple, existence de scores liés), plus difficile dans les tests paramétriques.
  • Effet de la violation de l'hypothèse d'une distribution continue: Si l'hypothèse est violée, le test devient inexact. Bradley passe du temps à expliquer comment on peut estimer les limites de l'inexactitude pour des tests sans distribution, mais il n'y a pas de routine analogue pour les tests classiques.
Avraham
la source
1
Merci pour la citation! Le travail de Bradley semble assez ancien, alors je suppose qu'il n'a pas beaucoup à faire sur des études de simulation modernes pour comparer l'efficacité et les taux d'erreur de type I / II dans différents scénarios. Je serais également intéressé par ce qu’il suggère à propos des tests de Brunner-Munzel - faut-il les utiliser à la place d’un test U si les variances dans les deux groupes ne sont pas connues pour être égales?
Silverfish
1
Bradley discute des efficiences, bien que la plupart du temps, il s’agisse d’une efficacité relative asymptotique. Il apporte parfois des sources pour des déclarations sur l'efficacité de la taille d'échantillon fini, mais comme le travail commence en 1968, je suis convaincu que de bien meilleures analyses ont été effectuées depuis. En parlant de cela, si je ne me trompe pas, Brunner et Munzel ont écrit leur article en 2000 , ce qui explique pourquoi il n’en est pas fait mention dans Bradley.
Avraham
Oui ça l'expliquerait bien! :) Savez-vous s'il existe une enquête plus à jour que Bradley?
Silverfish
Une brève recherche montre qu’il existe de nombreux textes récents sur les statistiques non paramétriques. Par exemple: méthodes statistiques non paramétriques (Hollander et al, 2013), tests d'hypothèses non paramétriques: méthodes de rang et de permutation avec applications en R (Bonnini et al, 2014), Inférence statistique non paramétriques, cinquième édition (Gibbons et Chakraborti, 2010). Il y en a beaucoup d'autres qui apparaissent dans diverses recherches. Comme je n'en ai pas, je ne peux faire aucune recommandation. Pardon.
Avraham
5

Commence à répondre à cette question très intéressante.

Pour les données non appariées:

Performance de cinq tests d'emplacement sur deux échantillons pour des distributions asymétriques à variances inégales par Morten W. Fagerland, Leiv Sandvik (derrière Paywall) effectue une série d'expériences avec 5 tests différents (test t, Welch U, Yuen-Welch, Wilcoxon-Mann -Whitney et Brunner-Munzel) pour différentes combinaisons de taille d’échantillon, de taux d’échantillon, de sortie de la normalité, etc. Le papier finit par suggérer Welch U en général,

Mais l'annexe A du document énumère les résultats pour chaque combinaison de tailles d'échantillons. Et pour des échantillons de petite taille (m = 10 n = 10 ou 25), les résultats sont plus confus (comme prévu) - d'après mon estimation des résultats (autres que ceux des auteurs), Welch U, Brunner-Munzel semble se comporter aussi bien et Le test t également bien dans m = 10 et n = 10 cas.

C'est ce que je sais jusqu'à présent.

Pour une solution «rapide», je citais auparavant Sensibilisation accrue des médecins à l’impact des statistiques sur les résultats de la recherche: Comparaison de la puissance du test t et du test de Wilcoxon Rank-Sum sur des échantillons réduits Recherche appliquée de Patrick D Bridge et Shlomo S Sawilowsky (également derrière paywall) et aller directement à Wilcoxon quelle que soit la taille de l’échantillon, mais attention , par exemple, devons-nous toujours choisir un test non paramétrique lorsque nous comparons deux distributions apparemment non normales? par Eva Skovlund et Grete U. Fensta .

Je n'ai pas encore trouvé de résultats similaires pour les données appariées

Jacques Wainer
la source
J'apprécie les citations! Par souci de clarté, est-ce que le "Welch U" est mentionné, le même test est également connu sous le nom de "Welch t" ou "Welch-Aspin t" ou (comme je l'appelle peut-être une impropie dans la question) "test avec correction de Welch" ?
Silverfish
D'après ce que j'ai compris dans le document, Welch U n'est pas l'habituel Welch-Aspin - il n'utilise pas l'équation de Welch-Satterthwaite pour les degrés de liberté, mais une formule qui présente une différence entre le cube et le carré de l'échantillon. Taille.
Jacques Wainer
Est-ce toujours un test t, malgré son nom? Partout ailleurs, je cherche «Welch U», il me semble que cela fait référence au Welch-Aspin, ce qui est frustrant.
Silverfish
1

Simuler la différence de moyennes des populations gamma

Comparaison du test t et du test de Mann Whitney

Résumé des résultats

  • Lorsque la variance des deux populations est la même, le test de Mann Whitney a un pouvoir réel plus grand, mais aussi une erreur de type 1 plus grande que le test t.
  • H0
  • Lorsque la variance de deux populations est différente, le test de Mann Whitney conduit à une erreur de type 1 importante, même lorsque les moyennes sont identiques. Ceci est attendu depuis que Mann Whitney teste la différence dans les distributions, pas dans les moyennes.
  • Le test t est robuste aux différences de variance mais à des moyennes identiques

Expérience 1) Différentes moyennes, même variance

θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

Sources:

Répartition de la population

entrez la description de l'image ici

Résultats de la simulation

entrez la description de l'image ici

Discussion

  • N=10
  • Pour toutes les tailles d’échantillons, le test de Mann Whitney a plus de puissance que le test t et, dans certains cas, par un facteur 2.
  • Pour toutes les tailles d’échantillons, le test de Mann Whitney présente une plus grande erreur de type I, et ceci par un facteur ou deux.
  • Le test t a une faible puissance pour des échantillons de petite taille

Discussion : lorsque la variance des deux populations est effectivement la même, le test de Mann Whitney surpasse largement le test t en termes de puissance pour un échantillon de petite taille, mais présente un taux d'erreur de type 1 plus élevé


Expérience 2: Différences différentes, même moyenne

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

Discussion Les résultats de la simulation montrent que le test t est très robuste face à une variance différente et que l'erreur de type I est proche de 5% pour toutes les tailles d'échantillon. Comme prévu, le test de Mann Whitney fonctionne mal dans ce cas car il ne teste pas une différence de moyenne mais une différence de distribution.

entrez la description de l'image ici

Xavier Bourret Sicotte
la source