J'ai lu que le test t est "raisonnablement robuste" lorsque les distributions des échantillons s'écartent de la normalité. Bien sûr, c'est la distribution d'échantillonnage des différences qui est importante. J'ai des données pour deux groupes. L'un des groupes est fortement asymétrique sur la variable dépendante. La taille de l'échantillon est assez petite pour les deux groupes (n = 33 dans l'un et 45 dans l'autre). Dois - je supposer que, dans ces conditions, mon t -test sera robuste aux violations de l'hypothèse de normalité?
t-test
assumptions
normality-assumption
robust
Archéoptéryx
la source
la source
Réponses:
Il est très difficile de bien répondre aux questions sur la robustesse - parce que les hypothèses peuvent être violées de tant de manières, et de différentes manières à différents degrés. Le travail de simulation ne peut échantillonner qu'une très petite partie des violations possibles.
Compte tenu de l'état de l'informatique, je pense qu'il vaut souvent la peine d'exécuter à la fois un test paramétrique et un test non paramétrique, si les deux sont disponibles. Vous pouvez ensuite comparer les résultats.
Si vous êtes vraiment ambitieux, vous pouvez même faire un test de permutation.
Et si Alan Turing avait fait son travail avant que Ronald Fisher ne le fasse? :-).
la source
@PeterFlom a frappé le clou avec sa première phrase.
Je vais essayer de donner un résumé approximatif des études que j'ai vues (si vous voulez des liens, cela peut prendre un certain temps):
Dans l'ensemble, le test t à deux échantillons est raisonnablement robuste à la non-normalité symétrique (le véritable taux d'erreur de type I est quelque peu affecté par le kurtosis, la puissance en est principalement affectée).
Lorsque les deux échantillons sont légèrement asymétriques dans la même direction, le test t unilatéral n'est plus sans biais. La statistique t est biaisée à l'opposé de la distribution et a beaucoup plus de puissance si le test est dans une direction que s'il est dans l'autre. S'ils sont asymétriques dans des directions opposées, le taux d'erreur de type I peut être fortement affecté.
Une asymétrie élevée peut avoir des impacts plus importants, mais d'une manière générale, une asymétrie modérée avec un test bilatéral n'est pas trop mauvaise si cela ne vous dérange pas que votre test attribue essentiellement plus de puissance à une direction que l'autre.
En bref - le test t bilatéral à deux échantillons est raisonnablement robuste à ce genre de choses si vous pouvez tolérer un certain impact sur le niveau de signification et un léger biais.
Il existe de nombreuses façons pour que les distributions ne soient pas normales, cependant, qui ne sont pas couvertes par ces commentaires.
la source
@PeterFlom a déjà mentionné que les études de simulation ne peuvent jamais couvrir tous les scénarios et possibilités et ne peuvent donc pas conduire à une réponse définitive. Cependant, je trouve toujours utile d'explorer réellement un problème comme celui-ci en effectuant des simulations (il se trouve que c'est aussi exactement le type d'exercice que j'aime utiliser lors de l'introduction de l'idée des études de simulation de Monte Carlo aux étudiants). Essayons donc cela. Je vais utiliser R pour cela.
Le code
Explication
Tout d'abord, nous définissons la taille du groupe (
n1
etn2
), les moyennes réelles du groupe (mu1
etmu2
) et les vrais écarts types (sd1
etsd2
).Ensuite, nous définissons le nombre d'itérations à exécuter et configurons des vecteurs pour stocker les valeurs de p dans.
Ensuite, je simule des données sous 5 scénarios:
Notez que j'utilise des distributions khi-deux pour générer les distributions asymétriques. Avec un degré de liberté, ces distributions sont fortement asymétriques. Étant donné que la vraie moyenne et la variance d'une distribution chi carré avec un degré de liberté sont respectivement égales à 1 et 2 ( voir wikipedia ), je redimensionne ces distributions pour avoir d'abord la moyenne 0 et l'écart-type 1, puis je les redimensionne pour avoir le la vraie moyenne et l'écart type souhaités (cela pourrait être fait en une seule étape, mais le faire de cette façon peut être plus clair).
Dans chaque cas, j'applique le test t (version de Welch - on pourrait bien sûr également considérer la version de Student qui suppose des variances égales dans les deux groupes) et enregistrer la valeur de p dans les vecteurs configurés précédemment.
Enfin, une fois toutes les itérations terminées, je calcule pour chaque vecteur la fréquence à laquelle la valeur de p est égale ou inférieure à 0,05 (c'est-à-dire que le test est "significatif"). Il s'agit du taux de rejet empirique.
Quelques résultats
Simuler exactement comme décrit ci-dessus donne:
Si nous changeons le code en
mu1 <- .5
, nous obtenons:Ainsi, par rapport au cas où les deux distributions sont normales (comme supposé par le test), la puissance semble en fait légèrement plus élevée lorsque l'asymétrie est dans la même direction! Si vous êtes surpris par cela, vous voudrez peut-être recommencer plusieurs fois (bien sûr, à chaque fois obtenir des résultats légèrement différents), mais le modèle restera.
Notez que nous devons être prudents avec l'interprétation des valeurs de puissance empiriques dans les deux scénarios où l'asymétrie est dans des directions opposées, car le taux d'erreur de type I n'est pas tout à fait nominal (dans un cas extrême, supposons que je rejette toujours quelles que soient les données alors j'aurai toujours un test avec une puissance maximale, mais bien sûr le test a aussi un taux d'erreur de Type I plutôt gonflé).
On pourrait commencer à explorer une gamme de valeurs pour
mu1
(etmu2
- mais ce qui compte vraiment, c'est la différence entre les deux) et, plus important encore, commencer à changer les véritables écarts-types des deux groupes (c'est-à-dire,sd1
etsd2
) et surtout les rendre inégaux. Je suis également resté fidèle aux tailles d'échantillon mentionnées par l'OP, mais bien sûr, cela pourrait également être ajusté. Et l'asymétrie pourrait bien sûr prendre de nombreuses autres formes que ce que nous voyons dans une distribution chi carré avec un degré de liberté. Je pense toujours que l'approche des choses de cette façon est utile, même si elle ne peut pas donner une réponse définitive.la source
Dans votre situation, le test t sera probablement robuste en termes de taux d'erreur de type I, mais pas de taux d'erreur de type II. Vous obtiendrez probablement plus de puissance soit par a) un test de Kruskal-Wallis, ou b) une transformation de normalisation avant un test t.
Je fonde cette conclusion sur deux études de Monte Carlo. Dans le premier ( Khan et Rayner, 2003 ), l'inclinaison et le kurtosis ont été indirectement manipulés via les paramètres de la famille de distribution g-and-k, et la puissance résultante a été examinée. Il est important de noter que la puissance du test de Kruskal-Wallis a été moins endommagée par la non-normalité, en particulier pour n> = 15.
Quelques mises en garde / réserves à propos de cette étude: Le pouvoir a souvent été blessé par un kurtosis élevé, mais il a été moins affecté par le biais. À première vue, ce modèle peut sembler moins pertinent pour votre situation étant donné que vous avez noté un problème d'asymétrie, pas de kurtosis. Cependant, je parie que l'excès de kurtosis est également extrême dans votre cas. Gardez à l'esprit que l'excès de kurtosis sera au moins aussi élevé que l'inclinaison ^ 2 - 2. (Laissez l'excès de kurtosis égal au 4ème moment standardisé moins 3, de sorte que l'excès de kurtosis = 0 pour une distribution normale.) Notez également que Khan et Rayner ( 2003) ont examiné les ANOVA avec 3 groupes, mais leurs résultats sont susceptibles de se généraliser à un test t à deux échantillons.
Une deuxième étude pertinente ( Beasley, Erikson et Allison, 2009) ont examiné les erreurs de type I et de type II avec diverses distributions non normales, comme un chi carré (1) et Weibull (1, 0,5). Pour des tailles d'échantillon d'au moins 25, le test t a contrôlé de manière adéquate le taux d'erreur de type I à ou en dessous du niveau alpha nominal. Cependant, la puissance était la plus élevée avec un test de Kruskal-Wallis ou avec une transformation normale inverse basée sur le classement (scores de Blom) appliquée avant le test t. Beasley et ses collègues se sont généralement opposés à l'approche de normalisation, mais il convient de noter que l'approche de normalisation contrôlait le taux d'erreur de type I pour n> = 25, et sa puissance dépassait parfois légèrement celle du test de Kruskal-Wallis. Autrement dit, l'approche de normalisation semble prometteuse pour votre situation. Voir les tableaux 1 et 4 dans leur article pour plus de détails.
Les références:
Khan, A. et Rayner, GD (2003) . Robustesse à la non-normalité des tests courants pour le problème de localisation à plusieurs échantillons. Journal of Applied Mathematics and Decision Sciences, 7 , 187-206.
Beasley, TM, Erickson, S., et Allison, DB (2009) . Les transformations normales inverses basées sur le rang sont de plus en plus utilisées, mais sont-elles méritées? Behavioral Genetics, 39 , 580-595.
la source
Tout d'abord, si vous supposez que la distribution des deux échantillons est différente, assurez-vous que vous utilisez la version de Welch du test t qui suppose des variances inégales entre les groupes. Cela tentera au moins de tenir compte de certaines des différences qui se produisent en raison de la distribution.
Si nous regardons la formule du test t de Welch:
nous pouvons voir que chaque fois qu'il y a un s, nous savons que la variance est prise en compte. Imaginons que les deux variances soient en fait les mêmes, mais l'une est asymétrique, ce qui conduit à une estimation de variance différente. Si cette estimation de la variance n'est pas réellement représentative de vos données en raison de l'inclinaison, alors l'effet de biais réel sera essentiellement la racine carrée de ce biais divisée par le nombre de points de données utilisés pour le calculer. Ainsi, l'effet des mauvais estimateurs de variance est un peu atténué par la racine carrée et un n plus élevé, et c'est probablement pourquoi le consensus est qu'il reste un test robuste.
L'autre problème des distributions asymétriques est que le calcul de la moyenne sera également affecté, et c'est probablement là que se posent les vrais problèmes de violation des hypothèses de test, car les moyennes sont relativement sensibles à l'inclinaison. Et la robustesse du test peut être déterminée grossièrement en calculant la différence de moyennes, par rapport à la différence de médianes (à titre d'idée). Peut-être pourriez-vous même essayer de remplacer la différence de moyens par la différence de médianes dans le test t comme une mesure plus robuste (je suis sûr que quelqu'un en a discuté, mais je n'ai pas trouvé quelque chose sur google assez rapidement pour y accéder).
Je suggérerais également d'exécuter un test de permutation si tout ce que vous faites est un test t. Le test de permutation est un test exact, indépendant des hypothèses de distribution. Plus important encore, les tests de permutation et le test t conduiront à des résultats identiques si les hypothèses du test paramétrique sont remplies . Par conséquent, la mesure de robustesse que vous recherchez peut être 1 - la différence entre les valeurs de permutation et de test t, où un score de 1 implique une robustesse parfaite et 0 implique une robustesse nulle.
la source