Évaluations «approximativement normales» pour les tests t

12

Je teste l'égalité des moyens en utilisant le test t de Welch. La distribution sous-jacente est loin d'être normale (plus asymétrique que l'exemple dans une discussion connexe ici ). Je peux obtenir plus de données, mais je souhaiterais une méthode de principe pour déterminer dans quelle mesure.

  1. Existe-t-il une bonne heuristique pour évaluer si la distribution des échantillons est acceptable? Quels écarts par rapport à la normalité sont les plus préoccupants?
  2. Existe-t-il d'autres approches - par exemple, en se basant sur un intervalle de confiance bootstrap pour l'échantillon statistique - qui auraient plus de sens?
cohoz
la source
2
c'est une excellente question. Mis à part les tests de normalité «essentiellement inutiles»? (déjà lié), deux autres questions connexes sont: Comment choisir entre un test t ou un test non paramétrique, par exemple Wilcoxon dans de petits échantillons? et test T pour non normal lorsque N> 50? Une bonne réponse à cette question serait potentiellement utile aux lecteurs de ces deux questions connexes.
Silverfish
Autant que je sache, il n'existe aucun moyen de principe de déterminer la quantité de données dont vous avez besoin pour que la distribution soit "assez normale". En effet, «assez normal» est difficile à définir et dépend de la façon dont la distribution sous-jacente n'est pas normale, en plus de la manière particulière dont vous vous écartez de la normalité. Si vous avez des données sérieusement non normales, j'utiliserais simplement un test non paramétrique à la place. L'inconvénient est que vous ne pourriez pas obtenir des intervalles de confiance qui sont plus utiles que les tests d'hypothèse isolés.
dsaxton
2
Je suis d'accord que "assez normal" est difficile à définir, mais chaque praticien doit faire l'évaluation avant de raisonner sur les données empiriques, c'est pourquoi je suis surpris du peu de discussion que j'ai pu découvrir (peut-être que je regarde au mauvais endroit) . Pour les cas d'utilisation que j'ai à l'esprit ici (qui semblent assez courants), les tests non paramétriques ne sont pas satisfaisants par rapport à la collecte de plus de données pour assurer une distribution d'échantillonnage "assez normale".
cohoz

Réponses:

1

Comme le test t suppose la normalité et que vos distributions sous-jacentes ne sont pas normales, il ne peut pas y avoir de méthode de principe pour déterminer si la distribution de l'échantillon est acceptable. Cependant, à mesure que la taille de l'échantillon devient "grande", le théorème de la limite centrale entre en jeu, et vous pouvez utiliser un test z de grand échantillon, qui vous donnera essentiellement la même réponse qu'un test t car le t se rapproche de la distribution normale avec grands échantillons.

Les livres de statistiques / cours impliquent souvent qu'à une taille d'échantillon de 25 ou 30 CLT entre en jeu d'une manière utile. Cependant, mon expérience a été que même avec des tailles d'échantillon dans les centaines de grands échantillons, les tests z peuvent toujours être assez pauvres (par exemple, avec des données de comptage).

À mon avis, un test de permutation est bien adapté à votre problème. Il devrait avoir une puissance égale ou meilleure que les tests non paramétriques en conserve (par exemple, Mann-Whitney) et vous n'avez pas à vous soucier du problème de normalité. Et ils sont amusants à écrire.

Tim
la source