Je teste l'égalité des moyens en utilisant le test t de Welch. La distribution sous-jacente est loin d'être normale (plus asymétrique que l'exemple dans une discussion connexe ici ). Je peux obtenir plus de données, mais je souhaiterais une méthode de principe pour déterminer dans quelle mesure.
- Existe-t-il une bonne heuristique pour évaluer si la distribution des échantillons est acceptable? Quels écarts par rapport à la normalité sont les plus préoccupants?
- Existe-t-il d'autres approches - par exemple, en se basant sur un intervalle de confiance bootstrap pour l'échantillon statistique - qui auraient plus de sens?
Réponses:
Comme le test t suppose la normalité et que vos distributions sous-jacentes ne sont pas normales, il ne peut pas y avoir de méthode de principe pour déterminer si la distribution de l'échantillon est acceptable. Cependant, à mesure que la taille de l'échantillon devient "grande", le théorème de la limite centrale entre en jeu, et vous pouvez utiliser un test z de grand échantillon, qui vous donnera essentiellement la même réponse qu'un test t car le t se rapproche de la distribution normale avec grands échantillons.
Les livres de statistiques / cours impliquent souvent qu'à une taille d'échantillon de 25 ou 30 CLT entre en jeu d'une manière utile. Cependant, mon expérience a été que même avec des tailles d'échantillon dans les centaines de grands échantillons, les tests z peuvent toujours être assez pauvres (par exemple, avec des données de comptage).
À mon avis, un test de permutation est bien adapté à votre problème. Il devrait avoir une puissance égale ou meilleure que les tests non paramétriques en conserve (par exemple, Mann-Whitney) et vous n'avez pas à vous soucier du problème de normalité. Et ils sont amusants à écrire.
la source