Je vais éliminer tous les détails biologiques et les expériences et citer juste le problème et ce que j'ai fait statistiquement. Je voudrais savoir si c'est son droit, et sinon, comment procéder. Si les données (ou mon explication) ne sont pas assez claires, je vais essayer de mieux expliquer en éditant.
Supposons que j'ai deux groupes / observations, X et Y, avec une taille et . Je voudrais savoir si les moyennes de ces deux observations sont égales. Ma première question est:N y = 40
Si les hypothèses sont satisfaites, est-il pertinent d'utiliser ici un test t paramétrique à deux échantillons? Je pose cette question car d'après ma compréhension, c'est généralement appliqué lorsque la taille est petite?
J'ai tracé des histogrammes à la fois de X et de Y et ils n'étaient pas normalement distribués, l'une des hypothèses d'un test t à deux échantillons. Ma confusion est que, je les considère comme deux populations et c'est pourquoi j'ai vérifié la distribution normale. Mais alors je suis sur le point d'effectuer un test t à deux échantillons ... Est-ce vrai?
D'après le théorème de la limite centrale, je comprends que si vous effectuez l'échantillonnage (avec / sans répétition selon la taille de votre population) plusieurs fois et calculez la moyenne des échantillons à chaque fois, alors il sera distribué normalement normalement. Et, la moyenne de ces variables aléatoires sera une bonne estimation de la moyenne de la population. J'ai donc décidé de le faire sur X et Y, 1000 fois, et j'ai obtenu des échantillons, et j'ai attribué une variable aléatoire à la moyenne de chaque échantillon. L'intrigue était très normalement distribuée. La moyenne de X et Y était de 4,2 et 15,8 (qui étaient les mêmes que la population + - 0,15) et la variance était de 0,95 et 12,11.
J'ai effectué un test t sur ces deux observations (1000 points de données chacune) avec des variances inégales, car elles sont très différentes (0,95 et 12,11). Et l'hypothèse nulle a été rejetée.
Est-ce que cela a du sens? Cette approche est-elle correcte / significative ou un test z à deux échantillons est-il suffisant ou totalement faux?J'ai également effectué un test de Wilcoxon non paramétrique juste pour être sûr (sur les X et Y d'origine) et l'hypothèse nulle a également été rejetée de manière convaincante. Dans le cas où ma méthode précédente était totalement fausse, je suppose que faire un test non paramétrique est bon, sauf pour la puissance statistique peut-être?
Dans les deux cas, les moyennes étaient significativement différentes. Cependant, je voudrais savoir si l'une ou les deux approches sont défectueuses / totalement erronées et si oui, quelle est l'alternative?
la source
Un ajout à la réponse déjà très complète de Greg.
Si je vous comprends bien, votre point 3 énonce la procédure suivante:
Maintenant, votre hypothèse est que, pour cette moyenne, le théorème central limite tient et la variable aléatoire correspondante sera normalement distribuée.
Peut-être jetons un coup d'œil aux mathématiques derrière votre calcul pour identifier l'erreur:
Maintenant, cependant, le théorème central limite indique que la somme d'un grand nombre d' indépendants des variables aléatoires est à peu près normale. (Ce qui se traduit également par une moyenne approximative normale).
Votre somme ci-dessus ne produit pas d'échantillons indépendants. Vous avez peut-être des poids aléatoires, mais cela ne rend pas du tout vos échantillons indépendants. Ainsi, la procédure écrite en 3 n'est pas légale.
la source