Étant donné que vos deux mesures sont 1) binaires et 2) à queue lourde, vous devez éviter le test t qui suppose des distributions normales.
Je pense que Mann-Whitney U est votre meilleur choix et devrait être suffisamment efficace même si vos distributions étaient presque normales.
Concernant votre deuxième question:
Que se passe-t-il si un test suggère une différence significative entre les cohortes et un autre test suggère une différence non significative?
Ce n'est pas rare si la différence statistique est limite et que les données ont des distributions d'échantillons "désordonnées". Cette situation exige que l'analyste examine attentivement toutes les hypothèses et limites de chaque test statistique et accorde le plus de poids au test statistique qui a le moins de violations d'hypothèses.
Prenez l'hypothèse d'une distribution normale. Il existe différents tests de normalité, mais ce n'est pas la fin de l'histoire. Certains tests fonctionnent assez bien sur les distributions symétriques même s'il y a un certain écart par rapport à la normalité, mais ne fonctionnent pas bien sur les distributions asymétriques.
En règle générale, je vous suggère de ne pas exécuter de test lorsque l'une de ses hypothèses est clairement violée.
EDIT: Pour la deuxième variable, il pourrait être possible de transformer la variable en une variable qui est normalement distribuée (ou au moins proche) tant que la transformation préserve l'ordre. Vous devez être sûr que la transformation donne une distribution normale pour les deux cohortes. Si vous ajustez la deuxième variable à une distribution log-normale, une fonction log la transforme en distribution normale. Mais si la distribution est Pareto (loi de puissance), il n'y a pas de transformation vers une distribution normale.
EDIT: Comme suggéré dans ce commentaire , vous devriez certainement considérer l'estimation bayésienne comme une alternative aux tests t et autres tests de signification d'hypothèse nulle (NHST).
Pour les données à valeur réelle, vous pouvez également envisager de générer votre propre statistique de test sur la base d'un bootstrap de vos données. Cette approche a tendance à produire des résultats précis lorsque vous traitez avec des distributions de population non normales ou lorsque vous essayez de développer un intervalle de confiance autour d'un paramètre qui n'a pas de solution analytique pratique. (Le premier est vrai dans votre cas. Je ne mentionne que le second pour le contexte.)
Pour vos données à valeur réelle, vous feriez ce qui suit:
Une fois que vous avez cette distribution, calculez la différence de moyenne pour vos échantillons réels et calculez une valeur de p.
la source
J'appuie la réponse de @Meritology. En fait, je me demandais si le test MWU serait moins puissant que le test de proportions indépendantes, car les manuels que j'ai appris et utilisé pour enseigner disaient que le MWU ne peut être appliqué qu'aux données ordinales (ou intervalle / rapport).
Mais mes résultats de simulation, tracés ci-dessous, indiquent que le test MWU est en fait légèrement plus puissant que le test de proportion, tout en contrôlant bien l'erreur de type I (à la proportion de population du groupe 1 = 0,50).
La proportion de la population du groupe 2 est maintenue à 0,50. Le nombre d'itérations est de 10 000 à chaque point. J'ai répété la simulation sans la correction de Yate mais les résultats étaient les mêmes.
la source