Voici quatre ensembles de nombres différents:
A = {95,47, 87,90, 99,00}
B = {79,2, 75,3, 66,3}
C = {38,4, 40,4, 32,8}
D = {1,8, 1,2, 1,1}
En utilisant un test t à deux échantillons sans supposer des variances égales, je compare B, C et D à A et j'obtiens les valeurs de p suivantes:
0,015827 (A vs B)
0,000283 (A vs C)
0,001190 (A vs D)
Je trouve étrange que la valeur de p du test AD soit pire que le test AC: la différence entre les moyennes est clairement beaucoup plus grande ET la variance de D est beaucoup plus faible que la variance de C. Intuitivement (au moins pour mon intuition ), ces deux faits devraient faire baisser la valeur de p.
Quelqu'un pourrait-il expliquer s'il s'agit d'un comportement souhaité ou attendu du test t ou s'il doit faire plus avec mon ensemble de données particulier (taille d'échantillon extrêmement faible peut-être?). Le test t est-il inapproprié pour cet ensemble de données particulier?
D'un point de vue purement informatique, la raison d'une pire valeur p semble être les degrés de liberté, qui dans la comparaison AD est de 2,018 alors qu'il est de 3,566 dans la comparaison AC. Mais sûrement, si vous venez de voir ces chiffres, ne pensez-vous pas qu'il existe des preuves plus solides pour rejeter l'hypothèse nulle dans le cas de la MA par rapport à la CA?
Certains pourraient suggérer que ce n'est pas un problème ici car toutes les valeurs de p sont de toute façon assez faibles. Mon problème est que ces 3 tests font partie d'une suite de tests que j'effectue. Après avoir corrigé plusieurs tests, la comparaison AD ne fait pas la coupe, contrairement à la comparaison AC. Imaginez que vous traçiez ces nombres (par exemple, des diagrammes à barres avec des barres d'erreur comme le font souvent les biologistes) et que vous essayiez de justifier pourquoi C est significativement différent de A mais D n'est pas ... eh bien, je ne peux pas.
Mise à jour: pourquoi c'est vraiment important
Permettez-moi de préciser pourquoi cette observation pourrait avoir un grand impact sur l'interprétation des études antérieures. En bioinfomatique, j'ai vu le test t appliqué à de petites tailles d'échantillons à grande échelle (pensez à l'expression génique différentielle de centaines ou de milliers de gènes, ou à l'effet de nombreux médicaments différents sur une lignée cellulaire, en utilisant seulement 3 à 5 répétitions ). La procédure habituelle consiste à effectuer de nombreux tests t (un pour chaque gène ou médicament), suivis de plusieurs tests de correction, généralement le FDR. Compte tenu de l'observation ci-dessus du comportement du test t de Welch, cela signifie que certains des meilleurs cas sont systématiquement filtrés. Bien que la plupart des gens regardent les données réelles pour les comparaisons en haut de leur liste (celles avec les meilleures valeurs p), je ne connais personne qui parcourra la liste de toutes les comparaisons où l'hypothèse nulle n'était pas '' t rejeté.
Réponses:
Oui, ce sont les degrés de liberté. Les statistiques t elles-mêmes augmentent lorsque nous comparons les groupes B, C, D à A; les numérateurs grossissent et les dénominateurs deviennent plus petits.
Pourquoi votre approche ne fonctionne-t-elle pas? Eh bien, l'approximation de Satterthwaite pour les degrés de liberté, et la distribution de référence n'est (comme son nom l'indique!) Qu'une approximation. Cela fonctionnerait bien si vous aviez plus d'échantillons dans chaque groupe, et pas des données extrêmement lourdes; 3 observations par groupe est vraiment très faible pour la plupart des objectifs. (De plus, bien que les valeurs de p soient utiles pour effectuer des tests, elles ne mesurent pas les preuves et n'évaluent pas les paramètres avec des interprétations directes en termes de données.)
Si vous voulez vraiment déterminer la distribution exacte de la statistique de test - et une valeur p mieux calibrée - il existe des méthodes citées ici qui pourraient être utilisées. Cependant, ils reposent sur l'hypothèse de normalité, une hypothèse que vous n'avez aucune capacité appréciable à vérifier, ici.
la source
Il y a beaucoup de choses dans cette question, et je suis presque certain que certaines d'entre elles sont hors de ma compréhension. Ainsi, même si j'ai une solution probable au «problème» et certaines spéculations, vous devrez peut-être vérifier mes «rouages».
Vous êtes intéressé par des preuves. Fisher a proposé l'utilisation des valeurs de p comme preuve, mais les preuves dans un ensemble de données contre l'hypothèse nulle sont plus facilement (raisonnablement?) Montrées avec une fonction de vraisemblance que la valeur de p. Cependant, une valeur p plus extrême est une preuve plus forte.
Voici ma solution: n'utilisez pas le test t de Welch, mais transformez plutôt les données avec une transformation de racine carrée pour égaliser les variances, puis utilisez un test t de Student standard. Cette transformation fonctionne bien sur vos données et est l'une des approches standard pour les données hétéroscédastiques. L'ordre des valeurs p correspond maintenant à votre intuition et servira de preuve.
Si vous utilisez les valeurs de p comme preuve plutôt que de tenter de vous protéger contre les erreurs faussement positives à long terme, les arguments pour ajuster les valeurs de p pour les comparaisons multiples deviennent assez faibles, à mon avis.
Maintenant, la partie spéculative. Si je comprends bien, le test t de Welch est une solution au problème de Fisher-Behrens (tester signifie que les données ont des variances inégales), mais c'est une solution dont Fisher n'était pas satisfait. C'est peut-être un Neyman-Pearsonian dans sa philosophie sous-jacente. Quoi qu'il en soit, la quantité de preuves en valeur ap d'un test t dépend de la valeur p ET de la taille de l'échantillon. (Cela n'est pas largement reconnu, peut-être parce que les preuves en valeur ap d'un test z sont indépendantes de la taille de l'échantillon.) Je soupçonne que le test de Welch fausse la nature probante de la valeur p par son ajustement des degrés de liberté.
la source
Après avoir fouillé, je pense que mon verdict final va quelque chose comme ceci:
Pour simplifier la discussion, considérons uniquement le cas où les tailles d'échantillon sont égales. Dans ce cas, l'approximation des degrés de liberté peut s'écrire
oùs21 et s22 sont les variances de l'échantillon et n est la taille de l'échantillon. Par conséquent, les degrés de liberté sont(n−1)⋅2 lorsque les variances d'échantillon sont égales et approchent (n−1) à mesure que les tailles d'échantillon deviennent plus inégales. Cela signifie que les degrés de liberté différeront d'un facteur de près de 2 en fonction uniquement des variances de l'échantillon. Même pour des tailles d'échantillon de taille raisonnable (disons 10 ou 20), la situation illustrée dans le message principal peut facilement se produire.
Lorsque de nombreux tests t sont effectués, le tri des comparaisons par valeur de p pourrait facilement conduire à ce que les meilleures comparaisons ne parviennent pas en tête de liste ou soient exclues après ajustement pour plusieurs tests.
Mon opinion personnelle est qu'il s'agit d'un défaut fondamental du test t de Welch car il est conçu pour des comparaisons entre des échantillons avec des variances inégales, mais plus les variances deviennent inégales, plus vous perdez de la puissance (dans le sens où l'ordre de votre p -les valeurs seront fausses).
La seule solution à laquelle je peux penser est d'utiliser à la place des tests basés sur la permutation ou de transformer les données afin que les écarts dans vos tests ne soient pas trop éloignés les uns des autres.
la source
Pour autant que je sache, j'ai entendu le test t de Welch qui utilise l'approximation de Satterthwaite
est vérifié pour un test de signification de 0,05.
Ce qui signifie que lorsque P (combinaison linéaire de distribution khi carré> c) = 0,05,
nous pouvons obtenir approximativement c.
Donc, je pense que la valeur de p est assez fiable autour de 0,05,
Et évidemment, ce n'est pas le cas quand il devient bien inférieur à 0,05.
p1 = 0 p2 = 0 pour (m en 1:50) {a <-c (-m + 95,47, -m + 87,90, -m + 99,00) c <-c (38,4, 40,4, 32,8) d <-c (1,8, 1,2, 1,1) p1 [m] = t.test (a, c, var.eqaul = F)p.valuep2[m]=t.test(a,d,var.eqaul=F) p.value} tracé (1:50, p1, col = "noir") points (1:50, p2, col = "rouge")
Vous pouvez voir que les valeurs de p deviennent plus correctes à l'approche de 0,05 ...
Nous ne devons donc pas utiliser des valeurs de p qui sont bien inférieures à 0,05 lors de l'utilisation du test t de Welch.
S'il est utilisé, je pense que nous devrions écrire un article à ce sujet.
Quoi qu'il en soit, j'écris actuellement sur "Statistiques" et ce thème est intrigant.
J'espère utiliser vos données en écrivant le livre avec votre permission.
Pourriez-vous me laisser utiliser vos données?
Et je vous serais reconnaissant de bien vouloir indiquer la source des données et le contexte à partir duquel
ils sont venus!
la source