Dois-je utiliser le test t sur des données très asymétriques? Preuve scientifique, s'il vous plaît?

15

J'ai des échantillons d'un ensemble de données très asymétrique (ressemblant à une distribution exponentielle) sur la participation des utilisateurs (par exemple: nombre de publications), qui ont des tailles différentes (mais pas moins de 200) et je veux comparer leur moyenne. Pour cela, j'utilise des tests t non appariés à deux échantillons (et des tests t avec le facteur de Welch, lorsque les échantillons avaient des variances différentes). Comme je l'ai entendu dire, pour les très gros échantillons, peu importe que l'échantillon ne soit pas distribué normalement.

Quelqu'un, examinant ce que j'ai fait, a dit que les tests que j'utilisais n'étaient pas adaptés à mes données. Ils ont suggéré de transformer en log mes échantillons avant d'utiliser les tests t.

Je suis un débutant, il me semble donc très déroutant de répondre à mes questions de recherche avec "journal de participation métrique".

Se trompent-ils? Ai-je tort? S'ils ont tort, existe-t-il un livre ou un article scientifique que je pourrais citer / montrer? Si je me trompe, quel test dois-je utiliser?

Milena Araujo
la source
1
Le test T a une hypothèse de distribution normale csic.cornell.edu/Elrod/t-test/t-test-assumptions.html . Vous pensez peut-être que la distribution t qui se rapproche de la normale lorsque l'échantillon est suffisamment grand.
rdorlearn
6
Que signifie «preuve scientifique» dans ce contexte?
Glen_b -Reinstate Monica
1
Je pensais que l'hypothèse était que tous les moyens de tous les échantillons possibles d'une certaine population devraient être normaux. Donc, par le CLT, ce serait également vrai pour mon ensemble de données.
Milena Araujo
1
preuve scientifique = quelque chose de pertinent d'un point de vue académique: un livre, un article, etc.
Milena Araujo

Réponses:

36

Je n'appellerais pas «exponentielle» particulièrement asymétrique. Par exemple, son log est nettement asymétrique à gauche et son asymétrie de moment n'est que de 2.

n

a) Le numérateur de la statistique de test doit être bien: si les données sont exponentielles indépendantes avec une échelle commune (et pas sensiblement plus lourdes que cela), alors leurs moyennes sont distribuées gamma avec un paramètre de forme égal au nombre d'observations. Sa distribution semble très normale pour un paramètre de forme supérieur à environ 40 environ (selon la distance dans la queue dont vous avez besoin de précision).

Ceci est capable de preuves mathématiques, mais les mathématiques ne sont pas des sciences. Vous pouvez le vérifier empiriquement via la simulation, bien sûr, mais si vous vous trompez sur l'exponentialité, vous aurez peut-être besoin d'échantillons plus grands. Voici à quoi ressemble la distribution des sommes d'échantillon (et donc des moyennes d'échantillon) des données exponentielles lorsque n = 40:

entrez la description de l'image ici

Très légèrement asymétrique. Cette asymétrie diminue à mesure que la racine carrée de la taille de l'échantillon. Donc, à n = 160, c'est moitié moins asymétrique. À n = 640, c'est un quart de l'inclinaison:

entrez la description de l'image ici

Que cela soit effectivement symétrique peut être vu en le retournant autour de la moyenne et en le traçant au-dessus:

entrez la description de l'image ici

Le bleu est l'original, le rouge est inversé. Comme vous le voyez, ils sont presque par hasard.

-

n=40

entrez la description de l'image ici

n=500

-

c) Ce qui importe vraiment, cependant, c'est la distribution de la statistique entière sous le nul. La normalité du numérateur n'est pas suffisante pour que la statistique t ait une distribution t. Cependant, dans le cas des données exponentielles, ce n'est pas non plus un gros problème:

entrez la description de l'image ici

n=40n=500n=500

Notez cependant que pour des données réellement exponentielles, l'écart-type ne sera différent que si les moyennes sont différentes. Si la présomption exponentielle est le cas, alors sous le nul, il n'y a pas besoin de s'inquiéter particulièrement des différentes variances de population, car elles ne se produisent que sous l'alternative. Donc, un test t à variance égale devrait toujours être correct (auquel cas la bonne approximation ci-dessus que vous voyez dans l'histogramme peut même être légèrement meilleure).


2) La prise de journaux peut encore vous donner un sens, bien que

Journalλ1Journalλ2λ1λ2

[Si vous faites ce test dans les journaux, je serais enclin à suggérer de faire un test de variance égale dans ce cas.]

Donc - avec la simple intervention d'une phrase ou deux justifiant le lien, semblable à ce que j'ai ci-dessus - vous devriez pouvoir écrire vos conclusions non pas sur le journal de la métrique de participation, mais sur la métrique de participation elle-même.


3) Il y a plein d'autres choses que vous pouvez faire!

a) vous pouvez effectuer un test adapté aux données exponentielles. Il est facile de dériver un test basé sur le rapport de vraisemblance. En fait, pour les données exponentielles, vous obtenez un test F sur petit échantillon (basé sur un rapport de moyennes) pour cette situation dans le cas unilatéral; les TLR à deux queues n'auraient généralement pas une proportion égale dans chaque queue pour les petits échantillons. (Cela devrait avoir une meilleure puissance que le test t, mais la puissance du test t devrait être tout à fait raisonnable, et je m'attends à ce qu'il n'y ait pas beaucoup de différence avec la taille de vos échantillons.)

b) vous pouvez faire un test de permutation - même le baser sur le test t si vous le souhaitez. Donc, la seule chose qui change est le calcul de la valeur de p. Ou vous pouvez faire un autre test de rééchantillonnage tel qu'un test basé sur le bootstrap. Cela devrait avoir une bonne puissance, mais cela dépendra en partie de la statistique de test que vous choisissez par rapport à la distribution que vous avez.

c) vous pouvez effectuer un test non paramétrique basé sur le classement (comme le Wilcoxon-Mann-Whitney). Si vous supposez que si les distributions diffèrent, elles ne diffèrent que par un facteur d'échelle (approprié pour une variété de distributions asymétriques, y compris l'exponentielle), vous pouvez même obtenir un intervalle de confiance pour le rapport des paramètres d'échelle.

[À cette fin, je suggère de travailler sur l'échelle logarithmique (le décalage d'emplacement dans les journaux étant le journal du décalage d'échelle). Cela ne changera pas la valeur de p, mais cela vous permettra d'exponentialiser l'estimation ponctuelle et les limites de CI pour obtenir un intervalle pour le changement d'échelle.]

Cela devrait également avoir une assez bonne puissance si vous êtes dans une situation exponentielle, mais probablement pas aussi bon que d'utiliser le test t.


Une référence qui considère un ensemble de cas considérablement plus large pour l' alternative de changement de lieu (avec à la fois une variance et une hétérogénéité d'asymétrie sous le zéro, par exemple) est

Fagerland, MW et L. Sandvik (2009),
«Performance de cinq tests de localisation à deux échantillons pour des distributions asymétriques avec des variances inégales»,
Contemporary Clinical Trials , 30 , 490–496

Il a généralement tendance à recommander le test U de Welch (un des nombreux tests considérés par Welch et le seul qu'ils ont testé). Si vous n'utilisez pas exactement la même statistique Welch, les recommandations peuvent varier quelque peu (mais probablement pas beaucoup). [Notez que si vos distributions sont exponentielles, vous êtes intéressé par une alternative d'échelle, sauf si vous prenez des journaux ... auquel cas vous n'aurez pas de variances inégales.]

Glen_b -Reinstate Monica
la source
4
Très bonne réponse! J'ai été vraiment stupéfait de la quantité d'informations que vous avez rassemblées dans un seul article
Christian Sauer
@Glen_b, c'est une réponse impressionnante! Merci beaucoup. Encore une question: mes échantillons proviennent du même ensemble de données. Je veux comparer des échantillons d'utilisateurs avec la caractéristique X et des utilisateurs avec les caractéristiques Y. Les échantillons pour les utilisateurs X sont d'environ ~ 500 et les échantillons pour les utilisateurs Y sont d'environ ~ 10000. Il y a une énorme différence de taille, mais il ne semble pas y avoir de grande différence dans leur forme (en regardant les graphiques de densité et de probabilité). Serait-ce un problème d'utiliser des tests t de toute façon?
Milena Araujo du
Quand vous dites «énorme différence de taille», parlez-vous de la taille de l'échantillon (10000 vs 500) ou des valeurs typiques au sein de chaque groupe? (
Soit dit en passant
1
Vous pourriez être mieux avec un tableau pour des données comme ça. L'information critique est que ce n'est pas seulement discret mais que presque toutes les valeurs sont dans le plus petit nombre de questions. Si vous tracez un histogramme, tracez-le sans les oscillations et assurez-vous que toutes les valeurs faibles sont séparées (barres pour chacun de 0, 1, 2, sans les combiner). Il est préférable de couper la droite et d'étendre davantage la gauche (où se trouvent presque toutes les données), tant que vous précisez qu'il y a plus à droite si vous en coupez. Inclure des informations sur ce que vous mesurez et ce que vous essayez d'atteindre ... (ctd)
Glen_b -Reinstate Monica
1
@ScottH, la partie 1.c de ma réponse traite explicitement de cela et examine à quel point cela est important dans le cas en discussion (distribution approximativement exponentielle à des tailles d'échantillon similaires)
Glen_b -Reinstate Monica