T-test utilisant uniquement des données récapitulatives dans un diagramme en boîte

8

J'ai le résumé à 5 chiffres (min, Q1, médiane, Q3, max) de deux boxplots et je voulais tester si oui ou non les moyennes des groupes dans les deux boxplots étaient significativement différentes.

Je voudrais le faire en utilisant un test t mais je n'ai pas les données à ma disposition (juste le résumé à 5 chiffres).

Existe-t-il un moyen de tester les différences de moyenne? Ou une approximation grossière d'un test t? De plus, je connais la taille de l'échantillon et la moyenne.

James Stanley
la source
Connaissez-vous également l'écart-type?
Glen_b -Reinstate Monica
Non je ne sais pas. Si je le savais, je n'aurais pas ce problème :)
Existe-t-il une approximation de l'écart-type que je peux utiliser?
Les deux groupes sont de la taille de l'échantillon 30.
Veuillez modifier les informations pertinentes dans votre question
Glen_b -Reinstate Monica

Réponses:

10

Étant donné que vous disposez des moyennes de l'échantillon et que votre hypothèse se rapporte aux moyennes de la population, j'ai supposé que vous voudrez certainement utiliser les moyennes de l'échantillon dans ce qui suit.

Avec certaines hypothèses de distribution, vous pouvez certainement arriver quelque part.

  1. Si les tailles d'échantillon sont assez grandes, vous pouvez supposer une distribution afin de mettre les IQR à l'échelle d'une estimation de et simplement la traiter comme un test z. (n = 30 n'est pas vraiment "grand" cependant)σ

    Par exemple, si vous supposez la normalité, la plage interquartile de la population est d'environ 1,35 , donc si l'échantillon est suffisamment grand pour que le QI de la population soit estimé avec peu d'erreur, vous pouvez estimer et avoir un test efficace à la normale.σσ

    Dans ce cas, si vous ne supposez pas des variances égales, vous obtenez , puis calculez puis prenez et rechercher des z-tables.σi~=IQRi/1.35σ~D2=σ~12/n1+σ~22/n2z=x¯1x¯2σ~D

    [À titre de vérification, je viens de faire une simulation où j'ai généré des échantillons normaux de taille 30 (avec une variance égale, même si je ne l'ai pas supposé dans le calcul), et le test est anticonservateur (c'est-à-dire que le taux d'erreur de type I est supérieur à la valeur nominale), donc lorsque vous essayez de faire un test à 5%, il semble que vous atteignez en fait quelque part dans la région de 6,8% (l'approximation sera probablement un peu pire si les écarts diffèrent). Si vous pouvez tolérer cela, alors c'est très bien. Bien sûr, vous pouvez réduire le niveau de signification pour compenser l'anticonservatisme, mais je serais enclin à mordre la balle et à essayer l'option 2. Une fois que la taille des échantillons a atteint environ 200, cela fonctionne plutôt bien.]

  2. Si la taille de l'échantillon n'est pas grande, vous pouvez toujours faire quelque chose, mais la distribution de la statistique dépendra de la méthode exacte par laquelle les quartiles ont été calculés ainsi que des tailles d'échantillon particulières.

    En particulier, vous pouvez soit

    une. supposer des variances égales et utiliser une statistique de test semblable à une statistique t à variance égale mais avec une estimation de basée sur une moyenne pondérée des carrés des deux IQR; ouσ2

    b. ne pas faire d'hypothèse de variance égale et utiliser une statistique de test plus semblable à une statistique de type Welch-Satterthwaite.

    Dans le premier cas, la distribution de la statistique de test peut être obtenue assez simplement par simulation à partir de la distribution supposée. (Dans le second cas, les choses sont un peu plus compliquées parce que la distribution dépendra de la façon dont les écarts diffèrent - mais quelque chose pourrait encore être fait.)

Si vous n'êtes pas prêt à faire une hypothèse de distribution, vous pouvez toujours délimiter l'écart-type de l'échantillon et ainsi obtenir des limites supérieure et inférieure sur la statistique t; cependant, les limites peuvent ne pas être très étroites.


Si vous n'aviez pas eu les moyennes de l'échantillon, vous pourriez utiliser les médianes dans un analogue du test t. Si vous supposez la normalité (ou même simplement la symétrie et l'existence de moyens), les médianes estimeront les moyennes respectives; cependant, comme nous n'avons besoin que de traiter la différence de moyens, des hypothèses beaucoup plus faibles suffiront pour que cela fonctionne comme un test.

Dans ce cas, vous pouvez obtenir des valeurs critiques (ou même des valeurs p) via la simulation assez facilement, mais la distribution nulle sous une hypothèse normale est assez proche de la distribution t; une approximation assez décente de la valeur p peut être obtenue à partir des tables t, mais les degrés de liberté appropriés sont sensiblement inférieurs à ceux d'un test t (près de la moitié!) - et la statistique du test doit être mise à l'échelle aussi, puisque les variances ne correspondent pas exactement.

Cela n'aura pas une puissance particulièrement bonne à la normale, mais il aura une bonne robustesse aux écarts par rapport à la normalité.

Par exemple, pour une statistique de cette forme:

t=x~1x~2q12/n+q22/n

où est la médiane de l'échantillon et est la plage interquartile de l'échantillon (qui est analogue à une forme particulière de test t à deux échantillons pour une variance égale et égal ). J'ai simulé 40000 échantillons de taille 30 et 30.xi~iqiin

entrez la description de l'image ici

Un tracé QQ des valeurs absolues de rapport aux valeurs absolues des quantiles de (pour ) est tracé ci-dessous (gris), et la ligne de 45 degrés est tracée en vert. Le deuxième graphique montre des détails dans la région des niveaux de signification typiques (y compris, mais sans s'y limiter, des valeurs comprises entre 1% et 10%). L'approximation est précise à environ 3 chiffres sur la plupart de cette plage.tct40c=1.064

entrez la description de l'image ici

[Des graphiques similaires sont obtenus pour une variété d'autres degrés de liberté dans le voisinage (avec convenablement choisi ) pour chacun. Des simulations à des tailles d'échantillon variées suggèrent que les approximations de la distribution t fonctionnent bien sur une large plage de pour le cas de taille d'échantillon égale à variance égale. Je m'attends à ce que l'approximation via les distributions t soit adéquate pour le cas de taille d'échantillon inégale à variance égale, mais les simulations et l'analyse requises prendraient un temps plus substantiel.]cn

Glen_b -Reinstate Monica
la source
Allons-y donc avec l'option 1. Comment pourrais-je en comprendre ? σ
Supposez-vous des variances égales?
Glen_b -Reinstate Monica
J'ai fait un montage sous l'option 1 en ne supposant pas des variances égales donnant quelques détails, et j'ai fait une petite étude de simulation à n = 30.
Glen_b -Reinstate Monica
Ajout également de quelques commentaires sur ce qui peut être fait si vous n'en avez pas les moyens.
Glen_b -Reinstate Monica