Relation entre l'intervalle de confiance et le test d'hypothèse statistique pour le test t

31

Il est bien connu que les intervalles de confiance et le test des hypothèses statistiques sont étroitement liés. Mes questions portent sur la comparaison des moyennes pour deux groupes sur la base d'une variable numérique. Supposons que cette hypothèse soit testée à l'aide du test t. De l'autre côté, on peut calculer les intervalles de confiance pour les moyennes des deux groupes. Existe-t-il une relation entre le chevauchement des intervalles de confiance et le rejet de l'hypothèse nulle selon laquelle les moyennes sont égales (en faveur de l'alternative qui signifie différentes - test bilatéral)? Par exemple, un test pourrait rejeter l'hypothèse nulle si les intervalles de confiance ne se chevauchent pas.

Lan
la source

Réponses:

31

Oui, il existe des relations simples entre les comparaisons d'intervalles de confiance et les tests d'hypothèse dans un large éventail de paramètres pratiques. Cependant, en plus de vérifier que les procédures CI et le test t sont appropriés pour nos données, nous devons vérifier que les tailles d'échantillon ne sont pas trop différentes et que les deux ensembles ont des écarts-types similaires. Nous ne devrions pas non plus essayer de dériver des valeurs de p très précises en comparant deux intervalles de confiance, mais nous devrions être heureux de développer des approximations efficaces.

En essayant de réconcilier les deux réponses déjà données (par @John et @Brett), cela aide à être mathématiquement explicite. Une formule pour un intervalle de confiance bilatéral symétrique approprié pour le réglage de cette question est

CI=m±tα(n)sn

m est la moyenne de l'échantillon de n observations indépendantes, s est l'écart-type de l'échantillon, 2α est la taille de test souhaitée (taux de faux positifs maximum) et tα(n) est le centile supérieur 1α de la distribution de Student t avec n1 degrés de liberté. (Cette légère déviation de la notation conventionnelle simplifie l'exposition en évitant tout besoin de s'inquiéter de la distinction n vs n1 , qui sera de toute façon sans conséquence.)

En utilisant les indices 1 et 2 pour distinguer deux ensembles de données indépendants pour la comparaison, 1 correspondant au plus grand des deux moyens, un non- chevauchement des intervalles de confiance est exprimé par l'inégalité (limite de confiance inférieure 1) > (limite de confiance supérieure 2 ); à savoir. ,

m1tα(n1)s1n1>m2+tα(n2)s2n2.

Cela peut ressembler à la statistique t du test d'hypothèse correspondant (pour comparer les deux moyennes) avec de simples manipulations algébriques, ce qui donne

m1m2s12/n1+s22/n2>s1n2tα(n1)+s2n1tα(n2)n1s22+n2s12.

Le côté gauche est la statistique utilisée dans le test d'hypothèse; il est généralement comparé à un centile d'une distribution de Student t avec n1+n2 degrés de liberté: c'est-à-dire à tα(n1+n2) . Le côté droit est une moyenne pondérée biaisée des centiles de distribution t d'origine.

Jusqu'à présent, l'analyse justifie la réponse de @Brett: il ne semble pas exister de relation simple. Cependant, approfondissons. Je suis inspiré de le faire parce que, intuitivement, un non-chevauchement des intervalles de confiance devrait dire quelque chose!

Tout d'abord, notez que cette forme de test d'hypothèse n'est valide que lorsque nous nous attendons à ce que s1 et s2 soient au moins approximativement égaux. (Sinon, nous sommes confrontés au problème notoire de Behrens-Fisher et à sa complexité.) En vérifiant l'égalité approximative des si , nous pourrions alors créer une simplification approximative sous la forme

m1m2s1/n1+1/n2>n2tα(n1)+n1tα(n2)n1+n2.

Ici, ss1s2 . En réalité, nous ne devrions pas nous attendre à ce que cette comparaison informelle des limites de confiance ait la même taille que α . Notre question est alors de savoir s'il existe un α tel que le côté droit soit (au moins approximativement) égal à la statistique t correcte. A savoir, pour quel α est-il vrai que

tα(n1+n2)=n2tα(n1)+n1tα(n2)n1+n2?

Il s'avère que pour des tailles d'échantillons égales, α et α sont connectés (avec une précision assez élevée) par une loi de puissance. Par exemple, voici un diagramme log-log des deux pour les cas n1=n2=2 (ligne bleue la plus basse), n1=n2=5 (ligne rouge centrale), n1=n2= ( ligne d'or la plus haute). La ligne pointillée verte du milieu est une approximation décrite ci-dessous. La rectitude de ces courbes contredit une loi de puissance. Cela varie avec n=n1=n2 , mais pas beaucoup.

Terrain 1

La réponse dépend de l'ensemble {n1,n2} , mais il est naturel de se demander dans quelle mesure il varie vraiment avec les changements de taille des échantillons. En particulier, nous pourrions espérer que pour des tailles d'échantillon modérées à grandes (peut-être n110,n210 ou à peu près), la taille de l'échantillon fait peu de différence. Dans ce cas, nous pourrions développer une manière quantitative de relier α à α .

αα

αeα1.91;

C'est,

αexp(1+1.91log(α)).

This formula works reasonably well in these common situations:

  • Both sample sizes are close to each other, n1n2, and α is not too extreme (α>.001 or so).

  • One sample size is within about three times the other and the smallest isn't too small (roughly, greater than 10) and again α is not too extreme.

  • One sample size is within three times the other and α>.02 or so.

The relative error (correct value divided by the approximation) in the first situation is plotted here, with the lower (blue) line showing the case n1=n2=2, the middle (red) line the case n1=n2=5, and the upper (gold) line the case n1=n2=. Interpolating between the latter two, we see that the approximation is excellent for a wide range of practical values of α when sample sizes are moderate (around 5-50) and otherwise is reasonably good.

Plot 2

This is more than good enough for eyeballing a bunch of confidence intervals.

To summarize, the failure of two 2α-size confidence intervals of means to overlap is significant evidence of a difference in means at a level equal to 2eα1.91, provided the two samples have approximately equal standard deviations and are approximately the same size.

I'll end with a tabulation of the approximation for common values of 2α.

2α 2α
0.1 0.02

0.05 0.005

0.01 0.0002

0.005 0.00006

For example, when a pair of two-sided 95% CIs (2α=.05) for samples of approximately equal sizes do not overlap, we should take the means to be significantly different, p<.005. The correct p-value (for equal sample sizes n) actually lies between .0037 (n=2) and .0056 (n=).

This result justifies (and I hope improves upon) the reply by @John. Thus, although the previous replies appear to be in conflict, both are (in their own ways) correct.

whuber
la source
7

Non, pas simple du moins.

Il existe cependant une correspondance exacte entre le test t de différence entre deux moyennes et l'intervalle de confiance pour la différence entre les deux moyennes.

Si l'intervalle de confiance pour la différence entre deux moyennes contient zéro, un test t pour cette différence échouerait à rejeter null au même niveau de confiance. De même, si l'intervalle de confiance ne contient pas 0, le test t rejetterait la valeur nulle.

Ce n'est pas la même chose que le chevauchement entre les intervalles de confiance pour chacune des deux moyennes.

Brett
la source
The reply by @John, which although at present is not quite right in the details, correctly points out that yes, you can relate overlaps of CIs to test p-values. The relationship is not any more complex than the t-test itself. This has the appearance of contradicting your primary conclusion as stated in the first line. How would you resolve this difference?
whuber
Je ne pense pas qu'ils soient contradictoires. Je peux ajouter quelques mises en garde. Mais, dans le sens général, sans hypothèses et connaissances supplémentaires sur les paramètres en dehors de la présentation de l'intervalle (la variance, la taille de l'échantillon), la réponse reste telle quelle. Non, pas simple du moins.
Brett
5

Under typical assumptions of equal variance, yes, there is a relationship. If the bars overlap by less than the length of one bar * sqrt(2) then a t-test would find them to be significantly different at alpha = 0.05. If the ends of the bars just barely touch then a difference would be found at 0.01. If the confidence intervals for the groups are not equal one typically takes the average and applies the same rule.

Alternatively, if the width of a confidence interval around one of the means is w then the least significant difference between two values is w * sqrt(2). This is simple when you think of the denominator in the independent groups t-test, sqrt(2*MSE/n), and the factor for the CI which, sqrt(MSE/n).

(95% CIs assumed)

There's a simple paper on making inferences from confidence intervals around independent means here. It will answer this question and many other related ones you may have.

Cumming, G., & Finch, S. (2005, March). Inference by eye: confidence intervals, and how to read pictures of data. American Psychologist, 60(2), 170-180.

John
la source
2
I believe you need also to assume the two groups have the same sizes.
whuber
roughly, yes...
John