Comment interpréter l'intervalle de confiance de la différence de moyennes dans un échantillon de test T?

21

SPSS fournit la sortie «intervalle de confiance des moyennes de différence». J'ai lu à certains endroits que cela signifie "95 fois sur 100, notre différence moyenne d'échantillon sera entre entre ces limites" Je trouve cela peu clair. Quelqu'un peut-il suggérer une formulation plus claire pour expliquer «l'intervalle de confiance de la différence de moyennes»? Cette sortie apparaît dans le contexte d'un test t à un échantillon.

Anne
la source
1
Quelle est votre interprétation?
mpiktas
1
Notez qu'il n'y a rien de spécial à ce qu'il s'agisse d'une proportion: un IC pour l'estimation de quoi que ce soit sera interprété de la même manière. (Cependant, différentes procédures peuvent être utilisées pour construire l'IC, selon ce qui est estimé.) Par conséquent, cette question est exactement la même que les questions précédentes demandant des interprétations des IC.
whuber

Réponses:

13

Ce n'est pas chose facile, même pour des statisticiens respectés. Regardez une récente tentative de Nate Silver :

... si je vous demandais de me dire à quelle fréquence votre trajet prend 10 minutes de plus que la moyenne - quelque chose qui nécessite une version d'un intervalle de confiance - vous devriez y réfléchir un peu, ...

(extrait du blog FiveThirtyEight du New York Times, 29/09/10.) Ce n'est pas un intervalle de confiance. Selon la façon dont vous l'interprétez, il s'agit soit d'un intervalle de tolérance soit d'un intervalle de prédiction. (Sinon, il n'y a rien à redire à l'excellente discussion de M. Silver sur l'estimation des probabilités; c'est une bonne lecture.) De nombreux autres sites Web (en particulier ceux axés sur l'investissement) confondent également les intervalles de confiance avec d'autres types d'intervalles.

Le New York Times a fait des efforts pour clarifier la signification des résultats statistiques qu'il produit et rend compte. Les petits caractères sous de nombreux sondages incluent quelque chose comme ceci:

En théorie, dans 19 cas sur 20, les résultats basés sur de tels échantillons de tous les adultes ne différeront pas de plus de trois points de pourcentage dans l'une ou l'autre direction de ce qui aurait été obtenu en cherchant à interroger tous les adultes américains.

(Par exemple , Comment le sondage a été mené , 5/2/2011.)

Un peu verbeux, peut-être, mais clair et précis: cette affirmation caractérise la variabilité de la distribution d'échantillonnage des résultats du sondage. Cela se rapproche de l'idée d'intervalle de confiance, mais ce n'est pas tout à fait là. Cependant, on pourrait envisager d'utiliser une telle formulation au lieu d'intervalles de confiance dans de nombreux cas.

Lorsqu'il y a tellement de confusion potentielle sur Internet, il est utile de se tourner vers des sources faisant autorité. Un de mes favoris est le texte consacré par Freedman, Pisani et Purves, Statistics. Maintenant dans sa quatrième édition, il est utilisé dans les universités depuis plus de 30 ans et se distingue par ses explications claires et simples et son accent sur les méthodes "fréquentistes" classiques. Voyons ce qu'il dit sur l'interprétation des intervalles de confiance:

Le niveau de confiance de 95% en dit long sur la procédure d'échantillonnage ...

[à la p. 384; toutes les citations proviennent de la troisième édition (1998)]. Ça continue,

Si l'échantillon avait été différent, l'intervalle de confiance aurait été différent. ... Pour environ 95% de tous les échantillons, l'intervalle ... couvre le pourcentage de la population, et pour les 5% restants, ce n'est pas le cas.

[p. 384]. Le texte en dit beaucoup plus sur les intervalles de confiance, mais cela suffit pour aider: son approche est de déplacer le centre de discussion sur l' échantillon, apportant à la fois rigueur et clarté aux déclarations. Nous pourrions donc essayer la même chose dans nos propres rapports. Par exemple, appliquons cette approche pour décrire un intervalle de confiance de [34%, 40%] autour d'une différence de pourcentage signalée dans une expérience hypothétique:

"Cette expérience a utilisé un échantillon de sujets sélectionnés au hasard et une sélection aléatoire de témoins. Nous rapportons un intervalle de confiance de 34% à 40% pour la différence. Cela quantifie la fiabilité de l'expérience: si les sélections de sujets et de témoins avaient été différentes , cet intervalle de confiance changerait pour refléter les résultats pour les sujets et les contrôles choisis. Dans 95% de ces cas, l'intervalle de confiance inclurait la vraie différence (entre tous les sujets et tous les contrôles) et dans les 5% restants, il ne . Par conséquent, il est probable - mais pas certain - que cet intervalle de confiance inclue la vraie différence: c'est-à-dire que nous pensons que la vraie différence se situe entre 34% et 40%. "

(Voici mon texte, qui peut certainement être amélioré: j'invite les éditeurs à y travailler.)

Une longue déclaration comme celle-ci est quelque peu lourde. Dans les rapports réels, la plupart du contexte - échantillonnage aléatoire, sujets et contrôles, possibilité de variabilité - aura déjà été établi, rendant inutile la moitié de l'énoncé précédent. Lorsque le rapport établit qu'il existe une variabilité d'échantillonnage et présente un modèle de probabilité pour les résultats de l'échantillon, il n'est généralement pas difficile d'expliquer un intervalle de confiance (ou un autre intervalle aléatoire) aussi clairement et rigoureusement que le public a besoin.

Whuber
la source
Merci Whuber, je comprends assez bien les intervalles de confiance. C'est l'IC d'une différence de moyen (entre un échantillon et un pop) où je deviens confus.
Anne
@Anne De quoi parlez-vous? Ni votre question ni aucune des réponses ne fait référence à une différence entre une moyenne d'échantillon et une moyenne de population, pour autant que je sache. Votre question semble faire référence à la différence entre deux moyennes d'échantillons (peut-être entre la moyenne d'un groupe de sujets expérimentaux et d'un groupe de témoins).
whuber
L'exemple auquel je pense est celui où vous cherchez une différence entre un échantillon et la moyenne de la population. Dans ce cas, que signifie exactement l'IC entre l'échantillon et la pop? Nous avons utilisé la moyenne de l'échantillon pour estimer l'écart-type de la pop et, par conséquent, nous estimons l'IC autour de l'estimation moyenne. La différence de moyenne n'est pas la différence entre la moyenne pop que nous avons fournie et la moyenne de l'échantillon. Alors c'est quoi?
Anne
1
@Anne La " moyenne de la population" est-elle la moyenne hypothétique inconnue de la population échantillonnée ou est-ce la moyenne mesurée d'une autre population qui a été échantillonnée de manière exhaustive? De plus, dans quel sens avez-vous utilisé la «moyenne de l'échantillon» pour estimer l' écart type de la population ? Est-ce peut-être une faute de frappe?
whuber
2
@whuber merci. Votre ligne "Les IC calculés pour 95% de tous les échantillons (c'est-à-dire 95% de toutes les réplications possibles) couvriront cette vraie différence." est plus clair pour moi que "95 fois sur 100, notre différence moyenne d'échantillon sera entre entre ces limites" et votre explication est logique.
Anne
5

D'un point de vue technique pédant, je ne pense pas personnellement qu'il existe une "formulation claire" de l'interprétation des intervalles de confiance.

J'interpréterais un intervalle de confiance comme: il y a une probabilité de 95% que l'intervalle de confiance de 95% couvre la vraie différence moyenne

NN intervalles de confiance différents. Le niveau de confiance est la proportion de ces intervalles qui contient la vraie différence moyenne.

N-1 échantillons lors du calcul de notre intervalle de confiance. Par exemple, si vous aviez un échantillon de 100, iriez-vous alors calculer 100 intervalles de confiance à 95% "1 échantillon"?

Mais notez que tout cela est dans la philosophie. Les intervalles de confiance sont mieux laissés vagues dans l'explication je pense. Ils donnent de bons résultats lorsqu'ils sont utilisés correctement.

probabilitéislogique
la source
Commencer une nouvelle phrase après "N intervalles de confiance différents." ne coule pas bien avec "vous pouvez interpréter cela comme disant ...". Je suggère de modifier le troisième paragraphe.
Theta30
2
Votre troisième paragraphe est bien meilleur que le second. Conditionnellement aux données observées, l'intervalle de confiance contient la vraie valeur du paramètre ou non.
cardinal
@probabilityislogic: Puisque cette réponse a été acceptée, pensez à modifier votre deuxième paragraphe. Pouvez-vous également préciser ce que vous voulez dire dans votre avant-dernier paragraphe? En lisant, je ne sais pas trop quel argument vous faites.
cardinal
si nous interprétons les intervalles de confiance en termes de «répétition» de l'expérience, nous devons ignorer les expériences précédentes dans ces répétitions. Mon point est le suivant: pourquoi l'ignorance des expériences précédentes dans ces «répétitions» d'intervalles de confiance est-elle bonne pour les ensembles de données que nous n'avons pas observés, mais nous devons regrouper les données pour les données que nous avons observées? Ne serait-il pas aussi logique (d'après ce que je comprends de l'interprétation des CI) de produire autant de CI que possible avec les données dont vous disposez?
probabilitéislogic
1
Il existe toute une théorie, largement parallèle à la théorie de la décision optimale, sur les ensembles de confiance uniformément les plus précis. C'est peut-être la pièce du puzzle qui vous manque. (?)
Cardinal
3

La réponse approximative à la question est qu'un intervalle de confiance à 95% vous permet d'être sûr à 95% que la vraie valeur du paramètre se situe dans l'intervalle. Cependant, cette réponse approximative est à la fois incomplète et inexacte.

L'incomplétude réside dans le fait qu'il n'est pas clair que "95% confiant" signifie quelque chose de concret, ou si c'est le cas, alors ce sens concret ne serait pas universellement accepté par même un petit échantillon de statisticiens. Le sens de la confiance dépend de la méthode utilisée pour obtenir l'intervalle et du modèle d'inférence utilisé (qui, je l'espère, deviendra plus clair ci-dessous).

L'inexactitude réside dans le fait que de nombreux intervalles de confiance ne sont pas conçus pour vous dire quoi que ce soit sur l'emplacement de la valeur réelle du paramètre pour le cas expérimental particulier qui a donné l'intervalle de confiance! Cela surprendra beaucoup de gens, mais cela découle directement de la philosophie Neyman-Pearson qui est clairement énoncée dans cette citation de leur article de 1933 "Sur le problème des tests les plus efficaces des hypothèses statistiques":

Nous sommes enclins à penser qu'en ce qui concerne une hypothèse particulière, aucun test basé sur la théorie des probabilités ne peut à lui seul fournir une preuve valable de la vérité ou du mensonge de cette hypothèse.

Mais nous pouvons regarder le but des tests d'un autre point de vue. Sans espérer savoir si chaque hypothèse distincte est vraie ou fausse, nous pouvons rechercher des règles pour régir notre comportement à leur égard, après quoi nous nous assurons que, sur le long terme de l'expérience, nous ne nous tromperons pas trop souvent.

Les intervalles qui sont basés sur l '«inversion» des tests d'hypothèse NP hériteront donc de ce test la nature d'avoir des propriétés d'erreur à long terme connues sans permettre de déduire les propriétés de l'expérience qui les a produites! Ma compréhension est que cela protège contre l'inférence inductive, ce que Neyman considérait apparemment comme une abomination.

Neyman revendique explicitement le terme «intervalle de confiance» et l'origine de la théorie des intervalles de confiance dans son article de 1941 Biometrika «Argument fiduciaire et la théorie des intervalles de confiance». Dans un sens, donc, tout ce qui est correctement un intervalle de confiance joue selon ses règles et donc la signification d'un intervalle individuel ne peut être exprimée qu'en termes de taux à long terme auquel les intervalles calculés par cette méthode contiennent (couvrent) le vrai pertinent valeur du paramètre.

Nous devons maintenant bifurquer la discussion. Un volet suit la notion de «couverture» et l'autre suit des intervalles non neymaniens qui sont comme des intervalles de confiance. Je vais reporter le premier afin de pouvoir terminer ce post avant qu'il ne devienne trop long.

Il existe de nombreuses approches différentes qui donnent des intervalles que l'on pourrait appeler des intervalles de confiance non neymaniens. Le premier d'entre eux est les intervalles fiduciaux de Fisher. (Le mot `` fiducial '' peut effrayer beaucoup de gens et susciter des sourires moqueurs d'autrui, mais je laisse cela de côté ...) Pour certains types de données (par exemple, normal avec une variance de population inconnue), les intervalles calculés par la méthode de Fisher sont numériquement identiques à ceux de intervalles qui seraient calculés par la méthode de Neyman. Cependant, ils invitent à des interprétations diamétralement opposées. Les intervalles neymaniens ne reflètent que les propriétés de couverture à long terme de la méthode, tandis que les intervalles de Fisher sont destinés à soutenir l'inférence inductive concernant les vraies valeurs des paramètres pour l'expérience particulière qui a été réalisée.

Le fait qu'un ensemble de bornes d'intervalle puisse provenir de méthodes basées sur l'un ou l'autre de deux paradigmes philosophiquement distincts conduit à une situation vraiment déroutante - les résultats peuvent être interprétés de deux manières contradictoires. D'après l'argument fiducial, il y a une probabilité de 95% qu'un intervalle fiduciaire particulier de 95% contienne la vraie valeur du paramètre. De la méthode de Neyman, nous savons seulement que 95% des intervalles calculés de cette manière contiendront la vraie valeur du paramètre, et nous devons dire des choses confuses quant à la probabilité que l'intervalle contenant la vraie valeur du paramètre soit inconnu mais soit 1 ou 0.

Dans une large mesure, l'approche de Neyman a dominé celle de Fisher. C'est très regrettable, à mon avis, car cela ne conduit pas à une interprétation naturelle des intervalles. (Relisez la citation ci-dessus de Neyman et Pearson et voyez si elle correspond à votre interprétation naturelle des résultats expérimentaux. Probablement pas.)

Si un intervalle peut être correctement interprété en termes de taux d'erreur globaux mais aussi correctement en termes d'inférence locale, je ne vois pas de bonne raison d'interdire aux utilisateurs d'intervalle de l'interprétation plus naturelle offerte par ce dernier. Ainsi, ma suggestion est que la bonne interprétation d'un intervalle de confiance est LES DEUX:

  • Neymanian: Cet intervalle de 95% a été construit par une méthode qui donne des intervalles qui couvrent la vraie valeur du paramètre à 95% des occasions à long terme (... de notre expérience statistique).

  • Pêcheur: cet intervalle de 95% a une probabilité de 95% de couvrir la vraie valeur du paramètre.

(Les méthodes bayésienne et de vraisemblance donneront également des intervalles avec des propriétés fréquentistes souhaitables. De tels intervalles invitent à des interprétations légèrement différentes qui se sentiront probablement plus naturelles que le neymanien.)

Michael Lew
la source
@Micheal - l'endroit où ils différeront est qu'un intervalle fudicial doit être basé sur une statistique suffisante et conditionner toutes les quantités auxiliaires. L'intervalle de confiance de Neymans ne nécessite pas cette propriété, et sont donc soumis à "l'intervalle de confiance à 95%" ayant une couverture variable pour des sous-classes particulières d'échantillons.
probabilitéislogic
@probability - Pouvez-vous développer cela? Voulez-vous dire qu'il existe des circonstances dans lesquelles un intervalle de confiance neymanien à 95% est un intervalle de confiance mais ce n'est pas un intervalle de 95%? Quelles seraient ces circonstances? L'intervalle des pêcheurs aurait-il les mêmes limites dans ces circonstances?
Michael Lew
Vous pouvez montrer des cas où vous pouvez dire à partir de l'échantillon, qu'un intervalle de confiance "95%" ne contient pas la vraie valeur. l'exemple 5 et l'exemple 6 de l'article de Jaynes donnent deux cas où le fait de ne pas utiliser suffisamment de statistiques dans les IC donnera la couverture à long terme, mais la couverture variera selon certaines classes d'échantillons. C'est analogue à avoir deux variables avec la même moyenne (couverture à long terme) mais une variance différente (couverture dans un cas spécifique)
probabilités
2

La signification d'un intervalle de confiance est la suivante: si vous deviez répéter votre expérience exactement de la même manière (c'est-à-dire: le même nombre d'observations, en tirant de la même population, etc.), et si vos hypothèses sont correctes, et vous calculeriez cet intervalle à nouveau à chaque répétition, cet intervalle de confiance contiendrait la prévalence réelle dans 95% des répétitions (en moyenne).

Donc, vous pouvez dire que vous êtes certain à 95% (si vos hypothèses sont correctes, etc.) que vous avez maintenant construit un intervalle qui contient la vraie prévalence.

Cela est généralement indiqué comme suit: avec une confiance de 95%, entre 4,5 et 8,3% des enfants de mères qui ont fumé pendant la grossesse deviennent obèses.

Notez que ce n'est généralement pas intéressant en soi: vous voulez probablement le comparer à la prévalence chez les enfants de mères qui ne fument pas (rapport de cotes, risque relatif, etc.)

Nick Sabbe
la source
(Cette réponse, qui est arrivée ici après une fusion de deux fils, répond à une question en double formulée en termes d'IC ​​proportionnel.)
whuber
0

Si la vraie différence moyenne est en dehors de cet intervalle, alors il y a seulement 5% de chances que la différence moyenne de notre expérience soit si loin de la vraie différence moyenne.

Thomas Levine
la source
Qu'entendez-vous par «si loin»? Est-ce la limite supérieure de l'IC qui est éloignée ou la moyenne observée?
probabilitéislogic
La distance entre la moyenne vraie et la moyenne observée est ce que j'entends par «si loin». Je vais le changer en "si loin"; Je pense que c'est un peu plus clair.
Thomas Levine
-2

Mon interprétation: Si vous menez l'expérience N fois (où N tend vers l'infini), alors sur ce grand nombre d'expériences, 95% des expériences auront des intervalles de confiance qui se situent dans ces limites de 95%. Plus clairement, disons que ces limites sont "a" et "b", puis 95 sur 100 fois la différence moyenne de votre échantillon se situera entre "a" et "b". Je suppose que vous comprenez que différentes expériences peuvent avoir différents échantillons à couvrir sur l'ensemble de la population.

ayush biyani
la source
@ Ayush. Merci. C'est utile. Désolé, je ne suis pas tout à fait conforme à votre dernière phrase.
Anne
@anne - D'accord. Ce que je veux dire, c'est que si vous voulez tester la moyenne entre deux échantillons et disons que chaque échantillon a 1000 personnes, vous pouvez en définir des échantillons infinis (disons 40 personnes de chacun). J'avais écrit ceci pour dire pourquoi les différentes expériences diffèrent les unes des autres .. Les expériences où nous observons l'intervalle de confiance.
ayush biyani
2
@ayush - ce n'est pas la bonne interprétation dans votre avant-dernière phrase. Ou au moins, vous devez ajouter des indices à "a" et "b", ce qui indique clairement que ce sont ces quantités qui varient au cours des 100 fois. Votre notation actuelle donne l'impression que "a" et "b" sont des quantités fixes.
probabilitéislogic
@probabilityislogic - d'accord .. les indices sont nécessaires.
ayush biyani
1
@Ayush (-1) La caractérisation qui apparaît actuellement dans votre réponse peut être interprétée de plusieurs manières, dont la plupart (par conséquent) sont incorrectes. Par exemple, les intervalles de confiance[une,b]sont généralement construits de manière à contenir la «différence moyenne de l'échantillon», ce qui implique que cette différence se situera entre les limites 100% du temps, quoi qu'il arrive.
whuber
-2

"95 fois sur 100, votre valeur tombera dans un écart-type de la moyenne"

beginnerstat
la source
4
Bienvenue sur le site @beginnerstat. Je me demande si vous vouliez dire « deux écarts-types de la moyenne»? De plus, je ne suis pas sûr de voir comment ce libellé améliore ce que le PO a lu ailleurs. Souhaitez-vous développer un peu?
gung - Reinstate Monica
1
Oui au commentaire de @ gung: Je suis particulièrement intéressé par la compréhension du sens dans lequel "moyenne" et "SD" sont utilisés ici. S'agit-il de paramètres sous-jacents ou d' échantillons d'estimations ? Se réfèrent-ils à la distribution d'une variable aléatoire sous-jacente ou à la distribution d'échantillonnage de la moyenne des variances iid d'une telle distribution?
whuber