SPSS fournit la sortie «intervalle de confiance des moyennes de différence». J'ai lu à certains endroits que cela signifie "95 fois sur 100, notre différence moyenne d'échantillon sera entre entre ces limites" Je trouve cela peu clair. Quelqu'un peut-il suggérer une formulation plus claire pour expliquer «l'intervalle de confiance de la différence de moyennes»? Cette sortie apparaît dans le contexte d'un test t à un échantillon.
21
Réponses:
Ce n'est pas chose facile, même pour des statisticiens respectés. Regardez une récente tentative de Nate Silver :
(extrait du blog FiveThirtyEight du New York Times, 29/09/10.) Ce n'est pas un intervalle de confiance. Selon la façon dont vous l'interprétez, il s'agit soit d'un intervalle de tolérance soit d'un intervalle de prédiction. (Sinon, il n'y a rien à redire à l'excellente discussion de M. Silver sur l'estimation des probabilités; c'est une bonne lecture.) De nombreux autres sites Web (en particulier ceux axés sur l'investissement) confondent également les intervalles de confiance avec d'autres types d'intervalles.
Le New York Times a fait des efforts pour clarifier la signification des résultats statistiques qu'il produit et rend compte. Les petits caractères sous de nombreux sondages incluent quelque chose comme ceci:
(Par exemple , Comment le sondage a été mené , 5/2/2011.)
Un peu verbeux, peut-être, mais clair et précis: cette affirmation caractérise la variabilité de la distribution d'échantillonnage des résultats du sondage. Cela se rapproche de l'idée d'intervalle de confiance, mais ce n'est pas tout à fait là. Cependant, on pourrait envisager d'utiliser une telle formulation au lieu d'intervalles de confiance dans de nombreux cas.
Lorsqu'il y a tellement de confusion potentielle sur Internet, il est utile de se tourner vers des sources faisant autorité. Un de mes favoris est le texte consacré par Freedman, Pisani et Purves, Statistics. Maintenant dans sa quatrième édition, il est utilisé dans les universités depuis plus de 30 ans et se distingue par ses explications claires et simples et son accent sur les méthodes "fréquentistes" classiques. Voyons ce qu'il dit sur l'interprétation des intervalles de confiance:
[à la p. 384; toutes les citations proviennent de la troisième édition (1998)]. Ça continue,
[p. 384]. Le texte en dit beaucoup plus sur les intervalles de confiance, mais cela suffit pour aider: son approche est de déplacer le centre de discussion sur l' échantillon, apportant à la fois rigueur et clarté aux déclarations. Nous pourrions donc essayer la même chose dans nos propres rapports. Par exemple, appliquons cette approche pour décrire un intervalle de confiance de [34%, 40%] autour d'une différence de pourcentage signalée dans une expérience hypothétique:
(Voici mon texte, qui peut certainement être amélioré: j'invite les éditeurs à y travailler.)
Une longue déclaration comme celle-ci est quelque peu lourde. Dans les rapports réels, la plupart du contexte - échantillonnage aléatoire, sujets et contrôles, possibilité de variabilité - aura déjà été établi, rendant inutile la moitié de l'énoncé précédent. Lorsque le rapport établit qu'il existe une variabilité d'échantillonnage et présente un modèle de probabilité pour les résultats de l'échantillon, il n'est généralement pas difficile d'expliquer un intervalle de confiance (ou un autre intervalle aléatoire) aussi clairement et rigoureusement que le public a besoin.
la source
D'un point de vue technique pédant, je ne pense pas personnellement qu'il existe une "formulation claire" de l'interprétation des intervalles de confiance.
J'interpréterais un intervalle de confiance comme: il y a une probabilité de 95% que l'intervalle de confiance de 95% couvre la vraie différence moyenne
Mais notez que tout cela est dans la philosophie. Les intervalles de confiance sont mieux laissés vagues dans l'explication je pense. Ils donnent de bons résultats lorsqu'ils sont utilisés correctement.
la source
La réponse approximative à la question est qu'un intervalle de confiance à 95% vous permet d'être sûr à 95% que la vraie valeur du paramètre se situe dans l'intervalle. Cependant, cette réponse approximative est à la fois incomplète et inexacte.
L'incomplétude réside dans le fait qu'il n'est pas clair que "95% confiant" signifie quelque chose de concret, ou si c'est le cas, alors ce sens concret ne serait pas universellement accepté par même un petit échantillon de statisticiens. Le sens de la confiance dépend de la méthode utilisée pour obtenir l'intervalle et du modèle d'inférence utilisé (qui, je l'espère, deviendra plus clair ci-dessous).
L'inexactitude réside dans le fait que de nombreux intervalles de confiance ne sont pas conçus pour vous dire quoi que ce soit sur l'emplacement de la valeur réelle du paramètre pour le cas expérimental particulier qui a donné l'intervalle de confiance! Cela surprendra beaucoup de gens, mais cela découle directement de la philosophie Neyman-Pearson qui est clairement énoncée dans cette citation de leur article de 1933 "Sur le problème des tests les plus efficaces des hypothèses statistiques":
Les intervalles qui sont basés sur l '«inversion» des tests d'hypothèse NP hériteront donc de ce test la nature d'avoir des propriétés d'erreur à long terme connues sans permettre de déduire les propriétés de l'expérience qui les a produites! Ma compréhension est que cela protège contre l'inférence inductive, ce que Neyman considérait apparemment comme une abomination.
Neyman revendique explicitement le terme «intervalle de confiance» et l'origine de la théorie des intervalles de confiance dans son article de 1941 Biometrika «Argument fiduciaire et la théorie des intervalles de confiance». Dans un sens, donc, tout ce qui est correctement un intervalle de confiance joue selon ses règles et donc la signification d'un intervalle individuel ne peut être exprimée qu'en termes de taux à long terme auquel les intervalles calculés par cette méthode contiennent (couvrent) le vrai pertinent valeur du paramètre.
Nous devons maintenant bifurquer la discussion. Un volet suit la notion de «couverture» et l'autre suit des intervalles non neymaniens qui sont comme des intervalles de confiance. Je vais reporter le premier afin de pouvoir terminer ce post avant qu'il ne devienne trop long.
Il existe de nombreuses approches différentes qui donnent des intervalles que l'on pourrait appeler des intervalles de confiance non neymaniens. Le premier d'entre eux est les intervalles fiduciaux de Fisher. (Le mot `` fiducial '' peut effrayer beaucoup de gens et susciter des sourires moqueurs d'autrui, mais je laisse cela de côté ...) Pour certains types de données (par exemple, normal avec une variance de population inconnue), les intervalles calculés par la méthode de Fisher sont numériquement identiques à ceux de intervalles qui seraient calculés par la méthode de Neyman. Cependant, ils invitent à des interprétations diamétralement opposées. Les intervalles neymaniens ne reflètent que les propriétés de couverture à long terme de la méthode, tandis que les intervalles de Fisher sont destinés à soutenir l'inférence inductive concernant les vraies valeurs des paramètres pour l'expérience particulière qui a été réalisée.
Le fait qu'un ensemble de bornes d'intervalle puisse provenir de méthodes basées sur l'un ou l'autre de deux paradigmes philosophiquement distincts conduit à une situation vraiment déroutante - les résultats peuvent être interprétés de deux manières contradictoires. D'après l'argument fiducial, il y a une probabilité de 95% qu'un intervalle fiduciaire particulier de 95% contienne la vraie valeur du paramètre. De la méthode de Neyman, nous savons seulement que 95% des intervalles calculés de cette manière contiendront la vraie valeur du paramètre, et nous devons dire des choses confuses quant à la probabilité que l'intervalle contenant la vraie valeur du paramètre soit inconnu mais soit 1 ou 0.
Dans une large mesure, l'approche de Neyman a dominé celle de Fisher. C'est très regrettable, à mon avis, car cela ne conduit pas à une interprétation naturelle des intervalles. (Relisez la citation ci-dessus de Neyman et Pearson et voyez si elle correspond à votre interprétation naturelle des résultats expérimentaux. Probablement pas.)
Si un intervalle peut être correctement interprété en termes de taux d'erreur globaux mais aussi correctement en termes d'inférence locale, je ne vois pas de bonne raison d'interdire aux utilisateurs d'intervalle de l'interprétation plus naturelle offerte par ce dernier. Ainsi, ma suggestion est que la bonne interprétation d'un intervalle de confiance est LES DEUX:
Neymanian: Cet intervalle de 95% a été construit par une méthode qui donne des intervalles qui couvrent la vraie valeur du paramètre à 95% des occasions à long terme (... de notre expérience statistique).
Pêcheur: cet intervalle de 95% a une probabilité de 95% de couvrir la vraie valeur du paramètre.
(Les méthodes bayésienne et de vraisemblance donneront également des intervalles avec des propriétés fréquentistes souhaitables. De tels intervalles invitent à des interprétations légèrement différentes qui se sentiront probablement plus naturelles que le neymanien.)
la source
La signification d'un intervalle de confiance est la suivante: si vous deviez répéter votre expérience exactement de la même manière (c'est-à-dire: le même nombre d'observations, en tirant de la même population, etc.), et si vos hypothèses sont correctes, et vous calculeriez cet intervalle à nouveau à chaque répétition, cet intervalle de confiance contiendrait la prévalence réelle dans 95% des répétitions (en moyenne).
Donc, vous pouvez dire que vous êtes certain à 95% (si vos hypothèses sont correctes, etc.) que vous avez maintenant construit un intervalle qui contient la vraie prévalence.
Cela est généralement indiqué comme suit: avec une confiance de 95%, entre 4,5 et 8,3% des enfants de mères qui ont fumé pendant la grossesse deviennent obèses.
Notez que ce n'est généralement pas intéressant en soi: vous voulez probablement le comparer à la prévalence chez les enfants de mères qui ne fument pas (rapport de cotes, risque relatif, etc.)
la source
Si la vraie différence moyenne est en dehors de cet intervalle, alors il y a seulement 5% de chances que la différence moyenne de notre expérience soit si loin de la vraie différence moyenne.
la source
Mon interprétation: Si vous menez l'expérience N fois (où N tend vers l'infini), alors sur ce grand nombre d'expériences, 95% des expériences auront des intervalles de confiance qui se situent dans ces limites de 95%. Plus clairement, disons que ces limites sont "a" et "b", puis 95 sur 100 fois la différence moyenne de votre échantillon se situera entre "a" et "b". Je suppose que vous comprenez que différentes expériences peuvent avoir différents échantillons à couvrir sur l'ensemble de la population.
la source
"95 fois sur 100, votre valeur tombera dans un écart-type de la moyenne"
la source