Pourquoi un intervalle de confiance à 95% n'implique-t-il pas une chance de contenir la moyenne de 95%?

228

Il semble que, grâce à diverses questions connexes, il existe un consensus sur le fait que la partie "95%" de ce que nous appelons un "intervalle de confiance à 95%" fait référence au fait que si nous reproduisions exactement nos procédures d'échantillonnage et de calcul CI , 95% des IC ainsi calculés contiendraient la moyenne de la population. Il semble également que l’on s’accorde à dire que cette définition n’est paspermet de conclure d’un seul IC à 95% qu’il existe une probabilité de 95% que la moyenne se situe quelque part dans l’IC. Cependant, je ne comprends pas comment le premier n’implique pas le dernier dans la mesure où, après avoir imaginé de nombreux IC contenant 95% de la moyenne de la population, notre incertitude ne devrait pas moyenne ou non) nous oblige à utiliser le taux de base des cas imaginés (95%) comme notre estimation de la probabilité que notre cas réel contienne l’IC?

J'ai vu des publications se disputer entre "l'IC réellement calculé contient ou non la moyenne de la population, donc sa probabilité est de 1 ou 0", mais cela semble impliquer une définition étrange de la probabilité qui est dépendante. sur des états inconnus (c'est-à-dire qu'un ami lance une pièce de monnaie équitable, cache le résultat, et il m'est interdit de dire qu'il y a 50% de chances qu'il s'agisse de têtes).

Sûrement je me trompe, mais je ne vois pas où ma logique a mal tourné ...

Mike Lawrence
la source
4
Par "hasard", voulez-vous dire "probabilité" dans le sens technique fréquentiste ou dans le sens bayésien de la plausibilité subjective? Au sens fréquentiste, seuls les événements d’expériences aléatoires ont une probabilité. Examiner trois nombres (fixes) donnés (moyenne vraie, bornes calculées de l'IC) pour déterminer leur ordre (moyenne réelle contenue dans l'IC?) N'est pas une expérience aléatoire. C'est aussi pourquoi la partie probabilité de "l'EC réellement calculé contient la moyenne de la population ou non, donc sa probabilité est 1 ou 0" est également fausse. Un modèle de probabilité fréquentiste ne s'applique tout simplement pas dans ce cas.
Caracal
11
Cela dépend de la façon dont vous traitez la moyenne théorique. Si c'est une variable aléatoire, vous pouvez dire à propos de la probabilité qu'elle tombe dans un intervalle. Si c'est constant, vous ne pouvez pas. C’est l’explication la plus simple, qui a réglé cette question pour moi personnellement.
Mpiktas
2
A propos, je suis tombé sur cette conversation de Thaddeus Tarpey: Tous les modèles ont raison… la plupart sont inutiles . Il aborde la question de la probabilité qu'un intervalle de confiance à 95% contienne (p. 81 et suiv.)? μ
chl
3
@Nesp: Je ne pense pas qu'il y ait de problème avec l'affirmation "Sa probabilité est soit zéro, soit un" en référence à la probabilité (postérieure) qu'un CI contienne un paramètre (fixe). (Cela ne repose même pas vraiment sur une interprétation fréquentiste de la probabilité!). Il ne repose pas non plus sur des "états inconnus". Une telle déclaration fait précisément référence à la situation dans laquelle on reçoit un CI basé sur un échantillon particulier. C’est un exercice mathématique simple de montrer qu’une telle probabilité est triviale, c’est-à-dire qu’elle prend des valeurs entre . {0,1}
cardinal
3
@MikeLawrence trois ans plus tard, êtes-vous satisfait de la définition d'un intervalle de confiance à 95%, comme suit: "si nous échantillonnions de manière répétée dans la population et calculions un intervalle de confiance à 95% après chaque échantillon, 95% de notre intervalle de confiance contiendrait la moyenne ". Comme vous en 2012, j'ai du mal à comprendre en quoi cela ne signifie pas qu'un intervalle de confiance à 95% présente une probabilité de 95% de contenir la moyenne. Je serais intéressé de voir comment votre compréhension de l'intervalle de confiance a progressé depuis que vous avez posé cette question.
luciano

Réponses:

107

Une partie du problème est que la définition fréquentiste de la probabilité ne permet pas d'appliquer une probabilité non triviale au résultat d'une expérience particulière, mais uniquement à une population fictive d'expériences à partir desquelles cette expérience particulière peut être considérée comme un échantillon. La définition d'un élément de configuration est source de confusion car il s'agit d'une déclaration concernant cette population d'expériences (généralement) fictive, plutôt que sur les données particulières collectées dans l'instance concernée. Donc, une partie du problème est liée à la définition d’une probabilité: l’idée de la valeur vraie située dans un intervalle particulier avec une probabilité de 95% est incompatible avec un cadre fréquentiste.

Un autre aspect du problème réside dans le fait que le calcul de la confiance fréquentiste n’utilise pas toutes les informations contenues dans l’échantillon particulier pertinentes pour délimiter la valeur réelle de la statistique. Ma question "Existe-t-il des exemples où les intervalles crédibles bayésiens sont évidemment inférieurs aux intervalles de confiance fréquentistes"discute d'un article de Edwin Jaynes qui contient de très bons exemples qui soulignent vraiment la différence entre les intervalles de confiance et les intervalles crédibles. L’exemple 5, qui présente un intérêt particulier pour cette discussion, traite de la différence entre un intervalle de confiance et un intervalle de confiance permettant d’estimer le paramètre d’une distribution exponentielle tronquée (pour un problème de contrôle de la qualité industrielle). Dans l'exemple qu'il donne, l'échantillon contient suffisamment d'informations pour être certain que la vraie valeur du paramètre ne se trouve nulle part dans un intervalle de confiance de 90% correctement construit!

Cela peut paraître choquant pour certains, mais la raison de ce résultat est que les intervalles de confiance et les intervalles crédibles sont des réponses à deux questions différentes, à partir de deux interprétations différentes de la probabilité.

L'intervalle de confiance est la réponse à la demande: « Donne - moi un intervalle qui la valeur réelle entre crochets du paramètre dans % des cas d'une expérience qui se répète un grand nombre de fois. » L’intervalle crédible est une réponse à la demande: "Donnez-moi un intervalle qui encadre la valeur vraie avec la probabilité p en fonction de l’échantillon particulier que j’ai observé. " Pour pouvoir répondre à cette dernière demande, nous devons d’abord adopter soit ) un nouveau concept du processus de génération de données ou b) un concept différent de la définition de la probabilité elle-même. 100pp

La raison principale pour laquelle un intervalle de confiance de 95% n'implique pas une probabilité de contenir la moyenne de 95% est parce que l'intervalle de confiance est une réponse à une question différente, c'est donc la bonne réponse uniquement lorsque la réponse aux deux questions se présente. avoir la même solution numérique.

En bref, les intervalles de confiance et de confiance répondent à des questions différentes selon des perspectives différentes. les deux sont utiles, mais vous devez choisir le bon intervalle pour la question que vous voulez réellement poser. Si vous voulez un intervalle qui permette d'interpréter une probabilité de 95% (postérieur) de contenir la valeur vraie, choisissez un intervalle crédible (et, avec lui, la conceptualisation correspondante de la probabilité), et non un intervalle de confiance. Ce que vous ne devriez pas faire est d’adopter une interprétation de la probabilité différente de celle utilisée dans l’analyse.

Merci à cardinal pour ses raffinements!

Voici un exemple concret tiré de l'excellent livre de David MaKay intitulé "Théorie de l'information, algorithmes d'inférence et d'apprentissage" (page 464):

Soit le paramètre d'intérêt soit et la donnée D , une paire de points x 1 et x 2 tirée indépendamment de la distribution suivante:θDx1x2

p(x|θ)={1/2x=θ,1/2x=θ+1,0otherwise

Si est 39 , alors nous attendons à voir les jeux de données ( 39 , 39 ) , ( 39 , 40 ) , ( 40 , 39 ) et ( 40 , 40 ) tout avec une probabilité égale 1 / 4 . Considérons l'intervalle de confianceθ39(39,39)(39,40)(40,39)(40,40)1/4

.[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)]

Il s'agit clairement d'un intervalle de confiance valide à 75%, car si vous ré-échantillonniez les données, , l'intervalle de confiance ainsi défini contiendrait souvent la valeur vraie 75% du temps.D=(x1,x2)

Considérons maintenant les données . Dans ce cas, l'intervalle de confiance fréquentiste de 75% serait [ 29 , 29 ] . Cependant, en supposant que le modèle du processus de génération soit correct, θ pourrait être 28 ou 29 dans ce cas, et nous n'avons aucune raison de supposer que 29 est plus probable que 28, la probabilité a posteriori est donc p ( θ = 28 | D ) = p ( θ = 29 | D ) = 1 / 2D=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2. Ainsi, dans ce cas, l’intervalle de confiance fréquentiste n’est clairement pas un intervalle de confiance de 75%, car il n’ya que 50% de probabilité qu’il contienne la valeur réelle de , compte tenu de ce que nous pouvons déduire de l’échantillon à propos de θ .θθ

Oui, il s'agit d'un exemple artificiel, mais si les intervalles de confiance et les intervalles crédibles ne différaient pas, ils seraient toujours identiques dans les exemples artificiels.

Notez que la différence principale est que l'intervalle de confiance est une indication de ce qui se produirait si vous répétiez l'expérience plusieurs fois, l'intervalle crédible est une indication de ce qui peut être déduit de cet échantillon particulier.

Dikran Marsupial
la source
8
L'intervalle de confiance est la réponse à la question "donnez-moi un intervalle qui encadrera la valeur vraie de la statistique avec la probabilité p si l'expérience est répétée un grand nombre de fois". L'intervalle crédible est une réponse à la question "donnez-moi un intervalle qui encadre la valeur vraie avec la probabilité p". Tout d'abord, la déclaration concernant une interprétation fréquentiste de la probabilité laisse à désirer. Le problème réside peut-être dans l'utilisation du mot probabilité dans cette phrase. Deuxièmement, je trouve la "définition" d'intervalle crédible un peu trop simpliste ...
cardinal
7
... et légèrement trompeur compte tenu de la caractérisation que vous donnez à un CI. Dans le même ordre d'idées, la phrase de clôture présente le même problème: si vous souhaitez un intervalle contenant la valeur vraie 95% du temps, choisissez un intervalle crédible, et non un intervalle de confiance. L'utilisation familière de "contient la vraie valeur 95% du temps" est un peu imprécise et laisse une fausse impression. En effet, je peux faire valoir un argument convaincant (je crois) que ce libellé est beaucoup plus proche de la définition d'un IC.
cardinal
11
Demande : Il serait utile que les électeurs défavorisés à cette réponse expriment leur opinion / leurs raisons dans les commentaires. Bien que cette question soit un peu plus susceptible que les autres d’entraîner des discussions prolongées, il est néanmoins utile de fournir des commentaires constructifs aux intervenants. c’est l’un des moyens les plus simples d’améliorer le contenu général du site. À votre santé.
cardinal
9
Dikran, oui, je suis d'accord. Cela faisait partie de ce que j'essayais de tirer un peu plus dans les modifications. Un fréquentiste radical (ce que je ne suis certainement pas ) pourrait le dire de manière provocante: "Un IC est conservateur en ce sens que je conçois l’intervalle à l’ avance de telle sorte que, quelles que soient les données que j’observe, le paramètre sera capturé dans cet intervalle. 95% Un intervalle crédible provient du fait que "Quelqu'un a jeté des données sur mon tour. Quelle est la probabilité que l'intervalle que je construise à partir de cette donnée contienne le vrai paramètre?" "C'est un peu injuste dans ce dernier cas .. .
cardinal
2
Dikran, nous venons tous d'horizons différents et cela contribue à enrichir notre compréhension. En ce qui concerne les probabilités et les concepts associés, le penseur le plus brillant avec lequel j'ai eu le plaisir de dialoguer n'avait pas de statistiques formelles ni de fondements de probabilités (mathématiques); il était ingénieur.
cardinal
28

Dans les statistiques fréquentistes, les probabilités concernent les événements à long terme. Ils ne s'appliquent tout simplement pas à un seul événement une fois que c'est fait. Et le déroulement d'une expérience et le calcul de l'IC est un tel événement.

Vous vouliez comparer cela à la probabilité qu'une pièce cachée soit une tête, mais vous ne pouvez pas. Vous pouvez le relier à quelque chose de très proche. Si votre jeu comportait une règle selon laquelle vous devez énoncer après le retournement "les têtes", la probabilité que vous ayez raison à long terme est de 50%, ce qui est analogue.

Lorsque vous exécutez votre test et collectez vos données, vous obtenez quelque chose de similaire au lancer réel de la pièce. Le processus de l'expérience est comme le processus de retournement de la pièce en ce qu'elle génère μou ce n'est pas juste comme la pièce de monnaie est des têtes ou ce n'est pas. Une fois que vous avez lancé la pièce, que vous la voyiez ou non, il n’y avait aucune probabilité que ce soit la tête, que ce soit la tête ou non. Supposons maintenant que vous appelez des têtes. C'est ce que calcule l'IC. Parce que vous ne pouvez jamais révéler la pièce (votre analogie avec une expérience disparaîtrait). Vous avez raison ou vous avez tort, c'est tout. Est-ce que son état actuel a un lien avec la probabilité qu'il se présente à la prochaine tentative, ou que j'aurais pu prédire ce que c'est? Non. Le processus selon lequel la tête est produite a une probabilité de 0,5 de les produire, mais cela ne signifie pas qu'une tête qui existe déjà a une probabilité de 0,5. Une fois que vous calculez votre CI , il n'y a aucune probabilité qu'il capture μ, que ce soit ou non, vous avez déjà lancé la pièce.

OK, je pense avoir assez torturé cela. Le point critique est vraiment que votre analogie est erronée. Vous ne pouvez jamais révéler la pièce; vous ne pouvez appeler que des têtes ou des queues basées sur des suppositions concernant des pièces (expériences). Vous voudrez peut-être parier par la suite que vos têtes et vos queues sont correctes, mais vous ne pourrez jamais en récolter. En outre, vous déclarez que la valeur de l'import est dans l'intervalle est un élément essentiel de la procédure de CI. Si vous ne le faites pas, vous n'avez pas de CI (ou du moins, pas un%).

Ce qui rend le CI confus, c'est probablement son nom. C'est une plage de valeurs qui contiennent ou non . Nous pensons qu'ils contiennent des µ, mais la probabilité que cela soit différent du processus suivi pour les développer. La partie à 95% du nom à 95% de l'IC correspond à peu près au processus. Vous pouvez calculer une plage qui, à votre avis, contient par la suite µ à un certain niveau de probabilité, mais il s’agit d’un calcul différent et non d’un IC.μμμ

Il est préférable de penser au nom 95% IC comme désignation d'une sorte de mesure d'une plage de valeurs que vous pensez contenir plausiblement et séparez les 95% de cette plausibilité. Nous pourrions l'appeler Jennifer CI, alors que l'IC à 99% est l'IC Wendy. Cela pourrait effectivement être mieux. Ensuite, après, nous pouvons dire que nous pensons que μ est susceptible de figurer dans la plage de valeurs et que personne ne resterait coincé en disant qu'il existe une probabilité de Wendy que nous ayons capturé μ . Si vous souhaitez une désignation différente, je pense que vous devriez probablement vous sentir libre de vous débarrasser de la partie "confiance" de CI aussi (mais c'est un intervalle).μμμ

John
la source
Pour être juste, cette réponse semble correcte, mais j'adorerai en voir une description formelle (mathématique). Par formel, je veux dire le convertir en événements. Je vais expliquer mon point: je me souviens d'avoir été très confus avec les valeurs au début. Quelque part, j’ai lu que "ce que p calculent en réalité, c’est la probabilité que les données soient données étant donné que l’hypothèse nulle, H 0 , est vraie". Quand j'ai mis cela en relation avec le théorème de Bayes, tout était tellement logique que je peux maintenant l'expliquer à tout le monde (c'est-à-dire que l'on calcule p ( D | H 0 ) ). Cependant, je ne suis (ironiquement) pas aussi confiant ...ppH0p(|H0)
Néstor
... (suite) avec des intervalles de confiance: existe-t-il un moyen d'exprimer ce que vous avez dit en termes de connaissances? En fréq. Statistiques. on calcule généralement une estimation , avec une certaine méthode (par exemple, MLE). Est-il possible d'écrire P (μ^ (par exemple avec un intervalle postérieur central bayésien, avec μ la "moyenne vraie") en fonction de P ( L ' 1 < ˉ X - μ <P(L1(μ^)<μ<L2(mu^)|D)μ (c’est-à-dire ce que sontréellementles α % d’intervalles de confiance), comme lorsque vous pouvez exprimer p ( H 0 | D ) en fonction de p ( D | H 0 ) ? Intuitivement, j'ai toujours pensé que cela pouvait être fait, mais je ne l'ai jamais fait. P(L1<X¯μ<L2)=ααp(H0|D)p(D|H0)
Néstor
Parfois, le fait de pouvoir supprimer des commentaires a ses inconvénients. Je ne pouvais pas suivre les changements rapides, dans ce cas!
cardinal
1
" Si vous ne calculez pas votre intervalle de confiance, vous obtenez quelque chose de similaire à la pièce cachée et il a une probabilité de 95% de contenir du mu, tout comme la pièce a une probabilité de 50% d'être une tête. " - Je pense que vous avez l'analogie est fausse ici. « Le calcul de la CI » ne correspond pas à révéler la pièce, il correspond à appeler « chefs » ou « Tails », à quel point vous encore avoir une chance 50-50 d'avoir raison. Révéler la pièce correspond à * voir la valeur de la population de , point auquel vous pouvez répondre à la question de savoir si c'est dans l'intervalle "appelé". Le puzzle du PO reste. μ
Glen_b
1
@vonjd, je ne vois pas ce qui n'a pas de sens à ce sujet. De toute évidence, votre adversaire a une couleur ou pas. Dans le premier cas, la probabilité est (trivialement) 1, et si le dernier est 0. Par conséquent, vous ne pouvez pas raisonnablement dire que la probabilité est .198. C'est parfaitement logique. Avant d’ attaquer la main, il est raisonnable de parler de la probabilité de recevoir une couleur. De même, avant de tirer une carte, il est raisonnable de parler de la probabilité d'obtenir le costume dont vous avez besoin. Une fois que vous avez la carte, c'est simplement ce qui vous convient.
gung
22

Les idées formelles et explicites sur les arguments, l'inférence et la logique ont pour origine, dans la tradition occidentale, Aristote. Aristotle a écrit sur ces sujets dans plusieurs ouvrages différents (dont un intitulé Topics ;-)). Cependant, le principe fondamental le plus fondamental est la loi de la non-contradiction , qui peut être trouvée dans divers endroits, y compris la métaphysique.livre IV, chapitres 3 et 4. Une formulation typique est la suivante: "... il est impossible que rien au même moment soit et ne soit pas [dans le même sens]" (1006 a 1). Son importance est mentionnée un peu plus tôt: "... c'est naturellement le point de départ, même pour tous les autres axiomes" (1005 b 30). Pardonnez-moi d’être philosophique, mais cette question, de par sa nature, a un contenu philosophique qui ne peut être simplement écarté pour des raisons de commodité.

Considérez cette expérience de pensée: Alex lance une pièce de monnaie, l'attrape et la retourne sur son avant-bras avec sa main couvrant le côté tourné vers le haut. Bob se tenait dans la bonne position; il a brièvement vu la pièce dans la main d'Alex et peut ainsi en déduire quel côté est face maintenant. Cependant, Carlos n'a pas vu la pièce - il n'était pas au bon endroit. À ce stade, Alex leur demande quelle est la probabilité que la pièce montre des têtes. Carlos suggère que la probabilité est de 0,5, car c'est la fréquence à long terme des têtes. Bob n'est pas d'accord, il affirme avec assurance que la probabilité n'est rien d'autre que 0 .

Maintenant, qui a raison? Il est possible, bien sûr, que Bob ait mal vu et qu’il soit incorrect (supposons qu’il n’a pas mal vu). Néanmoins, vous ne pouvez pas affirmer que les deux ont raison et respectez la loi de la non-contradiction. (Je suppose que si vous ne croyez pas en la loi de la non-contradiction, vous pourriez penser qu'ils ont tous les deux raison, ou une autre formulation du même genre.) Imaginez maintenant un cas similaire, mais sans la présence de Bob, la suggestion de Carlos pourrait-elle être plus droit (eh?) sans Bob autour, puisque personne n'a vu la pièce? L'application de la loi de la non-contradiction n'est pas aussi claire en l'espèce, mais je pense qu'il est évident que les parties de la situation qui semblent importantes sont maintenues constantes des premières aux dernières. Il y a eu beaucoup de tentatives pour définir la probabilité, et à l'avenir, il pourrait encore en être beaucoup plus, mais une définition de la probabilité en fonction de qui se trouve et de l'endroit où elles se trouvent n'a que peu d'intérêt. En tout cas (deviner par votre utilisation de la phrase "intervalle de confiance "), nous travaillons dans le cadre de l’approche Frequentist et il n’est pas pertinent de savoir si le véritable état de la pièce de monnaie est sans importance. Ce n’est pas une variable aléatoire - c’est une valeur réalisée et elle montre des têtes .

Comme le note @John, l'état d'une pièce de monnaie peut ne pas sembler à première vue semblable à la question de savoir si un intervalle de confiance couvre la vraie moyenne. Cependant, au lieu d’une pièce de monnaie, nous pouvons comprendre cela abstraitement comme une valeur réalisée tirée d’une distribution de Bernoulli avec le paramètre . Dans la situation de pièce, p = 0,5 , alors que pour un IC à 95%, p = 0,95 . Ce qu'il est important de comprendre en établissant la connexion, c'est que la partie importante de la métaphore n'est pas le p qui gouverne la situation, mais plutôt que la pièce retournée ou l' IC calculé est une valeur réalisée , pas une variable aléatoire. pp=.5p=.95p

Il est important pour moi de noter à ce stade que tout cela est le cas dans une conception Frequentist de la probabilité. La perspective bayésienne ne viole pas la loi de la non-contradiction, elle part simplement de différentes hypothèses métaphysiques sur la nature de la réalité (plus précisément sur la probabilité). D'autres sur CV connaissent beaucoup mieux la perspective bayésienne que moi, et expliquent peut-être pourquoi les hypothèses qui sous-tendent votre question ne s'appliquent pas à l'approche bayésienne, et qu'en réalité, la probabilité moyenne peut être de 95%. se situant dans une limite de crédibilité de 95%intervalle, dans certaines conditions, y compris (entre autres) que le précédent utilisé était exact (voir le commentaire de @DikranMarsupial ci-dessous). Cependant, je pense que tous conviendraient qu'une fois que vous déclarez que vous travaillez dans l'approche Frequentist, il ne peut pas être vrai que la probabilité que la vraie moyenne se situe dans un intervalle de confiance particulier à 95% est de 0,95.

gung
la source
5
Selon l'approche bayésienne, il n'est pas vrai qu'il existe en réalité une probabilité de 95% que la vraie valeur se situe dans un intervalle de confiance de 95%. Il serait plus correct de dire que, étant donné une distribution antérieure particulière pour la valeur de la statistique (représentant notre état initial de connaissance), puis après avoir observé les données, nous avons une distribution postérieure représentant un état de connaissance actualisé, ce qui nous donne un intervalle où nous sommes sûrs à 95% que la vraie valeur réside. Cela ne sera exact que si notre préalable est exact (et d’autres hypothèses telles que la forme de la probabilité).
Dikran Marsupial
@DikranMarsupial, merci pour la note. C'est un peu une bouchée. J'ai modifié ma réponse pour la rendre plus cohérente avec votre suggestion, mais je ne l'ai pas copiée dans sa totalité . Faites-moi savoir si d'autres modifications sont appropriées.
gung
Essentiellement, l’approche bayésienne est mieux interprétée comme une déclaration de votre état de connaissance concernant le paramètre d’intérêt (voir cardinal, j’apprends; o), mais ne garantit pas que cet état de connaissance est correct à moins que toutes les hypothèses ne le soient. . J'ai apprécié la discussion philosophique, je devrai me rappeler la loi de la non-contradiction car la prochaine fois, c'est de discuter de logique floue; o)
Dikran Marsupial le
12

Pourquoi un IC à 95% n'implique-t-il pas une probabilité de 95% de contenir la moyenne?

De nombreuses questions doivent être clarifiées dans cette question et dans la majorité des réponses données. Je me limiterai à deux d'entre eux.

une. Qu'est-ce qu'une population signifie? Existe-t-il une vraie population?

Le concept de moyenne de population dépend du modèle. Comme tous les modèles sont erronés, mais que certains sont utiles, cette population est une fiction définie uniquement pour fournir des interprétations utiles. La fiction commence par un modèle de probabilité.

Le modèle de probabilité est défini par le triplet X est l’espace échantillon (un ensemble non vide), F est une famille de sous-ensembles de X et P est une mesure de probabilité bien définie définie sur F (il régit le comportement des données). Sans perte de généralité, considérons uniquement le cas discret. La moyenne de la population est définie par μ = et peut également être interprétée comme le centre de masse de tous les points de

(X,F,P),
XFXPFqui est, elle représente la tendance centrale sousP
μ=xXxP(X=x),
P , où le poids de chaque x X est donnée par P ( X = x ) .XxXP(X=x)

Dans la théorie des probabilités, la mesure est considérée comme connue, donc la moyenne de la population est accessible via l'opération simple ci-dessus. Cependant, en pratique, la probabilité P est à peine connue. Sans probabilité P , il est impossible de décrire le comportement probabiliste des données. Comme nous ne pouvons pas définir de probabilité précise P pour expliquer le comportement des données, nous définissons une famille M contenant des mesures de probabilité qui régissent (ou expliquent) éventuellement le comportement des données. Ensuite, le modèle statistique classique apparaît ( X , F , M ) . Le modèle ci - dessus est considéré comme un modèle paramétrique s'il existe ΘPPPPM

(X,F,M).
avec p < telle que M{ P θ : θ & thetav } . Considérons simplement le modèle paramétrique de ce post.ΘRpp<M{Pθ: θΘ}

Notez que, pour chaque mesure probabilité , il existe une définition moyenne respective u & thetav = ΣPθM C’est-à-dire qu’il existe une famille de moyens de population{μ

μθ=xXxPθ(X=x).
qui dépend étroitement de la définition de M . La famille m{μθ: θΘ}MMest défini par un nombre limité d'humains et par conséquent, il peut ne pas contenir la vraie mesure de probabilité qui gouverne le comportement des données. En réalité, la famille choisie ne contiendra guère la vraie mesure. De plus, cette vraie mesure peut même ne pas exister. Comme le concept de moyenne de population dépend des mesures de probabilité en , la moyenne de population dépend du modèle.M

L'approche bayésienne considère une probabilité a priori sur les sous - ensembles de (ou, ce qui revient, Θ ), mais dans ce post , je vais concentrer uniquement sur la version classique.MΘ

b. Quelle est la définition et le but d'un intervalle de confiance?

Comme mentionné ci-dessus, la moyenne de la population dépend du modèle et fournit des interprétations utiles. Cependant, nous avons une famille de moyennes de population, car le modèle statistique est défini par une famille de mesures de probabilité (chaque mesure de probabilité génère une moyenne de population). Par conséquent, sur la base d'une expérience, des procédures inférentielles devraient être utilisées afin d'estimer un petit ensemble (intervalle) contenant de bons candidats parmi les moyennes de population. Un procédé bien connu est la ( ) région de confiance, qui est définie par un ensemble C α de telle sorte que, pour tout & thetav & thetav1αCαθΘ , = 0 (voir Schervish, 1995). Cette définition est très générale et englobe pratiquement tous les types d'intervalles de confiance. Ici, P θ ( C α ( X ) P θ ( C α ( X ) = ) μ θ ) est la probabilité que C α ( X ) contienne μ θ

Pθ(Cα(X)μθ)1α   and   infθΘPθ(Cα(X)μθ)=1α,
Pθ(Cα(X)=)=0Pθ(Cα(X)μθ)Cα(X)μθ sous la mesure . Cette probabilité doit toujours être supérieure (ou égale à) 1 - α , l'égalité se produit dans le pire des cas.Pθ1α

Remarque: Les lecteurs doivent noter qu'il n'est pas nécessaire de faire des hypothèses sur l'état de réalité. La région de confiance est définie pour un modèle statistique bien défini sans faire référence à une "vraie" moyenne. Même si la "vraie" mesure de probabilité n'existe pas ou n'est pas dans , la définition de la région de confiance fonctionnera, car les hypothèses portent sur la modélisation statistique plutôt que sur les états de réalité.M

D'une part, avant d' observer les données, Cα(X) est un ensemble aléatoire (ou intervalle aléatoire) et la probabilité que " contienne la moyenne µ θ " est au moins égale à ( 1 - α ) pour tout & thetav & thetav . C'est une caractéristique très souhaitable pour le paradigme fréquentiste.Cα(X)μθ(1α)θΘ

D'autre part, après avoir observé les données ,x n’est qu’un ensemble fixe et la probabilité que " C α ( x ) contienne la moyenne μ θ " doit être égale à {0,1} pour tout θ Θ .Cα(x)Cα(x)μθθΘ

C'est-à-dire qu'après l' observation des données , nous ne pouvons plus utiliser le raisonnement probabiliste. Autant que je sache, il n'y a pas de théorie pour traiter les ensembles de confiance pour un échantillon observé (j'y travaille et j'obtiens de bons résultats). Pendant quelque temps, le fréquentiste doit croire que l'ensemble observé (ou l'intervalle) Cx est l’un des ensembles ( 1 - α ) à 100 % contenantCα(x)(1α)100% pour tout thetav & thetav .μθθΘ

PS: J'invite tous les commentaires, critiques, critiques ou même les objections à mon message. Discutons-en en profondeur. Comme je ne parle pas anglais couramment, mon post contient sûrement des fautes de frappe et des fautes de grammaire.

Référence:

Schervish, M. (1995), Theory of Statistics, deuxième éd., Springer.

Alexandre Patriota
la source
Quelqu'un veut-il en discuter?
Alexandre Patriota
4
Les discussions peuvent avoir lieu sur le chat, mais sont inappropriées sur notre site principal. Veuillez consulter notre centre d’aide pour plus d’informations sur son fonctionnement. En attendant, la mise en forme de votre message me laisse perplexe: presque tout est mis en forme sous forme de citation. Avez-vous extrait ce matériel d’une source publiée ou est-ce le vôtre, récemment écrit pour cette réponse? Si c'est le dernier cas, supprimez les citations!
whuber
2
(+1). Merci pour ce résumé clair et impressionnant. Bienvenue sur notre site!
whuber
11

Je suis surpris que personne n'ait évoqué l'exemple d'un intervalle de confiance à 75% essentiellement inutile décrit dans le deuxième chapitre de "Le principe de vraisemblance". Les détails se trouvent dans le texte original ( disponible gratuitement sur Project Euclid ): ce qui est essentiel dans cet exemple, c’est qu’il décrit sans ambiguïté une situation dans laquelle vous connaissez avec une certitude absolue la valeur d’un paramètre apparemment inconnu après observer les données, mais vous affirmeriez que vous n’avez que 75% de confiance que votre intervalle contient la valeur vraie. Travailler à travers les détails de cet exemple m'a permis de comprendre toute la logique de la construction d'intervalles de confiance.

johnmyleswhite
la source
8
Dans un contexte fréquentiste, on ne saurait "affirmer que vous n’avez que 75% de confiance que votre intervalle contient la vraie valeur" en référence à un CI, en premier lieu. C'est là que réside le noeud de la question. :)
cardinal
1
pouvez-vous fournir un lien direct / référence de page à cet exemple? J'ai cherché le chapitre mais je n'ai pas pu identifier le bon exemple.
Ronald
@ Ronald: C'est le premier sur la première page du chapitre 2. Un lien direct serait un ajout bienvenu.
cardinal
1
Lien comme demandé. Ah oui. Au sein de cet exemple, il semble clair: si nous faisons une expérience, il y a une chance de 75% que l'intervalle de confiance résultant sera contiendra la moyenne. Une fois que nous avons fait l'expérience et que nous savons comment cela s'est déroulé, cette probabilité peut être différente, en fonction de la distribution de l'échantillon obtenu.
Ronald
7

Je ne sais pas si cette question devrait être posée comme une nouvelle question, mais elle répond à la même question posée ci-dessus en proposant une expérience de pensée.

Premièrement, je vais supposer que si je sélectionne une carte à jouer au hasard dans un jeu standard, la probabilité que j'ai choisi un club (sans le regarder) est de 13/52 = 25%.

Et deuxièmement, il a été dit à maintes reprises qu’un intervalle de confiance de 95% devait être interprété en termes de répétition d’une expérience plusieurs fois et que l’intervalle calculé contiendrait la moyenne réelle dans 95% des cas - je pense que cela a été démontré de manière assez convaincante par James Waters. simulation. La plupart des gens semblent accepter cette interprétation d'un IC à 95%.

Maintenant, pour l'expérience de pensée. Supposons que nous ayons une variable normalement distribuée dans une large population - peut-être la hauteur d'hommes ou de femmes adultes. J'ai un assistant volontaire et infatigable à qui je confie l'exécution de plusieurs processus d'échantillonnage d'une taille donnée de la population et le calcul de la moyenne de l'échantillon et de l'intervalle de confiance de 95% pour chaque échantillon. Mon assistant est très enthousiaste et parvient à mesurer tous les échantillons possibles de la population. Ensuite, pour chaque échantillon, mon assistant enregistre l'intervalle de confiance obtenu en vert (si le CI contient la moyenne vraie) ou en rouge (si le CI ne contient pas la moyenne vraie). Malheureusement, mon assistant ne me montrera pas les résultats de ses expériences. J'ai besoin d'informations sur les tailles des adultes dans la population mais je n'ai que le temps, ressources et patience pour faire l'expérience une fois. Je fais un seul échantillon aléatoire (de la même taille que celle utilisée par mon assistant) et calcule l'intervalle de confiance (en utilisant la même équation).

Je n'ai aucun moyen de voir les résultats de mon assistant. Alors, quelle est la probabilité que l’échantillon aléatoire que j’ai sélectionné produise un IC vert (c’est-à-dire que l’intervalle contient la moyenne vraie)?

Dans mon esprit, ceci est identique à la situation de jeu de cartes décrite précédemment et peut être interprété comme une probabilité de 95% que l'intervalle calculé contienne la moyenne vraie (c'est-à-dire qu'elle est verte). Et pourtant, le consensus semble être qu'un intervalle de confiance de 95% ne peut PAS être interprété comme une probabilité de 95% que l'intervalle contienne la moyenne vraie. Pourquoi (et où) mon raisonnement dans l'expérience de pensée ci-dessus s'effondre?

utilisateur1718097
la source
+1 Il s'agit d'un compte rendu remarquablement clair de la progression conceptuelle d'une population normale à une situation d'échantillonnage binaire. Merci de le partager avec nous et bienvenue sur notre site!
whuber
S'il vous plaît poster ceci comme une question.
John
Merci pour le commentaire, John. Ont maintenant posté une question distincte ( stats.stackexchange.com/questions/301478/… ).
user1718097
4

θ(X1,X2,,Xn)100p%

P(g(X1,X2,,Xn)<θ<F(X1,X2,,Xn))=p

θg(X1,X2,,Xn)F(X1,X2,,Xn)(g(X1,X2,,Xn),F(X1,X2,,Xn))

Ainsi, au lieu de donner des informations sur la probabilité que le paramètre soit contenu dans l’intervalle, il donne des informations sur la probabilité que l’intervalle contenant le paramètre soit défini, l’intervalle étant constitué de variables aléatoires.

Comp_Warrior
la source
3

Pour des raisons pratiques, vous n'avez pas plus tort de parier que votre IC à 95% comprenait la vraie moyenne à 95: 5, que de miser sur le tirage de la pièce de votre ami à 50:50.

Si votre ami a déjà lancé la pièce et que vous pensez qu'il existe une probabilité de 50% de ce soit une tête, alors vous utilisez simplement une définition différente du mot probabilité. Comme d'autres l'ont dit, pour les fréquentistes, vous ne pouvez pas attribuer une probabilité à un événement survenu, mais vous pouvez plutôt décrire la probabilité qu'un événement se produise dans le futur à l'aide d'un processus donné.

Sur un autre blog: Le fréquentiste dira: "Un événement particulier ne peut avoir aucune probabilité. La pièce représente soit la tête, soit la queue, et à moins que vous ne le montriez, je ne peux simplement pas dire quel est le fait. Seulement si vous répétiez le tirage au sort Bien souvent, si vous modifiez suffisamment les conditions initiales des lancers, je m'attendrais à ce que la fréquence relative des têtes dans tous ces lancers approche de 0,5 ". http://www.researchgate.net/post/What_is_the_difference_between_frequentist_and_bayesian_probability

nigelhenry
la source
2
Ce blog ressemble à un argument d'homme de paille. Cela semble confondre une philosophie de la probabilité avec une sorte de limitation inhérente (inexistante) à la capacité de créer des modèles de probabilité. Je ne reconnais aucune forme de procédure statistique classique ni de méthodologie dans cette caractérisation. Néanmoins, je pense que votre conclusion finale est bonne - mais le langage qu’il utilise, en ne précisant pas que le pari concerne l’ IC, et non le moyen, risque de créer une forme de confusion que cette question est censée aborder.
whuber
1
Je vois souvent comme moyen de souligner que l’IC est le résultat d’une procédure. Ce que j’aime dans votre déclaration finale, c’est qu’elle peut facilement être reformulée sous cette forme, comme dans «Vous n’avez pas plus tort de parier à 95: 5 chances que votre intervalle de confiance à 95% ait couvert la vraie moyenne, alors que vous êtes. parier sur la pièce de votre ami à 50:50 chances ".
whuber
OK, ça a changé.
nigelhenry
2

Supposons que l’IC calculé à partir de l’ensemble de données dont vous disposez est l’un des 5% d’IC possibles ne contenant pas la moyenne. Dans quelle mesure croyez-vous que cet intervalle de confiance est de 95%? (Autrement dit, dans quelle mesure est-il proche de contenir la moyenne avec une probabilité de 95%?) Vous n'avez aucune assurance que ce soit proche du tout. En fait, votre IC ne peut pas chevaucher même un seul des 95% des IC à 95% qui contiennent réellement la moyenne. Sans parler du fait qu'il ne contient pas la moyenne elle-même, ce qui suggère également que ce n'est pas un intervalle crédible à 95%.

Peut-être voudrez-vous ignorer cela et présumer avec optimisme que votre CI est l’un des 95% qui contient la moyenne. OK, que savons-nous de votre IC, étant donné qu'il fait partie des 95%? Qu'il contient la moyenne, mais peut-être la seule issue à l'extrême, excluant tout le reste de l'autre côté de la moyenne. Non susceptible de contenir 95% de la distribution.

Quoi qu'il en soit, rien ne garantit, peut-être même pas un espoir raisonnable, que votre intervalle de confiance à 95% correspond à un intervalle de confiance à 95%.

Wayne
la source
Je suis curieux du premier paragraphe. Je le comprends peut-être mal, mais l'argument semble un peu en contradiction avec le fait qu'il existe de nombreux exemples dans lesquels des IC et des intervalles crédibles coïncident pour tous les ensembles d'observations possibles. Qu'est-ce que j'ai manqué?
cardinal
@ cardinal: je peux me tromper. Je parlais du cas général, mais je suppose que dans le cas où l'IC et l'intervalle crédible sont les mêmes, il existe d'autres restrictions, telles que la normalité, qui empêchent les IC d'être trop éloignés.
Wayne
Je me suis surtout attardé sur la dernière phrase du paragraphe; l'exemple des intervalles coïncidents était destiné à mettre en évidence un point. Vous pourriez vous demander si vous croyez vraiment ou non cette phrase. :)
cardinal
Voulez-vous dire qu'un IC à 95% n'implique pas que 5% n'incluent pas la moyenne? Je devrais dire "par définition, faut-il même pas contenir le moyen même"? Ou me manque encore plus?
Wayne
Wayne, comment le fait qu'un intervalle particulier ne contienne pas la moyenne l'empêche-t-il d'être un intervalle crédible valide? Suis-je en train de mal interpréter cette remarque?
cardinal
2

(c.-à-d. un ami lance une pièce de monnaie, cache le résultat et on ne me permet pas de dire qu'il y a 50% de chances que ce soit la tête)

Si vous devinez seulement que vos amis lancent une pièce avec 50% de têtes / queues, vous ne le faites pas correctement.

  • Vous devriez essayer de regarder rapidement la pièce après / quand elle atterrit et avant que le résultat ne soit caché.
  • Aussi, vous devriez essayer de créer à l’avance une estimation a priori de l’équité de la pièce.

La crédibilité de votre conjecture à propos du jeton dépendra certainement de ces conditions et ne sera pas toujours la même (50%) (votre méthode de "tricherie" fonctionnera parfois mieux).

Votre hypothèse générale pourrait être que, si vous trichez, x> 50% du temps soit correct, mais cela ne signifie pas nécessairement que la probabilité pour chaque lancer particulier était toujours de x% de la tête. Il serait donc un peu étrange de projeter votre probabilité globale sur la probabilité d'un lancer spécifique. C'est un «type de probabilité» différent.


C'est un peu à quel niveau ou profondeur vous spécifiez / définissez "probabilité" .

  • La confiance est indépendante de la "probabilité spécifique dans l'expérience / retournement" et des "probabilités a priori" .

  • La confiance concerne le ensemble des expériences . Il est construit de sorte que vous n’ayez pas besoin de connaître les probabilités ou les distributions a priori dans la population.

  • La confiance est au sujet du général « taux d'échec » de l'estimation mais pour des cas particuliers on pourrait être en mesure de préciser plus précisément les variations de probabilité .

    ( Ces variations de probabilité existent au moins implicitement , en théorie, et nous n'avons pas besoin de les connaître pour qu'elles existent. Mais nous pouvons exprimer explicitement ces probabilités en utilisant une approche bayésienne).


Exemple 1:

p=0,99p=0,01

p0,05p10p0.95 .

Si vous avez 1% de la population malade, vous obtiendrez en moyenne 1,98% des tests positifs (1% des 99% des personnes en bonne santé et 99% des 1% des personnes malades). Cela rend votre intervalle de confiance à 95%, (conditionnel) lorsque vous rencontrez un test positif , à ne corriger que 50% du temps.

p à l'intérieur de l'intervalle est de 95%. Il y a probablement des variations.

Exemple 2:

jeN(μje,σje2)μje dans l'intervalle.

μjeN(100,15) à 95%.

(l'inverse est vrai pour les personnes qui ont des résultats proches de 100, leur QI sera probablement plus probable que 95% dans les 95% -CI, et cela devrait compenser les erreurs que vous avez commises aux extrêmes, de sorte que vous finissez par avoir raison dans 95% des cas)

Martijn Weterings
la source
2

D’abord, donnons une définition de l’intervalle de confiance ou, dans les espaces de dimension supérieure à un, de la région de confiance. La définition est une version concise de celle donnée par Jerzy Neyman dans son article de 1937 à la Royal Society.

pspUNE(p,α)prob(sUNE(p,α)|p=p,je)=ααjeps=sC(s,α)={p|sUNE(p,α)}

α

p

[pC(s,α)]prob(s=s|p=p,je)s=[sUNE(p,α)]prob(s=s|p=p,je)s=α

[pC(s,α)]pαppp

s=s

prob(pC(s,α)|s=s,je)=C(s,α)prob(s=s|p=p,je)prob(p=p|je)pprob(s=s|p=p,je)prob(p=p|je)p

αjeUNE(p,α)spp

prob(pC(s,α)|s=s,je)=C(s,α)prob(s=p|p=s,je)pprob(s=p|p=s,je)p=prob(sC(s,α)|p=s,je)=prob(sUNE(s,α)|p=s,je)

sUNE(s,α)sUNE(s,α)

prob(pC(s,α)|s=s,je)=prob(sUNE(s,α)|p=s,je)=α

L'exemple classique d'estimation d'une moyenne de population avec un intervalle de confiance standard construit autour d'une statistique normale est un cas particulier des hypothèses précédentes. Par conséquent , la norme 95% intervalle de confiance ne contient la moyenne avec une probabilité 0,95; mais cette correspondance ne tient généralement pas.

CarbonFlambe
la source
-1

Il y a quelques réponses intéressantes ici, mais j'ai pensé ajouter une petite démonstration pratique en utilisant R. Nous avons récemment utilisé ce code dans un cours de statistiques pour mettre en évidence le fonctionnement des intervalles de confiance. Voici ce que le code fait:

1 - Il échantillonne une distribution connue (n = 1000)

2 - Il calcule l'IC de 95% pour la moyenne de chaque échantillon

3 - Il demande si l'EC de chaque échantillon comprend ou non la vraie moyenne.

4 - Il indique dans la console la fraction d'EC qui incluait la vraie moyenne.

Je viens d'exécuter le script plusieurs fois et il n'est pas rare de constater que moins de 94% des CI contenaient la vraie moyenne. Au moins pour moi, cela permet de dissiper l'idée selon laquelle un intervalle de confiance a une probabilité de 95% de contenir le paramètre réel.

#   In the following code, we simulate the process of
#   sampling from a distribution and calculating
#   a confidence interval for the mean of that 
#   distribution.  How often do the confidence
#   intervals actually include the mean? Let's see!
#
#   You can change the number of replicates in the
#   first line to change the number of times the 
#   loop is run (and the number of confidence intervals
#   that you simulate).
#
#   The results from each simulation are saved to a
#   data frame.  In the data frame, each row represents
#   the results from one simulation or replicate of the 
#   loop.  There are three columns in the data frame, 
#   one which lists the lower confidence limits, one with
#   the higher confidence limits, and a third column, which
#   I called "Valid" which is either TRUE or FALSE
#   depending on whether or not that simulated confidence
#   interval includes the true mean of the distribution.
#
#   To see the results of the simulation, run the whole
#   code at once, from "start" to "finish" and look in the
#   console to find the answer to the question.    

#   "start"

replicates <- 1000

conf.int.low <- rep(NA, replicates)
conf.int.high <- rep(NA, replicates)
conf.int.check <- rep(NA, replicates)

for (i in 1:replicates) {

        n <- 10
        mu <- 70
        variance <- 25
        sigma <- sqrt(variance)
        sample <- rnorm(n, mu, sigma)
        se.mean <- sigma/sqrt(n)
        sample.avg <- mean(sample)
        prob <- 0.95
        alpha <- 1-prob
        q.alpha <- qnorm(1-alpha/2)
        low.95 <- sample.avg - q.alpha*se.mean
        high.95 <- sample.avg + q.alpha*se.mean

        conf.int.low[i] <- low.95
        conf.int.high[i] <- high.95
        conf.int.check[i] <- low.95 < mu & mu < high.95
 }    

# Collect the intervals in a data frame
ci.dataframe <- data.frame(
        LowerCI=conf.int.low,
        UpperCI=conf.int.high, 
        Valid=conf.int.check
        )

# Take a peak at the top of the data frame
head(ci.dataframe)

# What fraction of the intervals included the true mean?
ci.fraction <- length(which(conf.int.check, useNames=TRUE))/replicates
ci.fraction

    #   "finish"

J'espère que cela t'aides!

James Waters
la source
2
Toutes mes excuses pour les critiques, mais j’ai dû (temporairement) annuler cette réponse. Je crois que le sens d'un intervalle de confiance est mal compris et j'espère sincèrement que ce n'est pas l'argument utilisé dans votre classe. Les simulations se réduisent à une expérience d'échantillonnage binomial (assez complexe).
cardinal
5
1-α=0.95
4
"Moins de 94%" sur un échantillon de 1 000 IC n'est certainement pas une preuve significative contre l'idée que 95% des IC contiennent la moyenne. En fait, je m'attendrais à ce que 95% des IC contiennent effectivement la moyenne, dans ce cas.
Ronald
3
@ Ronald: Oui, c'était précisément ce que je voulais dire avec les commentaires, mais vous l'avez dit beaucoup plus simplement et de façon concise. Merci. Comme indiqué dans l'un des commentaires, nous verrons 940 succès ou moins environ 8,7% du temps, ce qui est vrai pour tout IC à 95% exactement construit sur 1000 expériences. :)
cardinal
2
@ JamesWaters: Merci d'avoir pris le temps de répondre. Le code est correct, mais je ne vois pas comment il "montre des exemples dans lesquels il est incorrect". Pouvez-vous expliquer cette intention? Je soupçonne toujours qu'il peut y avoir un malentendu fondamental ici. Vous semblez comprendre ce que je dis et comment l’interpréter correctement, mais l’expérience de simulation ne répond pas à la question à laquelle vous semblez prétendre qu’elle répond. Je pense que cette réponse a du potentiel, j'aimerais donc qu'elle se termine par une belle retouche pour clarifier le point que vous essayez de faire passer. À votre santé. :)
cardinal