J'ai deux questions sur les intervalles de confiance:
Apparemment, un intervalle de confiance étroit implique qu'il y a une moindre chance d'obtenir une observation dans cet intervalle, par conséquent, notre précision est plus élevée.
Un intervalle de confiance à 95% est également plus étroit qu'un intervalle de confiance à 99% qui est plus large.
L'intervalle de confiance à 99% est plus précis que celui à 95%.
Quelqu'un peut-il donner une explication simple qui pourrait m'aider à comprendre cette différence entre l'exactitude et l'étroitesse?
confidence-interval
au dessus
la source
la source
a narrow confidence interval implies that there is a smaller chance of obtaining an observation within that interval
c'est correct. Pourriez-vous m'expliquer où je fais l'erreur?Réponses:
Le 95% n'est pas du tout lié numériquement à la confiance que vous avez que vous avez couvert le véritable effet dans votre expérience. Reconnaître peut-être que "l'intervalle utilisant un calcul de plage de couverture de 95%" pourrait être un nom plus précis pour cela. Vous pouvez faire le choix de décider que l'intervalle contient la vraie valeur; et vous aurez raison si vous faites cela de façon constante 95% du temps. Mais vous ne savez vraiment pas quelle est la probabilité pour votre expérience particulière sans plus d'informations.
Q1: Votre première requête confond deux choses et abuse d'un terme. Pas étonnant que vous soyez confus. Un intervalle de confiance plus étroit peut être plus précis mais, lorsqu'ils sont calculés de la même manière, comme la méthode à 95%, ils ont tous la même précision. Ils capturent la vraie valeur la même proportion du temps.
De plus, ce n'est pas parce qu'il est étroit que vous êtes moins susceptible de rencontrer un échantillon qui se situe dans cet intervalle de confiance étroit. Un intervalle de confiance étroit peut être atteint de trois manières. La méthode expérimentale ou la nature des données pourraient avoir une très faible variance. L'intervalle de confiance autour du point d'ébullition de l'eau du robinet au niveau de la mer est assez petit, quelle que soit la taille de l'échantillon. L'intervalle de confiance autour du poids moyen des personnes peut être assez grand car les personnes sont très variables, mais on peut réduire cet intervalle de confiance en acquérant simplement plus d'observations. Dans ce cas, à mesure que vous gagnez en certitude quant à l'endroit où vous pensez que la vraie valeur se trouve, en collectant plus d'échantillons et en réduisant l'intervalle de confiance, alors la probabilité de rencontrer un individu dans cet intervalle de confiance diminue. (il diminue dans tous les cas lorsque vous augmentez la taille de l'échantillon, mais vous ne pouvez pas prendre la peine de collecter le gros échantillon dans le cas de l'eau bouillante). Enfin, il pourrait être étroit car votre échantillon n'est pas représentatif. Dans ce cas, vous êtes en fait plus susceptible d'avoir l'un des 5% d'intervalles qui ne contient pas la vraie valeur. C'est un peu un paradoxe concernant la largeur de CI et quelque chose que vous devriez vérifier en connaissant la littérature et la façon dont ces données sont généralement variables. Dans ce cas, vous êtes en fait plus susceptible d'avoir l'un des 5% d'intervalles qui ne contient pas la vraie valeur. C'est un peu un paradoxe concernant la largeur de CI et quelque chose que vous devriez vérifier en connaissant la littérature et la façon dont ces données sont généralement variables. Dans ce cas, vous êtes en fait plus susceptible d'avoir l'un des 5% d'intervalles qui ne contient pas la vraie valeur. C'est un peu un paradoxe concernant la largeur de CI et quelque chose que vous devriez vérifier en connaissant la littérature et la façon dont ces données sont généralement variables.
Considérez en outre que l'intervalle de confiance consiste à essayer d'estimer la vraie valeur moyenne de la population. Si vous connaissiez cet endroit, vous seriez encore plus précis (et précis) et n'auriez même pas une gamme d'estimations. Mais votre probabilité de rencontrer une observation avec cette même valeur exacte serait beaucoup plus faible que d'en trouver une dans un IC basé sur un échantillon particulier.
Q2 : Un intervalle de confiance de 99% est plus large qu'un intervalle de 95%. Par conséquent, il est plus probable qu'il contienne la vraie valeur. Voir la distinction ci-dessus entre précis et exact, vous confondez les deux. Si je fais un intervalle de confiance plus étroit avec une variabilité plus faible et une taille d'échantillon plus élevée, il devient plus précis, les valeurs probables couvrent une plage plus petite. Si j'augmente la couverture en utilisant un calcul de 99%, elle devient plus précise, la vraie valeur est plus susceptible d'être dans la plage.
la source
Pour un ensemble de données donné, l'augmentation du niveau de confiance d'un intervalle de confiance n'entraînera que des intervalles plus grands (ou du moins pas plus petits ). Il ne s'agit pas d'exactitude ou de précision, mais plutôt du niveau de risque que vous êtes prêt à prendre pour manquer la vraie valeur.
Si vous comparez des intervalles de confiance pour le même type de paramètre provenant de plusieurs ensembles de données et que l'un est plus petit que l'autre, vous pouvez dire que le plus petit est plus précis . Je préfère parler de précision plutôt que d' exactitude dans cette situation (voir cet article Wikipedia pertinent ).
la source
Tout d'abord, un IC pour un pourcentage de confiance donné (par exemple 95%) signifie, à toutes fins pratiques (bien que techniquement ce n'est pas correct) que vous êtes sûr que la vraie valeur est dans l'intervalle.
Si cet intervalle est "étroit" (notez que cela ne peut être considéré que de manière relative, donc, par comparaison avec ce qui suit, disons qu'il a une unité de large), cela signifie qu'il n'y a pas beaucoup de place pour jouer: quelle que soit la valeur vous choisissez dans cet intervalle va être proche de la vraie valeur (parce que l'intervalle est étroit), et vous en êtes tout à fait certain (95%).
Comparez cela à un IC à 95% relativement large (pour correspondre à l'exemple précédent, disons qu'il a une largeur de 100 unités): ici, vous êtes toujours certain à 95% que la vraie valeur sera dans cet intervalle, mais cela ne vous dit pas très bien beaucoup, car il y a relativement beaucoup de valeurs dans l'intervalle (environ un facteur 100 au lieu de 1 - et je demande, encore une fois, aux puristes d'ignorer la simplification).
En règle générale, vous aurez besoin d'un intervalle plus grand lorsque vous voulez être certain à 99% que la vraie valeur est dedans, que lorsque vous avez seulement besoin d'être certain à 95% (remarque: cela peut ne pas être vrai si les intervalles ne sont pas imbriqués ), donc en effet, plus vous avez besoin de confiance, plus l'intervalle que vous devez choisir est large.
En revanche, vous êtes plus certain de l'intervalle de confiance plus élevé. Donc, si je vous donne 2 intervalles de même largeur, et je dis que l'un est un IC à 95% et l'autre est un IC à 99%, j'espère que vous préférerez celui à 99%. En ce sens, les IC à 99% sont plus précis: vous avez moins de doute que vous aurez raté la vérité.
la source
J'ajoute ici quelques bonnes réponses auxquelles j'ai donné des votes. Je pense qu'il y a un peu plus à dire pour clarifier complètement la conclusion. J'aime les termes précis et corrects tels qu'Efron les définit. J'ai donné une longue discussion à ce sujet très récemment sur une question différente. Les whuber modérés ont vraiment aimé cette réponse. Je n'irai pas à la même longueur pour répéter cela ici. Cependant, la précision d'Efron se rapporte au niveau de confiance et à l'exactitude de la largeur ou de l'étanchéité de l'intervalle. Mais vous ne pouvez pas parler d'étanchéité sans considérer d'abord la précision. Certains intervalles de confiance sont exacts, ils sont exacts car ils ont la couverture réelle qu'ils annoncent. Un intervalle de confiance à 95% peut également être approximatif car il utilise une distribution asymptotique. Les intervalles approximatifs basés sur les asymptotiques sont pour une taille d'échantillon finie n n'ayant pas la couverture annoncée qui est la couverture que vous obtiendriez si la distribution asymptotique était la distribution exacte. Ainsi, un intervalle approximatif pourrait sous-couvrir (c.-à-d. Faire de la publicité à 95% lorsque sa couverture réelle n'est que de 91%) ou, dans le cas rare mais moins grave, sur-couvrir (c.-à-d. Que la couverture annoncée est de 95% mais réelle à 98%). Dans le premier cas, nous nous demandons dans quelle mesure la couverture réelle est proche de la couverture annoncée). Une mesure de la proximité est l'ordre de précision qui pourrait être dit 1 / √n ou 1 / n. Si le niveau de confiance réel est proche, nous l'appelons précis. Accuray est important avec des intervalles de confiance bootstrap qui ne sont jamais exacts mais certaines variantes sont plus précises que d'autres.
Cette définition de la précision peut être différente de celle à laquelle le PO fait référence, mais il devrait être clair maintenant quelle est la définition d'Efron et pourquoi il est important d'être précis. Maintenant, si vous avez deux méthodes exactes, nous pouvons préférer l'une à l'autre si, pour n'importe quel niveau de confiance, elle a la plus petite largeur attendue. Un intervalle de confiance qui est le meilleur dans ce sens (parfois appelé le plus court) serait celui à choisir. Mais cela exigeait de l'exactitude. Si le niveau de confiance n'est qu'approximatif, nous pourrions comparer des pommes et des oranges. L'un pourrait être plus étroit qu'un autre uniquement parce qu'il est moins précis et a donc une couverture réelle inférieure à sa couverture annoncée.
Si deux intervalles de confiance sont tous deux très précis ou que l'un est exact et que l'autre très précis, la comparaison de la largeur attendue peut être acceptable, car au moins maintenant, nous examinons seulement deux deux variétés de pommes.
la source