Les intervalles de confiance sont-ils utiles?

11

Dans les statistiques fréquentistes, un intervalle de confiance à 95% est une procédure produisant un intervalle qui, si elle était répétée un nombre infini de fois, contiendrait le vrai paramètre 95% du temps. Pourquoi est-ce utile?

Les intervalles de confiance sont souvent mal compris. Ce n'est pas un intervalle dans lequel nous pouvons être sûrs à 95% que le paramètre est (sauf si vous utilisez l'intervalle de crédibilité bayésien similaire). Les intervalles de confiance me semblent être un appât et un changement.

Le seul cas d'utilisation auquel je peux penser est de fournir la plage de valeurs pour laquelle nous ne pouvons pas rejeter l'hypothèse nulle selon laquelle le paramètre est cette valeur. Les valeurs p ne fourniraient-elles pas cette information, mais mieux? Sans être aussi trompeur?

En bref: pourquoi avons-nous besoin d'intervalles de confiance? Comment sont-ils, lorsqu'ils sont correctement interprétés, utiles?

purpleostrich
la source
L'intervalle de crédibilité bayésien n'est ni un intervalle dans lequel nous pouvons être sûrs à 95% que le paramètre est.
Sextus Empiricus
@MartijnWeterings: à moins que vous ne soyez sûr à 100% de vos antérieurs.
Xi'an
@ Xi'an qui fonctionne quand un paramètre est certain à 100% d'être raisonnablement considéré comme une variable aléatoire et une expérience est comme l'échantillonnage à partir d'une distribution de fréquence commune P ( θ , x ) , c'est-à-dire que vous utilisez la règle de Bayes comme: P ( θ | x ) = P ( θ , x ) / P ( x ) sans «préalable» explicite. Ce n'est pas la même chose pour un paramètre qui est considéré comme fixe. Ensuite, les croyances postérieures vous obligeraient également à «mettre à jour» l'ancienne distribution de fréquence conjointe de X et θθP(θ,x)P(θ|x)=P(θ,x)/P(x)Xθ. Il est un peu absurde de prétendre mettre à jour des «croyances antérieures» qui étaient sûres à 100%.
Sextus Empiricus

Réponses:

10

1αθL(x)U(x)

P(L(X)θU(X)|θ)=1αfor all θΘ.

Sortir du paradigme fréquentiste et marginaliser au-dessus de pour toute distribution antérieure donne le résultat de probabilité marginale correspondant (le plus faible):θ

P(L(X)θU(X))=1α.

Une fois que nous avons fixé les limites de l'intervalle de confiance en fixant les données à , nous ne faisons plus appel à cette déclaration de probabilité, car nous avons maintenant fixé les données. Cependant, si l'intervalle de confiance est traité comme un intervalle aléatoire, nous pouvons en effet faire cette déclaration de probabilité --- c'est-à-dire qu'avec la probabilité le paramètre tombera dans l'intervalle (aléatoire).X=x 1 - α θ1αθ

Dans les statistiques fréquentistes, les énoncés de probabilité sont des énoncés sur les fréquences relatives au cours d'essais répétés à l'infini. Mais cela est vrai de chaque énoncé de probabilité dans le paradigme fréquentiste, donc si votre objection concerne les énoncés de fréquence relative, ce n'est pas une objection spécifique aux intervalles de confiance. Si nous sortons du paradigme fréquentiste, alors nous pouvons légitimement dire qu'un intervalle de confiance contient son paramètre cible avec la probabilité souhaitée, tant que nous faisons cette déclaration de probabilité de manière marginale (c'est-à-dire non conditionnelle aux données) et que nous traitons donc l'intervalle de confiance dans son sens aléatoire.

Je ne sais pas pour les autres, mais cela me semble être un résultat de probabilité assez puissant et une justification raisonnable pour cette forme d'intervalle. Je suis moi-même plus partisan des méthodes bayésiennes, mais les résultats de probabilité soutenant les intervalles de confiance (dans leur sens aléatoire) sont des résultats puissants qui ne doivent pas être reniflés.

Ben - Réintègre Monica
la source
1
"Sortir du paradigme fréquentiste" n'est-ce pas exactement le problème? En général, nous voulons un intervalle qui contient la vraie valeur d'un paramètre d'intérêt avec une certaine probabilité. Aucune analyse fréquentiste ne peut nous donner cela, et la réinterpréter implicitement comme une analyse bayésienne conduit à des malentendus. Mieux vaut répondre directement à la question via un intervalle crédible bayésien. Il existe des utilisations pour les intervalles de confiance où vous effectuez à plusieurs reprises des "expériences", par exemple un contrôle de qualité.
Dikran Marsupial
Il ne s'agit pas de réinterpréter implicitement le bayésien (ce dernier conditionnerait les données pour obtenir un postérieur). La réponse est simplement de montrer le PO que nous pouvons faire des déclarations de probabilité utiles sur l'intervalle de confiance. Quant aux objections plus générales au paradigme fréquentiste, elles sont bonnes et bonnes, mais ce ne sont pas des objections spécifiques aux intervalles de confiance.
Ben - Réintègre Monica le
1
Comme vous pouvez le voir dans les énoncés de probabilité ci-dessus, nous pouvons garantir que l'IC contient le paramètre avec une certaine probabilité, tant que nous examinons cela a priori .
Ben - Réintègre Monica le
1
Si vous avez quitté le paradigme fréquentiste, mais ne passez pas à un cadre bayésien, de quel cadre s'agit-il? Je n'exprimais pas d'objection au fréquentisme, je pense que vous devriez utiliser le cadre qui répond le plus directement à la question que vous voulez réellement poser. La confiance et des intervalles crédibles répondent à différentes questions.
Dikran Marsupial
1
@Dikran: L'énoncé de probabilité est tel qu'il est écrit et est un énoncé purement mathématique. Je ne vois vraiment pas comment vous pouvez raisonnablement vous y opposer.
Ben - Rétablir Monica le
5

Je suis d'accord avec @Ben ci-dessus, et j'ai pensé que je fournirais un exemple simple où un intervalle bayésien par rapport à un fréquenciste serait utile dans la même circonstance.

Imaginez une usine avec des lignes d'assemblage parallèles. Il est coûteux d'arrêter une ligne, et en même temps, ils veulent produire des produits de qualité. Ils sont préoccupés par les faux positifs et les faux négatifs au fil du temps. Pour l'usine, c'est un processus de moyenne: à la fois la puissance et la protection garantie contre les faux positifs comptent. Les intervalles de confiance, ainsi que les intervalles de tolérance, sont importants pour l'usine. Néanmoins, les machines se désaligneront, c'est-à-dire , et les équipements de détection observeront des événements parasites. Le résultat moyen est important tandis que le résultat spécifique est un détail opérationnel.θΘ

À l'opposé, un seul client achète un seul produit ou un seul lot de produits. Ils ne se soucient pas des propriétés de répétition de la chaîne de montage. Ils se soucient du seul produit qu'ils ont acheté. Imaginons que le client soit la NASA et qu'il ait besoin que le produit réponde à une spécification, disons Ils ne se soucient pas de la qualité des pièces qu'ils n'ont pas achetées. Ils ont besoin d'un intervalle bayésien d'une certaine forme. De plus, un seul échec pourrait tuer de nombreux astronautes et coûter des milliards de dollars. Ils doivent savoir que chaque pièce achetée est conforme aux spécifications. La moyenne serait mortelle. Pour une fusée Saturn V, un taux de défaut de 1% aurait impliqué 10 000 pièces défectueuses lors des vols Apollo. Ils ont nécessité 0% de défauts sur toutes les missions.γΓ.

Vous vous inquiétez d'avoir un intervalle de confiance lorsque vous travaillez dans l'espace échantillon comme le fait une usine. Il crée l'espace échantillon. Vous vous inquiétez des intervalles crédibles lorsque vous travaillez dans l'espace des paramètres, comme le ferait un client. Si vous ne vous souciez pas des observations en dehors de la vôtre, alors vous êtes bayésien. Si vous vous souciez des échantillons qui n'ont pas été vus, mais qui auraient pu être vus, alors vous êtes un Frequentist.

Êtes-vous préoccupé par la moyenne à long terme ou l'événement spécifique?

Dave Harris
la source
La NASA achète-t-elle réellement des pièces en fonction des intervalles bayésiens? Je comprends votre point, mais le font-ils réellement ?
Aksakal
@Aksakal je ne sais pas. Juran, bien sûr, a écrit un merveilleux travail sur l'assurance qualité à la NASA, mais je ne me souviens pas du tout si le processus de test a été discuté car cela fait plus d'une décennie que je l'ai lu. Je sais que W Edwards Deming était opposé aux intervalles de confiance en faveur d'intervalles crédibles, mais encore une fois, cela ne s'applique pas directement. Je suppose, et je connais des gens qui sauraient, mais il n'est pas pratique de demander pour le moment, qu'ils utilisent des méthodes Frequentist parce que c'est ce que la plupart des gens sont formés. Vous utilisez le marteau que vous avez.
Dave Harris
Est-ce que c'est le cas d'un "marteau"? Peut-être que cela a quelque chose à voir avec la façon dont les choses sont en génie?
Aksakal
@Aksakal Je ne suis pas qualifié pour donner mon avis là-dessus.
Dave Harris
Supposons qu'une entreprise fabrique pièces, avec un test d'hypothèse composite de niveau vous les avez testées pour les erreurs: d'entre elles réussissent sans erreur et échouent. Vous pouvez donner à la NASA une garantie raisonnable. La quantité maximale de produits qui peut accidentellement passer le test (considéré à tort sans erreur) est . Sachant que vous avez vendu articles, vous pouvez calculer une probabilité maximale qu'une pièce vendue ne soit pas réellement conforme à l'hypothèse alternative . nαH0:γ>ΓxynαxγΓ
Sextus Empiricus
4

Notez que par la définition stricte de l'intervalle de confiance, il est possible qu'ils soient complètement dénués de sens, c'est-à-dire non informatifs sur le paramètre d'intérêt. Cependant, dans la pratique, ils sont généralement très significatifs.

À titre d'exemple d'intervalle de confiance sans signification, supposons que j'ai une procédure qui produit 95% du temps et 5% du temps [ , ], où sont n'importe quelle paire de variables aléatoires telles que . Ensuite, il s'agit d'une procédure qui capture toute probabilité au moins 95% du temps, donc techniquement un intervalle de confiance valide pour toute probabilité. Pourtant, si je dis que l'intervalle produit par cette procédure est pour un donné , vous devez vous rendre compte que vous n'avez vraiment rien appris sur .[0,1]UminUmaxUmin,UmaxUmin<Umax[0.01,0.011]pp

D'un autre côté, la plupart des intervalles de confiance sont construits de manière plus utile. Par exemple, si je vous ai dit qu'il a été créé à l'aide d'une procédure d'intervalle de Wald, alors nous savons que

p^ ˙ N(p,se)

où est l'erreur standard. Ceci est une déclaration très significative sur la façon dont rapporte à . Transformer cela en un intervalle de confiance est simplement une tentative de simplifier ce résultat pour quelqu'un qui n'est pas si familier avec les distributions normales. Cela ne veut pas seulement dire que ce n'est qu'un outil pour les personnes qui ne connaissent pas les distributions normales; par exemple, le bootstrap centile est un outil pour résumer l'erreur entre l'estimateur et le vrai paramètre lorsque la distribution de cette erreur peut être non gaussienne.sep pp^p

Cliff AB
la source
2

Les intervalles de confiance sont non seulement utiles, mais essentiels dans certains domaines, comme la physique. Malheureusement, le plus de bruit concernant les IC provient des Bayésiens pris dans de faux débats avec les Frequentistes, généralement dans le contexte des "sciences" sociales et d'autres disciplines de type scientifique.

Supposons que je mesure une quantité en physique, telle que la charge électrique. Je lui fournirais toujours la mesure de l'incertitude de la valeur, qui est généralement un écart-type. Puisque, en physique, les erreurs sont souvent gaussiennes, cela se traduit directement en CI. Cependant, lorsque les erreurs ne sont pas gaussiennes, cela devient un peu compliqué, certaines intégrales doivent être évaluées, etc. Rien de trop ésotérique cependant en général.

Voici une brève présentation sur l'IC en physique des particules et la définition:

énoncé quantitatif sur la fraction de fois où un tel intervalle contiendrait la vraie valeur du paramètre dans un grand nombre d'expériences répétées

Notez qu'en physique, les «expériences répétées» ont souvent une signification littérale: on suppose que vous pouvez réellement répéter des expériences dans le papier et observer cette fraction. Ainsi, l'IC a presque une signification littérale pour vous et n'est qu'un moyen d'exprimer les informations sur l'incertitude de la mesure. Ce n'est pas une expérience de pensée, pas une opinion subjective, ni vos sentiments ni mes sentiments concernant les probabilités, etc.

Aksakal
la source
1

Ce fil est devenu rapidement le débat Frequentist vs Bayesian, et cela n'est pas facile à résoudre. Les mathématiques dans les deux approches sont solides, donc cela revient toujours aux préférences philosophiques. L'interprétation fréquentiste de la probabilité comme limite de la fréquence relative d'un événement est justifiée par la loi forte des grands nombres; quelle que soit votre interprétation préférée de la probabilité, la fréquence relative d'un événement convergera vers sa probabilité avec la probabilité 1.

Les intervalles de confiance fréquentistes sont en effet plus difficiles à interpréter que les intervalles crédibles bayésiens. En traitant une quantité inconnue comme une variable aléatoire, les Bayésiens peuvent affirmer qu'un intervalle contient cette quantité avec une certaine probabilité. Les fréquencistes refusent de traiter certaines quantités comme des variables aléatoires, et toute équation ne contenant que des constantes ne peut être vraie ou fausse. Ainsi, lors de l'estimation d'une constante inconnue, les fréquentistes doivent les lier avec un intervalle aléatoire pour impliquer la probabilité. Plutôt qu'un seul intervalle contenant une variable aléatoire avec une certaine probabilité, une méthode fréquentiste génère de nombreux intervalles possibles différents, dont certains contiennent la constante inconnue. Si la probabilité de couverture est raisonnablement élevée, c'est un acte de foi raisonnable d'affirmer qu'un intervalle particulier contient la constante inconnue (notez "

Un Bayésien rechignerait à un tel acte de foi autant qu'un Frequentist rechigne à traiter toute quantité inconnue comme une variable aléatoire. La méthode de construction fréquentiste Neyman a en fait révélé un problème embarrassant avec de tels sauts de foi. Sans l'empêcher activement (voir Feldman et Cousins, 1997 pour une approche), les résultats rares peuvent générer des intervalles de confiance VIDE pour un paramètre de distribution. Un tel acte de foi serait très déraisonnable! J'ai vu quelques bayésiens utiliser cet exemple pour se moquer des méthodes fréquentistes, tandis que les fréquentistes répondent généralement par "eh bien, j'ai toujours un intervalle correct la plupart du temps, et sans faire de fausses hypothèses". Je soulignerai que l'impasse bayésienne / fréquentiste n'est pas importante pour la plupart des personnes qui appliquent leurs méthodes.

BatWannaBe
la source