Morey et al (2015) soutiennent que les intervalles de confiance sont trompeurs et qu'il existe de multiples biais liés à leur compréhension. Entre autres, ils décrivent l'erreur de précision comme suit:
L'erreur de précision
La largeur d'un intervalle de confiance indique la précision de nos connaissances sur le paramètre. Des intervalles de confiance étroits montrent des connaissances précises, tandis que des erreurs de confiance larges montrent des connaissances imprécises.Il n'y a pas de lien nécessaire entre la précision d'une estimation et la taille d'un intervalle de confiance. Une façon de voir cela est d'imaginer que deux chercheurs - un chercheur principal et un doctorant - analysent les données de participants d'une expérience. En tant qu'exercice au profit du doctorant, le chercheur principal décide de diviser au hasard les participants en deux ensembles de afin qu'ils puissent chacun analyser séparément la moitié de l'ensemble de données. Lors d'une réunion ultérieure, les deux partagent entre eux les intervalles de confiance de Student pour la moyenne. L' IC à doctorant est de et l' IC à du chercheur principal est de .25 t 95 % 52 ± 2 95 % 53 ± 4
Le chercheur principal note que leurs résultats sont globalement cohérents et qu'ils pourraient utiliser la moyenne également pondérée de leurs deux estimations ponctuelles respectives, , comme estimation globale de la vraie moyenne.
La doctorante soutient cependant que leurs deux moyennes ne devraient pas être pondérées de manière égale: elle note que son IC est deux fois moins large et soutient que son estimation est plus précise et devrait donc être pondérée plus fortement. Son conseiller note que cela ne peut pas être correct, car l'estimation d'une pondération inégale des deux moyennes serait différente de l'estimation de l'analyse de l'ensemble de données complet, qui doit être . L'erreur du doctorant est de supposer que les IC indiquent directement la précision post-données.
L'exemple ci-dessus semble trompeur. Si nous divisons au hasard un échantillon en deux, en deux échantillons, nous nous attendrions à ce que les moyennes des échantillons et les erreurs standard soient proches. Dans ce cas, il ne devrait pas y avoir de différence entre l'utilisation de la moyenne pondérée (par exemple pondérée par des erreurs inverses) et l'utilisation de la moyenne arithmétique simple. Cependant, si les estimations diffèrent et que les erreurs dans l'un des échantillons sont sensiblement plus importantes, cela pourrait suggérer des "problèmes" avec cet échantillon.
Évidemment, dans l'exemple ci-dessus, les tailles d'échantillon sont les mêmes, donc "relier" les données en prenant la moyenne des moyennes équivaut à prendre la moyenne de l'échantillon entier. Le problème est que l'exemple entier suit la logique mal définie selon laquelle l'échantillon est d'abord divisé en parties, puis à nouveau joint pour l'estimation finale.
L'exemple peut être reformulé pour conduire exactement à la conclusion opposée:
Le chercheur et l'étudiant ont décidé de diviser leur ensemble de données en deux moitiés et de les analyser de manière indépendante. Par la suite, ils ont comparé leurs estimations et il est apparu que l'échantillon signifie qu'ils ont calculé qu'ils étaient très différents, de plus l'erreur-type de l'estimation de l'élève était beaucoup plus grande. L'élève avait peur que cela puisse suggérer des problèmes avec la précision de son estimation, mais le chercheur a laissé entendre qu'il n'y a aucun lien entre les intervalles de confiance et la précision, de sorte que les deux estimations sont également dignes de confiance et peuvent publier n'importe laquelle d'entre elles, choisies au hasard, comme estimation finale.
En termes plus formels, les intervalles de confiance «standard», comme le de Student , sont basés sur des erreurs
où est une constante. Dans ce cas, ils sont directement liés à la précision, n'est-ce pas ...?
Ma question est donc la suivante:
l'erreur de précision est-elle vraiment une erreur? Que disent les intervalles de confiance de la précision?
Morey, R., Hoekstra, R., Rouder, J., Lee, M. et Wagenmakers, E.-J. (2015). L'illusion de placer la confiance dans les intervalles de confiance. Bulletin et revue psychonomiques, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/
Réponses:
Dans l'article, nous démontrons en fait l'erreur de précision de plusieurs façons. Celui que vous demandez - le premier dans l'article - L'exemple est destiné à démontrer qu'un "CI = précision" simpliste est faux. Cela ne veut pas dire que tout fréquentiste, bayésien ou vraisemblable compétent serait confus.
Voici une autre façon de voir ce qui se passe: si on nous disait simplement les CI, nous ne serions toujours pas en mesure de combiner les informations contenues dans les échantillons; nous aurions besoin de connaître , et à partir de là, nous pourrions décomposer les CI en et , et ainsi combiner correctement les deux échantillons. La raison pour laquelle nous devons le faire est que les informations du CI sont marginales par rapport au paramètre de nuisance. Il faut tenir compte du fait que les deux échantillons contiennent des informations sur le même paramètre de nuisance. Cela implique de calculer les deux valeurs de , de les combiner pour obtenir une estimation globale de , puis de calculer un nouveau CI.ˉ x s 2 s 2 σ 2N x¯ s2 s2 σ2
Quant aux autres démonstrations de l'erreur de précision, voir
La réponse à l'énigme est que la «précision», du moins dans la façon dont les défenseurs de CI y pensent (une évaluation post-expérimentale de la «proximité» d'une estimation avec un paramètre) n'est tout simplement pas une caractéristique que les intervalles de confiance ont en général et ils n'étaient pas censés le faire. Des procédures de confiance particulières pourraient ... ou non.
Voir également la discussion ici: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591
la source
Tout d'abord, limitons-nous aux procédures CI qui ne produisent que des intervalles avec des largeurs finies strictement positives (pour éviter les cas pathologiques).
Dans ce cas, la relation entre la précision et la largeur de CI peut être théoriquement démontrée. Faites une estimation de la moyenne (lorsqu'elle existe). Si votre IC pour la moyenne est très étroit, alors vous avez deux interprétations: soit vous avez eu de la malchance et votre échantillon était trop serré (a priori 5% de chances que cela se produise), soit votre intervalle couvre la vraie moyenne (95% a priori). Bien sûr, l'IC observé peut être l'un de ces deux, mais , nous avons configuré notre calcul de sorte que ce dernier soit beaucoup plus susceptible de se produire (c'est-à-dire 95% de chances a priori) ... par conséquent, nous avons un degré élevé de confianceque notre intervalle couvre la moyenne, parce que nous mettons les choses en place de manière probabiliste, il en est ainsi. Ainsi, un IC à 95% n'est pas un intervalle de probabilité (comme un intervalle crédible bayésien), mais plutôt un «conseiller de confiance» ... quelqu'un qui, statistiquement, a raison 95% du temps, donc nous faisons confiance à leurs réponses même si toute réponse particulière pourrait très bien être fausse.
Dans 95% des cas où elle couvre le paramètre réel, la largeur vous indique quelque chose sur la plage de valeurs plausibles compte tenu des données (c'est-à-dire, comment vous pouvez bien délimiter la vraie valeur), donc elle agit comme une mesure de précision . Dans les 5% des cas où ce n'est pas le cas, l'IC est trompeur (car l'échantillon est trompeur).
Donc, la largeur de l'IC à 95% indique-t-elle la précision ... Je dirais qu'il y a 95% de chances que cela le fasse (à condition que votre largeur de l'IC soit finie positive) ;-)
Qu'est-ce qu'un CI sensible?
En réponse au message de l'auteur original, j'ai révisé ma réponse pour (a) prendre en compte que l'exemple de "l'échantillon fractionné" avait un but très spécifique, et (b) pour fournir un peu plus de contexte comme demandé par le commentateur:
Dans un monde idéal (fréquentiste), toutes les distributions d'échantillonnage admettraient une statistique pivot que nous pourrions utiliser pour obtenir des intervalles de confiance exacts. Qu'est-ce qui est si génial avec les statistiques pivots? Leur distribution peut être dérivée sans connaître la valeur réelle du paramètre à estimer! Dans ces beaux cas, nous avons une distribution exacte de notre statistique d'échantillon par rapport au vrai paramètre (bien qu'il ne soit pas gaussien) à propos de ce paramètre.
En termes plus succincts: nous connaissons la distribution des erreurs (ou une transformation de celle-ci).
C'est cette qualité de certains estimateurs qui nous permet de former des intervalles de confiance sensibles. Ces intervalles ne satisfont pas seulement à leurs définitions ... ils le font du fait qu'ils sont dérivés de la distribution réelle de l'erreur d'estimation.
La distribution gaussienne et la statistique Z associée est l'exemple canonique de l'utilisation d'une quantité pivot pour développer un CI exact pour la moyenne. Il existe des exemples plus ésotériques, mais c'est généralement celui qui motive la "théorie des grands échantillons", qui est essentiellement une tentative d'appliquer la théorie derrière les IC gaussiens à des distributions qui n'admettent pas une vraie quantité pivot. Dans ces cas, vous en apprendrez sur les quantités approximativement pivots, ou asymptotiquement pivots (dans la taille de l'échantillon) ou les intervalles de confiance "approximatifs" ... ceux-ci sont basés sur la théorie de la vraisemblance - en particulier, le fait que la distribution d'erreur pour de nombreux MLE s'approche d'une distribution normale.
Une autre approche pour générer des IC sensibles consiste à «inverser» un test d'hypothèse. L'idée est qu'un "bon" test (par exemple, UMP) se traduira par un bon CI (lire: étroit) pour un taux d'erreur de type I donné. Celles-ci n'ont pas tendance à donner une couverture exacte, mais fournissent une couverture inférieure (note: la définition réelle d'un X% -CI dit seulement qu'il doit couvrir le vrai paramètre au moins X% du temps).
L'utilisation de tests d'hypothèse ne nécessite pas directement une quantité pivot ou une distribution d'erreur - sa sensibilité est dérivée de la sensibilité du test sous-jacent. Par exemple, si nous avions un test dont la région de rejet avait une longueur de 0 à 5% du temps et une longueur infinie de 95% du temps, nous serions de retour là où nous en étions avec les CI - mais il est évident que ce test n'est pas conditionnelle aux données, et ne fournira donc aucune information sur le paramètre sous-jacent testé.
Cette idée plus large - qu'une estimation de la précision devrait être conditionnée par les données, remonte à Fischer et à l'idée de statistiques auxiliaires. Vous pouvez être sûr que si le résultat de votre test ou procédure CI n'est PAS conditionné par les données (c'est-à-dire que son comportement conditionnel est le même que son comportement inconditionnel), alors vous avez une méthode douteuse à portée de main.
la source
Je pense que l'erreur de précision est une vraie erreur, mais pas nécessairement celle dont nous devrions nous préoccuper. Ce n'est même pas si difficile de montrer que c'est une erreur. Prenons un exemple extrême comme celui-ci: nous avons un échantillon partir d'une distribution normale et souhaitons construire un intervalle de confiance sur , mais à la place en utilisant les données réelles, nous considérons que notre intervalle de confiance est soit ou basé sur le retournement d'une pièce biaisée. En utilisant le bon biais, nous pouvons obtenir n'importe quel niveau de confiance que nous aimons, mais évidemment notre "estimation" d'intervalle n'a aucune précision, même si nous nous retrouvons avec un intervalle de largeur nulle.( μ , σ 2 ) μ ( - ∞ , ∞ ){x1,x2,…,xn} (μ,σ2) μ (−∞,∞) {0}
La raison pour laquelle je ne pense pas que nous devrions nous préoccuper de cette erreur apparente est que s'il est vrai qu'il n'y a pas de lien nécessaire entre la largeur d'un intervalle de confiance et la précision, il existe un lien presque universel entre les erreurs standard et la précision, et dans dans la plupart des cas, la largeur d'un intervalle de confiance est proportionnelle à une erreur standard.
Je ne crois pas non plus que l'exemple de l'auteur soit très bon. Chaque fois que nous effectuons une analyse de données, nous ne pouvons qu'estimer la précision, de sorte que les deux individus tireront des conclusions différentes. Mais si nous avons des connaissances privilégiées, comme savoir que les deux échantillons proviennent de la même distribution, nous ne devons évidemment pas l'ignorer. Il est clair que nous devrions regrouper les données et utiliser l'estimation résultante de comme meilleure estimation. Il me semble que cet exemple est comme celui ci-dessus où nous n'assimilons la largeur de l'intervalle de confiance à la précision que si nous nous sommes permis d'arrêter de penser.σ
la source
Je pense que la distinction démontrable entre «intervalles de confiance» et «précision» (voir la réponse de @dsaxton) est importante parce que cette distinction met en évidence des problèmes dans l'utilisation courante des deux termes.
Citation de Wikipedia :
On pourrait donc soutenir que les intervalles de confiance fréquentistes représentent un type de précision d'un schéma de mesure . Si l'on répète le même schéma, l'IC à 95% calculé pour chaque répétition contiendra la seule vraie valeur du paramètre dans 95% des répétitions.
Cependant, ce n'est pas ce que beaucoup de gens attendent d'une mesure pratique de précision. Ils veulent savoir à quel point la valeur mesurée est à la vraie valeur . Les intervalles de confiance fréquentistes ne fournissent pas strictement cette mesure de précision. Les régions crédibles bayésiennes le font.
Une partie de la confusion est que, dans des exemples pratiques, les intervalles de confiance fréquentistes et les régions crédibles bayésiennes "se chevaucheront plus ou moins" . L'échantillonnage à partir d'une distribution normale, comme dans certains commentaires sur le PO, en est un exemple. Cela peut également être le cas dans la pratique pour certains des types d'analyses plus larges que @Bey avait en tête, basés sur des approximations des erreurs standard dans les processus qui ont des distributions normales dans la limite.
Si vous savez que vous vous trouvez dans une telle situation , il ne peut y avoir aucun danger pratique à interpréter un IC à 95% particulier, à partir d'une seule mise en œuvre d'un schéma de mesure, comme ayant une probabilité de 95% de contenir la vraie valeur. Cette interprétation des intervalles de confiance, cependant, ne provient pas des statistiques fréquentistes, pour lesquelles la vraie valeur se situe ou non dans cet intervalle particulier.
Si les intervalles de confiance et les régions crédibles diffèrent sensiblement, cette interprétation de type bayésien des intervalles de confiance fréquentistes peut être trompeuse ou erronée, comme le démontrent l'article lié ci-dessus et la littérature antérieure qui y est référencée. Oui, le «bon sens» pourrait aider à éviter de telles interprétations erronées, mais d'après mon expérience, le «bon sens» n'est pas si courant.
D'autres pages CrossValidated contiennent beaucoup plus d'informations sur les intervalles de confiance et les différences entre les intervalles de confiance et les régions crédibles . Les liens de ces pages particulières sont également très informatifs.
la source
I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense
.@Bey l'a. Il n'y a aucun lien nécessaire entre les partitions et les performances, ni le prix et la qualité, ni l'odeur et le goût. Pourtant, l'un informe généralement de l'autre.
On peut prouver par induction qu'on ne peut pas faire un quiz pop. Après un examen attentif, cela signifie que l'on ne peut garantir que le quiz est une surprise. Pourtant, la plupart du temps, ce sera le cas.
Il semble que Morey et al montrent qu'il existe des cas où la largeur n'est pas informative. Bien que cela soit suffisant pour affirmer "Il n'y a pas de lien nécessaire entre la précision d'une estimation et la taille d'un intervalle de confiance", il ne suffit pas de conclure davantage que les IC ne contiennent généralement aucune information sur la précision. Simplement qu'ils ne sont pas garantis de le faire.
(Points insuffisants pour la réponse de + @ Bey.)
la source