Pourquoi ces déclarations ne découlent-elles pas logiquement d'un IC à 95% pour la moyenne?

26

J'ai lu l'article de Hoekstra et al sur la «Mauvaise interprétation des intervalles de confiance» de 2014, que j'ai téléchargé sur le site Web de Wagenmakers .

Sur l'avant-dernière page, l'image suivante apparaît.

Quiz

Selon les auteurs, False est la bonne réponse à toutes ces affirmations. Je ne sais pas très bien pourquoi les déclarations sont fausses, et pour autant que je sache, le reste du document n'essaie pas d'expliquer cela.

Je crois que 1-2 et 4 ne sont pas corrects parce qu'ils affirment quelque chose sur la valeur probable de la vraie moyenne, quand la vraie moyenne a une valeur définie qui est inconnue. Est-ce une distinction convaincante?

En ce qui concerne 3, je comprends que l'on n'est pas censé faire des affirmations sur la probabilité que l'hypothèse nulle soit incorrecte, bien que je ne sois pas si sûr de la raison.

De même, 6 ne peut pas être vrai car cela implique que la vraie moyenne change d'expérience en expérience.

Celui que je ne comprends vraiment pas du tout est 5. Pourquoi est-ce mal? Si j'ai un processus qui produit 95% du temps des IC qui contiennent la vraie moyenne, pourquoi ne devrais-je pas dire que j'ai une confiance de 95% que la valeur de la population se situe entre 0,1 et 0,4? Est-ce parce que nous pourrions avoir des informations spéciales sur l'échantillon que nous venons de prendre qui nous feraient penser qu'il s'agit probablement d'un des 5% qui ne contient pas la vraie moyenne? Par exemple, 0,13 est inclus dans l'intervalle de confiance et pour une raison quelconque, 0,13 n'est pas considéré comme une valeur plausible dans un contexte de recherche spécifique, par exemple parce que cette valeur serait en conflit avec la théorie précédente.

Que signifie la confiance dans ce contexte, de toute façon?

user1205901 - Réintégrer Monica
la source

Réponses:

11

Le sens même de la question (5) dépend d'une interprétation non divulguée de la «confiance». J'ai recherché le papier soigneusement et n'ai trouvé aucune tentative de définir la «confiance» ou ce que cela pourrait signifier dans ce contexte. L'explication du document de sa réponse à la question (5) est

"... [il] mentionne les limites de l'IC alors que ... un IC peut être utilisé pour évaluer uniquement la procédure et non un intervalle spécifique."

C'est à la fois spécieux et trompeur. Premièrement, si vous ne pouvez pas évaluer le résultat de la procédure, à quoi sert la procédure en premier lieu? Deuxièmement, l'énoncé de la question ne porte pas sur la procédure, mais sur la «confiance» du lecteur dans ses résultats.

Les auteurs se défendent:

"Avant de poursuivre, il est important de rappeler la définition correcte d'un IC. Un IC est un intervalle numérique construit autour de l'estimation d'un paramètre. Un tel intervalle n'indique cependant pas directement une propriété du paramètre; au lieu de cela, il indique une propriété de la procédure, comme c'est typique d'une technique fréquentiste. "

Leur parti pris émerge dans la dernière phrase: «technique fréquentiste» (écrite, peut-être, avec un ricanement implicite). Bien que cette caractérisation soit correcte, elle est extrêmement incomplète. Il ne parvient pas à remarquer qu'un intervalle de confiance est également une propriété des méthodes expérimentales (comment les échantillons ont été obtenus et mesurés) et, plus important encore, de la nature elle-même. C'est la seule raison pour laquelle quiconque serait intéressé par sa valeur.

J'ai récemment eu le plaisir de lire Circular Statistics in Biology d' Edward Batschelet (Academic Press, 1981). Batschelet écrit clairement et au point, dans un style dirigé vers le scientifique qui travaille. Voici ce qu'il dit sur les intervalles de confiance:

" Une estimation d'un paramètre sans indication d'écarts provoqués par des fluctuations aléatoires a peu de valeur scientifique. ...

"Alors que le paramètre à estimer est un nombre fixe, les limites de confiance sont déterminées par l'échantillon. Ce sont des statistiques et, par conséquent, dépendent des fluctuations aléatoires. Différents échantillons prélevés dans la même population conduisent à des intervalles de confiance différents."

[Je souligne dans l'original, p. 84-85.]

Notez la différence d'accentuation: alors que le document en question se concentre sur la procédure, Batschelet se concentre sur l' échantillon et plus précisément sur ce qu'il peut révéler sur le paramètre et dans quelle mesure ces informations peuvent être affectées par des «fluctuations aléatoires». Je trouve cette approche scientifique sans vergogne bien plus constructive, éclairante et, finalement, utile.

Une caractérisation plus complète des intervalles de confiance que celle proposée par le document devrait donc procéder comme suit:

Un IC est un intervalle numérique construit autour de l'estimation d'un paramètre. Quiconque est d'accord avec les hypothèses sous-jacentes à la construction de l'IC a raison de dire qu'il est confiant que le paramètre se situe dans l'intervalle: c'est le sens de "confiant". Cette signification est globalement en accord avec les significations non techniques conventionnelles de la confiance car dans de nombreuses réplications de l'expérience (qu'elles aient lieu ou non), l'IC, bien qu'il varie, devrait contenir le paramètre la plupart du temps.

Dans ce sentiment plus complet, plus conventionnel et plus constructif de «confiance», la réponse à la question (5) est vraie.

whuber
la source
2
Il est à noter que l'approche de Batschelet semble exclure certains types d'intervalles de confiance qui donnent aux lecteurs réfléchis une pause, tels que les IC qui peuvent être vides. Un tel IC ne capturerait guère l'idée «d'indications de déviations causées par des fluctuations aléatoires». Cela laisse entendre que la définition standard de l'intervalle de confiance n'accomplit peut-être pas tout à fait ce qui est prévu. Quoi qu'il en soit, en l'absence de toute indication claire de ce que signifie la «confiance» dans la question (5), nous devons ignorer les conclusions tirées par les auteurs sur la base des réponses qu'ils ont obtenues à cette question.
whuber
yjecuneuchy(μ,1)μ
... suite ... donc même si la couverture moyenne à long terme est atteinte, la couverture dans une classe particulière d'échantillons ne le sera pas.
probabilitéislogic
10

Questions 1-2, 4: dans l'analyse fréquentiste, la vraie moyenne n'est pas une variable aléatoire, donc les probabilités ne sont pas définies, alors que dans l'analyse bayésienne les probabilités dépendraient de l'a priori.

Question 3: Par exemple, considérons un cas où nous savons avec certitude qu'il serait toujours possible d'obtenir ces résultats, mais plutôt déraisonnable de dire que l'hypothèse nulle est «peu probable» d'être vraie. Nous avons obtenu des données qui ne se produiront probablement pas si l'hypothèse nulle est vraie, mais cela n'implique pas que l'hypothèse nulle ne soit probablement pas vraie.

Question 5: Ceci est un peu discutable car cela dépend de la définition de «nous pouvons être p% confiants». Si nous définissons l'énoncé comme signifiant la chose qui est déduite des intervalles de confiance p%, l'énoncé est par définition correct. L'argument pro-bayésien typique affirme que les gens ont tendance à interpréter intuitivement ces déclarations comme signifiant "la probabilité est p%", ce qui serait faux (comparer les réponses à 1-2,4).

Question 6: Votre explication "cela implique que la vraie moyenne change d'expérience en expérience" est exactement correcte.

L'article a été récemment discuté dans le blog d'Andrew Gelman ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ). Par exemple, la question concernant l'interprétation de la déclaration de la question 5 est discutée dans les commentaires.

Juho Kokkala
la source
1
Donc, si l'on revenait en arrière et remplaçait chaque instance de «vraie moyenne» par «meilleure estimation de la vraie moyenne», alors les affirmations deviendraient-elles correctes?
Superbe
@Superbest No. Si nous considérons la «meilleure estimation compte tenu de ces données», il s'agit d'une constante connue (à condition que la meilleure soit bien définie). Si nous considérons la "meilleure estimation d'un futur échantillon", nous ne savons pas comment elle varie car nous ne connaissons pas la vraie moyenne.
Juho Kokkala
Ce n'est pas exactement une réfutation du commentaire ci-dessus, mais je dois souligner qu'en effet la "meilleure estimation" implique un nombre réel, plutôt qu'une distribution. Avec un IC, on pourrait peut-être parler de "la distribution de l'endroit où pourrait se situer la vraie moyenne compte tenu de ces données".
Superbe
1
@Super C'est exactement l'incompréhension de CI abordée dans le document. En particulier, la vraie moyenne est un nombre ; il n'a pas de distribution. Consultez les deux premiers résultats d'une recherche de site pour l' intervalle de confiance pour une discussion plus approfondie.
whuber
1
@super, "intervalle crédible" se rapprocherait.
whuber
8

Sans définition formelle de ce que signifie être «à 95% confiant», quelle justification y a-t-il à étiqueter # 5 vrai ou faux? Un profane l'aurait sans doute mal interprété comme synonyme d'une probabilité de 95% que la moyenne se situe dans cet intervalle: mais certaines personnes l'utilisent dans le sens d'avoir utilisé une méthode de génération d'intervalle dont les intervalles contiennent la vraie moyenne 95% du temps, précisément pour éviter de parler de la distribution de probabilité d'un paramètre inconnu; ce qui semble une extension assez naturelle de la terminologie.

La structure similaire de l'énoncé précédent (# 4) aurait pu encourager les répondants à essayer de faire une distinction entre «nous pouvons être sûrs à 95%» et «il y a une probabilité de 95%» même s'ils n'avaient pas envisagé l'idée auparavant. Je m'attendais à ce que cette astuce conduise à la cinquième proportion ayant la plus forte proportion d'accord - en regardant le document, j'ai découvert que j'avais tort, mais j'ai remarqué qu'au moins 80% ont lu le questionnaire dans une version néerlandaise, ce qui devrait peut-être soulever des questions sur la pertinence de la traduction anglaise.

Scortchi - Réintégrer Monica
la source
4

Voici la définition d'un intervalle de confiance, tirée du dictionnaire des statistiques de BS Everitt :

"Une plage de valeurs, calculées à partir des observations de l'échantillon, qui sont censées, avec une certaine probabilité, contenir la vraie valeur du paramètre. Un IC à 95%, par exemple, implique que le processus d'estimation se répétait encore et encore, puis 95% des intervalles calculés devraient contenir la valeur réelle du paramètre. Notez que le niveau de probabilité indiqué se réfère aux propriétés de l'intervalle et non au paramètre lui-même, qui n'est pas considéré comme une variable aléatoire "

Une idée fausse très courante consiste à confondre le sens d'un intervalle de confiance avec celui d'un intervalle crédible , AKA "intervalle de confiance bayésien", qui fait des déclarations similaires à celles des questions.

J'ai entendu dire que les intervalles de confiance sont souvent similaires à des intervalles crédibles qui ont été dérivés d'un précédent non informatif, mais cela m'a été dit de manière anecdotique (bien que par un gars que je respecte beaucoup), et je n'ai pas de détails ou une citation.

Peter Flom - Réintégrer Monica
la source
Jaynes 1976 intervalles de confiance papier vs intervalles bayésiens. C'est au moins une source crédible. Il y a aussi les prieurs de référence de Berger et Bernardo. Sérieusement, vous n'en avez jamais entendu parler?
probabilités
2

En ce qui concerne l'intuition du mensonge de la question 5, j'obtiens la discussion suivante sur ce sujet à partir d' ici

Il est juste de dire qu'il y a 95% de chances que l'intervalle de confiance que vous avez calculé contienne la vraie moyenne de la population. Il n'est pas tout à fait exact de dire qu'il y a 95% de chances que la moyenne de la population se situe dans l'intervalle.

Quelle est la différence? La moyenne de la population a une valeur. Vous ne savez pas ce que c'est (sauf si vous faites des simulations) mais il a une valeur. Si vous répétiez l'expérience, cette valeur ne changerait pas (et vous ne sauriez toujours pas ce que c'est). Par conséquent, il n'est pas strictement correct de poser des questions sur la probabilité que la moyenne de la population se situe dans une certaine fourchette. En revanche, l'intervalle de confiance que vous calculez dépend des données que vous avez collectées. Si vous répétiez l'expérience, votre intervalle de confiance serait presque certainement différent. Il est donc normal de se poser des questions sur la probabilité que l'intervalle contienne la moyenne de la population.

Passons maintenant à vos questions spécifiques sur 5. Pourquoi est-ce mal?

  1. Est-ce parce que nous pourrions avoir des informations spéciales sur l'échantillon que nous venons de prendre qui nous feraient penser qu'il s'agit probablement d'un des 5% qui ne contient pas la vraie moyenne? Non, je pense que c'est parce que la vraie moyenne n'est pas une variable aléatoire, mais l'intervalle de confiance est une fonction des données.
  2. 100(1-α)100(1-α)

En guise de remarque (mentionnée dans d'autres réponses à cette question), un intervalle crédible , un concept issu des statistiques bayésiennes, prédit que la vraie valeur du paramètre a une probabilité particulière d'être dans l'intervalle de confiance compte tenu des données réellement obtenues. Vous pouvez peut-être obtenir plus d'informations à ce sujet sur le blog de Gelman.

Deathkill14
la source
5
"L'intervalle contient la vraie valeur" et "la vraie valeur se situe dans l'intervalle" signifie exactement la même chose. Il est plus utile de penser en fonction de la première, mais cela n'a pas vraiment de sens de dire que l'une est correcte et l'autre incorrecte.
David Richerby