Intervalle de confiance et probabilité - où est l'erreur dans cette déclaration?

11

Si quelqu'un fait une déclaration comme ci-dessous:

"Dans l'ensemble, les non-fumeurs exposés à la fumée ambiante avaient un risque relatif de maladie coronarienne de 1,25 (intervalle de confiance à 95%, 1,17 à 1,32) par rapport aux non-fumeurs non exposés à la fumée."

Quel est le risque relatif pour l'ensemble de la population? Combien de choses sont liées à la maladie coronarienne? Parmi le grand nombre de choses qui peuvent être testées, très peu sont en réalité liées à une maladie coronarienne, de sorte que la probabilité qu'une chose particulière choisie au hasard soit connectée est extrêmement faible. Ainsi, nous pouvons dire que le risque relatif pour la population est 1. Mais l'intervalle cité ne contient pas la valeur 1. Donc, soit il y a en fait un lien entre les deux choses, dont la probabilité est très faible, soit c'est l'une des les 5% d'intervalles qui ne contiennent pas le paramètre. Comme ce dernier est beaucoup plus probable que le premier, c'est ce que nous devons supposer. Par conséquent, la conclusion appropriée est que l'ensemble de données était presque certainement atypique de la population,

Bien sûr, s'il y a une base pour supposer que plus de 5% des choses sont liées à une maladie coronarienne, alors il pourrait y avoir des preuves dans les statistiques pour soutenir la suggestion que la fumée de l'environnement en fait partie. Le bon sens suggère que cela est peu probable.

Quelle est l'erreur dans leur raisonnement (comme tous les organismes de santé conviennent qu'il existe une littérature importante concernant les effets néfastes du tabagisme passif)? Est-ce à cause de leur prémisse que "Parmi le grand nombre de choses qui peuvent être testées, très peu sont réellement liées aux maladies coronariennes"? Cette phrase peut être vraie pour tout facteur choisi au hasard (c.-à-d. Combien de chiens une personne possède avec le risque de maladie coronarienne), mais la probabilité a priori est beaucoup plus élevée pour le tabagisme passif et les maladies coronariennes que pour «tout facteur aléatoire» .

Est-ce le bon raisonnement? Ou y a-t-il autre chose?

probability statistical-significance confidence-interval conditional-probability philosophical BYS2
la source

Le texte cité ressemble à ... enfin, comme une citation. D'où cela vient-il? :)

MånsT

haha oui c'est une citation, de wikipedia ... quelqu'un l'a ajouté à l'article pour "intervalle de confiance". J'essaie de le retirer parce que c'est clairement incorrect, mais le gars refuse donc j'ai besoin d'une raison mathématiquement valable au lieu de juste "c'est clairement faux" .. même si j'ai quelques idées, je voulais savoir si quelqu'un pouvait expliquer exactement quelles erreurs sont commises ici. Parce que si cela était correct, de nombreuses études peuvent être réfutées pour des motifs similaires

BYS2

3

Si ça traîne un peu, je vais me déplacer et essayer d'aider. Son argument est clairement fallacieux et indique fortement qu'il a un programme.

Erik

3

En tant que physicien qui utilise beaucoup de statistiques mais qui n'est pas statisticien, je trouve ce paragraphe vraiment inutile, peu importe le fait qu'il semble tout à fait faux. J'ai toujours pensé, peut-être à tort, qu'un cl de 95% signifiait que si l'hypothèse nulle était vraie, alors 1 fois sur 20 si je répétais mon expérience, j'obtiendrais un résultat significatif au niveau de 95% (une bonne raison à mon avis de pas utiliser moins de 99,9 mais c'est une autre discussion). Ce post semble être plus un point sur les facteurs corrélés et n'aide vraiment pas les non-experts (ou n'importe qui).

Bowler

@Erik. L'utilisateur a une histoire assez douteuse de marionnettes de chaussettes (avait quelques comptes et utilise des modifications IP) et a été bloqué avant ... je ne sais pas quel est son accord. Mais semble être un fauteur de troubles

BYS2

10

Il y a beaucoup de problèmes ici. Comme l'explique @ Néstor, il suppose implicitement des probabilités antérieures sur (pas de lien) et (lien). $H_0$ $H_1$

Il place un poids très élevé (très proche de 1) sur et un poids très faible sur . C'est la première chose douteuse qu'il fait, puisqu'il existe un lien mécanique entre la fumée et les maladies cardiaques (pensez aux fumeurs actifs), la question est vraiment de savoir si l'exposition est suffisante. Cela ne tient même pas compte des études antérieures effectuées. Ce n'est donc vraiment pas un «grand nombre de choses» à tester comme le serait le port de chaussettes rouges par exemple. Cela signifie qu'il commence déjà avec un précédent très biaisé et pas vraiment justifiable. $H_0$ $H_1$

Il met ensuite à jour son précédent en déclarant que la probabilité d'obtenir un intervalle de confiance à 95% de ne pas contenir la vraie valeur a une probabilité de 5%. Bien que cela soit vrai, ce n'est pas la chance d'obtenir cet intervalle particulier sous l'hypothèse de l'hypothèse nulle . Il est à noter qu'il aurait traité un intervalle de confiance de [1,17, 1,32] exactement comme un intervalle de confiance de [100, 200], ce qui est clairement problématique.

Ceci est vraiment important pour l'approche bayésienne: bien que vous ayez une probabilité totale de 5% de ne pas obtenir un intervalle contenant le 1 sous l'hypothèse que 1 est zéro, la densité de probabilité d'obtenir cet intervalle particulier est différente (et plus petite).

La troisième erreur est qu'il n'a jamais précisé son a priori ni ne précise la probabilité que soit contre pour qu'il obtienne ce résultat. C'est juste "extrêmement petit". $H_0$ $H_1$

La quatrième erreur est de dire que la mesure appropriée à prendre serait de rejeter les données. Notez que son résultat ne dépend même pas des données, son argument implique exactement que la même action aurait été effectuée pour toutes les données. Si vous trouvez un lien intéressant mais que vous pensez qu'il s'agit peut-être simplement d'un coup de chance, la bonne chose scientifique à faire est d'essayer de reproduire votre résultat!

Erik
la source

Merci d'avoir développé la réponse de Nestor! Une question rapide cependant, vous avez déclaré que "... ce n'est pas la chance d'obtenir cet intervalle particulier sous l'hypothèse de l'hypothèse nulle." Si nous voulions trouver la chance d'obtenir un intervalle particulier sous l'hypothèse de l'hypothèse nulle, nous aurions besoin d'utiliser l'inférence bayésienne et un intervalle crédible correct? Les intervalles de confiance Frequentist vous indiquent seulement "la chance que l'intervalle inclue la vraie valeur". Merci encore

BYS2

L'intervalle de confiance fréquentiste de 95% est construit de sorte qu'au moins 95% des fois où l'intervalle construit contient la vraie valeur. Jusqu'ici tout va bien. Cela étant dit, vous pouvez également calculer la probabilité (ou la valeur de la densité) d'obtenir un intervalle de confiance particulier si l'hypothèse nulle est vraie. L'emplacement exact contient plus d '"informations" que le simple fait de savoir s'il inclut l'hypothèse nulle. Jeter cette information est mauvais lorsque vous utilisez l'inférence bayésienne car elle est pertinente pour la probabilité que le zéro soit vrai.

Erik

Un exemple de jouet serait celui-ci: l'inférence bayésienne, vous voulez faire l'inférence vers la forme d'une distribution. Prior permet deux possibilités: H1: la distribution est normale normale. H2: Distribution normale, moyenne = sd = 1. Un échantillon des valeurs des distributions vous permet de mettre à jour votre a priori. Lorsque vous ne recevez que les signes de vos valeurs, vous pouvez également mettre à jour votre précédent, mais la mise à jour sera moins informative puisque vous avez jeté des informations pertinentes.

Erik

6

Il s'agit d'une question philosophique assez intéressante liée aux tests d'hypothèses (et donc dans le cadre fréquentiste également les intervalles de confiance, comme je l'explique ici ).

Il y a, bien sûr, beaucoup d'hypothèses qui pourraient être étudiées - le tabagisme passif provoque des maladies coronariennes, la consommation d'alcool cause des chd, la possession de chiens cause des chd, être un Capricorne cause des chd ...

Si nous choisissons une de toutes ces hypothèses au hasard, la probabilité que nous choisissions une hypothèse qui se trouve être vraie est pratiquement nulle. Cela semble être l'argument du texte cité - qu'il est très peu probable que nous ayons testé une véritable hypothèse.

Mais l'hypothèse n'a pas été choisie au hasard. Elle était motivée par des connaissances épidémiologiques et médicales antérieures sur les maladies coronariennes. Il existe des mécanismes théoriques qui expliquent comment le tabagisme peut provoquer des maladies coronariennes, il ne semble donc pas exagéré de penser que ceux-ci fonctionneraient également pour le tabagisme passif.

La critique dans la citation peut être valable pour les études exploratoires où un ensemble de données est extrait pour des hypothèses. C'est la raison pour laquelle nous n'acceptons pas ces "découvertes" comme des faits - au lieu de cela, nous exigeons que les résultats puissent être reproduits dans de nouvelles études. Quoi qu'il en soit, l'article cité dans la citation est une méta-étude et n'est donc pas affecté par ce problème.

Nous avons vu empiriquement au cours des derniers siècles que le test d'hypothèses motivées par la théorie en comparant les résultats prévus aux résultats observés fonctionne. Le fait que nous croyons en cette procédure est la raison pour laquelle nous avons fait tant de progrès en médecine, en ingénierie et en science. C'est la raison pour laquelle je peux écrire ceci sur mon ordinateur et que vous pouvez le lire sur le vôtre. Faire valoir que cette procédure est erronée, c'est faire valoir que la méthode scientifique est fondamentalement viciée - et nous avons beaucoup de preuves qui disent le contraire.

Je doute qu'il y ait quoi que ce soit qu'une personne qui n'est pas disposée à accepter ce genre de preuves accepte réellement ...

MånsT
la source

Je n'ai vraiment pas compris votre paragraphe avant le dernier; faites-vous référence à des «tests de signification» (par exemple, calcul de la probabilité de données au moins plus extrêmes) ou vraiment à des «tests d'hypothèse» (le cadre bayésien)? Qui a dit que l'un d'entre eux ne fonctionnait pas si vous posiez la bonne question?

Néstor

@ Néstor: J'aurais peut-être dû écrire cela différemment. Je ne faisais pas vraiment de déclaration sur le test d'hypothèse statistique , mais plutôt sur le fait que la comparaison des prédictions du modèle avec des données du monde réel (c'est-à-dire "tester" si l'hypothèse est correcte) semble être un moyen très efficace de le faire. science. Au cœur de cette critique contre CI est, je crois, une réticence à accepter cette méthode. Le genre d'arguments donnés dans la citation s'appliquerait à n'importe quelle méthode statistique - avec zéro probabilités a priori pour toutes les hypothèses nulles, nous ne croirions jamais en rien.

MånsT

6

Je ne comprends vraiment pas pourquoi l'auteur dit que la probabilité que le risque relatif de maladie coronarienne soit de 1 pourrait être très faible en fondant son analyse uniquement sur un intervalle de confiance; c'est tout à fait faux. Pour moi, il semble qu'il utilise un cadre fréquentiste, mais il raisonne de façon bayésienne (ce qui est assez courant).

$H_0:$ $p(D_e|H_0)$ $D_e$ $p(H_0|D)$ $D$

p (H_{0} | D) \propto p (D | H_{0}) p (H_{0}),

$p(H_0|D)\propto p(D|H_0)p(H_0),$

p (H_{0})

$p(H_0)$

H_{0}

$H_0$

Néstor
la source

H0 ne serait-il pas: il n'y a pas de lien entre le tabagisme passif et les maladies coronariennes? Puisque l'hypothèse nulle est généralement l'hypothèse qu'il n'y a pas d'effet. En dehors de cela, merci pour cette réponse!

BYS2

Oui vous avez raison! Je ne l'ai pas remarqué jusqu'à ce que vous me disiez :-). Je vais modifier ma réponse.

Néstor

3

Bien qu'il y ait quelque chose dans ce raisonnement bayésien (déconstruit très en détail par Erik!), Et en effet, ce raisonnement expliquerait pourquoi de nombreuses découvertes médicales ne peuvent pas être reproduites, cet argument particulier applique cette pensée comme un marteau.

L'auteur présuppose deux choses sans apporter de preuves: que l'exposition à la fumée a été choisie au hasard et que presque rien au monde ne cause de maladie cardiaque. En vertu de ces normes de raisonnement laxistes, l'auteur pourrait rejeter TOUTE conclusion que quelque chose cause une maladie cardiaque. Il vous suffirait d'affirmer:

Que l'hypothèse a été choisie au hasard, et
Cette maladie cardiaque a des causes très proches de zéro.

Ces deux affirmations sont discutables (et, sur la base de mes connaissances générales, très probablement fausses). Mais, avec ces hypothèses en place, même en observant que 100% des personnes exposées à la fumée secondaire sont mortes d'une crise cardiaque en un an, vous pouvez affirmer que la connexion n'est qu'une coïncidence corrélative avec la cause cachée, singulière et "vraie". .

Jonathan
la source

Très bien merci pour vos pensées! Oui, l'auteur a définitivement supposé que l'hypothèse avait été «choisie au hasard», ce qui n'est pas correct.

BYS2

-1

Je ne vois rien de mal à l'évidence dans le paragraphe entre guillemets, mais je n'ai pas vu les données et je ne peux pas vérifier ses chiffres. Cependant, les deux paragraphes qui suivent ne sont pas très clairs.

Supposons qu'il ait dit: "Dans l'ensemble, les non-fumeurs qui étaient obèses morbides avaient un risque relatif de maladie coronarienne de 1,25 (intervalle de confiance à 95%, 1,17 à 1,32) par rapport aux non-fumeurs qui avaient un poids corporel normal." Quelqu'un aurait-il des raisons de douter de lui?

Emil Friedman
la source

Eh bien, le premier paragraphe des citations était juste l'auteur citant les conclusions d'une étude épidémiologique donc il n'y a rien de mal à cela. Les prochains paragraphes sont lui essayant de discréditer l'étude qui est où il fait des déclarations douteuses.

BYS2

Intervalle de confiance et probabilité - où est l'erreur dans cette déclaration?

Réponses: