Cette bande dessinée xkcd (Frequentists vs. Bayesians) se moque d’un statisticien fréquentiste qui obtient un résultat manifestement faux.
Cependant, il me semble que son raisonnement est en fait correct dans le sens où il suit la méthodologie fréquentiste standard.
Donc ma question est "applique-t-il correctement la méthodologie fréquentiste?"
- Si non: quelle serait une inférence fréquentiste correcte dans ce scénario? Comment intégrer les "connaissances antérieures" sur la stabilité du soleil dans la méthodologie fréquentiste?
- Si oui: wtf? ;-)
bayesian
frequentist
repied2
la source
la source
Réponses:
Le problème principal est que la première expérience (Sun gone nova) n'est pas reproductible, ce qui la rend tout à fait inappropriée pour la méthodologie fréquentiste qui interprète la probabilité comme une estimation de la fréquence à laquelle un événement est donné que nous pouvons répéter l'expérience plusieurs fois. En revanche, la probabilité bayésienne est interprétée comme notre degré de croyance donnant toutes les connaissances antérieures disponibles, ce qui la rend appropriée pour le raisonnement de bon sens sur des événements ponctuels. L’expérience des jets de dés est reproductible, mais j’estime très improbable qu’un fréquentiste ignore intentionnellement l’influence de la première expérience et soit aussi confiant dans l’importance des résultats obtenus.
Bien qu'il semble que l'auteur se moque de la fréquentation fréquente d'expériences répétables et de leur méfiance à l'égard des prieurs, en attribuant l'inadéquation du dispositif expérimental à la méthodologie fréquentiste, je dirais que le thème réel de cette bande dessinée n'est pas la méthodologie fréquentiste, mais le suivi aveugle d'une méthodologie inadaptée en général. Que ce soit drôle ou non, c'est à vous (pour moi, ça l'est), mais je pense que cela induit plus en erreur qu'en clarifiant les différences entre les deux approches.
la source
Autant que je sache, le côté fréquentiste est raisonnable jusqu'à présent:
Soit l'hypothèse que le soleil n'a pas explosé et l'hypothèse qu'il l'a. La valeur p est donc la probabilité d’observer le résultat (la machine dit "oui") sous . En supposant que la machine détecte correctement la présence d’absence de neutrinos, si la machine dit «oui» sous c’est parce que la machine nous a menti à la suite du résultat du calcul du double. Ainsi, la valeur p est de 1/36, si bien que, selon la pratique scientifique normale de Fisher, un fréquentiste rejetterait l'hypothèse nulle à un seuil de signification de 95% .H 1 H 0 H 0H0 H1 H0 H0
Mais rejeter l'hypothèse nulle ne signifie pas que vous êtes en droit d'accepter l'hypothèse alternative, de sorte que la conclusion fréquentiste n'est pas justifiée par l'analyse. Les tests d'hypothèses Frequentist incarnent l'idée de falsificationnisme (en quelque sorte), vous ne pouvez pas prouver que rien est vrai, mais seulement réfuter. Donc, si vous voulez affirmer , vous supposez que est vrai et continuez uniquement si vous pouvez montrer que est incompatible avec les données. Cependant, cela ne signifie pas que est vrai, mais qu’il survit au test et reste une hypothèse viable, au moins aussi loin que le test suivant.H 0 H 0 H 1H1 H0 H0 H1
Le bayésien n’est aussi que du bon sens, notant qu’il n’ya rien à perdre en faisant le pari. Je suis sûr que les approches fréquentistes, lorsque les coûts faux positif et faux négatif sont pris en compte (Neyman-Peason?), Permettraient de tirer la même conclusion que la meilleure stratégie en termes de gain à long terme.
Pour résumer: le fréquentiste et le bayésien sont négligés ici: le fréquentiste qui suit aveuglément une recette sans considérer le niveau de signification approprié, les coûts faux-positifs / faux-négatifs ou la physique du problème (c.-à-d. Ne pas utiliser son bon sens) . Le Bayésien fait preuve de négligence pour ne pas énoncer explicitement ses prieurs, mais il a de nouveau recours au bon sens. Les prieurs qu'il utilise sont évidemment corrects (il est beaucoup plus probable que la machine soit allongée que le soleil ait réellement explosé), la négligence est peut-être excusable.
la source
Pourquoi ce résultat semble "faux?" Un Bayésien dirait que le résultat semble contre-intuitif, car nous avons des croyances "antérieures" sur le moment où le soleil va exploser, et les preuves fournies par cette machine ne suffisent pas pour effacer ces convictions (principalement en raison de son incertitude en raison de la pièce retournée). Mais un fréquentiste est capable de faire une telle évaluation, il doit simplement le faire dans le contexte des données, par opposition à la croyance.
La véritable source du paradoxe est le fait que le test statistique fréquentiste effectué ne prend pas en compte toutes les données disponibles. L'analyse dans la bande dessinée ne pose pas de problème, mais le résultat semble étrange, car nous savons que le soleil n'explosera probablement pas avant longtemps. Mais comment savons-nous cela? Parce que nous avons effectué des mesures, des observations et des simulations qui peuvent limiter le moment où le soleil va exploser. Nos connaissances doivent donc prendre en compte ces mesures et points de données.
Dans une analyse bayésienne, cela est fait en utilisant ces mesures pour construire un préalable (bien que la procédure permettant de transformer les mesures en antérieurs ne soit pas bien définie: à un moment donné, il doit y avoir un préalable initial, sinon ce sera "toutes les tortues". le chemin vers le bas "). Ainsi, lorsque le Bayésien utilise son prédécesseur, il prend réellement en compte de nombreuses informations supplémentaires que l’analyse de la valeur p du fréquentiste n’est pas au courant.
Ainsi, pour rester sur un pied d'égalité, une analyse fréquentiste complète du problème devrait inclure les mêmes données supplémentaires sur l'explosion du soleil qui sont utilisées pour construire le précédent bayésien. Mais au lieu d'utiliser des a priori, un fréquentiste augmenterait simplement la probabilité qu'il utilisait pour incorporer ces autres mesures, et sa valeur p serait calculée en utilisant cette vraisemblance.
Une analyse fréquentiste complète montrerait très probablement que la seconde partie de la probabilité sera beaucoup plus contraignante et constituera la contribution dominante au calcul de la valeur p (car nous avons une mine d'informations sur le soleil et les erreurs sur ces informations sont petits (espérons-le)).
Pratiquement, il n’est pas nécessaire de sortir et de collecter tous les points de données obtenus au cours des 500 dernières années pour effectuer un calcul fréquentiste, on peut les approcher comme un simple terme de vraisemblance qui code l’incertitude de savoir si le soleil a explosé ou non. Cela deviendra alors semblable au précédent du Bayésien, mais il est légèrement différent du point de vue philosophique parce que c'est une probabilité, ce qui signifie qu'il code une mesure précédente (par opposition à un précédent qui code une croyance a priori). Ce nouveau terme fera partie de la probabilité et sera utilisé pour construire des intervalles de confiance (ou valeurs p ou autre), par opposition au précédent bayésien, qui est intégré pour former des intervalles crédibles ou postérieurs.
la source
Le plus gros problème que je vois, c’est qu’aucune statistique de test n’est dérivée. -value (avec toutes les critiques formulées par les statisticiens bayésiens contre elle) pour une valeur d'une statistique de test est défini comme (en supposant que la valeur NULL est rejetée pour des valeurs plus grandes de , comme ce serait le cas avec les statistiques , par exemple). Si vous devez prendre une décision plus importante, vous pouvez augmenter la valeur critique et pousser la région de rejet plus haut. Effectivement, c’est ce que font plusieurs corrections de test comme Bonferroni, vous invitant à utiliser un seuil beaucoup plus bas pourt t p r o b [ t ≥ t | H 0 ] T χ 2 p 0 , une / 36 , 2 / 36 , ...p t T Prob[T≥t|H0] T χ2 p -valeurs. Au lieu de cela, le statisticien fréquentiste est coincé ici avec les tests de tailles sur la grille de .0,1/36,2/36,…
Bien sûr, cette approche "fréquentiste" n’est pas scientifique, car le résultat sera difficilement reproductible. Une fois que Sun passe en supernova, il reste supernova. Le détecteur doit donc continuer à dire "Oui" encore et encore. Cependant, une exécution répétée de cette machine ne donnera probablement pas le résultat "Oui". Ceci est reconnu dans les domaines qui veulent se présenter comme rigoureux et essaient de reproduire leurs résultats expérimentaux ... ce qui, autant que je sache, se produit avec une probabilité comprise entre 5% (la publication du document original était une pure erreur de type I) et quelque part autour de 30-40% dans certains domaines médicaux. Les méta-analystes peuvent vous renseigner avec de meilleurs chiffres, c’est tout le buzz qui me traverse de temps en temps à travers la statistique.
Un autre problème du point de vue fréquentiste «approprié» est que le dé est le test le moins puissant, avec une puissance = niveau de signification (sinon inférieur; une puissance de 2,7% pour un niveau de signification de 5% n’a rien à se vanter). La théorie de Neyman-Pearson pour les tests t est agonisante pour démontrer qu'il s'agit d'un UMPT, et beaucoup de théorie statistique de haut niveau (que je comprends à peine, je dois l'admettre) est consacrée à dériver les courbes de puissance et à trouver les conditions dans test est le plus puissant dans une classe donnée. (Crédits: @Dikran Marsupial a mentionné la question du pouvoir dans l'un des commentaires.)
Je ne sais pas si cela vous dérange, mais le statisticien bayésien est montré ici comme le gars qui ne connaît pas les mathématiques et a un problème de jeu. Un statisticien bayésien compétent postulerait le prieur, discuterait de son degré d'objectivité, dériverait le postérieur et démontrerait tout ce qu'il avait appris des données. Rien de tout cela n'a été fait, le processus bayésien a donc été simplifié à l'extrême, tout comme le processus fréquentiste.
Cette situation illustre le dépistage classique du cancer (et je suis certain que les biostatisticiens peuvent le décrire mieux que moi). Lors du dépistage d'une maladie rare avec un instrument imparfait, la plupart des positifs se révèlent être des faux positifs. Les statisticiens avisés le savent et savent mieux faire un suivi des dépisteurs peu coûteux et sales avec des biopsies plus coûteuses et plus précises.
la source
Il n'y a rien de mal avec cette bande dessinée, et la raison n'a rien à voir avec les statistiques. C'est de l'économie. Si le fréquentiste est correct, la Terre équivaudra à inhabitable dans les 48 heures. La valeur de 50 $ sera effectivement nulle. Le Bayésien, reconnaissant cela, peut faire le pari en sachant que son avantage est de 50 $ dans le cas normal, et marginalement rien dans le cas où le soleil a explosé.
la source
Maintenant que le CERN a décidé que les neutrinos ne sont pas plus rapides que la lumière, le front de choc de rayonnement électromagnétique heurterait la Terre avant que le changement de neutrino ne soit perçu. Cela aurait au moins (à très court terme) des effets auroraux spectaculaires. Ainsi, le fait qu’il fasse nuit n’empêcherait pas le ciel de s’éclairer; la lune ne brillait pas trop (cf. "Inconstant Moon" de Larry Niven) et des éclairs spectaculaires alors que les satellites artificiels étaient vaporisés et autocombustifs.
Au total, peut-être le mauvais test? (Et, même s’il y avait peut-être eu des antécédents, le temps serait insuffisant pour une détermination réaliste de l’a posteriori.
la source
Je suis d'accord avec @GeorgeLewis sur le fait qu'il est peut-être prématuré de conclure que l'approche Frequentist est fausse - répétons simplement le détecteur de neutrinos plusieurs fois pour collecter davantage de données. Pas besoin de déconner avec les a priori.
la source
Un point plus simple qui peut être perdu parmi toutes les réponses verbeuses ici est que le fréquentiste est représenté tirant sa conclusion sur la base d'un seul échantillon. En pratique, vous ne feriez jamais cela.
Pour arriver à une conclusion valable, il faut une taille d'échantillon statistiquement significative (ou, en d'autres termes, la science doit être répétable). Donc, dans la pratique, le fréquentiste exécutait la machine plusieurs fois , puis tirait une conclusion sur les données obtenues.
Cela impliquerait vraisemblablement de poser la même question à la machine plusieurs fois. Et vraisemblablement, si la machine n’a que tort, 1 fois sur 36, un schéma clair se dégagera. Et à partir de ce schéma (plutôt que d'une seule lecture), le fréquentiste tirera une conclusion (assez précise, je dirais) quant à savoir si le soleil a explosé ou non.
la source
La réponse à votre question: "applique-t-il correctement la méthodologie fréquentiste?" non, il n’applique pas précisément l’approche fréquentiste. La valeur p de ce problème n'est pas exactement 1/36.
Nous devons d’abord noter que les hypothèses impliquées sont
H0: Le soleil n'a pas explosé,
H1: Le soleil a explosé.
Ensuite,
p-value = P ("la machine retourne oui" | le soleil n'a pas explosé).
Pour calculer cette probabilité, il faut noter que "la machine retourne oui" est équivalent à "le détecteur de neutrinos mesure le soleil en train d'exploser ET indique le résultat réel OU le détecteur de neutrinos ne mesure pas le soleil en train d'exploser ET nous ment".
En supposant que le lancer de dés soit indépendant de la mesure du détecteur de neutrinos, nous pouvons calculer la valeur p en définissant:
p0 = P ("le détecteur de neutrinos mesure l'explosion du soleil" | le soleil n'a pas explosé),
Ensuite, la valeur p est
valeur p = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1 + 34 x p0).
Pour ce problème, la valeur p est un nombre compris entre 1/36 et 35/36. La valeur p est égale à 1/36 si et seulement si p0 = 0. C'est-à-dire qu'une hypothèse cachée dans cette caricature est que la machine à détecter ne mesurera jamais l'explosion du soleil si celui-ci n'a pas explosé.
De plus, il faudrait insérer beaucoup plus d’informations sur la probabilité que des preuves externes d’une explosion anova se produisent.
Bonne chance.
la source
Je ne vois pas de problème avec l'approche du fréquentiste. Si l'hypothèse nulle est rejetée, la valeur p est la probabilité d'une erreur de type 1. Une erreur de type 1 rejette une hypothèse nulle. Dans ce cas, nous avons une valeur de p de 0,028. Cela signifie que parmi tous les tests d'hypothèses avec cette valeur p jamais effectués, environ 3 sur 100 rejetteront une hypothèse nulle vraie. Par construction, ce serait l'un de ces cas. Les fréquentistes acceptent le fait qu’ils refusent parfois l’hypothèse vraie ou conservent une hypothèse nulle (erreur de type 2), ils n’ont jamais prétendu le contraire. De plus, ils quantifient précisément la fréquence de leurs inférences erronées à long terme.
Peut-être une manière moins confuse d’envisager ce résultat est-elle d’échanger les rôles des hypothèses. Puisque les deux hypothèses sont simples, cela est facile à faire. Si le zéro est que le soleil est allé nova, alors la valeur p est 35/36 = 0.972. Cela signifie que ce n'est pas une preuve contre l'hypothèse que le soleil est devenu nova, nous ne pouvons donc pas le rejeter sur la base de ce résultat. Cela semble plus raisonnable. Si tu réfléchis. Pourquoi quelqu'un supposerait-il que le soleil allait en nova? Je voudrais vous demander. Pourquoi voudrait-on faire une telle expérience si la seule pensée du soleil qui explose semble ridicule?
Je pense que cela montre simplement qu'il faut évaluer l'utilité d'une expérience à l'avance. Cette expérience, par exemple, serait totalement inutile car elle teste quelque chose que nous savons déjà simplement en regardant vers le ciel (ce qui, j'en suis sûr, produit une p-valeur qui est effectivement nulle). Concevoir une bonne expérience est une nécessité pour produire une bonne science. Si votre expérience est mal conçue, quels que soient les outils d'inférence statistique que vous utilisiez, vos résultats ont peu de chances d'être utiles.
la source
Sujet très intéressant.
Voici quelques réflexions, pas une analyse parfaite ...
L'utilisation de l'approche bayésienne avec un préalable non informatif fournit généralement une inférence statistique comparable à celle du fréquentiste.
Pourquoi le Bayésien a-t-il la conviction profonde que le soleil n'a pas explosé? Parce qu'il sait comme tout le monde que le soleil n'a jamais explosé depuis ses débuts.
Nous pouvons voir sur certains modèles statistiques simples avec des a priori conjugués que l' utilisation d'une distribution antérieure équivaut à utiliser la distribution postérieure dérivée d'expériences préalables et préliminaires non indicatives.
La phrase ci-dessus suggère que le Frequentist devrait conclure comme le Bayésien en incluant les résultats des expériences préliminaires dans son modèle. Et c’est ce que fait réellement le bayésien : son prieur vient de sa connaissance des expériences préliminaires!
De ce point de vue, je ne vois pas comment reformuler la question en termes de test d'hypothèse. Prendre n'a pas de sens car c'est une issue possible de l'expérience dans mon interprétation, pas une hypothèse vraie / fausse. Peut-être est-ce l'erreur du Frequentist?H0={the sun has not exploded}
la source
Il s’agit bien entendu d’un test fréquentiste (niveau 0.05): l’hypothèse nulle est rejetée moins de 5% du temps sous l’hypothèse nulle et même la puissance sous l’alternative est grande.
D'un autre côté, des informations antérieures nous disent qu'il est peu probable que le soleil se couche à un moment donné dans la supernova, mais qu'il soit plus probable que de mentir par hasard.
En bout de ligne: il n'y a pas vraiment de problème avec la bande dessinée et cela montre que le test d'hypothèses invraisemblables conduit à un taux élevé de fausses découvertes. De plus, vous voudrez probablement prendre en compte les informations préalables dans votre évaluation des paris proposés - c'est pourquoi un postérieur bayésien associé à une analyse décisionnelle est si populaire.
la source
À mon avis, une analyse fréquentiste plus correcte serait la suivante: H0: Le soleil a explosé et la machine dit la vérité. H1: Le soleil n'a pas explosé et la machine est allongée.
La valeur de p ici est = P (le soleil a explosé). p (la machine dit la vérité) = 0,97. P (le soleil a explosé)
Le statisticien ne peut rien conclure sans connaître la nature de la deuxième probabilité.
Bien que nous sachions que P (le soleil a explosé) est égal à 0, car le soleil, comme les étoiles, n'explose pas en supernovae.
la source