Je regarde des diapositives de cours sur un cours de science des données que vous pouvez trouver ici:
https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf
Malheureusement, je ne peux pas voir la vidéo de cette conférence et à un moment de la diapositive, le présentateur a le texte suivant:
Quelques principes clés
Penser comme un Bayésien, cocher comme un Frequentist (réconciliation)
Est-ce que quelqu'un sait ce que cela signifie réellement? J'ai l'impression qu'il y a un bon aperçu de ces deux écoles de pensée à tirer de cela.
Réponses:
La principale différence entre les écoles de statistiques bayésiennes et fréquentistes tient à une différence d’interprétation de la probabilité. Une probabilité bayésienne est une déclaration sur la conviction personnelle qu'un événement va (ou s'est produit). Une probabilité fréquentiste est une déclaration sur la proportion d'événements similaires qui se produisent dans la limite lorsque ce nombre augmente.
Pour moi, "penser comme un bayésien" signifie mettre à jour sa conviction personnelle au fur et à mesure que de nouvelles informations se présentent et "vérifier [ou s'inquiéter] comme un fréquentiste", c'est se préoccuper de la performance des procédures statistiques agrégées à travers les périodes où ces procédures sont utilisées, Par exemple, quelle est la couverture d'intervalles crédibles, quel est le taux d'erreur de type I / II, etc.
la source
Les statistiques bayésiennes résument les croyances, tandis que les statistiques fréquentistes résument les preuves. Les Bayésiens voient la probabilité comme un degré de croyance. Ce type de raisonnement inclusif et génératif est utile pour formuler des hypothèses. Par exemple, les bayésiens peuvent peut-être attribuer de manière arbitraire une probabilité à la notion selon laquelle la lune est faite de fromage vert, que les astronautes aient ou non été en mesure de s'y rendre pour le vérifier. Cette hypothèse est peut-être confortée par l’idée que, de loin, la lune semblecomme du fromage vert. Les fréquentistes ne peuvent pas concevoir singulièrement une hypothèse qui soit plus qu'un homme de paille, ils ne peuvent pas non plus dire que la preuve favorise une hypothèse par rapport à une autre. Même le maximum de vraisemblance ne génère qu'une statistique "la plus compatible avec ce qui a été observé". Formellement, les statistiques bayésiennes nous permettent de sortir des sentiers battus et de proposer des idées défendables à partir de données. Mais ceci est strictement générateur d’hypothèses dans la nature.
Les statistiques fréquentistes sont mieux appliquées pour confirmer des hypothèses. Quand une expérience est bien conduite, les statistiques fréquentistes fournissent un contexte "d'observateur indépendant" ou "empirique" aux résultats obtenus par les a priori évitants. Ceci est conforme à la philosophie de la science Karl Popper. Le point de preuve n'est pas de promulguer une certaine idée. De nombreuses preuves sont cohérentes avec des hypothèses incorrectes. Les preuves peuvent simplement fausser les croyances.
L'influence des a priori est généralement considérée comme un biais du raisonnement statistique. Comme vous le savez, nous pouvons trouver un grand nombre de raisons pour lesquelles les choses se passent. Psychologiquement, de nombreuses personnes pensent que les biais de nos observateurs résultent de prédispositions dans notre cerveau qui nous empêchent de vraiment pondérer ce que nous voyons. "Observation des nuages d'espoir" comme disait la Révérende Mère dans Dune. Popper a rendu cette idée rigoureuse.
Cela a eu une grande importance historique dans certaines des plus grandes expériences scientifiques de notre époque. Par exemple, John Snow a méticuleusement rassemblé des preuves de l'épidémie de choléra et a conclu astucieusement que le choléra n'était pas causé par une privation morale, et a souligné que les preuves concordaient fortement avec la contamination par les eaux usées: notez qu'il ne l'a pas fait. concluceci, les découvertes de Snow étaient antérieures à la découverte de bactéries et il n'y avait aucune compréhension mécaniste ou étiologique. Un discours similaire se trouve dans Origine des espèces. Nous ne savions pas vraiment si la lune était faite de fromage vert jusqu'à ce que les astronautes atterrissent à la surface et recueillent des échantillons. À ce stade, les postérieurs bayésiens ont attribué une très très faible probabilité à toute autre possibilité, et Frequentists peut au mieux dire que les échantillons sont hautement incompatibles avec autre chose que la poussière de lune.
En résumé, les statistiques bayésiennes sont susceptibles de générer des hypothèses et les statistiques fréquentistes, de les confirmer. L'un des plus grands défis auxquels sont confrontés les statisticiens modernes est de veiller à ce que les données soient collectées de manière indépendante dans ces efforts.
la source
Plenty of evidence is consistent with incorrect hypotheses
?D'après
Cliff AB
le commentaire du PO, il semble qu'ils se dirigent vers une philosophie empirique bayésienne. Il existe trois grandes écoles de pensée bayésiennes et Empirical Bayes estime les a priori à partir de données, souvent avec des méthodes fréquentistes. Cela ne correspond pas exactement à la citation (ce qui implique Bayes au début, des préoccupations de type fréquentiste ensuite), mais il ne faut pas oublierCliff AB
l'excellent commentaire.En outre, il existait et pourrait encore être une école bayésienne qui pensait qu'il n'était pas nécessaire de vérifier quoi que ce soit après une procédure bayésienne. Une pensée plus moderne utiliserait des vérifications prédictives postérieures, et peut-être ce genre d'approche consistant à vérifier à deux reprises vos réponses est ce à quoi la citation fait référence.
De plus, la philosophie fréquentiste se préoccupe des procédures plutôt que des inférences à partir de données. Alors peut-être que c'est aussi un indice sur la signification de la citation.
la source
Dans le contexte de ce cours de science des données, mon interprétation de "vérifier comme un fréquentiste" est que vous évaluez la performance de votre fonction de prévision ou de votre fonction de décision sur des données de validation conservées. Le conseil de "penser comme un bayésien" exprime l'opinion selon laquelle une fonction de prédiction dérivée d'une approche bayésienne donnera généralement de bons résultats.
la source
Cela ressemble à "penser comme un bayésien, cocher comme un fréquentiste" se réfère à son approche en conception et analyse statistiques. Si je comprends bien, la pensée bayésienne implique une certaine conviction à propos de situations antérieures (de manière expérimentale ou statistique), par exemple, le score moyen en lecture des élèves de 4e année est de 80 mots à la minute, et certaines interventions peuvent porter ce chiffre à 90 mots à la minute. . Ce sont des croyances basées sur des études et des hypothèses antérieures. La pensée fréquentiste extrapole les résultats (de l'intervention) pour obtenir des intervalles de confiance ou d'autres statistiques basées sur la fréquence théorique ou pratique ou la probabilité que ces résultats se reproduisent (c.-à-d. À quelle fréquence). Par exemple, le score de lecture post-intervention peut être de 91 mots par minute avec un intervalle de confiance à 95% de 85 à 97 mots par minute et une valeur p associée (valeur de probabilité) différente de celle du score pré-intervention. Ainsi, dans 95% des cas, les nouvelles notes en lecture se situeraient entre 85 et 97 mots par minute après l'intervention. Par conséquent, "penser comme un bayésien" - c'est-à-dire théoriser, émettre une hypothèse, examiner des preuves antérieures et "vérifier comme un fréquentiste", c'est-à-dire quelle est la fréquence de ces résultats expérimentaux et quelle est la probabilité qu'ils soient dus le hasard plutôt que l'intervention. les nouveaux scores de lecture seraient entre 85 et 97 mots par minute après l'intervention. Par conséquent, "penser comme un bayésien" - c'est-à-dire théoriser, émettre une hypothèse, examiner des preuves antérieures et "vérifier comme un fréquentiste", c'est-à-dire quelle est la fréquence de ces résultats expérimentaux et quelle est la probabilité qu'ils soient dus le hasard plutôt que l'intervention. les nouveaux scores de lecture seraient entre 85 et 97 mots par minute après l'intervention. Par conséquent, "penser comme un bayésien" - c'est-à-dire théoriser, émettre une hypothèse, examiner des preuves antérieures et "vérifier comme un fréquentiste", c'est-à-dire quelle est la fréquence de ces résultats expérimentaux et quelle est la probabilité qu'ils soient dus le hasard plutôt que l'intervention.
la source