Je suis un Bayésien simple d'esprit qui se sent à l'aise dans le monde douillet de Bayes.
Cependant, en raison de forces malveillantes hors de mon contrôle, je dois maintenant suivre des cours d'introduction aux cycles supérieurs sur le monde exotique et étrange des statistiques fréquentistes. Certains de ces concepts me semblent très étranges, et mes professeurs ne connaissent pas bien les Bayes, alors j'ai pensé que je pourrais obtenir de l'aide sur Internet de la part de ceux qui comprennent les deux.
Comment expliqueriez-vous les différents concepts des statistiques fréquentistes à un bayésien qui trouve le fréquentisme étrange et inconfortable ?
Par exemple, certaines choses que je comprends déjà:
- L'estimateur de vraisemblance maximale est égal à l'estimateur postérieur maximum , si est plat.
- (pas tout à fait sûr de celui-ci). Si un certain estimateur est une statistique suffisante pour un paramètre , et est plat, alors , c'est-à-dire que la distribution d'échantillonnage est égale à la fonction de vraisemblance, et donc égale à la partie postérieure du paramètre étant donné un a priori plat.
Ce sont des exemples d'explication des concepts fréquentistes à quelqu'un qui comprend les concepts bayésiens.
Comment expliqueriez-vous de la même manière les autres concepts centraux des statistiques fréquentistes en termes compréhensibles par un bayésien?
Plus précisément, je m'intéresse aux questions suivantes:
- Quel est le rôle de l'erreur quadratique moyenne? Comment est-ce lié aux fonctions de perte bayésiennes?
- Quel est le lien entre le critère de "non biais" et les critères bayésiens? Je sais qu'un bayésien n'exigera pas que ses estimateurs soient sans biais, mais en même temps, un bayésien conviendrait probablement qu'un estimateur fréquentiste sans biais est généralement plus souhaitable qu'un fréquentiste biaisé (même s'il considère que les deux sont inférieurs à l'estimateur bayésien). Alors, comment un Bayésien comprend-il l'impartialité?
- Si nous avons des a priori plats, les intervalles de confiance fréquentistes coïncident-ils d'une manière ou d'une autre avec les bayésiens?
- Que se passe-t-il au nom de Laplace avec des tests de spécification comme le test ? S'agit-il d'un cas particulier dégénéré d'une mise à jour bayésienne sur la distribution dans l'espace modèle?
Plus généralement:
Existe-t-il une ressource expliquant le fréquentisme aux Bayésiens? La plupart des livres fonctionnent dans l'autre sens: ils expliquent le bayésianisme à des personnes expérimentées dans les statistiques fréquentistes.
ps. J'ai regardé, et bien qu'il y ait déjà beaucoup de questions sur la différence entre Bayésien et Frequentisme, aucune n'explique explicitement le Frequentisme du point de vue d'un Bayesien.
Cette question est liée, mais ne concerne pas spécifiquement l'explication des concepts fréquentistes à un bayésien (plus sur la justification de la pensée fréquentiste en général).
Aussi, mon propos n'est pas de dénigrer le fréquentisme. Je veux vraiment mieux le comprendre
la source
Réponses:
En fait, bon nombre des choses que vous avez mentionnées sont déjà discutées par les principaux manuels bayésiens. Dans de nombreux cas, ces manuels sont rédigés pour les fréquentistes par la formation, ils discutent donc de nombreuses similitudes et essaient de traduire les méthodes fréquentistes en terrain bayésien. Un exemple est le livre Doing Bayesian Data Analysis de John K. Kruschke ou son article traduisant test en terrain bayésien. Il y a aussi un autre psychologue, Eric-Jan Wagenmakers qui, avec son équipe, a beaucoup parlé de la traduction des concepts fréquentistes en terrain bayésien. Les concepts de la théorie de la décision comme les fonctions de perte, l'impartialité, etc. sont discutés dans le livre The Bayesian Choice de Christian P. Robert.t
De plus, certains des concepts que vous avez mentionnés ne sont pas vraiment bayésiens. Par exemple, la fonction de perte est un concept général et seulement si vous la combinez avec une distribution antérieure, vous obtenez un risque Bayes.
Il convient également de mentionner que même si vous êtes auto-déclaré bayésien, vous utilisez probablement déjà beaucoup de méthodes fréquentistes. Par exemple, si vous utilisez MCMC pour l'estimation et calculez ensuite la moyenne de la chaîne MCMC comme estimation ponctuelle, vous utilisez un estimateur fréquentiste, car vous n'utilisez aucun modèle bayésien et aucun a priori pour obtenir l'estimation de la moyenne du MCMC. chaîne.
Enfin, certains concepts et outils fréquentistes ne sont pas facilement traduisibles dans un cadre bayésien, ou les «équivalents» proposés sont plutôt des preuves de concept, puis quelque chose que vous utiliseriez dans la vie réelle. Dans de nombreux cas, les approches sont simplement différentes et la recherche de parallèles est une perte de temps.
la source
Ceci est une erreur:
De plus, la suffisance n'a rien à voir avec le fréquentisme contre le bayésianisme, même s'il existe des notions spécifiquement bayésiennes de suffisance. Comme par exemple dans la comparaison de modèles .
Le problème avec cette partie de la question est que les estimateurs bayésiens sont également des estimateurs fréquentistes en ce qu'ils satisfont à des propriétés fréquentistes comme l'admissibilité ou parfois la minimaxité. Comme discuté dans une récente entrée de CV , les estimations de Bayes sous la perte d'erreur quadratique ne peuvent pas être non biaisées . Et il n'y a pas de raison autre que d'utiliser une fonction de perte spéciale pour favoriser l'impartialité: minimiser une perte postérieure est tout compris et si l'imposition d'une impartialité entraîne une perte plus élevée, elle ne devrait pas être considérée. (Un dernier point est qu'il y a très peu de fonctions du paramètre qui permettent des estimateurs sans biais.)
la source
Il me semble que vous envisagez un monde de fréquentistes et de bayésiens. Ce n'est pas très nuancé. Comme si vous devez être l'un ou l'autre, ou comme si les méthodes appliquées étaient déterminées par certaines convictions personnelles (plutôt que par commodité et par le problème et les informations spécifiques à portée de main). Je crois que c'est une idée fausse basée sur les tendances actuelles à se dire fréquentiste ou bayésien, et aussi beaucoup de langage statistique peut prêter à confusion. Essayez simplement de demander à un groupe de statisticiens d'expliquer la valeur de p ou l'intervalle de confiance.
Certaines œuvres classiques peuvent vous aider à comprendre l'inférence fréquentiste. Les œuvres classiques contiennent des principes fondamentaux, sont proches de la chaleur de la discussion entre les promoteurs et fournissent un arrière-plan de la motivation (pratique) et de la pertinence à l'époque.
De plus, ces travaux classiques sur les méthodes fréquentistes ont été écrits à une époque où les gens travaillaient principalement avec les principes bayésiens et le calcul mathématique des probabilités (notez que les statistiques ne sont pas toujours comme si vous travaillez sur un problème mathématique typique avec probabilités, les probabilités peuvent être très mal défini).
La probabilité fréquentiste n'est pas une probabilité inverse
«Probabilité inverse» Fisher 1930
Vous faites une notion de la probabilité comme étant une expression bayésienne avec un a priori plat
cependant,
tandis que les mathématiques coïncident (lorsqu'elles sont mal interprétées, car vous pouvez obtenir P (x | a) = P (a | x), jusqu'à une constante, mais ce ne sont pas les mêmes termes) la construction et la signification sont différentes.
La vraisemblance n'est pas censée être une «probabilité bayésienne basée sur des prieurs plats ou uniformes». La probabilité n'est même pas une probabilité et ne suit pas les règles de distribution des probabilités (par exemple, vous ne pouvez pas additionner la probabilité pour différents événements, et l'intégrale n'est pas égale à un), ce n'est que lorsque vous la multipliez par un a priori plat, que cela devient une probabilité, mais le sens a également changé.
Quelques citations intéressantes de la «probabilité inverse» 1930 Fisher.
Les méthodes bayésienne et fréquentiste sont des outils différents :
Notez qu'il ya est une certaine déclaration de probabilité, une méthode qui fournit fréquentiste.
Voir aussi «Sur« l'erreur probable »d'un coefficient de corrélation déduit d'un petit échantillon». Fisher 1921 dans lequel Fisher a démontré que la différence de sa méthode n'était pas une probabilité inverse bayésienne.
et
c'est la probabilité et la vraisemblance. Voir aussi la note sur la fin de l'article de Fishers de 1921 dans lequel il parle davantage de la confusion.
Notez à nouveau que la vraisemblance est une fonction d'un ensemble de paramètres, mais pas une fonction de densité de probabilité de cet ensemble de paramètres.
La probabilité est utilisée pour quelque chose que vous pouvez observer. Par exemple, la probabilité qu'un dé lance six. La vraisemblance est utilisée pour quelque chose que vous ne pouvez pas observer, par exemple l'hypothèse qu'un dé lance six 1/6 du temps.
aussi, vous aimerez peut-être le travail de Fisher dans lequel il est beaucoup plus léger à son avis sur le théorème de Bayes (décrivant toujours les différences). «Sur les fondements mathématiques des statistiques théoriques» Fisher 1922 (en particulier la section 6 «solution formelle du problème d'estimation»)
Plus
Si vous pouvez comprendre et apprécier les commentaires de Fisher sur la différence entre la probabilité inverse et le principe de vraisemblance, vous voudrez peut-être lire davantage sur les différences au sein des méthodes fréquentistes.
«Esquisse d'une théorie de l'estimation statistique basée sur la théorie classique de la probabilité» Neyman 1937
Ce qui est un ouvrage de 50 pages et difficile à résumer. Mais il traite de vos questions sur la rectitude sans biais , explique la méthode des moindres carrés (et la différence avec la méthode du maximum de vraisemblance), et fournit spécifiquement un traitement des intervalles de confiance (les intervalles fréquentistes ne sont déjà pas similaires, uniques, encore moins que les sont les mêmes que les intervalles bayésiens pour les prieurs plats).
En ce qui concerne le test F, ce n'est pas clair, ce qui au nom de Laplace vous semble erroné. Si vous aimez une utilisation précoce, vous pouvez regarder dans 'Études sur la variation des cultures. II. La réaction du fumier de différentes variétés de pommes de terre en 1923 Fisher et Mackenzie
Cet article a l'expression d'anova dans un modèle linéaire reconnaissable subdivisant les sommes des carrés entre et au sein des groupes.
(dans le test de l'article de 1923, le test consiste en une comparaison des différences entre les journaux d'écarts types d'échantillon avec une erreur standard calculée pour cette différence qui est déterminée par une somme de degrés de liberté . Des travaux ultérieurs rendent cette expression plus sophistiquée menant à la distribution F, de sorte qu'elle peut diffuser les idées que l'on peut avoir à son sujet. pour les petits nombres, son origine ressemble beaucoup à un test z).12d1+12d2
la source