Introduction aux statistiques fréquentistes pour les Bayésiens [fermé]

Je suis un Bayésien simple d'esprit qui se sent à l'aise dans le monde douillet de Bayes.

Cependant, en raison de forces malveillantes hors de mon contrôle, je dois maintenant suivre des cours d'introduction aux cycles supérieurs sur le monde exotique et étrange des statistiques fréquentistes. Certains de ces concepts me semblent très étranges, et mes professeurs ne connaissent pas bien les Bayes, alors j'ai pensé que je pourrais obtenir de l'aide sur Internet de la part de ceux qui comprennent les deux.

Comment expliqueriez-vous les différents concepts des statistiques fréquentistes à un bayésien qui trouve le fréquentisme étrange et inconfortable ?

Par exemple, certaines choses que je comprends déjà:

L'estimateur de vraisemblance maximale est égal à l'estimateur postérieur maximum , si est plat. $\text{argmax}_\theta \;p(D|\theta)$ $\text{argmax}_\theta \;p(\theta |D)$ $p(\theta)$
(pas tout à fait sûr de celui-ci). Si un certain estimateur est une statistique suffisante pour un paramètre , et est plat, alors , c'est-à-dire que la distribution d'échantillonnage est égale à la fonction de vraisemblance, et donc égale à la partie postérieure du paramètre étant donné un a priori plat. $\hat \theta$ $\theta$ $p(\theta)$ $p(\hat \theta|\theta)=c_1\cdot p(D|\theta)=c_1\cdot c_2\cdot p(\theta|D)$

Ce sont des exemples d'explication des concepts fréquentistes à quelqu'un qui comprend les concepts bayésiens.

Comment expliqueriez-vous de la même manière les autres concepts centraux des statistiques fréquentistes en termes compréhensibles par un bayésien?

Plus précisément, je m'intéresse aux questions suivantes:

Quel est le rôle de l'erreur quadratique moyenne? Comment est-ce lié aux fonctions de perte bayésiennes?
Quel est le lien entre le critère de "non biais" et les critères bayésiens? Je sais qu'un bayésien n'exigera pas que ses estimateurs soient sans biais, mais en même temps, un bayésien conviendrait probablement qu'un estimateur fréquentiste sans biais est généralement plus souhaitable qu'un fréquentiste biaisé (même s'il considère que les deux sont inférieurs à l'estimateur bayésien). Alors, comment un Bayésien comprend-il l'impartialité?
Si nous avons des a priori plats, les intervalles de confiance fréquentistes coïncident-ils d'une manière ou d'une autre avec les bayésiens?
Que se passe-t-il au nom de Laplace avec des tests de spécification comme le test ? S'agit-il d'un cas particulier dégénéré d'une mise à jour bayésienne sur la distribution dans l'espace modèle? $F$

Plus généralement:

Existe-t-il une ressource expliquant le fréquentisme aux Bayésiens? La plupart des livres fonctionnent dans l'autre sens: ils expliquent le bayésianisme à des personnes expérimentées dans les statistiques fréquentistes.

ps. J'ai regardé, et bien qu'il y ait déjà beaucoup de questions sur la différence entre Bayésien et Frequentisme, aucune n'explique explicitement le Frequentisme du point de vue d'un Bayesien.

Cette question est liée, mais ne concerne pas spécifiquement l'explication des concepts fréquentistes à un bayésien (plus sur la justification de la pensée fréquentiste en général).

Aussi, mon propos n'est pas de dénigrer le fréquentisme. Je veux vraiment mieux le comprendre

bayesian references frequentist user56834
la source

Cela peut être une question valable mais elle semble trop large sous cette forme, puisque vous semblez nous demander de traduire toute méthode fréquentiste possible sous forme bayésienne - on pourrait écrire un livre sur ce sujet! La plupart des manuels d'introduction bayésiens (par exemple Kruschke) traitent de ces sujets car ils s'adressent aux fréquentistes. De plus, vous utilisez probablement déjà beaucoup d'outils fréquentistes (par exemple pour diagnostiquer vos chaînes MCMC). Certains des sujets que vous mentionnez ne sont pas purement bayésiens (fonction de perte). Pourriez-vous essayer de modifier votre question pour la rendre plus précise?

Tim

Je sympathise et apprécie la question. En plus de la littérature, si vous êtes intéressé par les idées de la communauté sur des questions spécifiques, je vous recommande d'essayer de diviser. Beaucoup d'entre eux semblent très intéressants. Je dois admettre que je me suis posé plusieurs de ces questions avec un succès mitigé.

Benoit Sanchez

Cette question m'a fait grincer des dents et penser que l'enseignement de la statistique est rompu. Comment quelqu'un a réussi à passer par les statistiques de base sans la notion de biais est déconcertant. De même, le fait qu'un élève trouve que ses éducateurs ne sont pas " versés en Bayes " et qu'ils ne peuvent donc pas expliquer "Statistiques Frequentist" de manière adéquate à un "Bayésien" est-ce que je ne sais pas ... maladroit ? (Je ne vote pas ou quoi que ce soit, je pense qu'il est bon que l'OP demande et la réponse de TIm ci-dessous soit très sensible (+1) mais vraiment ... la question m'a inquiété de quelque chose qui est fondamentalement mauvais dans ce contexte.)

usεr11852

Vous n'allez pas vraiment comprendre l'escalade si vous vous forcez à la voir comme la natation verticale.

David Ernst

Faites un simple test t, il ne calcule pas un postérieur car il ne veut explicitement pas choisir un a priori. Comment allez-vous trouver un équivalent bayésien pour éviter les Bayes? Avec MLE, vous avez trouvé la seule technique où vous pourrez facilement identifier un équivalent bayésien, car il s'agit fondamentalement déjà d'une technique bayésienne, sauf dans son nom.

David Ernst

Réponses:

En fait, bon nombre des choses que vous avez mentionnées sont déjà discutées par les principaux manuels bayésiens. Dans de nombreux cas, ces manuels sont rédigés pour les fréquentistes par la formation, ils discutent donc de nombreuses similitudes et essaient de traduire les méthodes fréquentistes en terrain bayésien. Un exemple est le livre Doing Bayesian Data Analysis de John K. Kruschke ou son article traduisant test en terrain bayésien. Il y a aussi un autre psychologue, Eric-Jan Wagenmakers qui, avec son équipe, a beaucoup parlé de la traduction des concepts fréquentistes en terrain bayésien. Les concepts de la théorie de la décision comme les fonctions de perte, l'impartialité, etc. sont discutés dans le livre The Bayesian Choice de Christian P. Robert. $t$

De plus, certains des concepts que vous avez mentionnés ne sont pas vraiment bayésiens. Par exemple, la fonction de perte est un concept général et seulement si vous la combinez avec une distribution antérieure, vous obtenez un risque Bayes.

Il convient également de mentionner que même si vous êtes auto-déclaré bayésien, vous utilisez probablement déjà beaucoup de méthodes fréquentistes. Par exemple, si vous utilisez MCMC pour l'estimation et calculez ensuite la moyenne de la chaîne MCMC comme estimation ponctuelle, vous utilisez un estimateur fréquentiste, car vous n'utilisez aucun modèle bayésien et aucun a priori pour obtenir l'estimation de la moyenne du MCMC. chaîne.

Enfin, certains concepts et outils fréquentistes ne sont pas facilement traduisibles dans un cadre bayésien, ou les «équivalents» proposés sont plutôt des preuves de concept, puis quelque chose que vous utiliseriez dans la vie réelle. Dans de nombreux cas, les approches sont simplement différentes et la recherche de parallèles est une perte de temps.

Tim
la source

(+1): très bons points!

Xi'an

Vous pouvez trouver ce blog intéressant: errorstatistics.com

kjetil b halvorsen

(pas tout à fait sûr de celui-ci). Si un certain estimateur est une statistique suffisante pour un paramètre , et est plat, alors , c'est-à-dire que la distribution d'échantillonnage est égale à la fonction de vraisemblance, et donc égale à la partie postérieure du paramètre étant donné un a priori plat. $\hat θ̂$ $θ$ $p(θ)$ $p(\hat θ̂ |θ)=p(D|θ)=c⋅p(θ|D)$

Ceci est une erreur:

$p(D|θ)=p(\hat θ̂ |θ)\times p(D|\hat θ)$ lorsque est une statistique suffisante $\hat θ$
$p(D|θ)=c⋅p(θ|D)$ est faux lorsqu'il est considéré comme une fonction de , et lorsqu'il est considéré comme une fonction de (sauf si l'on utilise l'a priori plat) $D$ $θ$
seulement le postérieur basé sur égal au postérieur basé sur dans ce contexte. $\hat θ$ $D$

De plus, la suffisance n'a rien à voir avec le fréquentisme contre le bayésianisme, même s'il existe des notions spécifiquement bayésiennes de suffisance. Comme par exemple dans la comparaison de modèles .

un bayésien conviendrait probablement qu'un estimateur fréquentiste non biaisé est généralement plus souhaitable qu'un estimateur fréquentiste biaisé.

Le problème avec cette partie de la question est que les estimateurs bayésiens sont également des estimateurs fréquentistes en ce qu'ils satisfont à des propriétés fréquentistes comme l'admissibilité ou parfois la minimaxité. Comme discuté dans une récente entrée de CV , les estimations de Bayes sous la perte d'erreur quadratique ne peuvent pas être non biaisées . Et il n'y a pas de raison autre que d'utiliser une fonction de perte spéciale pour favoriser l'impartialité: minimiser une perte postérieure est tout compris et si l'imposition d'une impartialité entraîne une perte plus élevée, elle ne devrait pas être considérée. (Un dernier point est qu'il y a très peu de fonctions du paramètre qui permettent des estimateurs sans biais.)

Xi'an
la source

Juste pour clarifier, ce point n'était pas une tentative de relier le concept de suffisance au bayésianisme, mais de relier le concept de distributions d'échantillonnage aux distributions postérieures. Les concepts de suffisance dans le fréquentisme et le bayésianisme sont équivalents, ce qui peut être vu en appliquant simplement la règle de Bayes. Mais je vais étudier votre message et essayer de mieux comprendre cela.

user56834

Il me semble que vous envisagez un monde de fréquentistes et de bayésiens. Ce n'est pas très nuancé. Comme si vous devez être l'un ou l'autre, ou comme si les méthodes appliquées étaient déterminées par certaines convictions personnelles (plutôt que par commodité et par le problème et les informations spécifiques à portée de main). Je crois que c'est une idée fausse basée sur les tendances actuelles à se dire fréquentiste ou bayésien, et aussi beaucoup de langage statistique peut prêter à confusion. Essayez simplement de demander à un groupe de statisticiens d'expliquer la valeur de p ou l'intervalle de confiance.

Certaines œuvres classiques peuvent vous aider à comprendre l'inférence fréquentiste. Les œuvres classiques contiennent des principes fondamentaux, sont proches de la chaleur de la discussion entre les promoteurs et fournissent un arrière-plan de la motivation (pratique) et de la pertinence à l'époque.

De plus, ces travaux classiques sur les méthodes fréquentistes ont été écrits à une époque où les gens travaillaient principalement avec les principes bayésiens et le calcul mathématique des probabilités (notez que les statistiques ne sont pas toujours comme si vous travaillez sur un problème mathématique typique avec probabilités, les probabilités peuvent être très mal défini).

La probabilité fréquentiste n'est pas une probabilité inverse

«Probabilité inverse» Fisher 1930

Vous faites une notion de la probabilité comme étant une expression bayésienne avec un a priori plat

cependant,

tandis que les mathématiques coïncident (lorsqu'elles sont mal interprétées, car vous pouvez obtenir P (x | a) = P (a | x), jusqu'à une constante, mais ce ne sont pas les mêmes termes) la construction et la signification sont différentes.
La vraisemblance n'est pas censée être une «probabilité bayésienne basée sur des prieurs plats ou uniformes». La probabilité n'est même pas une probabilité et ne suit pas les règles de distribution des probabilités (par exemple, vous ne pouvez pas additionner la probabilité pour différents événements, et l'intégrale n'est pas égale à un), ce n'est que lorsque vous la multipliez par un a priori plat, que cela devient une probabilité, mais le sens a également changé.

Quelques citations intéressantes de la «probabilité inverse» 1930 Fisher.

Les méthodes bayésienne et fréquentiste sont des outils différents :

... il existe deux mesures différentes de la croyance rationnelle adaptées à différents cas. Connaissant la population, nous pouvons exprimer notre connaissance incomplète ou nos attentes de l'échantillon en termes de probabilité; connaissant l'échantillon, nous pouvons exprimer notre connaissance incomplète de la population en termes de probabilité. Nous pouvons indiquer la probabilité relative qu'une corrélation inconnue soit de + 0,6, mais pas la probabilité qu'elle se situe entre 0,595 et 0,605.

Notez qu'il ya est une certaine déclaration de probabilité, une méthode qui fournit fréquentiste.

En construisant un tableau de valeurs correspondantes, nous pouvons savoir dès que T est calculé quelle est la valeur fiduciaire de 5%, valeur de , et que la vraie valeur de sera inférieure à cette valeur en seulement 5%, d'essais. Il s'agit alors d' une déclaration de probabilité définie concernant le paramètre inconnu , qui est vrai indépendamment de toute hypothèse quant à sa distribution a priori . $\theta$ $\theta$ $\theta$

une méthode fréquentiste fait une déclaration sur la probabilité qu'une expérience (avec intervalle aléatoire) ait la vraie valeur d'un paramètre (éventuellement aléatoire) à l'intérieur de l'intervalle donné par une statistique.
Ce n'est pas à confondre avec la probabilité qu'une expérience spécifique (à intervalle fixe) ait la vraie valeur du paramètre (fixe) à l'intérieur de l'intervalle donné par la statistique.

Voir aussi «Sur« l'erreur probable »d'un coefficient de corrélation déduit d'un petit échantillon». Fisher 1921 dans lequel Fisher a démontré que la différence de sa méthode n'était pas une probabilité inverse bayésienne.

Dans l'ancien article, il a été constaté, en appliquant une méthode précédemment développée, que la valeur «la plus probable» de la corrélation de la population était, numériquement, légèrement inférieure à celle de l'échantillon. Cette conclusion a été critiquée négativement dans Biometrica , apparemment sur l'hypothèse incorrecte que je l'avais déduite du théorème de Bayes . Il sera montré dans cet article que lorsque les courbes d'échantillonnage sont rendues approximativement normales, la correction que j'avais proposée est égale à la distance entre la valeur de la population et le milieu de la courbe d'échantillonnage et n'est donc pas plus que la correction d'un biais constant introduit par la méthode de calcul. Aucune hypothèse quant à la probabilité a priori n'est impliquée.

... deux concepts radicalement distincts ont été confondus sous le nom de "probabilité" ...

c'est la probabilité et la vraisemblance. Voir aussi la note sur la fin de l'article de Fishers de 1921 dans lequel il parle davantage de la confusion.

Notez à nouveau que la vraisemblance est une fonction d'un ensemble de paramètres, mais pas une fonction de densité de probabilité de cet ensemble de paramètres.

La probabilité est utilisée pour quelque chose que vous pouvez observer. Par exemple, la probabilité qu'un dé lance six. La vraisemblance est utilisée pour quelque chose que vous ne pouvez pas observer, par exemple l'hypothèse qu'un dé lance six 1/6 du temps.

aussi, vous aimerez peut-être le travail de Fisher dans lequel il est beaucoup plus léger à son avis sur le théorème de Bayes (décrivant toujours les différences). «Sur les fondements mathématiques des statistiques théoriques» Fisher 1922 (en particulier la section 6 «solution formelle du problème d'estimation»)

Plus

Si vous pouvez comprendre et apprécier les commentaires de Fisher sur la différence entre la probabilité inverse et le principe de vraisemblance, vous voudrez peut-être lire davantage sur les différences au sein des méthodes fréquentistes.

«Esquisse d'une théorie de l'estimation statistique basée sur la théorie classique de la probabilité» Neyman 1937

Ce qui est un ouvrage de 50 pages et difficile à résumer. Mais il traite de vos questions sur la rectitude sans biais , explique la méthode des moindres carrés (et la différence avec la méthode du maximum de vraisemblance), et fournit spécifiquement un traitement des intervalles de confiance (les intervalles fréquentistes ne sont déjà pas similaires, uniques, encore moins que les sont les mêmes que les intervalles bayésiens pour les prieurs plats).

En ce qui concerne le test F, ce n'est pas clair, ce qui au nom de Laplace vous semble erroné. Si vous aimez une utilisation précoce, vous pouvez regarder dans 'Études sur la variation des cultures. II. La réaction du fumier de différentes variétés de pommes de terre en 1923 Fisher et Mackenzie

Cet article a l'expression d'anova dans un modèle linéaire reconnaissable subdivisant les sommes des carrés entre et au sein des groupes.

(dans le test de l'article de 1923, le test consiste en une comparaison des différences entre les journaux d'écarts types d'échantillon avec une erreur standard calculée pour cette différence qui est déterminée par une somme de degrés de liberté . Des travaux ultérieurs rendent cette expression plus sophistiquée menant à la distribution F, de sorte qu'elle peut diffuser les idées que l'on peut avoir à son sujet. pour les petits nombres, son origine ressemble beaucoup à un test z). $\frac{1}{2d_1} + \frac{1}{2d_2}$

Sextus Empiricus
la source