Si vous utilisez une estimation ponctuelle qui maximise

12

Si quelqu'un a dit

"Cette méthode utilise ~~le MLE~~ l'estimation ponctuelle pour le paramètre qui maximise , donc c'est fréquentiste; et en plus ce n'est pas bayésien." $\mathrm{P}(x|\theta)$

accepteriez-vous?

Mise à jour sur le fond : j'ai récemment lu un article qui prétend être fréquentiste. Je ne suis pas d'accord avec leur affirmation, au mieux, je pense que c'est ambigu. Le document ne mentionne explicitement ni le MLE (ni le MAP , d'ailleurs). Ils prennent simplement une estimation ponctuelle, et ils procèdent simplement comme si cette estimation ponctuelle était vraie. Ils ne pasfaire une analyse de la distribution d'échantillonnage de cet estimateur, ou quelque chose comme ça; le modèle est assez complexe et une telle analyse n'est donc probablement pas possible. Ils n'utilisent le mot «postérieur» à aucun moment non plus. Ils prennent simplement cette estimation ponctuelle à leur valeur nominale et passent à leur principal sujet d'intérêt - déduire les données manquantes. Je ne pense pas qu'il y ait quoi que ce soit dans leur approche qui suggère quelle est leur philosophie. Ils ont peut-être voulu être fréquentistes (car ils se sentent obligés de porter leur philosophie sur leur manche), mais leur approche réelle est assez simple / pratique / paresseuse / ambiguë. Je suis enclin à dire maintenant que la recherche n'a pas vraiment de philosophie derrière elle; je pense plutôt que leur attitude était plus pragmatique ou pratique:

"J'ai observé des données, , et je souhaite estimer certaines données manquantes, . Il y a un paramètre qui contrôle la relation entre et . Je ne me soucie pas vraiment de sauf comme un moyen pour une fin . Si j'ai une estimation pour il sera plus facile de prédire partir de . Je choisirai une estimation ponctuelle de parce que c'est pratique, en particulier je choisirai le qui maximise . " $x$ $z$ $\theta$ $z$ $x$ $\theta$ $\theta$ $z$ $x$ $\theta$ $\hat{\theta}$ $\mathrm{P}(x|\theta)$

L'idée d'un estimateur non biaisé est clairement un concept fréquentiste. En effet, il ne conditionne pas les données et décrit une belle propriété (impartialité) qui s'appliquerait à toutes les valeurs du paramètre.

Dans les méthodes bayésiennes, les rôles des données et des paramètres sont en quelque sorte inversés. En particulier, nous conditionnons maintenant les données observées et procédons à des inférences sur la valeur du paramètre. Cela nécessite un préalable.

Jusqu'ici tout va bien, mais où se situe le MLE (Maximum Lik vraisemblable Estimation) dans tout cela? J'ai l'impression que beaucoup de gens pensent qu'il est fréquentiste (ou plus précisément, qu'il n'est pas bayésien). Mais je pense que c'est bayésien car il s'agit de prendre les données observées puis de trouver le paramètre qui maximise . Le MLE utilise implicitement un a priori uniforme et conditionne les données et maximise . Est-il juste de dire que le MLE a l'air à la fois fréquentiste et bayésien? Ou tout outil simple doit-il appartenir exactement à l'une de ces deux catégories? $P(data | parameter)$ $P(parameter | data)$

Le MLE est cohérent mais je pense que la cohérence peut être présentée comme une idée bayésienne. Étant donné des échantillons arbitrairement grands, l'estimation converge vers la bonne réponse. L'énoncé «l'estimation sera égale à la valeur réelle» est vrai pour toutes les valeurs du paramètre. La chose intéressante est que cette affirmation est également vraie si vous conditionnez les données observées, ce qui en fait bayésien. Ce côté intéressant vaut pour le MLE, mais pas pour un estimateur sans biais.

C'est pourquoi je pense que le MLE est la «plus bayésienne» des méthodes que l'on pourrait qualifier de fréquentiste.

Quoi qu'il en soit, la plupart des propriétés fréquentistes (telles que l'impartialité) s'appliquent dans tous les cas, y compris les tailles d'échantillon finies. Le fait que la cohérence ne soit valable que dans le scénario impossible (échantillon infini dans une expérience) suggère que la cohérence n'est pas une propriété aussi utile.

Étant donné un échantillon réaliste (c.-à-d. Fini), existe-t-il une propriété Frequentist qui vaut pour le MLE? Sinon, le MLE n'est pas vraiment Frequentist.

bayesian maximum-likelihood likelihood frequentist philosophical Aaron McDaid
la source

6

Le MLE ne peut pas être considéré comme bayésien à partir de l'interprétation des paramètres dans les deux paradigmes. D'un point de vue bayésien, un paramètre est une variable aléatoire tandis que dans le cadre classique est une valeur à estimer. Le MLE coïncide avec le MAP (et peut-être d'autres estimateurs bayésiens ponctuels) dans de nombreux cas, mais l'interprétation est complètement différente.

3

@Procrastinator, vous devez publier votre commentaire comme réponse. Je ne m'attends pas à le voter ou à l'accepter pour le moment, mais je pense simplement que votre commentaire est une réponse. Ensuite, vous et moi pourrions supprimer nos commentaires ici.

Aaron McDaid

1

Je ne comprends pas cette question. (Je peux être le seul.) Exactement ce que vous entendez par « fréquentiste »? "Not Bayesian" ne fera pas l'affaire, car cela comprend un large éventail de philosophies et de méthodes. Qu'est-ce qui fait de quelque chose une «propriété fréquentiste»? Existe-t-il un lien entre votre "fréquentiste" et, disons, un Abraham Wald ou un Jack Kiefer qui justifie les procédures statistiques par des principes théoriques de décision? (Kiefer, en particulier, avait une opinion plutôt critique de MLE sur cette base.)

whuber

3

@whuber: Vous n'êtes pas seul. Le seul vote pour clore est le mien et a eu lieu il y a un jour ou deux. À mon avis, cette question manque de clarté et d’orientation et n’est pas constructive en raison de son cadrage discursif et quelque peu polémique.

Cardinal

1

Les modérateurs sont réticents à fermer ce fil car il a recueilli de nombreuses réponses (dont une qui avait été acceptée!) Et des commentaires, ce qui suggère que la communauté peut être en désaccord avec votre nouvelle évaluation de ce fil, Aaron.

whuber

7

Ou tout outil simple doit-il appartenir exactement à l'une de ces deux catégories?

Non. Des outils simples (et pas si simples) peuvent être étudiés de nombreux points de vue différents. La fonction de vraisemblance est en soi une pierre angulaire des statistiques bayésiennes et fréquentistes, et peut être étudiée des deux points de vue! Si vous le souhaitez, vous pouvez étudier le MLE comme une solution approximative de Bayes, ou vous pouvez étudier ses propriétés avec la théorie asymptotique, de manière fréquentiste.

kjetil b halvorsen
la source

4

C'est mal Aaron. Les fréquencistes utilisent une estimation du maximum de vraisemblance et croient au principe de vraisemblance. Kjetil a raison de dire que la fonction de vraisemblance est un élément clé des approches bayésienne et fréquentiste de l'inférence. Mais ils l'utilisent différemment.

Michael R. Chernick

3

J'ai donné une très bonne réponse à la question d'Aaron, mais pour une raison étrange, les gens la votent. Ils ne doivent pas comprendre ce qui se passe. Il n'y a aucun moyen que l'estimation du maximum de vraisemblance puisse être classée comme bayésienne car elle maximise la vraisemblance et ne prend pas du tout en compte les distributions antérieures!

Michael R. Chernick

4

(Je viens de supprimer un commentaire de moi-même, j'essaye de m'assurer que je n'ajoute que des commentaires utiles.) Michael, cela ne sert à rien de se plaindre des votes négatifs et vous n'obtiendrez aucune sympathie en disant simplement "Ils ne doivent pas comprendre ce qui est en cours. "

Aaron McDaid

7

@Michael, avez-vous déjà assisté à un va-et-vient productif qui commence par "pourquoi ai-je été rétrogradé"? Certainement pas. C'est pourquoi je (et plusieurs autres membres ici) décourage même de commencer la conversation, que vous pensiez ou non que cela est justifié ou non. C'est inutile et conduit généralement à une discussion hors sujet prolongée.

Macro

3

@Michael, je suis certainement d'accord qu'il est courant de donner une explication, et j'essaie de le faire si quelqu'un d'autre n'a pas déjà exprimé ma préoccupation dans les commentaires. Mais si vous recevez un downvote silencieux, je doute que d'aborder le sujet entame une conversation productive.

Macro

10

Lorsque vous effectuez une estimation de vraisemblance maximale, vous tenez compte de la valeur de l'estimation et des propriétés d'échantillonnage de l'estimateur afin d'établir l'incertitude de votre estimation exprimée sous forme d'intervalle de confiance. Je pense que cela est important en ce qui concerne votre question, car un intervalle de confiance dépendra en général de points d'échantillonnage qui n'ont pas été observés, ce qui est considéré par certains comme une propriété essentiellement non bayésienne.

PS Cela est lié au fait plus général que l'estimation du maximum de vraisemblance (point + intervalle) ne satisfait pas au principe de vraisemblance , contrairement à une analyse bayésienne complète (« style sauvage »).

Zen
la source

+1. L'idée que la normale tronquée se traduira par un postérieur différent est intéressante et surprenante! J'ai fait remarquer que j'étais sceptique, mais j'ai supprimé ce commentaire. Je devrai y penser un peu plus. Normalement, je trouve que le principe de vraisemblance est «évidemment vrai», donc je devrais y réfléchir un peu plus.

Aaron McDaid

Bon point zen. Je suppose qu'en tant qu'estimation ponctuelle, l'estimation de la probabilité maximale est conforme au principe de vraisemblance, mais la notion fréquentiste d'intervalles de confiance ne l'est pas.

Michael R. Chernick

@Zen, je ne suis pas convaincu que les postérieurs soient les mêmes. Avez-vous une référence pour cela? J'ai créé un document Google avec mon argument selon lequel la partie postérieure changera lorsque nous remplacerons une normale par une normale tronquée. Merci d'avance.

Aaron McDaid

6

La fonction de vraisemblance est une fonction qui implique les données et le ou les paramètres inconnus. Elle peut être considérée comme la densité de probabilité des données observées, compte tenu de la ou des valeurs du ou des paramètres. Les paramètres sont fixes. Donc, en soi, la probabilité est une notion fréquentiste. Maximiser la probabilité consiste simplement à trouver la ou les valeurs spécifiques du ou des paramètres qui font que la probabilité prend sa valeur maximale. L'estimation du maximum de vraisemblance est donc une méthode fréquentiste basée uniquement sur les données et la forme du modèle censé les générer. L'estimation bayésienne n'intervient que lorsqu'une distribution préalable est placée sur le (s) paramètre (s) et la formule de Bayes est utilisée pour obtenir une distribution aposteriori pour le (s) paramètre (s) en combinant l'a priori avec la vraisemblance.

Michael R. Chernick
la source

Tous les commentaires publiés ici ont été déplacés vers une salle de discussion dédiée . Si quelqu'un a du mal à rejoindre cette salle, et dans ce cas uniquement, veuillez signaler à l'attention du modérateur. Aucun autre commentaire ne sera accepté.

chl

6

En supposant que par "Bayésien" vous vous référez à des Bayes subjectifs (alias Bayes épistémiques, De-Finetti Bayes) et non au sens Bayes empirique actuel - c'est loin d'être trivial. D'une part, vous inférez uniquement sur la base de vos données. Il n'y a aucune croyance subjective à portée de main. Cela semble assez fréquentiste ... Mais la critique, exprimée même à Fisher lui-même (un bayésien strict non (subjectif)), est que dans le choix de la distribution d'échantillonnage de la subjectivité des données a rampé. Un paramètre n'est défini que compte tenu de notre croyances du processus de génération de données.

En conclusion - je crois que le MLE est généralement considéré comme un concept fréquentiste, bien qu'il s'agisse simplement de la façon dont vous définissez «fréquentiste» et «bayésien».

JohnRos
la source

+1: C'est ce que j'essayais de comprendre dans mon commentaire ci-dessus.

Neil G

1

(répondant à sa propre question)

Un estimateur est une fonction qui prend des données et produit un nombre (ou une plage de nombres). Un estimateur, en soi, n'est pas vraiment «bayésien» ou «fréquentiste» - vous pouvez le considérer comme une boîte noire où les chiffres entrent et sortent. Vous pouvez présenter le même estimateur à un habitué et à un bayésien et ils auront différentes choses à dire sur l'estimateur.

(Je ne suis pas satisfait de ma distinction simpliste entre fréquentiste et bayésien - il y a d'autres questions à considérer. Mais pour simplifier, supposons qu'il ne s'agit que de deux camps philosophiques bien définis.)

Vous ne pouvez pas dire si un chercheur est fréquentiste de bayésien, juste par quel estimateur il choisit. L'important est d'écouter quelles analyses ils font sur l'estimateur et quelles raisons ils donnent pour choisir cet estimateur.

$\theta$ $\mathrm{P}(\mathbf{x}|\theta)$

Lorsque le même logiciel est présenté à un bayésien, le bayésien pourrait bien être satisfait de la plupart des analyses du fréquentiste. Oui, toutes choses étant égales par ailleurs, le biais n'est pas bon et la cohérence est bonne. Mais le bayésien sera plus intéressé par d'autres choses. Le bayésien voudra voir si l'estimateur prend la forme d'une fonction de distribution postérieure; et si oui, quel prieur a été utilisé? Si l'estimateur est basé sur un postérieur, le bayésien se demandera si le prieur est bon. S'ils sont satisfaits de l'a priori, et si l'estimateur rapporte le mode du postérieur (par opposition à, disons, la moyenne du postérieur), alors ils sont heureux d'appliquer cette interprétation à l'estimation: "Cette estimation est le point estimation qui a le plus de chance d'être correcte. "

J'entends souvent dire que les fréquentistes et les bayésiens "interprètent" les choses différemment, même lorsque les nombres impliqués sont les mêmes. Cela peut être un peu déroutant, et je ne pense pas que ce soit vraiment vrai. Leurs interprétations ne sont pas en conflit les unes avec les autres; ils font simplement des déclarations sur différents aspects du système. Mettons de côté les estimations ponctuelles pour l'instant et considérons plutôt les intervalles. En particulier, il existe des intervalles de confiance fréquentistes et des intervalles crédibles bayésiens . Ils donneront généralement des réponses différentes. Mais dans certains modèles, avec certains prieurs, les deux types d'intervalles donneront la même réponse numérique.

Lorsque les intervalles sont les mêmes, comment pouvons-nous les interpréter différemment? Un fréquentiste dira d'un estimateur d'intervalle:

Avant de voir les données ou l'intervalle correspondant, je peux dire qu'il y a au moins une probabilité de 95% que le vrai paramètre soit contenu dans l'intervalle.

alors qu'un bayésien dira d'un estimateur d'intervalle:

Après avoir vu les données ou l'intervalle correspondant, je peux dire qu'il y a au moins une probabilité de 95% que le vrai paramètre soit contenu dans l'intervalle.

Ces deux déclarations sont identiques, à l'exception des mots «avant» et «après». Le Bayésien comprendra et approuvera l'ancienne déclaration et reconnaîtra également que sa vérité est indépendante de tout précédent, ce qui la rendra «plus forte». Mais parlant moi-même en tant que bayésien, je crains que la première déclaration ne soit pas très utile . Le fréquentiste n'aimera pas cette dernière déclaration, mais je ne la comprends pas assez bien pour donner une description juste de ses objections.

Après avoir vu les données, le fréquentiste sera-t-il toujours optimiste que la vraie valeur est contenue dans l'intervalle? Peut être pas. C'est un peu contre-intuitif mais c'est important pour vraiment comprendre les intervalles de confiance et d'autres concepts basés sur la distribution d'échantillonnage. Vous pourriez supposer que le fréquentiste dirait toujours "Compte tenu des données, je pense toujours qu'il y a une probabilité de 95% que la vraie valeur soit dans cet intervalle". Un fréquentateur ne se poserait pas seulement la question de savoir si cette affirmation est vraie, il se demanderait également s'il est significatif d'attribuer des probabilités de cette manière. Si vous avez d'autres questions à ce sujet, ne me posez pas cette question, c'est trop pour moi!

Le Bayésien est heureux de faire cette déclaration: "En fonction des données que je viens de voir, la probabilité est de 95% que la vraie valeur se situe dans cette plage."

Je dois admettre que je suis un peu confus sur un dernier point. Je comprends et suis d'accord avec la déclaration faite par le fréquentateur avant que les données ne soient vues. Je comprends et suis d'accord avec la déclaration faite par le Bayésien après avoir vu les données. Cependant, je ne sais pas trop ce que le fréquentateur dira après que les données seront vues; leurs croyances sur le monde auront-elles changé? Je ne suis pas en mesure de comprendre la philosophie fréquentiste ici.

Aaron McDaid
la source

1

Bien que je trouve une grande partie de cela clair et éclairant, il semble ignorer complètement quelque chose de fondamental, qui est des interprétations différentes de la probabilité. De plus, les deux derniers paragraphes ne s'appliquent à aucune analyse ou interprétation que j'ai vue. En effet, je ne reconnais aucun statisticien pratiquant dans votre "Frequentist" (qui sonne plutôt comme un ancien philosophe). Qui - au moins après Aristote - a déjà dit que leur analyse des données était terminée avant que les données aient été obtenues? Est-ce un homme de paille pour avoir tenté de faire avancer une approche bayésienne?

whuber

1

@whuber, si c'est un homme de paille, ce n'est pas intentionnel. Il est toujours difficile de tenter de faire rapport sur les opinions des autres sans y inclure accidentellement un jugement. Et je ne prétends pas avoir une compréhension large des nombreuses positions nuancées. Je vais essayer de repenser mon dernier paragraphe. De plus, vous dites que j'ai omis "des interprétations différentes des probabilités". Je préfère ne rien dire que dire quelque chose de incorrect. Il n'est pas possible de tout dire. Je peux essayer de vous donner la vérité et rien que la vérité, mais je ne peux pas vous donner toute la vérité :-)

Aaron McDaid

(+1) Vous avez raison, il y a un long débat ici et on ne peut pas couvrir tous les points dans un seul post. Je vote pour cette réponse pour son exposition soigneuse et réfléchie (mais pas parce que je suis d'accord avec tout cela!).

whuber

J'ai édité les derniers paragraphes pour essayer d'être plus juste; à partir de "Après avoir vu les données ...". Je ne suis pas un expert, alors j'essaie d'être honnêtement vague sur ce que je sors de ma profondeur. Merci pour les commentaires.

Aaron McDaid

1

$P(x|\theta)$

Ben - Réintègre Monica
la source

Si vous utilisez une estimation ponctuelle qui maximise

Réponses: