Quand (et pourquoi) les bayésiens rejettent-ils les méthodes bayésiennes valides? [fermé]

9

D'après ce que j'ai lu et des réponses à d' autres questions que j'ai posées ici, de nombreuses méthodes dites fréquentistes correspondent mathématiquement ( peu m'importe si elles correspondent philosophiquement , je me soucie seulement si cela correspond mathématiquement) à des cas particuliers de soi-disant Méthodes bayésiennes (pour ceux qui s'y opposent, voir la note au bas de cette question). Cette réponse à une question connexe (pas la mienne) corrobore cette conclusion:

La plupart des méthodes fréquentistes ont un équivalent bayésien qui, dans la plupart des cas, donnera essentiellement le même résultat.

Notez que dans ce qui suit, être mathématiquement le même signifie donner le même résultat. Si vous caractérisez deux méthodes dont il peut être prouvé qu'elles donnent toujours les mêmes résultats qu'elles sont «différentes», c'est votre droit, mais c'est un jugement philosophique, pas mathématique ni pratique.

Cependant, de nombreuses personnes qui se décrivent comme des «bayésiens» semblent rejeter l’utilisation de l’estimation du maximum de vraisemblance en toutes circonstances, même s’il s’agit d’un cas particulier des méthodes ( mathématiquement ) bayésiennes, car il s’agit d’une «méthode fréquentiste». Apparemment, les bayésiens utilisent également un nombre restreint / limité de distributions par rapport aux fréquentistes, même si ces distributions seraient également mathématiquement correctes d'un point de vue bayésien.

Question: Quand et pourquoi les bayésiens rejettent-ils les méthodes mathématiquement correctes d'un point de vue bayésien? Y a-t-il une justification à cela qui n'est pas "philosophique"?

entrez la description de l'image ici

Contexte / Contexte: Ce qui suit sont des citations de réponses et de commentaires à une question précédente sur CrossValidated :

La base mathématique du débat bayésien vs fréquentiste est très simple. Dans les statistiques bayésiennes, le paramètre inconnu est traité comme une variable aléatoire; dans les statistiques fréquentistes, il est traité comme un élément fixe ...

D'après ce qui précède, j'aurais conclu que ( mathématiquement parlant ) les méthodes bayésiennes sont plus générales que celles fréquentistes, dans le sens où les modèles fréquentistes satisfont toutes les mêmes hypothèses mathématiques que les modèles bayésiens, mais pas l'inverse. Cependant, la même réponse a fait valoir que ma conclusion de ce qui précède était incorrecte (l'accent est mis sur ce qui suit):

Bien que la constante soit un cas particulier d'une variable aléatoire, j'hésiterais à conclure que le bayésianisme est plus général. Vous n'obtiendrez pas de résultats fréquentistes à partir de résultats bayésiens en réduisant simplement la variable aléatoire à une constante. La différence est plus profonde ...

Aller aux préférences personnelles ... Je n'aime pas que les statistiques bayésiennes utilisent un sous-ensemble assez restreint de distributions disponibles.

Un autre utilisateur, dans sa réponse, a déclaré le contraire, que les méthodes bayésiennes sont plus générales, bien qu'assez étrangement la meilleure raison pour laquelle cela pourrait être le cas était dans la réponse précédente, donnée par une personne formée en tant que fréquentiste.

La conséquence mathématique est que les fréquencistes pensent que les équations de base de la probabilité ne s'appliquent que parfois, et les Bayésiens pensent qu'elles s'appliquent toujours. Ils considèrent donc les mêmes équations comme correctes, mais diffèrent quant à leur généralité ... Le bayésien est strictement plus général que le Frequentiste. Puisqu'il peut y avoir une incertitude sur n'importe quel fait, n'importe quel fait peut être assigné une probabilité. En particulier, si les faits sur lesquels vous travaillez sont liés aux fréquences du monde réel (soit comme quelque chose que vous prédisez ou comme une partie des données), les méthodes bayésiennes peuvent les considérer et les utiliser comme ils le feraient pour tout autre fait du monde réel. Par conséquent, tout problème que les Fréquentistes pensent que leurs méthodes s'appliquent aux Bayésiens peut aussi fonctionner naturellement.

D'après les réponses ci-dessus, j'ai l'impression qu'il existe au moins deux définitions différentes du terme bayésien couramment utilisé. Le premier que j'appellerais «mathématiquement bayésien», qui englobe toutes les méthodes de statistiques, car il comprend des paramètres qui sont des RV constants et ceux qui ne sont pas des RV constants. Il y a ensuite le «culturellement bayésien» qui rejette certaines méthodes «mathématiquement bayésiennes» car ces méthodes sont «fréquentistes» (c'est-à-dire par animosité personnelle au paramètre parfois modélisé comme une constante ou une fréquence). Une autre réponse à la question susmentionnée semble également étayer cette conjecture:

Il convient également de noter qu'il existe de nombreux écarts entre les modèles utilisés par les deux camps qui sont plus liés à ce qui a été fait qu'à ce qui peut être fait (c'est-à-dire que de nombreux modèles traditionnellement utilisés par un camp peuvent être justifiés par l'autre camp). ).

Je suppose donc qu'une autre façon de formuler ma question serait la suivante: pourquoi les bayésiens culturels se disent-ils bayésiens s'ils rejettent de nombreuses méthodes mathématiquement bayésiennes? Et pourquoi rejettent-ils ces méthodes mathématiquement bayésiennes? Est-ce une animosité personnelle pour les personnes qui utilisent le plus souvent ces méthodes particulières?

Edit: Deux objets sont équivalents au sens mathématique s'ils ont les mêmes propriétés , quelle que soit leur construction. Par exemple, je peux penser à au moins cinq façons différentes de construire l'unité imaginaire . Néanmoins, il n'y a pas au moins cinq «écoles de pensée» différentes sur l'étude des nombres imaginaires; en fait, je crois qu'il n'y en a qu'un, c'est ce groupe qui étudie leurs propriétés. Pour ceux qui objectent qu'obtenir une estimation ponctuelle en utilisant le maximum de vraisemblance n'est pas la même chose que d'obtenir une estimation ponctuelle en utilisant le maximum a priori et un a priori uniforme parce que les calculs impliqués sont différents, je concède qu'ils sont différents dans un sens philosophique , mais pour dans la mesure où ils ont toujoursidonnent les mêmes valeurs pour l'estimation, elles sont mathématiquement équivalentes, car elles ont les mêmes propriétés . Peut-être que la différence philosophique vous concerne personnellement, mais elle n'est pas pertinente pour cette question.

Remarque: Cette question avait à l'origine une caractérisation incorrecte de l'estimation MLE et de l'estimation MAP avec un a priori uniforme.

Chill2Macht
la source
8
(-1) Cette question est basée sur de fausses hypothèses. MLE ne correspond pas à «l'utilisation d'un a priori uniforme» mais à l'utilisation d'un a priori uniforme et à la sélection du mode de la distribution postérieure (donc, MAP avec a priori uniforme). Lorsque vous utilisez MLE, le paramètre n'est pas considéré comme une variable aléatoire, donc les constructions comme , ou les intégrales sur sont mathématiquement pas significatives. θ yPr(θ[0,1]y)θy
Juho Kokkala
3
Je ne me souviens d'aucun bayésien qui soit rejette tout ce qui n'est pas de nom bayésien, soit qui utilise un nombre limité de distributions. On pourrait facilement remplacer «bayésiens» par «fréquents» dans votre question et demander pourquoi les fréquents rejettent tout ce qui n'est pas fréquentiste, et pourquoi utilisent-ils un nombre limité de distributions (fondamentalement, une distribution normale partout) - la question qui en résulterait serait le même mal défini que le vôtre. Je suis également d'accord avec @JuhoKokkala que MLE utilise un uniforme avant même si leurs estimations ponctuelles peuvent correspondre.
Tim
5
MLE et MAP n'ont pas les mêmes propriétés mathématiques. Si vous reparamétrez vos variables, MLE et MAP se transforment différemment (parce que MLE a un "avant aplat" dans chaque paramétrage, MAP n'en a pas). La définition d'un objet mathématique comprend la façon dont l'objet se comporte sous des opérateurs tels que la transformation de variables (par exemple, voir la définition d'un tenseur). Ce n'est donc pas la même chose.
lacerbi
2
J'en ferai une (courte) réponse, car il est surprenant que personne n'ait mentionné cela jusqu'à présent. J'ai également dû l'expliquer à plusieurs reprises dans le passé, car c'est une subtilité qui peut facilement être manquée.
lacerbi
4
Avez-vous déjà joué à des brouillons avec un jeu d'échecs? Il peut arriver de temps en temps que vous vous trouviez dans une position d'échecs valide et que vous puissiez effectuer un mouvement d'échecs légal qui est également un mouvement de brouillon légal. Bien sûr, ce qui serait un bon coup d'échecs ne sera pas toujours un bon coup de brouillon. Et vous n'éviterez pas de faire un bon coup d'ébauche juste parce que c'est aussi un coup d'échecs. C'est assez différent de décrire une partie d'échecs en français plutôt qu'en anglais, ou de faire tourner le plateau de façon à ce que les carrés noirs deviennent blancs ou d'échanger les positions initiales et les règles régissant ...
Scortchi - Reinstate Monica

Réponses:

12

Je voudrais corriger une hypothèse erronée dans le message d'origine, une erreur qui est relativement courante. Le PO dit:

D'après ce que j'ai lu et des réponses aux autres questions que j'ai posées ici, l'estimation du maximum de vraisemblance correspond mathématiquement (peu m'importe si elle correspond philosophiquement, je me soucie seulement si elle correspond mathématiquement) à l'estimation maximale a priori en utilisant un a priori uniforme ( pour ceux qui s'y opposent, voir la note au bas de cette question).

Et la note au bas du message dit:

Deux objets sont équivalents au sens mathématique s'ils ont les mêmes propriétés, quelle que soit leur construction. [...]

Mon objection est que, mis à part la philosophie, l'estimation du maximum de vraisemblance (MLE) et l'estimation du maximum a-posteriori (MAP) n'ont pas les mêmes propriétés mathématiques.

Fondamentalement, MLE et MAP se transforment différemment sous la reparamétrisation (non linéaire) de l'espace. Cela se produit parce que MLE a un "a priori plat" dans chaque paramétrage, contrairement à MAP (le a priori se transforme en densité de probabilité , il y a donc un terme jacobien).

La définition d'un objet mathématique comprend la façon dont l'objet se comporte sous des opérateurs tels que la transformation de variables (par exemple, voir la définition d'un tenseur ).

En conclusion, MLE et MAP ne sont pas la même chose, ni philosophiquement ni mathématiquement; ce n'est pas une opinion.

lacerbi
la source
Je pense que j'ai peut-être manqué votre argument. Est-il possible de paramétrer un modèle de telle sorte que les estimations ponctuelles de MLE ne soient pas égales à celles de MAP avec un a priori uniforme? (De toute évidence, dans le cas MAP, l'a priori doit être uniforme par rapport à la paramétrisation actuelle pour que l'égalité fonctionne. Si vous reparamétrisez le modèle sans changer l'a priori, alors il ne sera généralement plus uniforme.)
Kodiologue
1
@ Kodiologist: l'OP déclarait que MAP et MLE sont des "objets mathématiques" identiques. Ils ne sont pas. Des objets mathématiques distincts peuvent être égaux dans un sous-espace (par exemple, dans une paramétrisation donnée) mais cela ne les rend pas identiques. Vous pourriez dire "Je ne me soucie pas des autres paramétrisations" mais, bien, alors vous imposez une forte restriction pratique, ce n'est plus "simplement" un point philosophique comme le PO le défendait à l'origine.
lacerbi
6

Personnellement, je suis un «pragmatiste» plutôt qu'un «fréquentiste» ou un «bayésien», donc je ne peux prétendre parler pour aucun camp.

Cela dit, je pense que la distinction à laquelle vous faites allusion n'est probablement pas tant le MLE que le MAP, mais entre les estimations ponctuelles et l'estimation des PDF postérieurs . En tant que scientifique travaillant dans un domaine avec des données clairsemées et de grandes incertitudes, je peux sympathiser avec le fait de ne pas vouloir faire trop confiance aux résultats de la "meilleure estimation" qui peuvent être trompeurs, entraînant une confiance excessive.

Une distinction pratique connexe se situe entre les méthodes paramétriques et non paramétriques . Ainsi, par exemple, je pense que le filtrage de Kalman et le filtrage des particules seraient acceptés comme estimation bayésienne récursive . Mais l'hypothèse gaussienne du filtrage de Kalman (une méthode paramétrique) peut donner des résultats très trompeurs si le postérieur n'est pas unimodal. Pour moi, ce genre d'exemples d'ingénierie met en évidence les différences ni philosophiques ni mathématiques, mais manifestes en termes de résultats pratiques (c'est-à-dire que votre véhicule autonome va s'écraser?). Pour les passionnés bayésiens que je connais, cette attitude de «voir ce qui fonctionne» semble être prédominante ... je ne sais pas si cela est vrai plus largement.

GeoMatt22
la source
1
Le fait que le bruit soit modélisé gaussien ou d'une autre distribution n'est pas ce qui détermine si une méthode est paramétrique ou non paramétrique.
Cliff AB
1
Je pensais au filtrage des particules par rapport au filtrage de Kalman.
GeoMatt22
1
@CliffAB J'ai modifié ma réponse pour, espérons-le, corriger l'implication involontaire que "gaussienne <==> paramétrique"
GeoMatt22
2
D'après mon expérience (pas du tout complète!), Les livres destinés aux ingénieurs dans les domaines "technologiques" ont tendance à ressembler davantage à cela. Des choses comme la robotique et d'autres applications robustes en temps réel ont tendance à découvrir rapidement lorsque les choses ne fonctionnent pas. C'est probablement nominalement plus bayésien, mais Probabilistic Robotics de Sebastian Thrun m'a éclairé. C'est le gars d' Udacity .
GeoMatt22
2
Je n'ai pas du tout étudié ce domaine, mais mon impression est qu'une grande partie de l' ingénierie de fiabilité classique utilise des approches "fréquentistes", donc cela peut aussi être un domaine avec des textes pragmatiques?
GeoMatt22
6

Cependant, de nombreuses personnes qui se décrivent comme des «bayésiens» semblent rejeter l’utilisation de l’estimation du maximum de vraisemblance en toutes circonstances, même s’il s’agit d’un cas particulier des méthodes (mathématiquement) bayésiennes, car il s’agit d’une «méthode fréquentiste».

Ces personnes rejetteraient le MLE comme méthode générale pour faire des estimations ponctuelles. Dans des cas particuliers où ils avaient raison d'utiliser un uniforme préalable et voulaient faire un maximum d'estimation a posteriori, ils ne seraient pas du tout gênés par la coïncidence de leurs calculs avec le MLE.

Apparemment, les bayésiens utilisent également un nombre restreint / limité de distributions par rapport aux fréquentistes, même si ces distributions seraient également mathématiquement correctes d'un point de vue bayésien.

Peut-être parfois, pour faciliter leurs calculs, mais pas sur aucun point de principe.

J'ai l'impression qu'il existe au moins deux définitions différentes du terme bayésien couramment utilisé. Le premier que j'appellerais «mathématiquement bayésien», qui englobe toutes les méthodes de statistiques, car il comprend des paramètres qui sont des RV constants et ceux qui ne sont pas des RV constants. Il y a ensuite le «culturellement bayésien» qui rejette certaines méthodes «mathématiquement bayésiennes» car ces méthodes sont «fréquentistes» (c'est-à-dire par animosité personnelle au paramètre parfois modélisé comme une constante ou une fréquence).

Il y a certainement des distinctions à faire entre les différentes approches de l'inférence bayésienne, mais pas celle-ci. S'il y a un sens dans lequel le bayésianisme est plus général, c'est dans la volonté d'appliquer le concept de probabilité à l'incertitude épistémique sur les valeurs des paramètres et pas seulement à l'incertitude aléatoire du processus de génération de données qui est tout ce dont le fréquentisme se préoccupe. L'inférence fréquentiste n'est pas un cas particulier de l'inférence bayésienne et aucune des réponses ou commentaires de Y a-t-il une base mathématique pour le débat bayésien vs fréquentiste?impliquent que ce est. Si dans une approche bayésienne vous deviez considérer le paramètre comme une variable aléatoire constante, vous obtiendriez le même postérieur quelles que soient les données - et dire que c'est constant mais vous ne savez pas quelle valeur cela prendrait ne serait rien dire Vaut la peine de dire. L'approche fréquentiste adopte une approche entièrement différente et n'implique pas du tout le calcul des distributions postérieures.

Scortchi - Réintégrer Monica
la source
"L'approche fréquentiste adopte une approche entièrement différente et n'implique pas du tout le calcul des distributions postérieures" - ce n'est pas mon point cependant. Je ne parle pas d'intention philosophique, je parle d'équivalence mathématique. Quelqu'un pourrait dire qu'il est «soustractiviste» parce qu'il n'ajoute et ne soustrait que des nombres positifs mais refuse d'utiliser des nombres négatifs, ce qui est «négativiste». Philosophiquement, cela pourrait être le cas, mais soustraire mathématiquement un nombre positif revient à ajouter un nombre négatif.
Chill2Macht
Ce que j'essaie de dire, c'est que «mathématiquement bayésien» appliquerait et non le concept de probabilité à l'incertitude épistémique sur les valeurs des paramètres. «Culturellement bayésien» ne ferait qu'appliquer (et ne jamais appliquer) le concept de probabilité à l'incertitude épistémique sur les valeurs des paramètres. "Frequentist" ne serait pas seulement appliquer (et jamais appliquer) la probabilité à l'incertitude épistémique sur les valeurs des paramètres. Ce que je dis, c'est que "l'inférence bayésienne = culturellement bayésienne" et "fréquentiste" semblent être un cas spécial basé sur ce que les gens disent.
Chill2Macht
Quoi qu'il en soit, je suppose que j'essaierai de lire les statistiques asymptotiques de van der Vaart avant de commenter davantage les statistiques fréquentistes, mais ayant déjà lu Casella et Berger et zéro manuels bayésiens, je ne comprends pas l'affirmation selon laquelle "l'approche fréquentiste prend une toute autre approche" de appliquer le concept de probabilité à «juste l'incertitude aléatoire du processus de génération de données», car il semble contredire les autres parties de ce que vous avez écrit.
Chill2Macht
2
35
2
Modes of Parametric Statistical Inference , & Barnett (1999), Comparative Statistical Inference . (4) L'approche fréquentiste ne considère que la probabilité des données sous des valeurs de paramètres données; les conditions d'approche bayésienne sur les données observées pour obtenir un postérieur.
Scortchi - Réintégrer Monica