D'après ce que j'ai lu et des réponses à d' autres questions que j'ai posées ici, de nombreuses méthodes dites fréquentistes correspondent mathématiquement ( peu m'importe si elles correspondent philosophiquement , je me soucie seulement si cela correspond mathématiquement) à des cas particuliers de soi-disant Méthodes bayésiennes (pour ceux qui s'y opposent, voir la note au bas de cette question). Cette réponse à une question connexe (pas la mienne) corrobore cette conclusion:
La plupart des méthodes fréquentistes ont un équivalent bayésien qui, dans la plupart des cas, donnera essentiellement le même résultat.
Notez que dans ce qui suit, être mathématiquement le même signifie donner le même résultat. Si vous caractérisez deux méthodes dont il peut être prouvé qu'elles donnent toujours les mêmes résultats qu'elles sont «différentes», c'est votre droit, mais c'est un jugement philosophique, pas mathématique ni pratique.
Cependant, de nombreuses personnes qui se décrivent comme des «bayésiens» semblent rejeter l’utilisation de l’estimation du maximum de vraisemblance en toutes circonstances, même s’il s’agit d’un cas particulier des méthodes ( mathématiquement ) bayésiennes, car il s’agit d’une «méthode fréquentiste». Apparemment, les bayésiens utilisent également un nombre restreint / limité de distributions par rapport aux fréquentistes, même si ces distributions seraient également mathématiquement correctes d'un point de vue bayésien.
Question: Quand et pourquoi les bayésiens rejettent-ils les méthodes mathématiquement correctes d'un point de vue bayésien? Y a-t-il une justification à cela qui n'est pas "philosophique"?
Contexte / Contexte: Ce qui suit sont des citations de réponses et de commentaires à une question précédente sur CrossValidated :
La base mathématique du débat bayésien vs fréquentiste est très simple. Dans les statistiques bayésiennes, le paramètre inconnu est traité comme une variable aléatoire; dans les statistiques fréquentistes, il est traité comme un élément fixe ...
D'après ce qui précède, j'aurais conclu que ( mathématiquement parlant ) les méthodes bayésiennes sont plus générales que celles fréquentistes, dans le sens où les modèles fréquentistes satisfont toutes les mêmes hypothèses mathématiques que les modèles bayésiens, mais pas l'inverse. Cependant, la même réponse a fait valoir que ma conclusion de ce qui précède était incorrecte (l'accent est mis sur ce qui suit):
Bien que la constante soit un cas particulier d'une variable aléatoire, j'hésiterais à conclure que le bayésianisme est plus général. Vous n'obtiendrez pas de résultats fréquentistes à partir de résultats bayésiens en réduisant simplement la variable aléatoire à une constante. La différence est plus profonde ...
Aller aux préférences personnelles ... Je n'aime pas que les statistiques bayésiennes utilisent un sous-ensemble assez restreint de distributions disponibles.
Un autre utilisateur, dans sa réponse, a déclaré le contraire, que les méthodes bayésiennes sont plus générales, bien qu'assez étrangement la meilleure raison pour laquelle cela pourrait être le cas était dans la réponse précédente, donnée par une personne formée en tant que fréquentiste.
La conséquence mathématique est que les fréquencistes pensent que les équations de base de la probabilité ne s'appliquent que parfois, et les Bayésiens pensent qu'elles s'appliquent toujours. Ils considèrent donc les mêmes équations comme correctes, mais diffèrent quant à leur généralité ... Le bayésien est strictement plus général que le Frequentiste. Puisqu'il peut y avoir une incertitude sur n'importe quel fait, n'importe quel fait peut être assigné une probabilité. En particulier, si les faits sur lesquels vous travaillez sont liés aux fréquences du monde réel (soit comme quelque chose que vous prédisez ou comme une partie des données), les méthodes bayésiennes peuvent les considérer et les utiliser comme ils le feraient pour tout autre fait du monde réel. Par conséquent, tout problème que les Fréquentistes pensent que leurs méthodes s'appliquent aux Bayésiens peut aussi fonctionner naturellement.
D'après les réponses ci-dessus, j'ai l'impression qu'il existe au moins deux définitions différentes du terme bayésien couramment utilisé. Le premier que j'appellerais «mathématiquement bayésien», qui englobe toutes les méthodes de statistiques, car il comprend des paramètres qui sont des RV constants et ceux qui ne sont pas des RV constants. Il y a ensuite le «culturellement bayésien» qui rejette certaines méthodes «mathématiquement bayésiennes» car ces méthodes sont «fréquentistes» (c'est-à-dire par animosité personnelle au paramètre parfois modélisé comme une constante ou une fréquence). Une autre réponse à la question susmentionnée semble également étayer cette conjecture:
Il convient également de noter qu'il existe de nombreux écarts entre les modèles utilisés par les deux camps qui sont plus liés à ce qui a été fait qu'à ce qui peut être fait (c'est-à-dire que de nombreux modèles traditionnellement utilisés par un camp peuvent être justifiés par l'autre camp). ).
Je suppose donc qu'une autre façon de formuler ma question serait la suivante: pourquoi les bayésiens culturels se disent-ils bayésiens s'ils rejettent de nombreuses méthodes mathématiquement bayésiennes? Et pourquoi rejettent-ils ces méthodes mathématiquement bayésiennes? Est-ce une animosité personnelle pour les personnes qui utilisent le plus souvent ces méthodes particulières?
Edit: Deux objets sont équivalents au sens mathématique s'ils ont les mêmes propriétés , quelle que soit leur construction. Par exemple, je peux penser à au moins cinq façons différentes de construire l'unité imaginaire . Néanmoins, il n'y a pas au moins cinq «écoles de pensée» différentes sur l'étude des nombres imaginaires; en fait, je crois qu'il n'y en a qu'un, c'est ce groupe qui étudie leurs propriétés. Pour ceux qui objectent qu'obtenir une estimation ponctuelle en utilisant le maximum de vraisemblance n'est pas la même chose que d'obtenir une estimation ponctuelle en utilisant le maximum a priori et un a priori uniforme parce que les calculs impliqués sont différents, je concède qu'ils sont différents dans un sens philosophique , mais pour dans la mesure où ils ont toujoursdonnent les mêmes valeurs pour l'estimation, elles sont mathématiquement équivalentes, car elles ont les mêmes propriétés . Peut-être que la différence philosophique vous concerne personnellement, mais elle n'est pas pertinente pour cette question.
Remarque: Cette question avait à l'origine une caractérisation incorrecte de l'estimation MLE et de l'estimation MAP avec un a priori uniforme.
la source
Réponses:
Je voudrais corriger une hypothèse erronée dans le message d'origine, une erreur qui est relativement courante. Le PO dit:
Et la note au bas du message dit:
Mon objection est que, mis à part la philosophie, l'estimation du maximum de vraisemblance (MLE) et l'estimation du maximum a-posteriori (MAP) n'ont pas les mêmes propriétés mathématiques.
Fondamentalement, MLE et MAP se transforment différemment sous la reparamétrisation (non linéaire) de l'espace. Cela se produit parce que MLE a un "a priori plat" dans chaque paramétrage, contrairement à MAP (le a priori se transforme en densité de probabilité , il y a donc un terme jacobien).
La définition d'un objet mathématique comprend la façon dont l'objet se comporte sous des opérateurs tels que la transformation de variables (par exemple, voir la définition d'un tenseur ).
En conclusion, MLE et MAP ne sont pas la même chose, ni philosophiquement ni mathématiquement; ce n'est pas une opinion.
la source
Personnellement, je suis un «pragmatiste» plutôt qu'un «fréquentiste» ou un «bayésien», donc je ne peux prétendre parler pour aucun camp.
Cela dit, je pense que la distinction à laquelle vous faites allusion n'est probablement pas tant le MLE que le MAP, mais entre les estimations ponctuelles et l'estimation des PDF postérieurs . En tant que scientifique travaillant dans un domaine avec des données clairsemées et de grandes incertitudes, je peux sympathiser avec le fait de ne pas vouloir faire trop confiance aux résultats de la "meilleure estimation" qui peuvent être trompeurs, entraînant une confiance excessive.
Une distinction pratique connexe se situe entre les méthodes paramétriques et non paramétriques . Ainsi, par exemple, je pense que le filtrage de Kalman et le filtrage des particules seraient acceptés comme estimation bayésienne récursive . Mais l'hypothèse gaussienne du filtrage de Kalman (une méthode paramétrique) peut donner des résultats très trompeurs si le postérieur n'est pas unimodal. Pour moi, ce genre d'exemples d'ingénierie met en évidence les différences ni philosophiques ni mathématiques, mais manifestes en termes de résultats pratiques (c'est-à-dire que votre véhicule autonome va s'écraser?). Pour les passionnés bayésiens que je connais, cette attitude de «voir ce qui fonctionne» semble être prédominante ... je ne sais pas si cela est vrai plus largement.
la source
Ces personnes rejetteraient le MLE comme méthode générale pour faire des estimations ponctuelles. Dans des cas particuliers où ils avaient raison d'utiliser un uniforme préalable et voulaient faire un maximum d'estimation a posteriori, ils ne seraient pas du tout gênés par la coïncidence de leurs calculs avec le MLE.
Peut-être parfois, pour faciliter leurs calculs, mais pas sur aucun point de principe.
Il y a certainement des distinctions à faire entre les différentes approches de l'inférence bayésienne, mais pas celle-ci. S'il y a un sens dans lequel le bayésianisme est plus général, c'est dans la volonté d'appliquer le concept de probabilité à l'incertitude épistémique sur les valeurs des paramètres et pas seulement à l'incertitude aléatoire du processus de génération de données qui est tout ce dont le fréquentisme se préoccupe. L'inférence fréquentiste n'est pas un cas particulier de l'inférence bayésienne et aucune des réponses ou commentaires de Y a-t-il une base mathématique pour le débat bayésien vs fréquentiste?impliquent que ce est. Si dans une approche bayésienne vous deviez considérer le paramètre comme une variable aléatoire constante, vous obtiendriez le même postérieur quelles que soient les données - et dire que c'est constant mais vous ne savez pas quelle valeur cela prendrait ne serait rien dire Vaut la peine de dire. L'approche fréquentiste adopte une approche entièrement différente et n'implique pas du tout le calcul des distributions postérieures.
la source