Fréquentisme et prieurs

Robby McKilliam dit dans un commentaire à ce post:

Il convient de souligner que, du point de vue des fréquentistes, il n'y a aucune raison pour que vous ne puissiez pas intégrer les connaissances antérieures dans le modèle. En ce sens, la vue fréquentiste est plus simple, vous n'avez qu'un modèle et quelques données. Il n'est pas nécessaire de séparer les informations préalables du modèle

En outre, ici , @jbowman dit que fréquencistes utilisent la régularisation par une fonction coût / malus, alors que bayésiens peut faire une avant:

Les Frequentists ont réalisé que la régularisation était bonne, et l'utilisent assez couramment de nos jours - et les prieurs bayésiens peuvent être facilement interprétés comme régularisation.

Donc, ma question est, les fréquentistes en général peuvent-ils incorporer dans leurs modèles ce que les bayésiens spécifient comme prieurs? En prenant la régularisation comme exemple, la fonction coût / pénalité est-elle vraiment intégrée au modèle, ou est-ce un moyen purement artificiel d'ajuster la solution (ainsi que de la rendre unique)?

bayesian prior regularization frequentist Patrick
la source

Un modérateur pourrait-il informer jbowman et Robby, afin qu'ils puissent élaborer? Ou n'est-ce pas approprié?

Patrick

Patrick, vous pouvez informer tout membre de ce site en utilisant la construction "@". Je l'ai illustré avec un petit montage.

whuber

Cela fonctionne aux deux endroits :-).

whuber

Gee, @whuber, je n'ai pas été averti ... peut-être que les modifications ne le font pas? Maintenant je suis curieux.

jbowman

OK, il s'avère que j'avais tort : le mécanisme "@" fonctionne dans les commentaires, pas dans les questions. (Mais jbowman a quand même trouvé cette question.)

whuber

Réponses:

En ce qui concerne le commentaire de Robby McKilliam: Je pense que la difficulté qu'un fréquentateur aurait avec cela réside dans la définition de «connaissances préalables», pas tant dans la capacité d'incorporer des connaissances antérieures dans un modèle. Par exemple, pensez à estimer la probabilité qu'une pièce donnée monte en tête. Supposons que mes connaissances antérieures étaient, essentiellement, une expérience dans laquelle cette pièce avait été retournée 10 fois et avait 5 têtes, ou peut-être de la forme "l'usine a fait 1 million de pièces, et la dist'n de , comme déterminé par d'énormes expériences, est $p$ $\beta(a,b)$ ". Tout le monde utilise la règle de Bayes lorsque vous avez vraiment des informations préalables de ce type (la règle de Bayes définit simplement la probabilité conditionnelle, ce n'est pas une chose uniquement bayésienne) donc dans la vraie vie, le fréquentateur et le bayésien utiliseraient la même approche, et incorporer les informations dans le modèle via la règle de Bayes (mise en garde: à moins que la taille de votre échantillon ne soit suffisamment grande pour que vous soyez certain que les informations antérieures n'auront pas d'effet sur les résultats.) Cependant, l'interprétation des résultats est, de bien sûr, différent.

Des difficultés surgissent, surtout d'un point de vue philosophique, car les connaissances deviennent moins objectives / expérimentales et plus subjectives. Dans ce cas, le fréquentiste deviendra probablement moins enclin à incorporer ces informations dans le modèle, alors que le bayésien dispose encore de mécanismes plus ou moins formels pour le faire, malgré les difficultés à obtenir un préalable subjectif.

En ce qui concerne la régularisation: considérons une vraisemblance et un précédent . Rien n'empêche, du moins pas techniquement, un fréquentiste d'utiliser l'estimation du maximum de vraisemblance "régularisée" par , comme dans: $l(\theta;x)$ $p(\theta)$ $\log p(\theta)$

$\tilde{\theta} = \max_{\theta} \{\log l(\theta;x) + \log p(\theta) \}$

Pour gaussien, cela équivaut à une pénalité quadratique rétrécissant vers la moyenne du gaussien, et ainsi de suite pour les autres distributions. est égal à l'estimation ponctuelle maximale a posteriori (MAP) d'un bayésien utilisant la même fonction de vraisemblance et la précédente. Bien sûr, encore une fois, l'interprétation des estimations fréquentistes et bayésiennes sera différente. Le bayésien n'est pas non plus contraint d'utiliser une estimation ponctuelle MAP, ayant accès à une distribution postérieure complète - mais ensuite, le fréquentiste n'a pas non plus à maximiser une probabilité logarithmique régularisée, étant capable d'utiliser diverses estimations robustes ou méthode de -moments, etc., si disponibles. $p(\theta)$ $\theta$ $\tilde{\theta}$

Encore une fois, la difficulté vient d'un point de vue philosophique. Pourquoi choisir une fonction de régularisation plutôt qu'une autre? Un bayésien peut le faire - en passant à une vue fondée sur les antérieurs - en évaluant les informations antérieures. Un fréquentiste aurait plus de difficulté (incapable de le faire?) À justifier un choix pour ces motifs, mais le ferait probablement en grande partie sur la base des propriétés de la fonction de régularisation appliquées à son type de problème, comme l'a appris l'articulation. travail / expérience de nombreux statisticiens. OTOH, (pragmatique) les Bayésiens le font aussi avec les prieurs - si j'avais 100 $ pour chaque article sur les prieurs pour les écarts que j'ai lus ...

Autres «réflexions»: j'ai sauté toute la question de la sélection d'une fonction de vraisemblance en supposant qu'elle n'est pas affectée par le point de vue fréquentiste / bayésien. Je suis sûr que c'est le cas dans la plupart des cas, mais je peux imaginer que dans des situations inhabituelles, ce serait, par exemple, pour des raisons de calcul.

Résumé: Je soupçonne que les fréquentistes peuvent, à l'exception peut-être de certains cas de coin, incorporer à peu près toutes les informations antérieures dans leurs modèles qu'un bayésien peut, d'un point de vue strictement mathématique et informatique. L'interprétation des résultats sera bien sûr différente. Je ne pense pas, cependant, que le fréquentiste considère qu'il est philosophiquement correct de le faire dans tous les cas, par exemple, la fonction de régularisation ci-dessus où la personne au bout du couloir qui sait réellement quelque chose sur dit "Je pense que devrait être environ 1,5 ". Et incorporer la quasi-ignorance via, disons, un prieur de Jeffrey, est tout de suite sorti. $\theta$ $\theta$

jbowman
la source

Alors, si je vous comprends bien: techniquement, formellement, un fréquentateur peut régulariser autant qu'il le souhaite, mais il aura du mal à le justifier. Un Bayésien pourrait encore avoir du mal à quantifier sa régularisation, mais qualitativement (s) il a une manière cohérente de l'intégrer.

Patrick

Le bayésien n'est pas non plus contraint d'utiliser une estimation ponctuelle MAP, ayant accès à une distribution postérieure complète - mais ensuite, le fréquentiste n'a pas non plus à maximiser une probabilité logarithmique régularisée, étant capable d'utiliser diverses estimations robustes ou méthode de -moments, etc., si disponibles. Le Frequentist n'a pas à maximiser. Mais c'est toujours une méthode à la disposition des Frequentistes, s'ils le souhaitent, non? Mon intuition est que pour des raisons historiques (pas d'ordinateurs!) Les Frequentists ont beaucoup d'estimateurs intelligents dans leurs manches qu'ils utilisent au lieu de calculer une fonction de vraisemblance complète.

Patrick

Afin de répondre à cette question, il est utile de définir le fréquentisme comme «intéresser les propriétés de la distribution d'échantillonnage des fonctions des données». De telles fonctions peuvent être des estimateurs ponctuels, des valeurs de p des statistiques de test, des intervalles de confiance, des résultats du test de Neyman-Pearson ou tout autre élément auquel vous pouvez penser. Le fréquentisme ne précise pas comment construire des estimateurs, des valeurs de p, etc., en général, bien que certaines lignes directrices existent, par exemple, utiliser suffisamment de statistiques si elles sont disponibles, utiliser des statistiques pivots si elles sont disponibles, etc. perspective, les informations préalables ne sont pas incorporées dans le modèle en soi , mais plutôt dans les données de mappage de fonction à la sortie de la fonction.

L '«intérêt» mentionné ci-dessus concerne des propriétés jugées importantes pour l'inférence, telles que l'absence de biais, la cohérence asymptotique, la variance, l'erreur quadratique moyenne, l'erreur absolue moyenne, la couverture de confiance (en particulier nominale par rapport à la réalité), le contrôle des erreurs de type I et tout autrement avec une importance évidente ou intuitive pour apprendre des données. Ces propriétés peuvent être évaluées (par simulation, si rien d'autre) si la fonction intègre ou non des informations préalables.

Un intérêt particulier se concentre sur les propriétés qui peuvent être connues pour contenir quelles que soient les valeurs réelles des paramètres sous-jacents au processus de génération de données. Par exemple, dans le modèle iid normal avec variance connue, la moyenne des données est non biaisée et asymptotiquement cohérente pour la moyenne de distribution, quelle qu'elle soit. En revanche, un estimateur de rétrécissement (une moyenne pondérée de la moyenne des données et une estimation préalable de la moyenne de distribution) a une erreur quadratique moyenne plus faible si la moyenne de distribution est proche de la supposition précédente mais une erreur quadratique moyenne plus élevée dans le cas contraire, bien qu'il " hérite de "la cohérence asymptotique de la moyenne des données.

Je dirais donc que l'on peut mettre des informations préalables dans la méthode d'inférence, mais cela ne va pas dans le modèle. Feldman et Cousins, une approche unifiée de l'analyse statistique classique des petits signaux est une très belle illustration des notions que j'ai décrites dans le contexte des intervalles de confiance pour les propriétés physiques qui sont nécessairement non négatives .

Cyan
la source