Cette question a été inspirée par deux interactions récentes que j'ai eues, l'une ici dans CV , l'autre sur economics.se.
Là, j'avais posté une réponse au fameux "paradoxe de l'enveloppe" (rappelez-vous, non pas comme la "bonne réponse" mais comme la réponse découlant d'hypothèses spécifiques sur la structure de la situation). Après un certain temps, un utilisateur a publié un commentaire critique, et j'ai engagé une conversation en essayant de comprendre son point. Il était évident qu'il pensait à la manière bayésienne, et continuait à parler des prieurs - et puis cela m'est apparu, et je me suis dit: "Attendez une minute, qui a dit quoi que ce soit avant? De la manière dont j'ai formulé le problème, il n'y a pas de priors ici, ils n'entrent simplement pas dans l'image, et n'ont pas besoin de le faire ".
Récemment, j'ai vu cette réponse ici dans CV, sur le sens de l'indépendance statistique. J'ai fait remarquer à l'auteur que sa phrase
"... si les événements sont statistiquement indépendants, alors (par définition) nous ne pouvons pas en apprendre un sur l'observation de l'autre."
était manifestement faux. Dans un échange de commentaires, il a continué à revenir sur la question de (ses mots)
"Apprendre" ne signifierait-il pas changer nos croyances sur une chose en se basant sur l'observation d'une autre? Si oui, l'indépendance (définitionnelle) ne l'empêche-t-elle pas?
Encore une fois, il était évident qu'il pensait à la manière bayésienne, et qu'il considérait comme évident que nous commençons par certaines croyances (c'est-à-dire un précédent) , puis la question est de savoir comment nous pouvons les modifier / les mettre à jour. Mais comment se crée la première-première croyance?
Puisque la science doit se conformer à la réalité, je note que des situations existent où les êtres humains impliqués n'ont pas de prieurs (pour une chose, je marche dans des situations sans préalable tout le temps - et je vous en prie, ne prétendez pas que j'ai des priors mais je ne vous en rendez pas compte, épargnons-nous ici la psychanalyse bidon).
Depuis que j'ai entendu le terme "prieurs non informatifs", je romps ma question en deux parties, et je suis à peu près certain que les utilisateurs ici qui connaissent la théorie bayésienne savent exactement ce que je vais demander:
Q1: L'absence d'un a priori équivalent (au sens théorique strict) à un a priori non informatif?
Si la réponse à Q1 est "Oui" (avec quelques précisions, s'il vous plaît), cela signifie que l'approche bayésienne est applicable universellement et dès le début , car dans tous les cas, l'être humain impliqué déclare "Je n'ai pas de prieurs", nous pouvons compléter dans sa place un a priori qui n'est pas informatif pour le cas d'espèce.
Mais si la réponse à Q1 est "Non", alors Q2 arrive:
Q2: Si la réponse à Q1 est "Non", cela signifie-t-il que, dans les cas où il n'y a pas de prieurs, l'approche bayésienne n'est pas applicable dès le début, et nous devons d'abord former un a priori d'une manière non bayésienne, afin que nous puissions ensuite appliquer l'approche bayésienne?
la source
Réponses:
Q1: L'absence d'un a priori équivalent (au sens théorique strict) à un a priori non informatif?
Non.
Premièrement, il n'y a pas de définition mathématique d'un «a priori non informatif». Ce mot n'est utilisé que de manière informelle pour décrire certains prieurs.
Par exemple, le prieur de Jeffrey est souvent appelé «non informatif». Ce prior généralise le prior uniforme pour les problèmes invariants de traduction. Le prieur de Jeffrey s'adapte en quelque sorte à la géométrie riemannienne (théorique de l'information) du modèle et est donc indépendant de la paramétrisation, ne dépendant que de la géométrie de la variété (dans l'espace des distributions) qu'est le modèle. Cela peut être perçu comme canonique, mais ce n'est qu'un choix. C'est juste l'uniforme antérieur selon la structure riemannienne. Il n'est pas absurde de définir «non informatif = uniforme» comme une simplification de la question. Cela s'applique à de nombreux cas et permet de poser une question claire et simple.
Les approches bayésienne et fréquentiste répondent simplement à différentes questions. Par exemple, à propos des estimateurs qui est peut-être le plus simple:
D'une manière ou d'une autre, le fréquentiste vise le pire des cas et n'a pas besoin d'un préalable. Le bayésien vise un contrôle moyen et nécessite un avant de dire "moyen dans quel sens?".
Q2: Si la réponse à Q1 est "Non", cela signifie-t-il que, dans les cas où il n'y a pas de prieurs, l'approche bayésienne n'est pas applicable dès le début, et nous devons d'abord former un a priori d'une manière non bayésienne, afin que nous puissions ensuite appliquer l'approche bayésienne?
Oui.
Mais attention à la construction canonique préalable. Cela peut sembler mathématiquement attrayant mais n'est pas automatiquement réaliste d'un point de vue bayésien. Il est possible qu'un a priori mathématiquement agréable corresponde en fait à un système de croyance stupide. Par exemple, si vous étudiezX∼N(μ,1) μ
De vrais problèmes avec les spécifications antérieures se produisent dans des problèmes plus compliqués à mon avis. L'important ici est de comprendre ce que dit un certain prieur.
la source
Tout d'abord, l'approche bayésienne est souvent utilisée car vous souhaitez inclure des connaissances préalables dans votre modèle pour l'enrichir. Si vous n'avez aucune connaissance préalable, alors vous vous en tenez aux soi-disant prières informatives "non informatives" ou hebdomadaires. Notez que la priorité uniforme n'est pas «non informative» par définition, car l'hypothèse sur l'uniformité est une hypothèse. Il n'y a rien de tel qu'un préalable vraiment non informatif. Il y a des cas où "cela pourrait être n'importe quoi" est une hypothèse préalable raisonnable "non informative", mais il y a aussi des cas où affirmer que "toutes les valeurs sont également probables" est une hypothèse très forte et déraisonnable. Par exemple, si vous supposiez que ma taille pouvait être comprise entre 0 et 3 mètres, toutes les valeurs étant également probables a priori, ce ne serait pas une hypothèse raisonnable et cela donnerait trop de poids aux valeurs extrêmes, de sorte qu'il pourrait éventuellement déformer votre postérieur.
D'un autre côté, Bayesian dirait qu'il n'y a vraiment aucune situation où vous n'avez aucune connaissance ou croyance préalable. Vous pouvez toujours supposer quelque chose et en tant qu'être humain, vous le faites tout le temps (les psychologues et les économistes comportementaux ont fait des tonnes de recherches sur ce sujet). Toute l'agitation bayésienne avec les prieurs consiste à quantifier ces idées préconçues et à les énoncer explicitement dans votre modèle, car l'inférence bayésienne consiste à mettre à jour vos croyances .
Il est facile de trouver des arguments "pas d'hypothèses préalables", ou des a priori uniformes, pour des problèmes abstraits, mais pour des problèmes réels, vous auriez des connaissances préalables. Si vous deviez parier sur le montant d'argent dans une enveloppe, vous savez que le montant doit être non négatif et limité. Vous pourriez également faire une supposition éclairée sur la limite supérieure du montant possible de l'argent compte tenu de vos connaissances sur les règles du concours, des fonds disponibles pour votre adversaire, de la taille physique de l'enveloppe et du montant d'argent qui pourrait convenir physiquement. dedans, etc. Vous pouvez également deviner le montant d'argent que votre adversaire pourrait être prêt à mettre dans l'enveloppe et éventuellement perdre. Il y a beaucoup de choses que vous sauriez comme base pour votre a priori.
la source
question 1 Je pense que la réponse est probablement non. Ma raison est que nous n'avons pas vraiment de définition de «non informatif», sauf pour mesurer en quelque sorte la distance entre la réponse finale et un modèle / probabilité arbitrairement informatif. De nombreux priors non informatifs sont validés par rapport à des exemples "intuitifs" où nous avons déjà à l'esprit "le modèle / la probabilité" et "la réponse". Nous demandons ensuite à l'informateur avant de nous donner la réponse que nous voulons.
Mon problème avec cela est que j'ai du mal à croire que quelqu'un peut avoir un modèle ou une structure de modèle vraiment bon et bien informé pour sa population, et en même temps "aucune information" sur les valeurs de paramètres probables et improbables pour ce modèle. Par exemple, en utilisant la régression logistique, voir "UNE DISTRIBUTION PRIORITAIRE FAIBLEMENT INFORMATIVE. POUR LES MODÈLES LOGISTIQUES ET AUTRES MODÈLES DE RÉGRESSION"
Je pense que l'uniforme discret a priori est le seul que nous pourrions raisonnablement dire est le "premier-premier" prieur. Mais vous rencontrez des problèmes d'utilisation, en pensant que vous n'avez "aucune information", mais en réagissant soudainement à des réponses "non intuitives" (indice: si vous n'aimez pas une réponse bayésienne - vous pourriez avoir omis des informations de la précédente ou probabilité!). Un autre problème que vous rencontrez est d'obtenir la bonne discrétisation pour votre problème. Et même en pensant à cela, vous devez connaître le nombre de valeurs discrètes pour appliquer l'uniforme discret avant.
Une autre propriété à considérer pour votre précédent est le "comportement de queue" par rapport à la probabilité que vous utilisez.
à la question 2
Sur le plan conceptuel, je ne vois rien de mal à spécifier une distribution sans l'utilisation d'un précédent ou d'une vraisemblance. Vous pouvez démarrer un problème en disant "mon pdf est ... et je veux calculer ... par rapport à ce pdf". Ensuite, vous créez une contrainte pour le précédent, le prédictif antérieur et la vraisemblance. La méthode bayésienne est pour quand vous avez un a priori et une vraisemblance, et que vous voulez les combiner en une distribution postérieure.
Il s'agit probablement d'être clair sur vos probabilités. Ensuite, l'argument passe à "ce pdf / pmf représente-t-il ce que je dis qu'il représente?" - quel est l'espace dans lequel vous voulez être, je pense. À partir de votre exemple, vous dites que la distribution unique reflète toutes les informations disponibles - il n'y a pas de "préalable" car elle est déjà contenue (implicitement) dans la distribution que vous utilisez.
sur le soi-disant commentaire manifestement faux
Pour être honnête, je serais très intéressé de voir comment n'importe quel engourdissement d'observation pourrait être utilisé pour prédire une observation "statistiquement indépendante". Par exemple, si je vous dis que je vais générer 100 variables normales standard. Je vous donne 99, et je vous demande de me donner votre meilleure prédiction pour le 100e. Je dis que vous ne pouvez pas faire une meilleure prédiction pour le 100e que 0. Mais c'est la même chose que vous prédiriez pour le 100e si je ne vous donnais aucune donnée. Par conséquent, vous n'apprenez rien des 99 points de données.
Cependant, si je vous dis qu'il s'agissait d'une "distribution normale", vous pouvez utiliser les 99 points de données pour estimer les paramètres. Ensuite, les données ne sont plus «statistiquement indépendantes», car nous en apprenons davantage sur la structure commune à mesure que nous observons plus de données. Votre meilleure prédiction utilise désormais les 99 points de données
la source
Ce n'est qu'une brève remarque en plus des autres excellentes réponses. Souvent, ou du moins parfois, il est quelque peu arbitraire (ou conventionnel) quelle partie des informations entrant dans une analyse statistique est appelée données et quelle partie est appelée avant . Ou, plus généralement, nous pouvons dire que les informations d'une analyse statistique proviennent de trois sources: le modèle , les données et l'a priori . Dans certains cas, comme les modèles linéaires ou les glm, la séparation est assez claire, du moins conventionnellement.
Je vais réutiliser un exemple tiré de l' estimation du maximum de vraisemblance (MLE) en termes simples pour illustrer mon propos. Supposons qu'un patient entre dans le cabinet d'un médecin, avec certains problèmes médicaux qui s'avèrent difficiles à diagnostiquer. Ce médecin n'a jamais vu quelque chose de similaire auparavant. Puis, en discutant avec le patient, il fait apparaître de nouvelles informations: ce patient a récemment visité l'Afrique tropicale. Il apparaît alors au médecin que cela pourrait être le paludisme ou une autre maladie tropicale. Mais notez que ces informations sont clairement pour nous des données, mais au moins dans de nombreux modèles statistiques qui pourraient être utilisés, il entrera dans l'analyse sous la forme d'une distribution antérieure, une distribution antérieure donnant une probabilité plus élevée à certaines maladies tropicales. Mais nous pourrions peut-être créer un modèle (plus grand) et plus complet, où ces informations entreront sous forme de données. Ainsi, au moins en partie, la distinction données / a priori est classique.
Nous sommes habitués et acceptons cette convention en raison de l'accent que nous mettons sur certaines classes de modèles conventionnels. Mais, dans le cadre plus large des choses, en dehors du monde des modèles statistiques stylisés, la situation est moins claire.
la source