Je les parle souvent d'emprunt ou de partage d'informations dans les modèles hiérarchiques bayésiens. Je n'arrive pas à obtenir une réponse claire sur ce que cela signifie réellement et s'il est unique aux modèles hiérarchiques bayésiens. J'ai en quelque sorte compris l'idée: certains niveaux de votre hiérarchie partagent un paramètre commun. Je n'ai aucune idée de la façon dont cela se traduit par "emprunt d'informations".
Est-ce que «emprunter des informations» / «partager des informations» est un mot à la mode que les gens aiment jeter?
Y a-t-il un exemple avec des formes postérieures fermées qui illustre ce phénomène de partage?
Est-ce unique à une analyse bayésienne? Généralement, quand je vois des exemples de «emprunts d'informations», ce ne sont que des modèles mixtes. J'ai peut-être appris ces modèles à l'ancienne, mais je ne vois aucun partage.
Je ne suis pas intéressé à lancer un débat philosophique sur les méthodes. Je suis simplement curieux de savoir comment utiliser ce terme.
Réponses:
C'est un terme qui provient spécifiquement de Bayes empiriques (EB), en fait le concept auquel il fait référence n'existe pas dans la vraie inférence bayésienne. Le terme d'origine était "force d'emprunt", inventé par John Tukey dans les années 1960 et popularisé par Bradley Efron et Carl Morris dans une série d'articles statistiques sur le paradoxe de Stein et l'EB paramétrique dans les années 1970 et 1980. De nombreuses personnes utilisent désormais «emprunt d'informations» ou «partage d'informations» comme synonymes du même concept. La raison pour laquelle vous pouvez l'entendre dans le contexte des modèles mixtes est que les analyses les plus courantes pour les modèles mixtes ont une interprétation EB.
EB a de nombreuses applications et s'applique à de nombreux modèles statistiques, mais le contexte est toujours que vous avez un grand nombre de cas (éventuellement indépendants) et que vous essayez d'estimer un paramètre particulier (comme la moyenne ou la variance) dans chaque cas. Dans l'inférence bayésienne, vous faites des inférences postérieures sur le paramètre en fonction à la fois des données observées pour chaque cas et de la distribution antérieure de ce paramètre. Dans l'inférence EB, la distribution a priori du paramètre est estimée à partir de l'ensemble de la collection de cas de données, après quoi l'inférence se déroule comme pour l'inférence bayésienne. Par conséquent, lorsque vous estimez le paramètre pour un cas particulier, vous utilisez à la fois les données de ce cas et également la distribution antérieure estimée, et celle-ci représente l '"information" ou la "force"
Vous pouvez maintenant voir pourquoi EB a "emprunté" mais pas vrai Bayes. Dans les vrais Bayes, la distribution antérieure existe déjà et n'a donc pas besoin d'être mendiée ou empruntée. Dans EB, la distribution préalable a été créée à partir des données observées elles-mêmes. Lorsque nous faisons des inférences sur un cas particulier, nous utilisons toutes les informations observées de ce cas et un peu d'informations de chacun des autres cas. Nous disons qu'il est seulement «emprunté», car les informations sont rendues lorsque nous passons à l'inférence sur le prochain cas.
L'idée d'EB et d '«emprunt d'information» est largement utilisée en génomique statistique, lorsque chaque «cas» est généralement un gène ou une caractéristique génomique (Smyth, 2004; Phipson et al, 2016).
Les références
Efron, Bradley et Carl Morris. Le paradoxe de Stein en statistiques. Scientific American 236, no. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf
Smyth, GK (2004). Modèles linéaires et méthodes bayésiennes empiriques pour évaluer l'expression différentielle dans des expériences de puces à ADN. Applications statistiques en génétique et biologie moléculaire Volume 3, numéro 1, article 3. http://www.statsci.org/smyth/pubs/ebayes.pdf
Phipson, B, Lee, S, Majewski, IJ, Alexander, WS et Smyth, GK (2016). Une estimation hyperparamétrique robuste protège contre les gènes hypervariables et améliore la puissance de détection de l'expression différentielle. Annals of Applied Statistics 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920
la source
Considérons un problème simple comme l'estimation des moyennes de plusieurs groupes. Si votre modèle les considère comme complètement indépendants, alors les seules informations dont vous disposez sur chaque moyenne sont celles de ce groupe. Si votre modèle traite leurs moyennes comme quelque peu liées (comme dans certains modèles de type à effets mixtes), les estimations seront plus précises car les informations provenant d'autres groupes informent (régularise, rétrécissent vers une moyenne commune) l'estimation pour un groupe donné. C'est un exemple d '«emprunt d'informations».
La notion surgit dans le travail actuariel lié à la crédibilité (pas nécessairement avec ce terme spécifique d '«emprunt» bien que l'emprunt dans ce sens soit explicite dans les formules); cela remonte à loin, il y a au moins un siècle, avec des précurseurs clairs remontant au milieu du XIXe siècle. Par exemple, voir Longley-Cook, LH (1962) An introduction to credibility theory PCAS, 49, 194-221.
Voici Whitney, 1918 (The Theory of Experience Rating, PCAS, 4, 274-292):
Alors que le terme emprunt est absent ici, la notion d'utilisation des informations au niveau du groupe pour nous informer sur cet atelier d'usinage est clairement là. [Les notions restent inchangées lorsque la «force d'emprunt» et «l'information sur l'emprunt» commencent à s'appliquer à cette situation]
la source
D'un autre côté, du point de vue bayésien, nous ne mettons pas un prior sur les effets mixtes, mais plutôt un paramètre de niveau intermédiaire. Autrement dit, nous avons mis un prior surσ2R σ2R
Je pense qu'il est assez clair que «emprunter des informations» n'est pas quelque chose de purement bayésien; il existe des modèles à effets mixtes non bayésiens et ces informations empruntent. Cependant, sur la base de mon expérience de jeu avec des modèles d'effets mixtes, je pense que l'approche bayésienne de ces modèles est un peu plus importante que certaines personnes ne le pensent. En particulier, dans un modèle à effets mixtes, il faut penser que nous estimonsσ2R σ2R σR σ2R . Moins il y a d'informations dans les données, plus les informations antérieures deviennent importantes. Si vous ne l'avez pas encore fait, je vous suggère d'essayer de simuler des modèles d'effets mixtes avec seulement quelques sujets. Vous pourriez être surpris de voir à quel point les estimations des méthodes fréquentielles sont instables, surtout lorsque vous ajoutez seulement une ou deux valeurs aberrantes ... et à quelle fréquence voit-on de vrais ensembles de données sans valeurs aberrantes? Je crois que ce problème est couvert dans Bayesian Data Analysis par Gelman et al, mais malheureusement, je ne pense pas qu'il soit accessible au public, donc pas de lien hypertexte.
Enfin, la modélisation à plusieurs niveaux n'est pas seulement des effets mixtes, bien qu'ils soient les plus courants. Tout modèle dans lequel les paramètres sont influencés non seulement par les valeurs antérieures et les données, mais aussi par d'autres paramètres inconnus peut être appelé modèle à plusieurs niveaux. Bien sûr, il s'agit d'un ensemble de modèles très flexible, mais qui peut être rédigé à partir de zéro et s'adapter à un minimum de travail en utilisant des outils tels que Stan, NIMBLE, JAGS, etc. Dans cette mesure, je ne suis pas sûr de dire à plusieurs niveaux la modélisation est «hype»; en gros, vous pouvez écrire n'importe quel modèle pouvant être représenté sous forme de graphique acyclique dirigéet l'ajuster immédiatement (en supposant qu'il ait un temps d'exécution raisonnable, c'est-à-dire). Cela donne beaucoup plus de puissance et de créativité potentielle que les choix traditionnels (c.-à-d. Les packages de modèles de régression), mais il n'est pas nécessaire d'en construire un à partir de zéro pour s'adapter à un nouveau type de modèle.
la source
Je suppose, puisque vous avez étiqueté l'apprentissage automatique que vous êtes intéressé par la prédiction, plutôt que par l'inférence (je crois que je suis aligné avec la réponse de @Glen_b, mais que je traduis simplement dans ce contexte / vocabulaire)
Je dirais que dans ce cas, c'est un mot à la mode. Un modèle linéaire régularisé avec une variable de groupe empruntera des informations: la prédiction au niveau individuel sera une combinaison de la moyenne du groupe et de l'effet individuel. Une façon de penser à la régularisation l1 / l2 est qu’elle attribue un coefficient coût par réduction de l’erreur totale, puisqu’une variable de groupe affecte plus d’échantillons qu’une variable individuelle, il y aura une pression pour estimer un effet de groupe, laissant un écart moindre par rapport à effet de groupe sur chaque variable individuelle.
Pour les points individuels avec suffisamment de données, l'effet individuel sera «fort», pour ceux avec peu de données, l'effet sera faible.
Je pense que la façon la plus simple de voir cela est de considérer la régularisation L1 et 3 individus du même groupe avec le même effet. Non régularisé, le problème a un nombre infini de solutions, alors que la régularisation donne une solution unique.
Affecter tous les effets au coefficient de groupe a la norme l1 la plus basse, car nous n'avons besoin que d'une valeur pour couvrir 3 individus. Inversement, attribuer tout l'effet aux coefficients individuels a le pire, à savoir 3 fois la norme l1 d'attribuer l'effet au coefficient de groupe.
Notez que nous pouvons avoir autant de hiérarchies que nous voulons, et les interactions sont affectées de la même manière: la régularisation poussera les effets vers les variables principales, plutôt que des interactions plus rares.
Le blog tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - lié par @IsabellaGhement donne un devis pour la force d'emprunt
"Cet effet est parfois appelé retrait, car des valeurs plus extrêmes de retrait sont tirées vers une valeur plus raisonnable et plus moyenne. Dans le livre lme4 , Douglas Bates fournit une alternative au rétrécissement [nom]»
la source
Une autre source que je voudrais recommander à ce sujet, que je trouve particulièrement instructive, est l'introduction de David Robinson aux Bayes empiriques .
Son exemple courant est de savoir si un joueur de baseball réussira à frapper la prochaine balle qui lui est lancée. L'idée clé est que si un joueur existe depuis des années, on a une image assez claire de sa capacité et en particulier, on peut utiliser sa moyenne de frappeurs observée comme une assez bonne estimation de la probabilité de réussite au prochain lancer.
À l'inverse, un joueur qui vient de commencer à jouer dans une ligue n'a pas encore révélé beaucoup de son talent réel. Il semble donc judicieux d'ajuster l'estimation de sa probabilité de réussite à une moyenne globale s'il a particulièrement réussi ou échoué lors de ses premiers matchs, car cela est probablement, au moins dans une certaine mesure, dû à la bonne ou à la mauvaise chance .
Comme point mineur, le terme "emprunt" ne semble certainement pas être utilisé dans le sens où quelque chose qui a été emprunté devra être retourné à un moment donné ;-).
la source