Que signifie précisément emprunter des informations?

11

Je les parle souvent d'emprunt ou de partage d'informations dans les modèles hiérarchiques bayésiens. Je n'arrive pas à obtenir une réponse claire sur ce que cela signifie réellement et s'il est unique aux modèles hiérarchiques bayésiens. J'ai en quelque sorte compris l'idée: certains niveaux de votre hiérarchie partagent un paramètre commun. Je n'ai aucune idée de la façon dont cela se traduit par "emprunt d'informations".

  1. Est-ce que «emprunter des informations» / «partager des informations» est un mot à la mode que les gens aiment jeter?

  2. Y a-t-il un exemple avec des formes postérieures fermées qui illustre ce phénomène de partage?

  3. Est-ce unique à une analyse bayésienne? Généralement, quand je vois des exemples de «emprunts d'informations», ce ne sont que des modèles mixtes. J'ai peut-être appris ces modèles à l'ancienne, mais je ne vois aucun partage.

Je ne suis pas intéressé à lancer un débat philosophique sur les méthodes. Je suis simplement curieux de savoir comment utiliser ce terme.

EliK
la source
1
Pour votre question 2., vous pouvez trouver ce lien éclairant: tjmahr.com/plotting-partial-pooling-in-mixed-effects-models .
Isabella Ghement
J'aimerais voir une mention de la théorie de l'information dans les réponses ici.
shadowtalker

Réponses:

10

C'est un terme qui provient spécifiquement de Bayes empiriques (EB), en fait le concept auquel il fait référence n'existe pas dans la vraie inférence bayésienne. Le terme d'origine était "force d'emprunt", inventé par John Tukey dans les années 1960 et popularisé par Bradley Efron et Carl Morris dans une série d'articles statistiques sur le paradoxe de Stein et l'EB paramétrique dans les années 1970 et 1980. De nombreuses personnes utilisent désormais «emprunt d'informations» ou «partage d'informations» comme synonymes du même concept. La raison pour laquelle vous pouvez l'entendre dans le contexte des modèles mixtes est que les analyses les plus courantes pour les modèles mixtes ont une interprétation EB.

EB a de nombreuses applications et s'applique à de nombreux modèles statistiques, mais le contexte est toujours que vous avez un grand nombre de cas (éventuellement indépendants) et que vous essayez d'estimer un paramètre particulier (comme la moyenne ou la variance) dans chaque cas. Dans l'inférence bayésienne, vous faites des inférences postérieures sur le paramètre en fonction à la fois des données observées pour chaque cas et de la distribution antérieure de ce paramètre. Dans l'inférence EB, la distribution a priori du paramètre est estimée à partir de l'ensemble de la collection de cas de données, après quoi l'inférence se déroule comme pour l'inférence bayésienne. Par conséquent, lorsque vous estimez le paramètre pour un cas particulier, vous utilisez à la fois les données de ce cas et également la distribution antérieure estimée, et celle-ci représente l '"information" ou la "force"

Vous pouvez maintenant voir pourquoi EB a "emprunté" mais pas vrai Bayes. Dans les vrais Bayes, la distribution antérieure existe déjà et n'a donc pas besoin d'être mendiée ou empruntée. Dans EB, la distribution préalable a été créée à partir des données observées elles-mêmes. Lorsque nous faisons des inférences sur un cas particulier, nous utilisons toutes les informations observées de ce cas et un peu d'informations de chacun des autres cas. Nous disons qu'il est seulement «emprunté», car les informations sont rendues lorsque nous passons à l'inférence sur le prochain cas.

L'idée d'EB et d '«emprunt d'information» est largement utilisée en génomique statistique, lorsque chaque «cas» est généralement un gène ou une caractéristique génomique (Smyth, 2004; Phipson et al, 2016).

Les références

Efron, Bradley et Carl Morris. Le paradoxe de Stein en statistiques. Scientific American 236, no. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Smyth, GK (2004). Modèles linéaires et méthodes bayésiennes empiriques pour évaluer l'expression différentielle dans des expériences de puces à ADN. Applications statistiques en génétique et biologie moléculaire Volume 3, numéro 1, article 3. http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS et Smyth, GK (2016). Une estimation hyperparamétrique robuste protège contre les gènes hypervariables et améliore la puissance de détection de l'expression différentielle. Annals of Applied Statistics 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920

Gordon Smyth
la source
1
Je ne pense pas que cette interprétation soit correcte. Par exemple, les modèles à effets mixtes empruntent des informations, mais peuvent être analysés dans un contexte bayésien traditionnel
Cliff AB
1
@CliffAB Si vous creusez dans des analyses de modèles mixtes, vous constaterez que l'analyse est pratiquement toujours des Bayes empiriques plutôt que de vraies Bayes. La plupart des auteurs diront bien sûr qu'ils font du Bayes alors qu'il s'agit en fait d'EB car la plupart des auteurs ne font pas la distinction. Si vous pensez que vous pouvez donner un exemple d'une véritable analyse de modèle mixte Bayes, alors je vous invite à le faire.
Gordon Smyth
1
@CliffAB Dans la minorité des cas où une véritable analyse Bayes est utilisée pour des modèles mixtes (par exemple, par MCMC ou Winbugs), alors l'utilisation du terme "emprunter des informations" serait hors de propos pour l'OMI. Il serait certainement en désaccord avec ce que Tukey et Efron entendaient par «emprunter».
Gordon Smyth
1
@CliffAB J'accepte que brms soit un paquet bayésien, c'est pourquoi le terme "emprunter des informations" n'apparaît pas dans la documentation de brms.
Gordon Smyth
1
Les modèles bayésiens simples n'empruntent pas d'informations, mais les modèles multiniveaux le font, même si je pense que le terme le plus populaire dans ce domaine est «mise en commun partielle». Voici une discussion classique à ce sujet de A. Gelman. En général, si vous acceptez l'idée que les modèles d'effets mixtes "empruntent des informations", je ne sais pas comment on peut dire que les effets mixtes bayésiens ne le font pas; le prieur apparaît au niveau inférieur aux informations empruntées. Si les modèles d'effets mixtes n'empruntent pas d' informations, cela explique ma confusion sur votre demande.
Cliff AB
5

Considérons un problème simple comme l'estimation des moyennes de plusieurs groupes. Si votre modèle les considère comme complètement indépendants, alors les seules informations dont vous disposez sur chaque moyenne sont celles de ce groupe. Si votre modèle traite leurs moyennes comme quelque peu liées (comme dans certains modèles de type à effets mixtes), les estimations seront plus précises car les informations provenant d'autres groupes informent (régularise, rétrécissent vers une moyenne commune) l'estimation pour un groupe donné. C'est un exemple d '«emprunt d'informations».

La notion surgit dans le travail actuariel lié à la crédibilité (pas nécessairement avec ce terme spécifique d '«emprunt» bien que l'emprunt dans ce sens soit explicite dans les formules); cela remonte à loin, il y a au moins un siècle, avec des précurseurs clairs remontant au milieu du XIXe siècle. Par exemple, voir Longley-Cook, LH (1962) An introduction to credibility theory PCAS, 49, 194-221.

Voici Whitney, 1918 (The Theory of Experience Rating, PCAS, 4, 274-292):

Voici un risque, par exemple, qui doit clairement être classé comme un atelier d'usinage. En l'absence d'autres informations, il devrait donc simuler le taux d'atelier d'usinage, à savoir le taux moyen pour tous les risques de cette classe. D'un autre côté, le risque a connu sa propre expérience. Si le risque est important, cela peut être un meilleur indicateur de son danger que l'expérience en classe. En tout état de cause, que le risque soit important ou faible, ces deux éléments ont leur valeur de preuve et doivent être pris en compte. La difficulté vient du fait qu'en général les preuves sont contradictoires; le problème est donc de trouver et d'appliquer un critère qui donnera à chacun son poids.

Alors que le terme emprunt est absent ici, la notion d'utilisation des informations au niveau du groupe pour nous informer sur cet atelier d'usinage est clairement là. [Les notions restent inchangées lorsque la «force d'emprunt» et «l'information sur l'emprunt» commencent à s'appliquer à cette situation]

Glen_b -Reinstate Monica
la source
1
J'apprécie l'exemple, car il explique clairement ce que fait l'emprunt, mais je cherche une définition plus précise.
EliK
Une définition précise d'un terme imprécis et intuitif? Je suppose que cela pourrait être possible - on pourrait peut-être le définir en termes de réduction de la variance en reliant les paramètres entre les groupes, mais on pourrait très facilement exclure les utilisations plausibles de la notion en le faisant
Glen_b -Reinstate Monica
Il n'était pas clair pour moi si l'intuition imprécise avait une définition réelle.
EliK
3

σR2

D'un autre côté, du point de vue bayésien, nous ne mettons pas un prior sur les effets mixtes, mais plutôt un paramètre de niveau intermédiaire. Autrement dit, nous avons mis un prior surσR2σR2

Je pense qu'il est assez clair que «emprunter des informations» n'est pas quelque chose de purement bayésien; il existe des modèles à effets mixtes non bayésiens et ces informations empruntent. Cependant, sur la base de mon expérience de jeu avec des modèles d'effets mixtes, je pense que l'approche bayésienne de ces modèles est un peu plus importante que certaines personnes ne le pensent. En particulier, dans un modèle à effets mixtes, il faut penser que nous estimonsσR2σR2σRσR2. Moins il y a d'informations dans les données, plus les informations antérieures deviennent importantes. Si vous ne l'avez pas encore fait, je vous suggère d'essayer de simuler des modèles d'effets mixtes avec seulement quelques sujets. Vous pourriez être surpris de voir à quel point les estimations des méthodes fréquentielles sont instables, surtout lorsque vous ajoutez seulement une ou deux valeurs aberrantes ... et à quelle fréquence voit-on de vrais ensembles de données sans valeurs aberrantes? Je crois que ce problème est couvert dans Bayesian Data Analysis par Gelman et al, mais malheureusement, je ne pense pas qu'il soit accessible au public, donc pas de lien hypertexte.

Enfin, la modélisation à plusieurs niveaux n'est pas seulement des effets mixtes, bien qu'ils soient les plus courants. Tout modèle dans lequel les paramètres sont influencés non seulement par les valeurs antérieures et les données, mais aussi par d'autres paramètres inconnus peut être appelé modèle à plusieurs niveaux. Bien sûr, il s'agit d'un ensemble de modèles très flexible, mais qui peut être rédigé à partir de zéro et s'adapter à un minimum de travail en utilisant des outils tels que Stan, NIMBLE, JAGS, etc. Dans cette mesure, je ne suis pas sûr de dire à plusieurs niveaux la modélisation est «hype»; en gros, vous pouvez écrire n'importe quel modèle pouvant être représenté sous forme de graphique acyclique dirigéet l'ajuster immédiatement (en supposant qu'il ait un temps d'exécution raisonnable, c'est-à-dire). Cela donne beaucoup plus de puissance et de créativité potentielle que les choix traditionnels (c.-à-d. Les packages de modèles de régression), mais il n'est pas nécessaire d'en construire un à partir de zéro pour s'adapter à un nouveau type de modèle.

Cliff AB
la source
Merci pour la réponse. Pour clarifier, je ne suggérais pas que la modélisation à plusieurs niveaux est un "battage médiatique". Je demandais si «l'emprunt d'informations» a un sens précis ou si ce terme particulier est juste un battage médiatique.
EliK
@EliK: Je ne suis pas sûr qu'il ait une précision signification ; Gordon Smyth donne ce que certains peuvent considérer comme un sens précis, c'est-à-dire Empirical Bayes, mais la façon dont je vois ce terme couramment utilisé ne semble pas correspondre à ce sens. Personnellement, je ne pense pas que ce soit juste un terme de battage médiatique; c'est exactement la motivation pour utiliser des modèles à effets mixtes sur des modèles à effets fixes, bien que cela dépasse le cadre du modèle de régression standard. Je pense que beaucoup de gens disent la "modélisation à plusieurs niveaux" plus vague au lieu de la "modélisation à effets mixtes" plus précise, car elle est plus à la mode maintenant.
Cliff AB
Je dirais que le battage médiatique est dans les articles ML et les blogs, où l'on fait valoir que vous avez besoin de modèles bayésiens pour implémenter des modèles à plusieurs niveaux. Je serais intéressé par un exemple concret - où l'on compare avec le modèle régularisé croisé (pour la prédiction)
seanv507
Pour ce que ça vaut, la seule alternative au bayésien est le maximum de vraisemblance, qui est juste bayésien avec un prior uniforme. Ce n'est donc pas vraiment faux.
shadowtalker
1
@shadowtalker: si vous considérez les méthodes MLE en bayésien, le mot bayésien n'a pratiquement aucun sens dans les statistiques. Cependant, cela est cohérent avec certaines des erreurs que je vois dans la littérature ML.
Cliff AB
2

Je suppose, puisque vous avez étiqueté l'apprentissage automatique que vous êtes intéressé par la prédiction, plutôt que par l'inférence (je crois que je suis aligné avec la réponse de @Glen_b, mais que je traduis simplement dans ce contexte / vocabulaire)

Je dirais que dans ce cas, c'est un mot à la mode. Un modèle linéaire régularisé avec une variable de groupe empruntera des informations: la prédiction au niveau individuel sera une combinaison de la moyenne du groupe et de l'effet individuel. Une façon de penser à la régularisation l1 / l2 est qu’elle attribue un coefficient coût par réduction de l’erreur totale, puisqu’une variable de groupe affecte plus d’échantillons qu’une variable individuelle, il y aura une pression pour estimer un effet de groupe, laissant un écart moindre par rapport à effet de groupe sur chaque variable individuelle.

Pour les points individuels avec suffisamment de données, l'effet individuel sera «fort», pour ceux avec peu de données, l'effet sera faible.

Je pense que la façon la plus simple de voir cela est de considérer la régularisation L1 et 3 individus du même groupe avec le même effet. Non régularisé, le problème a un nombre infini de solutions, alors que la régularisation donne une solution unique.

Affecter tous les effets au coefficient de groupe a la norme l1 la plus basse, car nous n'avons besoin que d'une valeur pour couvrir 3 individus. Inversement, attribuer tout l'effet aux coefficients individuels a le pire, à savoir 3 fois la norme l1 d'attribuer l'effet au coefficient de groupe.

Notez que nous pouvons avoir autant de hiérarchies que nous voulons, et les interactions sont affectées de la même manière: la régularisation poussera les effets vers les variables principales, plutôt que des interactions plus rares.

Le blog tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - lié par @IsabellaGhement donne un devis pour la force d'emprunt

"Cet effet est parfois appelé retrait, car des valeurs plus extrêmes de retrait sont tirées vers une valeur plus raisonnable et plus moyenne. Dans le livre lme4 , Douglas Bates fournit une alternative au rétrécissement [nom]»

Le terme «rétrécissement» peut avoir des connotations négatives. John Tukey a préféré se référer au processus comme étant les estimations pour les sujets individuels de la «force d'emprunt» les uns des autres. Il s'agit d'une différence fondamentale entre les modèles sous-jacents aux modèles à effets mixtes et les modèles à effets strictement fixes. Dans un modèle à effets mixtes, nous supposons que les niveaux d'un facteur de regroupement sont une sélection d'une population et, par conséquent, on peut s'attendre à ce qu'ils partagent des caractéristiques dans une certaine mesure. Par conséquent, les prédictions d'un modèle à effets mixtes sont atténuées par rapport à celles des modèles à effets strictement fixes.

seanv507
la source
Qu'est-ce que la prédiction sinon un type spécifique d'inférence?
shadowtalker
0

Une autre source que je voudrais recommander à ce sujet, que je trouve particulièrement instructive, est l'introduction de David Robinson aux Bayes empiriques .

Son exemple courant est de savoir si un joueur de baseball réussira à frapper la prochaine balle qui lui est lancée. L'idée clé est que si un joueur existe depuis des années, on a une image assez claire de sa capacité et en particulier, on peut utiliser sa moyenne de frappeurs observée comme une assez bonne estimation de la probabilité de réussite au prochain lancer.

À l'inverse, un joueur qui vient de commencer à jouer dans une ligue n'a pas encore révélé beaucoup de son talent réel. Il semble donc judicieux d'ajuster l'estimation de sa probabilité de réussite à une moyenne globale s'il a particulièrement réussi ou échoué lors de ses premiers matchs, car cela est probablement, au moins dans une certaine mesure, dû à la bonne ou à la mauvaise chance .

Comme point mineur, le terme "emprunt" ne semble certainement pas être utilisé dans le sens où quelque chose qui a été emprunté devra être retourné à un moment donné ;-).

Christoph Hanck
la source