Estimateur du maximum de vraisemblance de la distribution conjointe, compte tenu uniquement des comptes marginaux

12

Soit une distribution conjointe de deux variables catégorielles , avec . Supposons que échantillons ont été tirés de cette distribution, mais nous ne recevons que les comptes marginaux, à savoir pour :px,yX,Yx,y{1,,K}nj=1,,K

Sj=i=1nδ(Xi=l),Tj=i=1nδ(Yi=j),

Quel est l'estimateur du maximum de vraisemblance pour , étant donné ? Est-ce connu? Calculable? Existe-t-il d'autres approches raisonnables à ce problème que le ML?px,ySj,Tj

RS
la source
2
Les marges ne contiennent pas vraiment d'informations * sur la distribution conjointe (en effet c'est le point des copules). * ou du moins à peine - les marges contiennent évidemment au moins quelques informations, car les décomptes intérieurs ne peuvent pas dépasser les marges dans lesquelles vous vous trouvez. Avez-vous une distribution conjointe spécifique en tête? Pourquoi avez-vous utilisé le tag? Êtes-vous à la recherche d'une solution à entropie maximale? maximum-entropy
Glen_b -Reinstate Monica
Je ne connais pas très bien les copules. Sont-ils également valables pour le cas catégorique? Qu'est-ce que cela signifierait - que chaque distribution conjointe avec les mêmes marges aurait la même probabilité? (J'ai marqué l'entropie maximale parce que je pensais que cela pourrait être pertinent.)
RS
Nous n'avons même pas encore de modèle de distribution spécifié, nous ne sommes donc pas vraiment en mesure de calculer . Les possibilités sont nombreuses ici. Des copules existent pour le cas catégorique ordonné (sinon unique), mais mon but en le soulevant était de donner une motivation pour expliquer pourquoi les marginaux n'étaient pas très informatifs en général. En ce qui concerne le cas de dénombrement par catégorie, Fisher a traité les marges comme non informatives au sujet de l'articulation, d'où le test exact de Fisher-Irwin. Si vous voulez une entropie maximale, vous pouvez probablement obtenir une solution d'entropie maximale, mais je ne sais pas si ce sera très instructif sur ...P(x|θ)
Glen_b -Reinstate Monica
(ctd) ... structure. Dans les cas ME ou ML, je pense que vous aurez d'abord besoin d'une sorte de modèle, que ce soit multinomial bivarié, hypergéométrique bivarié ou quelque chose de plus structuré. Voir cette question , où l'auteur met une référence dans une réponse. Cela peut être utile.
Glen_b -Reinstate Monica
1
Je voulais dire une distribution multinomiale bivariée générale. La question parle du cas où les sommes de la distribution sont données et nous voyons des échantillons de la distribution conjointe. Nous avons ici les sommes de l'échantillon. Je pense que le problème est bien défini dans le cas ML (la solution n'est peut-être pas unique mais je ne sais pas).
RS

Réponses:

4

Ce type de problème a été étudié dans l'article «Augmentation des données dans les tables de contingence multivoie avec des totaux marginaux fixes» de Dobra et al (2006). Soit les paramètres du modèle, soit la table des nombres entiers non observée pour chaque paire , et soit l'ensemble des tables entières dont les nombres marginaux sont égaux . La probabilité d'observer les dénombrements marginaux est alors: oùn ( x , y ) C ( S , T ) ( S , T ) ( S , T ) p ( S , T | θ ) = nC ( S , T ) p ( n | θ ) p ( n | θ ) n θ θθn(x,y)C(S,T)(S,T)(S,T)

p(S,T|θ)=nC(S,T)p(n|θ)
p(n|θ)est la distribution d'échantillonnage multinomiale. Ceci définit la fonction de vraisemblance pour ML, mais l'évaluation directe est impossible, sauf pour les petits problèmes. L'approche qu'ils recommandent est MCMC, où vous mettez alternativement à jour et en échantillonnant à partir d'une distribution de proposition et en acceptant le changement selon le taux d'acceptation de Metropolis-Hastings. Cela pourrait être adapté pour trouver un maximum approximatif sur utilisant Monte Carlo EM. nθθ

Une approche différente utiliserait des méthodes variationnelles pour approximer la somme sur . Les contraintes marginales peuvent être encodées sous forme de graphe factoriel et l'inférence sur peut être effectuée en utilisant la propagation des attentes. θnθ

Pour voir pourquoi ce problème est difficile et n'admet pas de solution triviale, considérons le cas . En prenant comme somme des lignes et comme somme des colonnes, deux tables de comptage sont possibles: Par conséquent, la fonction de vraisemblance est Le MLE pour ce problème est ce qui correspond à supposer le tableau de gauche. En revanche, l'estimation que vous obtiendriez en supposant l'indépendance est S T [ 0 1 2 0 ]S=(1,2),T=(2,1)ST

[0120][1011]
p(S,T|θ)=3p12p212+6p11p21p22
p^x,y=[01/32/30]
qx,y=[1/32/3][2/31/3]=[2/91/94/92/9]
qui a une valeur de vraisemblance plus petite.
Tom Minka
la source
N'est-il pas possible d'obtenir une solution analytique?
Ben Kuhn
Merci! L'article semble pertinent, bien qu'il semble être du point de vue bayésien. Qu'en est-il du cas spécifique où est en fait la distribution elle-même, à savoir , pour toutes les paires ? Pensez-vous qu'il y aurait une solution analytique dans ce cas? θ = { θ x , y } ( x , y )θθ={θx,y}(x,y)
RS
Je ne soupçonnerais pas qu'il existe une solution analytique. J'ai ajouté un exemple pour illustrer cela.
Tom Minka
Merci. Peut-être est-ce vrai asymptotiquement? Ensuite, le conditionnement sur les totaux de marge est le même que le conditionnement sur les distributions de marge (après normalisation), et la log-vraisemblance pour chaque table entière non observée est proportionnelle à son entropie. Peut-être quelque chose avec AEP alors?
RS
1

Comme l'a souligné @Glen_b, cela n'est pas suffisamment spécifié. Je ne pense pas que vous puissiez utiliser le maximum de vraisemblance à moins que vous ne puissiez spécifier entièrement la vraisemblance.

Si vous vouliez assumer l'indépendance, le problème est assez simple (d'ailleurs, je pense que la solution serait la solution d'entropie maximale qui a été suggérée). Si vous ne voulez pas ou ne pouvez pas imposer de structure supplémentaire à votre problème et que vous souhaitez toujours une sorte d'approximation des valeurs des cellules, vous pouvez utiliser les limites de copule Fréchet – Hoeffding . Sans hypothèses supplémentaires, je ne pense pas que vous puissiez aller plus loin.

F. Tusell
la source
La probabilité dans cette boîte serait multinomiale. Pourquoi est-ce insuffisant?
RS
Si je comprends bien, la probabilité est fonction des paramètres compte tenu des données. Ici, vous n'avez pas de valeurs pour chaque cellule, seulement les marginales, donc vous n'avez pas une seule fonction des paramètres que vous pouvez calculer, et encore moins maximiser. Il existe en général de nombreuses configurations de cellules compatibles avec les marges, et chacune donnerait une probabilité différente.
F. Tusell
1
Ouais, mais ça va. Les paramètres sont , les données sont les marginales. Je peux toujours calculer la probabilité des marginaux étant donné - c'est la somme de toutes les probabilités des configurations de cellules qui donnent les marginaux. C'est une seule fonction que je peux maximiser. pp
RS
1

Edit: Cette réponse est basée sur une hypothèse incorrecte selon laquelle la probabilité des dénombrements marginaux donnés n'est qu'une fonction des probabilités marginales et . J'y pense toujours.px,ypx=ypx,ypy=xpx,y

Les mauvaises choses suivent:

Comme mentionné dans un commentaire, le problème avec la recherche de «l'estimateur du maximum de vraisemblance pour est qu'il n'est pas unique. Par exemple, considérons le cas avec binaires et les marginaux . Les deux estimateurspx,yX,YS1=S2=T1=T2=10

p=(120012),p=(14141414)

ont les mêmes probabilités marginales et dans tous les cas, et ont donc des probabilités égales (qui maximisent toutes deux la fonction de vraisemblance, comme vous pouvez le vérifier).pxpy


En effet, quels que soient les marginaux (tant que deux d'entre eux sont non nuls dans chaque dimension), la solution du maximum de vraisemblance n'est pas unique. Je vais le prouver pour le cas binaire. Soit une solution de vraisemblance maximale. Sans perte de généralité, supposons . Alors a les mêmes marginaux et est donc aussi une solution de vraisemblance maximale.p=(abcd)0<adp=(0b+ac+ada)


Si vous souhaitez en outre appliquer une contrainte d'entropie maximale, vous obtenez une solution unique qui, comme l'a déclaré F. Tussell, est la solution dans laquelle sont indépendants. Vous pouvez voir ceci comme suit:X,Y

L'entropie de la distribution est ; maximisation sous réserve de et (de manière équivalente, où et ) en utilisant les multiplicateurs de Lagrange donne l'équation:H(p)=x,ypx,ylogpx,yxpx,y=pyypx,y=pxg(p)=0gx(p)=ypx,ypxgy(p)=xpx,ypy

H(p)=kXYλkgk(p)

Tous les gradients de chaque sont 1, donc en coordonnées cela àgk

1logpx,y=λx+λypx,y=e1λxλy

plus les contraintes d'origine et . Vous pouvez vérifier que cela est satisfait lorsque et , donnanty p x , yxpx,y=pyypx,y=pxe1/2λx=pxe1/2λy=py

px,y=pxpy.
Ben Kuhn
la source
Pour le premier exemple: ce qui est donné, ce sont les chiffres marginaux , pas les probabilités marginales. Dans le cas que vous avez décrit, la probabilité de pour le gauche est la probabilité de qui est de . Pour le bon , c'est , qui est . Même s'il n'y a pas de solution unique, cela ne signifie pas que nous ne pouvons pas pointer vers une solution. L'entropie maximale donne une solution unique, mais ce n'est peut-être pas la probabilité maximale. p [ [ 10 , 0 ] , [ 0 , 10 ] ] 2 - 20 p 0 a 10 P r [ [ a , 10 - a ] , [ 10 - a , a ] ] 10 4 -S1=S2=T1=T2=10p[[10,0],[0,10]]220p0a10Pr[[a,10a],[10a,a]]10420
RS
Vous avez mal calculé les probabilités; par exemple, vous avez oublié d'inclure les coefficients binomiaux. Mais vous avez raison en ce que les deux matrices donnent des distributions conjointes différentes des comptes marginaux même si elles donnent la même distribution marginale des comptes marginaux. (Oui!) J'y penserai plus.
Ben Kuhn