Estimateur du maximum de vraisemblance de la distribution conjointe, compte tenu uniquement des comptes marginaux

Soit une distribution conjointe de deux variables catégorielles , avec . Supposons que échantillons ont été tirés de cette distribution, mais nous ne recevons que les comptes marginaux, à savoir pour : $p_{x,y}$ $X,Y$ $x,y\in\{1,\ldots,K\}$ $n$ $j=1,\ldots,K$

S_{j} = \sum_{i = 1}^{n} δ (X_{i} = l), T_{j} = \sum_{i = 1}^{n} δ (Y_{i} = j),

$S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)},$

Quel est l'estimateur du maximum de vraisemblance pour , étant donné ? Est-ce connu? Calculable? Existe-t-il d'autres approches raisonnables à ce problème que le ML? $p_{x,y}$ $S_j,T_j$

categorical-data maximum-likelihood joint-distribution marginal maximum-entropy RS
la source

Les marges ne contiennent pas vraiment d'informations * sur la distribution conjointe (en effet c'est le point des copules). * ou du moins à peine - les marges contiennent évidemment au moins quelques informations, car les décomptes intérieurs ne peuvent pas dépasser les marges dans lesquelles vous vous trouvez. Avez-vous une distribution conjointe spécifique en tête? Pourquoi avez-vous utilisé le tag? Êtes-vous à la recherche d'une solution à entropie maximale?

$\:$ maximum-entropy

Glen_b -Reinstate Monica

Je ne connais pas très bien les copules. Sont-ils également valables pour le cas catégorique? Qu'est-ce que cela signifierait - que chaque distribution conjointe avec les mêmes marges aurait la même probabilité? (J'ai marqué l'entropie maximale parce que je pensais que cela pourrait être pertinent.)

Nous n'avons même pas encore de modèle de distribution spécifié, nous ne sommes donc pas vraiment en mesure de calculer . Les possibilités sont nombreuses ici. Des copules existent pour le cas catégorique ordonné (sinon unique), mais mon but en le soulevant était de donner une motivation pour expliquer pourquoi les marginaux n'étaient pas très informatifs en général. En ce qui concerne le cas de dénombrement par catégorie, Fisher a traité les marges comme non informatives au sujet de l'articulation, d'où le test exact de Fisher-Irwin. Si vous voulez une entropie maximale, vous pouvez probablement obtenir une solution d'entropie maximale, mais je ne sais pas si ce sera très instructif sur ...

P (x | θ)

$P(x|\theta)$

Glen_b -Reinstate Monica

(ctd) ... structure. Dans les cas ME ou ML, je pense que vous aurez d'abord besoin d'une sorte de modèle, que ce soit multinomial bivarié, hypergéométrique bivarié ou quelque chose de plus structuré. Voir cette question , où l'auteur met une référence dans une réponse. Cela peut être utile.

Glen_b -Reinstate Monica

Je voulais dire une distribution multinomiale bivariée générale. La question parle du cas où les sommes de la distribution sont données et nous voyons des échantillons de la distribution conjointe. Nous avons ici les sommes de l'échantillon. Je pense que le problème est bien défini dans le cas ML (la solution n'est peut-être pas unique mais je ne sais pas).

Réponses:

Ce type de problème a été étudié dans l'article «Augmentation des données dans les tables de contingence multivoie avec des totaux marginaux fixes» de Dobra et al (2006). Soit les paramètres du modèle, soit la table des nombres entiers non observée pour chaque paire , et soit l'ensemble des tables entières dont les nombres marginaux sont égaux . La probabilité d'observer les dénombrements marginaux est alors: où $\theta$ $\mathbf{n}$ $(x,y)$ $C(S,T)$ $(S,T)$ $(S,T)$

p (S, T | θ) = \sum_{n \in C (S, T)} p (n | θ)

$p(S,T | \theta) = \sum_{\mathbf{n} \in C(S,T)} p(\mathbf{n} | \theta)$

p (n | θ)

$p(\mathbf{n} | \theta)$ est la distribution d'échantillonnage multinomiale. Ceci définit la fonction de vraisemblance pour ML, mais l'évaluation directe est impossible, sauf pour les petits problèmes. L'approche qu'ils recommandent est MCMC, où vous mettez alternativement à jour et en échantillonnant à partir d'une distribution de proposition et en acceptant le changement selon le taux d'acceptation de Metropolis-Hastings. Cela pourrait être adapté pour trouver un maximum approximatif sur utilisant Monte Carlo EM.

n

$\mathbf{n}$

θ

$\theta$

θ

$\theta$

Une approche différente utiliserait des méthodes variationnelles pour approximer la somme sur . Les contraintes marginales peuvent être encodées sous forme de graphe factoriel et l'inférence sur peut être effectuée en utilisant la propagation des attentes. $\mathbf{n}$ $\theta$

Pour voir pourquoi ce problème est difficile et n'admet pas de solution triviale, considérons le cas . En prenant comme somme des lignes et comme somme des colonnes, deux tables de comptage sont possibles: Par conséquent, la fonction de vraisemblance est Le MLE pour ce problème est ce qui correspond à supposer le tableau de gauche. En revanche, l'estimation que vous obtiendriez en supposant l'indépendance est $S=(1,2), T=(2,1)$ $S$ $T$

[\begin{matrix} 0 & 1 \\ 2 & 0 \end{matrix}] [\begin{matrix} 1 & 0 \\ 1 & 1 \end{matrix}]

$\begin{bmatrix} 0 & 1 \\ 2 & 0 \end{bmatrix} \qquad \begin{bmatrix} 1 & 0 \\ 1 & 1 \end{bmatrix}$

p (S, T | θ) = 3 p_{12} p_{21}^{2} + 6 p_{11} p_{21} p_{22}

$p(S,T|\theta) = 3 p_{12} p_{21}^2 + 6 p_{11} p_{21} p_{22}$

{\hat{p}}_{x, y} = [\begin{matrix} 0 & 1 / 3 \\ 2 / 3 & 0 \end{matrix}]

$\hat{p}_{x,y} = \begin{bmatrix} 0 & 1/3 \\ 2/3 & 0 \end{bmatrix}$

q_{x, y} = [\begin{matrix} 1 / 3 \\ 2 / 3 \end{matrix}] [\begin{matrix} 2 / 3 & 1 / 3 \end{matrix}] = [\begin{matrix} 2 / 9 & 1 / 9 \\ 4 / 9 & 2 / 9 \end{matrix}]

$q_{x,y} = \begin{bmatrix} 1/3 \\ 2/3 \end{bmatrix} \begin{bmatrix} 2/3 & 1/3 \end{bmatrix} = \begin{bmatrix} 2/9 & 1/9 \\ 4/9 & 2/9 \end{bmatrix}$ qui a une valeur de vraisemblance plus petite.

Tom Minka
la source

N'est-il pas possible d'obtenir une solution analytique?

Ben Kuhn

Merci! L'article semble pertinent, bien qu'il semble être du point de vue bayésien. Qu'en est-il du cas spécifique où est en fait la distribution elle-même, à savoir , pour toutes les paires ? Pensez-vous qu'il y aurait une solution analytique dans ce cas?

θ

$\theta$

θ = {θ_{x, y}}

$\theta=\{\theta_{x,y}\}$

(x, y)

$(x,y)$

Je ne soupçonnerais pas qu'il existe une solution analytique. J'ai ajouté un exemple pour illustrer cela.

Tom Minka

Merci. Peut-être est-ce vrai asymptotiquement? Ensuite, le conditionnement sur les totaux de marge est le même que le conditionnement sur les distributions de marge (après normalisation), et la log-vraisemblance pour chaque table entière non observée est proportionnelle à son entropie. Peut-être quelque chose avec AEP alors?

Comme l'a souligné @Glen_b, cela n'est pas suffisamment spécifié. Je ne pense pas que vous puissiez utiliser le maximum de vraisemblance à moins que vous ne puissiez spécifier entièrement la vraisemblance.

Si vous vouliez assumer l'indépendance, le problème est assez simple (d'ailleurs, je pense que la solution serait la solution d'entropie maximale qui a été suggérée). Si vous ne voulez pas ou ne pouvez pas imposer de structure supplémentaire à votre problème et que vous souhaitez toujours une sorte d'approximation des valeurs des cellules, vous pouvez utiliser les limites de copule Fréchet – Hoeffding . Sans hypothèses supplémentaires, je ne pense pas que vous puissiez aller plus loin.

F. Tusell
la source

La probabilité dans cette boîte serait multinomiale. Pourquoi est-ce insuffisant?

Si je comprends bien, la probabilité est fonction des paramètres compte tenu des données. Ici, vous n'avez pas de valeurs pour chaque cellule, seulement les marginales, donc vous n'avez pas une seule fonction des paramètres que vous pouvez calculer, et encore moins maximiser. Il existe en général de nombreuses configurations de cellules compatibles avec les marges, et chacune donnerait une probabilité différente.

F. Tusell

Ouais, mais ça va. Les paramètres sont , les données sont les marginales. Je peux toujours calculer la probabilité des marginaux étant donné - c'est la somme de toutes les probabilités des configurations de cellules qui donnent les marginaux. C'est une seule fonction que je peux maximiser.

p

$p$

p

$p$

Edit: Cette réponse est basée sur une hypothèse incorrecte selon laquelle la probabilité des dénombrements marginaux donnés n'est qu'une fonction des probabilités marginales et . J'y pense toujours. $p_{x,y}$ $p_x = \sum_y p_{x,y}$ $p_y = \sum_x p_{x,y}$

Les mauvaises choses suivent:

Comme mentionné dans un commentaire, le problème avec la recherche de «l'estimateur du maximum de vraisemblance pour est qu'il n'est pas unique. Par exemple, considérons le cas avec binaires et les marginaux . Les deux estimateurs $p_{x, y}$ $X, Y$ $S_1 = S_2 = T_1 = T_2 = 10$

p = (\begin{array}{cc} \frac{1}{2} & 0 \\ 0 & \frac{1}{2} \end{array}), p = (\begin{array}{cc} \frac{1}{4} & \frac{1}{4} \\ \frac{1}{4} & \frac{1}{4} \end{array})

$p = \left(\begin{array}{cc} \frac12 & 0 \\ 0 & \frac12\end{array}\right), \qquad p = \left(\begin{array}{cc} \frac14 & \frac14 \\ \frac14 & \frac14\end{array}\right)$

ont les mêmes probabilités marginales et dans tous les cas, et ont donc des probabilités égales (qui maximisent toutes deux la fonction de vraisemblance, comme vous pouvez le vérifier). $p_x$ $p_y$

En effet, quels que soient les marginaux (tant que deux d'entre eux sont non nuls dans chaque dimension), la solution du maximum de vraisemblance n'est pas unique. Je vais le prouver pour le cas binaire. Soit une solution de vraisemblance maximale. Sans perte de généralité, supposons . Alors a les mêmes marginaux et est donc aussi une solution de vraisemblance maximale. $p = \left(\begin{array}{cc}a & b \\ c & d\end{array}\right)$ $0 < a \le d$ $p = \left(\begin{array}{cc}0 & b + a \\ c + a & d - a\end{array}\right)$

Si vous souhaitez en outre appliquer une contrainte d'entropie maximale, vous obtenez une solution unique qui, comme l'a déclaré F. Tussell, est la solution dans laquelle sont indépendants. Vous pouvez voir ceci comme suit: $X, Y$

L'entropie de la distribution est ; maximisation sous réserve de et (de manière équivalente, où et ) en utilisant les multiplicateurs de Lagrange donne l'équation: $H(p) = -\sum_{x,y} p_{x,y} \log p_{x,y}$ $\sum_x p_{x,y} = p_y$ $\sum_{y} p_{x,y} = p_x$ $\vec g(p) = 0$ $g_x(p) = \sum_y p_{x,y} - p_x$ $g_y(p) = \sum_x p_{x,y} - p_y$

\nabla H (p) = \sum_{k \in X \cup Y} λ_{k} \nabla g_{k} (p)

$\nabla H(p) = \sum_{ k \in X \cup Y} \lambda_k \nabla g_k(p)$

Tous les gradients de chaque sont 1, donc en coordonnées cela à $g_k$

1 - \log p_{x, y} = λ_{x} + λ_{y} ⟹ p_{x, y} = e^{1 - λ_{x} - λ_{y}}

$1 - \log p_{x,y} = \lambda_x + \lambda_y \implies p_{x,y} = e^{1-\lambda_x-\lambda_y}$

plus les contraintes d'origine et . Vous pouvez vérifier que cela est satisfait lorsque et , donnant $\sum_x p_{x,y} = p_y$ $\sum_{y} p_{x,y} = p_x$ $e^{1/2 - \lambda_x} = p_x$ $e^{1/2 - \lambda_y} = p_y$

p_{x, y} = p_{x} p_{y} .

$p_{x,y} = p_xp_y.$

Ben Kuhn
la source

Pour le premier exemple: ce qui est donné, ce sont les chiffres marginaux , pas les probabilités marginales. Dans le cas que vous avez décrit, la probabilité de pour le gauche est la probabilité de qui est de . Pour le bon , c'est , qui est . Même s'il n'y a pas de solution unique, cela ne signifie pas que nous ne pouvons pas pointer vers une solution. L'entropie maximale donne une solution unique, mais ce n'est peut-être pas la probabilité maximale.

S_{1} = S_{2} = T_{1} = T_{2} = 10

$S_1=S_2=T_1=T_2=10$

p

$p$

[[10, 0], [0, 10]]

$[[10,0],[0,10]]$

2^{- 20}

$2^{-20}$

p

$p$

\sum_{0 \leq a \leq 10} P r [[a, 10 - a], [10 - a, a]]

$\sum_{0\le a \le 10}{Pr[[a,10-a],[10-a,a]]}$

10 \cdot 4^{- 20}

$10\cdot 4^{-20}$

Vous avez mal calculé les probabilités; par exemple, vous avez oublié d'inclure les coefficients binomiaux. Mais vous avez raison en ce que les deux matrices donnent des distributions conjointes différentes des comptes marginaux même si elles donnent la même distribution marginale des comptes marginaux. (Oui!) J'y penserai plus.

Ben Kuhn