Distribution asymptotique des multinomiaux

10

Je recherche la distribution limite de la distribution multinomiale sur les résultats d. IE, la distribution des éléments suivants

limnn12Xn

Xn est une variable aléatoire de valeur vectorielle de densité fn(x) pour x telle que ixi=n , xiZ,xi0 et 0 pour tous les autres x , où

fn(x)=n!i=1dpixixi!

J'ai trouvé une forme de Larry « Toutes les statistiques » de Wasserman théorème 14.6, la page 237 , mais pour limiter la distribution normale avec elle donne une matrice de covariance singulière, donc je ne suis pas sûr de savoir comment normaliser cela. Vous pouvez projeter le vecteur aléatoire dans un espace (d-1) dimensionnel pour créer une matrice de covariance à part entière, mais quelle projection utiliser?

Mise à jour 11/5

Ray Koopman a un joli résumé du problème du gaussien singulier. Fondamentalement, la matrice de covariance singulière représente une corrélation parfaite entre les variables, ce qui n'est pas possible de représenter avec une gaussienne. Cependant, on pourrait obtenir une distribution gaussienne pour la densité conditionnelle, conditionnée par le fait que la valeur du vecteur aléatoire est valide (les composantes s'additionnent à dans le cas ci-dessus).n

La différence pour la gaussienne conditionnelle, c'est que l'inverse est remplacé par un pseudo-inverse, et le facteur de normalisation utilise "produit de valeurs propres non nulles" au lieu de "produit de toutes les valeurs propres". Ian Frisce donne un lien avec quelques détails.

Il y a aussi un moyen d'exprimer le facteur de normalisation de la gaussienne conditionnelle sans se référer aux valeurs propres, voici une dérivation

Yaroslav Bulatov
la source
Que voulez-vous dire exactement en limitant la distribution dans ce cas?
Robby McKilliam
c'est-à-dire celui que vous obtenez du théorème de limite centrale, permettez-moi de mettre à jour les détails
Yaroslav Bulatov
1
Vous faites référence à la distribution asymptotique de l' estimateur du maximum de vraisemblance d'un multinomial. De plus, la première équation doit être n ^ {- 1}, pas n ^ {- 1/2}.
Simon Byrne
1
En notation ci-dessus, pour d = 2, X_n est le nombre de têtes après n jetons, donc c'est X_n / sqrt (n) qui approche de Normal, pas X_n / n, non?
Yaroslav Bulatov
1
Oui tu as raison. Je me confondais juste.
Simon Byrne

Réponses:

6

La covariance est toujours définie non négative (tout comme une distribution normale multivariée valide ), mais pas définie positive: ce que cela signifie, c'est que (au moins) un élément du vecteur aléatoire est une combinaison linéaire des autres.

Par conséquent, tout tirage de cette distribution reposera toujours sur un sous-espace de . En conséquence, cela signifie qu'il n'est pas possible de définir une fonction de densité (car la distribution est concentrée sur le sous-espace: pensez à la façon dont une normale univariée se concentrera à la moyenne si la variance est nulle).Rd

Cependant, comme suggéré par Robby McKilliam, dans ce cas, vous pouvez supprimer le dernier élément du vecteur aléatoire. La matrice de covariance de ce vecteur réduit sera la matrice d'origine, avec la dernière colonne et la dernière ligne supprimée, qui sera désormais définie positive et aura une densité (cette astuce fonctionnera dans d'autres cas, mais vous devez faire attention à quel élément vous laissez tomber, et vous devrez peut-être en laisser tomber plusieurs).

Simon Byrne
la source
Ce qui est un peu insatisfaisant, c'est la liberté de choix, pour obtenir une densité valide, je dois demander la distribution de A x où A est une matrice de rang d (1) x (d-1). L'erreur d'approximation CLT pour n fini sera-t-elle équivalente pour tous les choix de A? Ce n'est pas clair pour moi
Yaroslav Bulatov
1
Oui, l'erreur doit toujours être la même. Gardez à l'esprit que le dernier élément du vecteur dépend fonctionnellement des autres éléments (d-1) (à la fois dans l'échantillon fini et dans les cas asymptotiques).
Simon Byrne
Ce n'est pas que le «dernier» élément soit dépendant, le problème de Yaroslav est qu'il n'aime pas l'idée de choisir quel élément déposer. Je suis d'accord avec la réponse que vous avez donnée, mais je pense également qu'un peu plus de réflexion et d'attention sont nécessaires ici.
Robby McKilliam
@Yaroslav: Il serait peut-être bon d'avoir une idée de l'application que vous envisagez ici, car à ce stade, il y a potentiellement beaucoup de réponses à votre question.
Robby McKilliam
1
Robby - l'application que j'avais en tête est ici mathoverflow.net/questions/37582/… Fondamentalement, les intégrales gaussiennes suggérées par CLT donnent une très bonne approximation des sommes des coefficients binomiaux (pour les petits n, encore mieux que d'intégrer directement la représentation Gamma!), donc je voyais si je pouvais faire quelque chose de similaire pour obtenir des sommes approximatives de coefficients multinomiaux, dont j'ai besoin pour obtenir des limites d'erreur non asymptotiques pour divers monteurs (comme, la probabilité maximale)
Yaroslav Bulatov
2

Il n'y a pas de problème inhérent à la covariance singulière ici. Votre distribution asymptotique est la normale singulière. Voir http://fedc.wiwi.hu-berlin.de/xplore/tutorials/mvahtmlnode34.html qui donne la densité de la normale singulière.

Ian Fiske
la source
Techniquement, le problème est que la matrice de covariance singulière signifie que certains sous-ensembles de variables sont parfaitement corrélés, donc la densité de probabilité devrait être exactement 0 dans certaines zones, mais ce n'est pas possible avec une gaussienne. Une solution consiste plutôt à examiner la densité conditionnelle, conditionnée au fait que la variable aléatoire se trouve dans une région réalisable. Cela ressemble à ce qu'ils font dans le lien. Jamais entendu le terme "G-inverse", je suppose que c'est un pseudo-inverse de Penrose-Moore?
Yaroslav Bulatov
S'il est vrai qu'un gaussien conventionnel à dimensions d prend en charge tout , le gaussien singulier ne le fait pas. G-inverse est l'inverse généralisé, et oui, je crois que la définition de Penrose-Moore fonctionne ici. Je pense qu'il y a un CLT pour les covariances singulières, indiquant comme prévu, la convergence dans la distribution au CLT singulier, bien que je ne trouve pas de référence pour le moment. d
Ian Fiske
1

Il me semble que la matrice de covariance de Wasserman est singulière, pour la voir, multipliez-la par un vecteur de , c'est-à-dire [ 1 , 1 , 1 , , 1 ] ' de longueur d .d[1,1,1,,1]d

Wikipédia donne de toute façon la même matrice de covariance. Si nous nous limitons à une distribution binomiale, le théorème de la limite centrale standard nous dit que la distribution binomiale (après une mise à l'échelle appropriée) converge vers la normale lorsque devient grand (voir à nouveau wikipedia ). En appliquant des idées similaires, vous devriez être en mesure de montrer qu'un mulinomial à l'échelle appropriée va converger en distribution vers la normale multivariée, c'est-à-dire que chaque distribution marginale est juste un binôme et converge vers la distribution normale, et la variance entre eux est connue.n

Donc, je suis très confiant que vous constaterez que la distribution de converge vers la normale multivariée avec une moyenne nulle et une covariance C

Xnnpn
Cest la matrice de covariance du multinomial considéré etpest le vecteur de probabilités[p1,,pd].
Cn
Cp[p1,,pd]
Robby McKilliam
la source
1
mais la matrice de covariance du multinomial en question est singulière, vous l'avez montrée vous-même ...
Yaroslav Bulatov
dC[p1,p2,,pd1]
Une suggestion que j'ai trouvée est de toujours utiliser un gaussien, mais d'utiliser un pseudo-inverse au lieu d'inverse et un "produit de valeurs propres non nulles" à la place du déterminant. Pour d = 2, cela semble donner la forme de densité correcte, mais le facteur de normalisation est désactivé
Yaroslav Bulatov
1

|Si|=|Sj|i,jSii

jvdillon
la source
Ces matrices ne sont pas égales, voici la matrice de covariance yaroslavvb.com/upload/multinomial-covariance-matrix.png
Yaroslav Bulatov
Oui, c'est bien la matrice de covariance. La suppression de n'importe quelle colonne et ligne entraîne le même terme de normalisation pour le gaussien était mon point. Peut-être que je manque quelque chose d'évident?
jvdillon
n
pi=1jipjpiS
BTW, j'aime votre application de cette idée - d'où mon intérêt à répondre.
jvdillon