Estimateurs du maximum de vraisemblance - Gaussien multivarié

20

Le contexte

Le gaussien multivarié apparaît fréquemment dans l'apprentissage automatique et les résultats suivants sont utilisés dans de nombreux livres et cours de ML sans les dérivations.

Étant donné les données sous la forme d'une matrice de dimensions , si nous supposons que les données suivent une distribution gaussienne à variables avec des paramètres moyenne ( ) et matrice de covariance ( ) les estimateurs du maximum de vraisemblance sont donnés par: m × p p μ p × 1 Σ p × pXm×ppμp×1Σp×p

  • μ^=1mje=1mX(je)=X¯
  • Σ^=1mje=1m(X(je)-μ^)(X(je)-μ^)T

Je comprends que la connaissance du gaussien multivarié est une condition préalable pour de nombreux cours de ML, mais il serait utile d'avoir une dérivation complète dans une réponse autonome une fois pour toutes car je pense que de nombreux auto-apprenants rebondissent autour des statistiques. Sites Web stackexchange et math.stackexchange à la recherche de réponses.


Question

Quelle est la dérivation complète des estimateurs du maximum de vraisemblance pour la gaussienne multivariée


Exemples:

Ces notes de cours (page 11) sur l'analyse discriminante linéaire, ou celles-ci utilisent les résultats et supposent des connaissances antérieures.

Il y a aussi quelques postes qui ont été partiellement répondus ou fermés:

Xavier Bourret Sicotte
la source

Réponses:

24

Dériver les estimateurs du maximum de vraisemblance

Supposons que nous ayons vecteurs aléatoires, chacun de taille : où chaque vecteur aléatoire peut être interprété comme une observation (point de données) à travers variables. Si chaque est iid en tant que vecteurs gaussiens multivariés:p X ( 1 ) , X ( 2 ) , . . . , X ( m ) p X ( i )mpX(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

Où les paramètres sont inconnus. Pour obtenir leur estimation, nous pouvons utiliser la méthode du maximum de vraisemblance et maximiser la fonction de vraisemblance logarithmique.μ,Σ

Notez que par l'indépendance des vecteurs aléatoires, la densité conjointe des données est le produit des densités individuelles , c'est-à-dire . Prendre le logarithme donne la fonction log-vraisemblancem i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|X(je))=Journalje=1mFX(je)(X(je)|μ,Σ)=Journal je=1m1(2π)p/2|Σ|1/2exp(-12(X(je)-μ)TΣ-1(X(je)-μ))=je=1m(-p2Journal(2π)-12Journal|Σ|-12(X(je)-μ)TΣ-1(X(je)-μ))

l(μ,Σ;)=-mp2Journal(2π)-m2Journal|Σ|-12je=1m(X(je)-μ)TΣ-1(X(je)-μ)

Dérivationμ^

Pour prendre la dérivée par rapport à et égaler à zéro, nous utiliserons l'identité de calcul matricielle suivante:μ

wAAwTUNEww=2UNEw si ne dépend pas de et est symétrique.wUNEUNE

μl(μ,Σ|X(je))=je=1mΣ-1(μ-X(je))=0Puisque Σ est défini positif0=mμ-je=1mX(je)μ^=1mje=1mX(je)=X¯

Ce qu'on appelle souvent le vecteur moyen de l' échantillon .

DérivationΣ^

La dérivation du MLE pour la matrice de covariance nécessite plus de travail et l'utilisation des propriétés d'algèbre linéaire et de calcul suivantes:

  • La trace est invariante sous permutations cycliques des produits matriciels:tr[UNECB]=tr[CUNEB]=tr[BCUNE]
  • Puisque est scalaire, nous pouvons prendre sa trace et obtenir la même valeur:x t A x = t r [ x T A x ] = t r [ x t x A ]XTUNEXxtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

La combinaison de ces propriétés nous permet de calculer

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

Quel est le produit extérieur du vecteur avec lui-même.x

Nous pouvons maintenant réécrire la fonction log-vraisemblance et calculer la dérivée wrt (note est constante) CΣ1C

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

Égal à zéro et résolution deΣ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Sources

Xavier Bourret Sicotte
la source
Des épreuves alternatives, des formes plus compactes ou une interprétation intuitive sont les bienvenues!
Xavier Bourret Sicotte
Dans la dérivation de , pourquoi doit-il être défini positif? Semble-t-il suffisant que soit inversible? Pour une matrice inversible , uniquement lorsque ? Σ Σ A A x = 0 x = 0μΣΣAAx=0x=0
Tom Bennett
Pour clarifier, est une matrice m × m qui peut avoir des composantes diagonales et non diagonales finies indiquant une corrélation entre les vecteurs, n'est-ce pas? Si tel est le cas, dans quel sens ces vecteurs sont-ils indépendants? Aussi, pourquoi la fonction de probabilité conjointe est-elle égale à la vraisemblance? La densité conjointe, f ( x , y ) , ne devrait-elle pas être égale à la probabilité multipliée par l'a priori, c'est-à-dire f ( x | y ) f ( y ) ? Σm×mf(x,y)f(x|y)f(y)
Mathews24
1
@TomBennett la matrice sigma est définie positive par définition - voir stats.stackexchange.com/questions/52976/… pour la preuve. L'identité du calcul matriciel nécessite que la matrice soit symétrique et non définie positive. Mais comme les matrices définies positives sont toujours symétriques, cela fonctionne
Xavier Bourret Sicotte
1
Oui en effet - l'indépendance entre les observations permet d'obtenir la vraisemblance - le libellé est peut-être assez flou - c'est la version multivariée de la vraisemblance. Le prieur est toujours hors de propos malgré tout
Xavier Bourret Sicotte
5

Une autre preuve de Σ qui prend la dérivée par rapport à Σ directement:Σ^Σ

Reprenant la log-vraisemblance comme ci-dessus:

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
Sμ=i=1m(x(i)μ)(x(i)μ)Tet nous avons utilisé les valeurs cyclique et propriétés linéaires detr. Pour calculer/Σnous observons d'abord que
Σlog|Σ|=ΣT=Σ1
par la quatrième propriété ci-dessus. Pour prendre la dérivée du second terme, nous aurons besoin de la propriété
Xtr(AX1B)=(X1BAX1)T.
(extrait deThe Matrix Cookbook, équation 63). En appliquant cela avecB=Inous obtenons que
Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1
carΣetSμsont symétriques. Alors
Σ(μ,Σ)mΣ1Σ1SμΣ1.
Mettre ce paramètre à 0 et réarranger donne Σ =1
Σ^=1mSμ.

Λ=Σ1/Σ1/Σ

Eric Kightley
la source