Dériver les estimateurs du maximum de vraisemblance
Supposons que nous ayons vecteurs aléatoires, chacun de taille : où chaque vecteur aléatoire peut être interprété comme une observation (point de données) à travers variables. Si chaque est iid en tant que vecteurs gaussiens multivariés:p X ( 1 ) , X ( 2 ) , . . . , X ( m ) p X ( i )mpX(1),X(2),...,X(m)pX(i)
X(i)∼Np(μ,Σ)
Où les paramètres sont inconnus. Pour obtenir leur estimation, nous pouvons utiliser la méthode du maximum de vraisemblance et maximiser la fonction de vraisemblance logarithmique.μ,Σ
Notez que par l'indépendance des vecteurs aléatoires, la densité conjointe des données est le produit des densités individuelles , c'est-à-dire . Prendre le logarithme donne la fonction log-vraisemblance∏ m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l ( μ , Σ | x( i ))= journal∏i = 1mFX( i )( x( i )| μ,Σ)= journal ∏i = 1m1( 2 π)p / 2| Σ |1/2exp(−12(x(i)−μ)TΣ−1(x(i)- μ))=∑i=1m(−p2log(2π) -12log| Σ | -12(x( je)- μ)TΣ-1(x( je)- μ ) )
l ( μ , Σ ; )= - m p2Journal( 2 π) - m2Journal| Σ | - 12∑i = 1m( x( i )- μ )TΣ- 1( x( i )- μ )
Dérivationμ^
Pour prendre la dérivée par rapport à et égaler à zéro, nous utiliserons l'identité de calcul matricielle suivante:μ
wAA∂wTA w∂w= 2 A w si
ne dépend pas de et est symétrique.wUNEUNE
∂∂μl ( μ , Σ | x( i ))0μ^= ∑i = 1mΣ- 1( μ - x( i )) =0Puisque Σ est positif défini= m μ - ∑i = 1mX( i )= 1m∑i = 1mX( i )= x¯
Ce qu'on appelle souvent le vecteur moyen de l' échantillon .
DérivationΣ^
La dérivation du MLE pour la matrice de covariance nécessite plus de travail et l'utilisation des propriétés d'algèbre linéaire et de calcul suivantes:
- La trace est invariante sous permutations cycliques des produits matriciels:t r [ A CB ] = t r [ CA B ] = t r [ B CA ]
- Puisque est scalaire, nous pouvons prendre sa trace et obtenir la même valeur:x t A x = t r [ x T A x ] = t r [ x t x A ]XTA xXtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
La combinaison de ces propriétés nous permet de calculer
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Quel est le produit extérieur du vecteur avec lui-même.x
Nous pouvons maintenant réécrire la fonction log-vraisemblance et calculer la dérivée wrt (note est constante) CΣ−1C
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Égal à zéro et résolution deΣ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
Sources
Une autre preuve de Σ qui prend la dérivée par rapport à Σ directement:Σˆ Σ
Reprenant la log-vraisemblance comme ci-dessus:ℓ(μ,Σ)===C−m2log|Σ|−12∑i=1mtr[(x(i)−μ)TΣ−1(x(i)−μ)]C−12(mlog|Σ|+∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1])C−12(mlog|Σ|+tr[SμΣ−1])
oùSμ=∑mi=1(x(i)−μ)(x(i)−μ)T et nous avons utilisé les valeurs cyclique et propriétés linéaires detr . Pour calculer∂ℓ/∂Σ nous observons d'abord que
∂∂Σlog|Σ|=Σ−T=Σ−1
par la quatrième propriété ci-dessus. Pour prendre la dérivée du second terme, nous aurons besoin de la propriété
∂∂Xtr(AX−1B)=−(X−1BAX−1)T.
(extrait deThe Matrix Cookbook, équation 63). En appliquant cela avecB=I nous obtenons que
∂∂Σtr[SμΣ−1]=−(Σ−1SμΣ−1)T=−Σ−1SμΣ−1
carΣ etSμ sont symétriques. Alors
∂∂Σℓ(μ,Σ)∝mΣ−1−Σ−1SμΣ−1.
Mettre ce paramètre à 0 et réarranger donne
Σ =1Σˆ=1mSμ.
la source