La question est légitime et j'ai eu la même confusion lorsque j'ai appris l'algorithme EM pour la première fois.
De manière générale, l'algorithme EM définit un processus itératif qui permet de maximiser la fonction de vraisemblance d'un modèle paramétrique dans le cas où certaines variables du modèle sont (ou sont traitées comme) «latentes» ou inconnues.
En théorie, dans le même but, vous pouvez utiliser un algorithme de minimisation pour trouver numériquement le maximum de la fonction de vraisemblance pour tous les paramètres. Cependant en situation réelle, cette minimisation serait:
- beaucoup plus de calculs
- moins robuste
Une application très courante de la méthode EM est l'ajustement d'un modèle de mélange. Dans ce cas, si l'on considère la variable qui affecte chaque échantillon à l'une des composantes en tant que variables "latentes", le problème est grandement simplifié.
Regardons un exemple. Nous avons N échantillons extraits d'un mélange de 2 distributions normales. Pour trouver les paramètres sans EM, nous devons minimiser:s = { sje}
- journalL (x,θ)=-log[ un1exp( ( x - μ1)22 σ21) +a2exp( ( x - μ2)22 σ22) ]
Au contraire, en utilisant l'algorithme EM, nous "assignons" d'abord chaque échantillon à un composant ( étape E ), puis nous ajustons (ou maximisons la probabilité de) chaque composant séparément ( étape M ). Dans cet exemple, l' étape M est simplement une moyenne pondérée pour trouver et . Itérer sur ces deux étapes est un moyen plus simple et plus robuste de minimiser .σ k - log L ( x , θ )μkσk- journalL (x,θ)
EM est utilisé car il est souvent impossible ou impossible de calculer directement les paramètres d'un modèle qui maximise la probabilité d'un ensemble de données compte tenu de ce modèle.
la source