Je viens de commencer à étudier les statistiques et les modèles. Actuellement, je crois comprendre que nous utilisons le MLE pour estimer le ou les meilleurs paramètres d'un modèle. Cependant, lorsque j'essaie de comprendre le fonctionnement des réseaux de neurones, il semble qu'ils utilisent généralement une autre approche pour estimer les paramètres à la place. Pourquoi n'utilisons-nous pas le MLE ou est-il possible de l'utiliser du tout?
Dans les problèmes de classification, maximiser la probabilité est le moyen le plus courant de former un réseau neuronal (modèles supervisés et non supervisés).
En pratique, nous minimisons généralement la log-vraisemblance négative (MLE équivalent). La seule contrainte pour utiliser la log-vraisemblance négative est d'avoir une couche de sortie qui peut être interprétée comme une distribution de probabilité. Une couche de sortie softmax est couramment utilisée pour ce faire. Notez que dans la communauté des réseaux de neurones, la log-vraisemblance négative est parfois appelée entropie croisée. Des termes de régularisation peuvent bien sûr être ajoutés (et peuvent parfois être interprétés comme des distributions antérieures sur les paramètres, dans ce cas nous recherchons le maximum a posteriori ( MAP )).
la source