Pouvons-nous utiliser MLE pour estimer les poids du réseau neuronal?

23

Je viens de commencer à étudier les statistiques et les modèles. Actuellement, je crois comprendre que nous utilisons le MLE pour estimer le ou les meilleurs paramètres d'un modèle. Cependant, lorsque j'essaie de comprendre le fonctionnement des réseaux de neurones, il semble qu'ils utilisent généralement une autre approche pour estimer les paramètres à la place. Pourquoi n'utilisons-nous pas le MLE ou est-il possible de l'utiliser du tout?

tor
la source

Réponses:

16

Les estimations MLE des poids des réseaux de neurones artificiels (ANN) sont certainement possibles ; en effet, c'est tout à fait typique. Pour les problèmes de classification, une fonction objective standard est l'entropie croisée, qui est la même que la log-vraisemblance négative d'un modèle binomial. Pour les problèmes de régression, une erreur quadratique résiduelle est utilisée, qui est parallèle à la régression MLE de l'OLS.

Mais il y a quelques problèmes à supposer que les belles propriétés des MLE dérivées dans les statistiques classiques valent également pour les MLE des réseaux de neurones.

  1. Il y a un problème général avec l'estimation des ANN: il existe de nombreuses solutions symétriques aux ANNs même à une seule couche. Inverser les signes des poids pour la couche cachée et inverser les signes des paramètres d'activation de la couche cachée ont tous deux la même probabilité. De plus, vous pouvez permuter n'importe lequel des nœuds masqués et ces permutations ont également la même probabilité. Ceci est conséquent dans la mesure où vous devez reconnaître que vous renoncez à l'identifiabilité. Cependant, si l'identifiabilité n'est pas importante, vous pouvez simplement accepter que ces solutions alternatives ne sont que des réflexions et / ou des permutations les unes des autres.

    Cela contraste avec les usages classiques du MLE en statistiques, comme une régression OLS: le problème OLS est convexe, et strictement convexe lorsque la matrice de conception est pleine. Une forte convexité implique qu'il existe un seul minimiseur unique.

  2. Les RNA auront tendance à surajuster les données lors de l'utilisation d'une solution non contrainte. Les poids auront tendance à s'éloigner de l'origine à des valeurs invraisemblablement grandes qui ne généralisent pas bien ou prédisent de nouvelles données avec beaucoup de précision. L'imposition de la décroissance du poids ou d'autres méthodes de régularisation a pour effet de réduire les estimations de poids à zéro. Cela ne résout pas nécessairement le problème d'indétermination de (1), mais cela peut améliorer la généralisation du réseau.

  3. La fonction de perte n'est pas convexe et l'optimisation peut trouver des solutions localement optimales qui ne sont pas globalement optimales. Ou peut-être que ces solutions sont des points de selle, où certaines méthodes d'optimisation se bloquent. Les résultats de cet article montrent que les méthodes d'estimation modernes éludent ce problème.

  4. L1L2

Sycorax dit de réintégrer Monica
la source
2
Je vous prie de différer avec ce que vous dites. Les différents minima locaux résultant des symétries sont tous de la même qualité, vous n'avez donc pas à vous en soucier du tout. Ce que vous voulez probablement dire, c'est que les RNA n'ont pas de fonctions de perte convexe, ce qui rend l'optimisation plus impliquée et ne garantit pas de trouver un optimum global. Cependant, il y a eu assez récemment des preuves que les RNA n'ont pas vraiment beaucoup de problèmes de minima locaux, mais plutôt des problèmes de point de selle. Voir par exemple arxiv.org/abs/1412.6544 .
bayerj
11

Dans les problèmes de classification, maximiser la probabilité est le moyen le plus courant de former un réseau neuronal (modèles supervisés et non supervisés).

En pratique, nous minimisons généralement la log-vraisemblance négative (MLE équivalent). La seule contrainte pour utiliser la log-vraisemblance négative est d'avoir une couche de sortie qui peut être interprétée comme une distribution de probabilité. Une couche de sortie softmax est couramment utilisée pour ce faire. Notez que dans la communauté des réseaux de neurones, la log-vraisemblance négative est parfois appelée entropie croisée. Des termes de régularisation peuvent bien sûr être ajoutés (et peuvent parfois être interprétés comme des distributions antérieures sur les paramètres, dans ce cas nous recherchons le maximum a posteriori ( MAP )).

AdeB
la source