Je comprends que, étant donné un ensemble de observations indépendantes l' estimateur du maximum de vraisemblance (ou, de manière équivalente, le MAP avec a priori plat / uniforme) qui identifie les paramètres \ mathbf {θ} qui produisent la distribution du modèle p_ {modèle} \ gauche (\, \ cdot \,; \ mathbf {θ} \ droite) qui correspond le mieux à ces observations sera
ou, plus commodément
et voyez le rôle que peut jouer dans la définition d'une fonction de perte pour les réseaux de neurones profonds multi-classes, dans laquelle correspond aux paramètres entraînables du réseau (par exemple, et les observations sont les paires d'activations d'entrée et les étiquettes de classe correctes correspondantes , = { }, en prenant
Ce que je ne comprends pas, c'est comment cela se rapporte à la soi-disant «entropie croisée» de la sortie correcte (vectorisée), , et aux activations de sortie correspondantes du réseau, qui est utilisé dans la pratique en cas d' erreur de mesure / perte lors de la formation . Il existe plusieurs problèmes connexes:
Activations "comme probabilités"
L'une des étapes de l'établissement de la relation entre MLE et entropie croisée consiste à utiliser les activations de sortie "comme si" elles étaient des probabilités. Mais il n'est pas clair pour moi qu'ils le sont, ou du moins qu'ils le sont .
En calculant l'erreur d'apprentissage - en particulier, en l'appelant une "perte d'entropie croisée" - on suppose que (après normalisation des activations pour additionner à 1)
ou
afin que nous puissions écrire
Et ainsi
Mais alors que cela fait certainement de une probabilité (dans la mesure où tout est), il n'impose aucune restriction sur les autres activations.
Peut-on vraiment dire que vraiment des PMF dans ce cas? Y a-t-il quelque chose qui rend les pas en fait des probabilités (et simplement les "aiment") )?
Limitation à la catégorisation
L'étape cruciale ci-dessus pour assimiler MLE à entropie croisée repose entièrement sur la structure "one-hot" de qui caractérise un problème d'apprentissage multi-classe (à une seule étiquette). Toute autre structure du rendrait impossible le passage de à .
L'équation de la minimisation MLE et de l'entropie croisée est-elle limitée aux cas où les sont "à chaud"?
Différentes probabilités de formation et de prédiction
Lors de la prédiction, il est presque toujours vrai que
ce qui se traduit par des probabilités de prédiction correctes qui sont différentes des probabilités apprises au cours de la formation, sauf s'il est fiable que
Est-ce jamais le cas de manière fiable? Est-ce probablement au moins approximativement vrai? Ou existe-t-il un autre argument qui justifie cette équation de la valeur de l'activation apprise à la position de l'étiquette avec la probabilité que la valeur maximale des activations apprises se produise là?
Entropie et théorie de l'information
Même en supposant que les problèmes ci-dessus sont résolus et que les activations sont des PMF valides (ou peuvent être traitées de manière significative comme telles), de sorte que le rôle joué par l'entropie croisée dans le calcul ne pose pas de problème, il n'est pas clair de moi pourquoi il est utile ou significatif de parler de l'entropie de , puisque l'entropie de Shanon s'applique à un type d'encodage , qui n'est pas celui utilisé dans la formation du réseau.
Quel rôle l'entropie théorique de l'information joue-t-elle dans l'interprétation de la fonction de coût, au lieu de simplement fournir un outil (sous forme d'entropie croisée) pour en calculer un (qui correspond à MLE)?
softmax_cross_entropy_with_logits
: elles calculent et donc qui définit un réseau "conçu pour" produire des probabilités (au moins à l'emplacement de l'étiquette). Non?Je répondrai dans une perspective un peu plus générale, concernant la nature de comment, quand et pourquoi nous pouvons considérer les sorties NN comme des distributions de probabilité.
Dans le sens où le softmax impose que les sorties soient égales à 1 et également non négatives, la sortie du réseau est une distribution de probabilité discrète sur les classes, ou du moins peut être interprétée comme telle. Il est donc parfaitement raisonnable de parler d'entropies croisées et de probabilités maximales.
Cependant, ce que je pense que vous voyez (et c'est correct), c'est que les "probabilités" de sortie peuvent n'avoir rien à voir avec la probabilité réelle de correction . Il s'agit d'un problème bien connu en ML, appelé étalonnage . Par exemple, si votre classificateur des chiens et des chats dit , alors vous vous attendriez à ce que si vous preniez un ensemble d'exemples tous qui a , puis environ 30% des entrées serait mal classé (puisqu'il était seulement 70% confiance).fθ D C fθ(xi,C)=P(xi=C|θ)=0.7 S={xj} P(xj=C|θ)=0.7
Cependant, il s'avère que les méthodes de formation modernes n'imposent pas du tout cela! Voir Guo et al, sur l'étalonnage des réseaux de neurones modernes pour voir une discussion à ce sujet.
En d'autres termes, la "probabilité" de la sortie du softmax pourrait bien n'avoir rien à voir avec la confiance réelle du modèle. Et ce n'est pas surprenant: nous voulons simplement maximiser notre précision, et chaque exemple d'entrée a une probabilité de 1 d'être sa classe cible. Il y a peu d'incitatifs pour que le modèle réussisse. S'il n'a pas besoin d'estimer l'incertitude, pourquoi le devrait-il? L'entropie croisée ne résout pas ce problème; en effet, vous lui dites d'aller à chaque fois vers une fonction delta!
De nombreux travaux récents sur les réseaux de neurones bayésiens s'efforcent de remédier à ce problème. De tels modèles utilisent une distribution sur des paramètres étant donné les données , qui peuvent être intégrées pour obtenir une distribution de probabilité réelle . Cela permet de garantir des mesures d'incertitude utiles et un meilleur étalonnage. Cependant, c'est plus problématique sur le plan informatique.P(θ|X)=P(X|θ)P(θ)/P(X) P(yi|xi,X)=∫P(yi|θ,xi)P(θ|X)dθ
J'espère que je n'ai pas mal compris votre question!
la source
Les réseaux de neurones à action directe se rapprochent des vrais probabilités de classe lorsqu'ils sont correctement formés.
En 1991, Richard et Lippmann ont prouvé que les réseaux de neurones à action directe se rapprochent des probabilités de classe postérieures, lorsqu'ils sont entraînés avec des modèles cibles d'indicateur de classe {0,1} [ Richard MD, et Lippmann RP (1991). Les classificateurs de réseaux neuronaux estiment les probabilités bayésiennes a posteriori. Neural Computation, 3, 461– 483. ]. Dans leur ligne de preuve, ils utilisent des réseaux neuronaux à action directe à couche cachée.
Dans l'annotation mathématique de Duda & Hart [ Duda RO & Hart PE (1973) Pattern Classification and Scene Analysis, Wiley ], définissez les distributions de caractéristiques fournies comme vecteur d'entrée au réseau neuronal à rétroaction comme , où par exemple le vecteur de données est égal à , pour une tâche de classification avec 4 variables d' . L'index indique les classes possibles , .P(x∣ωi) x=(0.2,10.2,0,2) i n i∈{1,…,n}
Le classificateur de réseau neuronal à action directe apprend les probabilités postérieures, , lorsqu'il est entraîné par descente de gradient. Le modèle de sortie souhaité doit par exemple être , pour un problème de classification à deux classes. Le réseau neuronal à action directe a un nœud de sortie par classe. Le vecteur indique que le vecteur-caractéristique observé appartient à la 2ème classe.P^(ωi∣x) o=(0,1) (0,1)
la source
La log-vraisemblance n'est pas directement liée à l'entropie dans le cadre de votre question. La similitude est superficielle: les deux ont des sommes de logarithmes de quantités de probabilité.
Le logarithme en log-vraisemblance (MLE) se fait uniquement pour des raisons de calcul numérique. Le produit des probabilités peut être un très petit nombre, surtout si votre échantillon est grand. Ensuite, la plage de probabilités va de 1 à la valeur de plus en plus faible d'un produit. Lorsque vous obtenez le journal, le produit devient une somme et la fonction de journal compresse la plage de valeurs dans un domaine plus petit et plus facile à gérer. Le logarithme est une fonction monotone, donc le max (min) de log-vraisemblance produira la même réponse de la vraisemblance elle-même. Par conséquent, la présence du log dans l'expression MLE n'est pas importante au sens mathématique et est simplement une question de commodité.
La présence d'une fonction logarithme dans l'entropie est plus importante et trouve ses racines dans la mécanique statistique, une branche de la physique. Elle est liée à la distribution de Boltzmann , qui est utilisée dans la théorie des gaz. Vous pouvez dériver la pression atmosphérique en fonction de l'altitude en l'utilisant, par exemple.
la source