Soit les données . Écrivez pour la distribution empirique. Par définition, pour toute fonction ,x=(x1,…,xn)F(x)f
EF(x)[f(X)]=1n∑i=1nf(xi).
Soit le modèle densité où est défini sur le support du modèle. L' entropie croisée de et est définie comme étantMef(x)fF(x)M
H(F(x),M)=−EF(x)[log(ef(X)]=−EF(x)[f(X)]=−1n∑i=1nf(xi).(1)
En supposant que est un échantillon aléatoire simple, sa probabilité logarithmique négative estx
−log(L(x))=−log∏i=1nef(xi)=−∑i=1nf(xi)(2)
en vertu des propriétés des logarithmes (ils convertissent les produits en sommes). L'expression est une expression fois constante . Parce que les fonctions de perte ne sont utilisées dans les statistiques qu'en les comparant, cela ne fait aucune différence que l'une soit une constante (positive) fois l'autre. C'est dans ce sens que la probabilité logarithmique négative "est une" entropie croisée dans la citation.(2)n(1)
Il faut un peu plus d'imagination pour justifier la deuxième affirmation de la citation. Le lien avec l'erreur quadratique est clair, car pour un "modèle gaussien" qui prédit des valeurs aux points , la valeur de à un tel point estp(x)xf
f(x;p,σ)=−12(log(2πσ2)+(x−p(x))2σ2),
qui est l'erreur quadratique mais redimensionnée de et décalée d'une fonction de . Une façon de rendre la citation correcte est de supposer qu'elle ne considère pas que partie du "modèle" - doit être déterminé d'une manière ou d'une autre indépendamment des données. Dans ce cas, les différences entre les erreurs quadratiques moyennes sont proportionnelles aux différences entre les entropies croisées ou les log-vraisemblances, ce qui rend les trois équivalents aux fins de l'ajustement du modèle.(x−p(x))2 1/(2σ2)σσσ
(En règle générale, cependant, fait partie du processus de modélisation, auquel cas la citation ne serait pas tout à fait correcte.)σ=σ(x)
Pour les lecteurs du livre Deep Learning, je voudrais ajouter à l'excellente réponse acceptée que les auteurs expliquent leur déclaration en détail dans la section 5.5.1 à savoir l' exemple: la régression linéaire comme maximum de vraisemblance .
Là, ils listent exactement la contrainte mentionnée dans la réponse acceptée:
Ensuite, ils montrent que la minimisation du MSE correspond à l'estimation du maximum de vraisemblance et donc la minimisation de l'entropie croisée entre la distribution empirique et .p(y|x)
la source