Pourquoi l'erreur quadratique moyenne est-elle l'entropie croisée entre la distribution empirique et un modèle gaussien?

28

Dans 5.5, Deep Learning (par Ian Goodfellow, Yoshua Bengio et Aaron Courville), il déclare que

Toute perte constituée d'une log-vraisemblance négative est une entropie croisée entre la distribution empirique définie par l'ensemble d'apprentissage et la distribution de probabilité définie par le modèle. Par exemple, l'erreur quadratique moyenne est l'entropie croisée entre la distribution empirique et un modèle gaussien.

Je ne comprends pas pourquoi ils sont équivalents et les auteurs ne s'étendent pas sur ce point.

Mufei Li
la source

Réponses:

32

Soit les données . Écrivez pour la distribution empirique. Par définition, pour toute fonction ,x=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

Soit le modèle densité où est défini sur le support du modèle. L' entropie croisée de et est définie comme étantMef(x)fF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

En supposant que est un échantillon aléatoire simple, sa probabilité logarithmique négative estx

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

en vertu des propriétés des logarithmes (ils convertissent les produits en sommes). L'expression est une expression fois constante . Parce que les fonctions de perte ne sont utilisées dans les statistiques qu'en les comparant, cela ne fait aucune différence que l'une soit une constante (positive) fois l'autre. C'est dans ce sens que la probabilité logarithmique négative "est une" entropie croisée dans la citation.(2)n(1)


Il faut un peu plus d'imagination pour justifier la deuxième affirmation de la citation. Le lien avec l'erreur quadratique est clair, car pour un "modèle gaussien" qui prédit des valeurs aux points , la valeur de à un tel point estp(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

qui est l'erreur quadratique mais redimensionnée de et décalée d'une fonction de . Une façon de rendre la citation correcte est de supposer qu'elle ne considère pas que partie du "modèle" - doit être déterminé d'une manière ou d'une autre indépendamment des données. Dans ce cas, les différences entre les erreurs quadratiques moyennes sont proportionnelles aux différences entre les entropies croisées ou les log-vraisemblances, ce qui rend les trois équivalents aux fins de l'ajustement du modèle.(xp(x))2 1/(2σ2)σσσ

(En règle générale, cependant, fait partie du processus de modélisation, auquel cas la citation ne serait pas tout à fait correcte.)σ=σ(x)

whuber
la source
1
+1 avec deux suggestions - pourrait utiliser au lieu de pour éviter toute confusion avec . La seconde est que la plupart des estimations de vont être . Lorsque vous le branchez et l'ajoutez, vous obtenez . Similaire à la formule de type AIC ...g()f()F()σ2ki=1n(xip(xi))212log[i=1n(xip(xi))2]+h(k)
Probabilités
@probabilityislogic Je choisis la paire et parce qu'ils ne représentent des quantités étroitement liées. Ff
whuber
Salut, je pense que cela ne s'applique qu'à la distribution linéaire. Dans les problèmes de distribution non linéaire, je pense que nous pouvons toujours utiliser MSE comme fonction de coût, non?
Lion Lai
5

Pour les lecteurs du livre Deep Learning, je voudrais ajouter à l'excellente réponse acceptée que les auteurs expliquent leur déclaration en détail dans la section 5.5.1 à savoir l' exemple: la régression linéaire comme maximum de vraisemblance .

Là, ils listent exactement la contrainte mentionnée dans la réponse acceptée:

p(y|x)=N(y;y^(x;w),σ2) . La fonction donne la prédiction de la moyenne du gaussien. Dans cet exemple, nous supposons que la variance est fixée à une constante choisie par l'utilisateur.y^(x;w)σ2

Ensuite, ils montrent que la minimisation du MSE correspond à l'estimation du maximum de vraisemblance et donc la minimisation de l'entropie croisée entre la distribution empirique et .p(y|x)

Kilian Batzner
la source