Pourquoi minimisons-nous la probabilité négative si cela équivaut à une maximisation de la probabilité?

47

Cette question me laisse perplexe depuis longtemps. Je comprends l'utilisation de 'log' pour maximiser la probabilité, je ne pose donc pas la question de 'log'.

Ma question est la suivante: puisque maximiser la probabilité de log équivaut à minimiser la "probabilité de log négative" (NLL), pourquoi avons-nous inventé cette NLL? Pourquoi n'utilisons-nous pas la "probabilité positive" tout le temps? Dans quelles circonstances la NLL est-elle favorisée?

J'ai trouvé une petite explication ici. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , et cela semble expliquer l'équivalence évidente en profondeur, mais ne résout pas ma confusion.

Toute explication sera appréciée.

Tony
la source
3
La probabilité maximale de journalisation n'est pas une fonction de perte, mais son négatif est tel qu'expliqué dans l'article de la dernière section. C'est une question de cohérence. Supposons que vous disposiez d'un système d'apprentissage intelligent essayant différentes fonctions de perte pour un problème donné. L'ensemble des fonctions de perte contiendra la perte au carré, la perte absolue, etc. Pour obtenir une liste cohérente, vous allez ajouter une probabilité de journal négative à la liste des fonctions de perte.
Cagdas Ozgenc

Réponses:

41

C'est une réponse alternative : les optimiseurs dans les progiciels statistiques fonctionnent généralement en minimisant le résultat d'une fonction. Si votre fonction donne d'abord la valeur de vraisemblance, il est plus pratique d'utiliser logarithme afin de diminuer la valeur renvoyée par la fonction de vraisemblance. Ensuite, comme les fonctions de vraisemblance et de vraisemblance de journal ont la même tendance à la hausse ou à la baisse, vous pouvez minimiser la vraisemblance négative du journal afin de réaliser l’ estimation de vraisemblance maximale de la fonction que vous testez. Voir par exemple la nlminbfonction en R ici

Nicola Dinapoli
la source
10
Je dirais que cela va même au-delà des optimiseurs et s’enracine dans les conventions de la théorie de l’optimisation. Il semble que la minimisation soit souvent considérée comme l'optimisation par défaut. Par exemple, considérons le nom "optimisation convexe", qui accompagne la minimisation mais pourrait tout aussi bien être appelé "optimisation concave".
Bitwise
47

Les optimiseurs minimisant généralement une fonction, nous utilisons donc une log-vraisemblance négative comme une minimisation équivalente à une maximisation de la log-vraisemblance ou de la probabilité elle-même.

Juste pour être complet, je mentionnerais que le logarithme est une fonction monotone, donc optimiser une fonction revient à optimiser son logarithme. Effectuer la transformation de journal de la fonction de vraisemblance facilite sa gestion (la multiplication devient une somme) et celle-ci est également numériquement plus stable. En effet, l’ampleur des probabilités peut être très faible. Faire une transformation de journal convertit ces petits nombres en valeurs négatives plus grandes qu'une machine à précision finie peut mieux gérer.

Luca
la source
4
Par exemple, je rencontre fréquemment des probabilités de journal de l'ordre de -40 000 dans mon travail. Dans ce régime, il est numériquement impossible de travailler avec la probabilité elle-même.
Will Vousden
3

Ici minimiser signifie réduire la distance de deux distributions à sa plus basse: la distribution cible de Bernoulli et la distribution des résultats générés. Nous mesurons la distance de deux distributions en utilisant la divergence de Kullback-Leibler (également appelée entropie relative) et, en raison de la théorie des grands nombres, minimiser la divergence de KL revient à minimiser l’entropie croisée (entropie croisée multiclasses, voir ici ou classification binaire, voir ici et ici ).

Ainsi

maximiser la probabilité de journal équivaut à minimiser la "probabilité de journal négative"

peut être traduit en

Maximiser la vraisemblance du journal équivaut à minimiser la distance entre deux distributions et équivaut donc à minimiser la divergence de KL, puis l'entropie croisée.

Je pense que c'est devenu assez intuitif.

Lerner Zhang
la source
1

La réponse est plus simple que vous ne le pensez. C’est la convention que nous appelons fonction d’optimisation «fonction de coût» ou «fonction de perte». Nous souhaitons donc les minimiser, plutôt que les maximiser, et ainsi la vraisemblance logarithmique négative se forme, plutôt que la vraisemblance positive dans votre contexte. mot. Techniquement, les deux sont corrects. En passant, si nous voulons maximiser quelque chose, nous l'appelons généralement "fonction d'utilité" et l'objectif est donc de les maximiser.

Yang
la source