Cette question me laisse perplexe depuis longtemps. Je comprends l'utilisation de 'log' pour maximiser la probabilité, je ne pose donc pas la question de 'log'.
Ma question est la suivante: puisque maximiser la probabilité de log équivaut à minimiser la "probabilité de log négative" (NLL), pourquoi avons-nous inventé cette NLL? Pourquoi n'utilisons-nous pas la "probabilité positive" tout le temps? Dans quelles circonstances la NLL est-elle favorisée?
J'ai trouvé une petite explication ici. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , et cela semble expliquer l'équivalence évidente en profondeur, mais ne résout pas ma confusion.
Toute explication sera appréciée.
Réponses:
C'est une réponse alternative : les optimiseurs dans les progiciels statistiques fonctionnent généralement en minimisant le résultat d'une fonction. Si votre fonction donne d'abord la valeur de vraisemblance, il est plus pratique d'utiliser logarithme afin de diminuer la valeur renvoyée par la fonction de vraisemblance. Ensuite, comme les fonctions de vraisemblance et de vraisemblance de journal ont la même tendance à la hausse ou à la baisse, vous pouvez minimiser la vraisemblance négative du journal afin de réaliser l’ estimation de vraisemblance maximale de la fonction que vous testez. Voir par exemple la
nlminb
fonction en R icila source
Les optimiseurs minimisant généralement une fonction, nous utilisons donc une log-vraisemblance négative comme une minimisation équivalente à une maximisation de la log-vraisemblance ou de la probabilité elle-même.
Juste pour être complet, je mentionnerais que le logarithme est une fonction monotone, donc optimiser une fonction revient à optimiser son logarithme. Effectuer la transformation de journal de la fonction de vraisemblance facilite sa gestion (la multiplication devient une somme) et celle-ci est également numériquement plus stable. En effet, l’ampleur des probabilités peut être très faible. Faire une transformation de journal convertit ces petits nombres en valeurs négatives plus grandes qu'une machine à précision finie peut mieux gérer.
la source
Ici minimiser signifie réduire la distance de deux distributions à sa plus basse: la distribution cible de Bernoulli et la distribution des résultats générés. Nous mesurons la distance de deux distributions en utilisant la divergence de Kullback-Leibler (également appelée entropie relative) et, en raison de la théorie des grands nombres, minimiser la divergence de KL revient à minimiser l’entropie croisée (entropie croisée multiclasses, voir ici ou classification binaire, voir ici et ici ).
Ainsi
peut être traduit en
Maximiser la vraisemblance du journal équivaut à minimiser la distance entre deux distributions et équivaut donc à minimiser la divergence de KL, puis l'entropie croisée.
Je pense que c'est devenu assez intuitif.
la source
La réponse est plus simple que vous ne le pensez. C’est la convention que nous appelons fonction d’optimisation «fonction de coût» ou «fonction de perte». Nous souhaitons donc les minimiser, plutôt que les maximiser, et ainsi la vraisemblance logarithmique négative se forme, plutôt que la vraisemblance positive dans votre contexte. mot. Techniquement, les deux sont corrects. En passant, si nous voulons maximiser quelque chose, nous l'appelons généralement "fonction d'utilité" et l'objectif est donc de les maximiser.
la source