J'essaie de comprendre à un niveau plus profond l'ubiquité du log-vraisemblance (et peut-être plus généralement log-probabilités) dans les statistiques et la théorie des probabilités. Les probabilités logarithmiques apparaissent partout: nous travaillons généralement avec la vraisemblance logarithmique pour l'analyse (par exemple pour la maximisation), les informations de Fisher sont définies en termes de dérivée seconde de la vraisemblance logarithmique, l'entropie est une probabilité logarithmique attendue , La divergence de Kullback-Liebler implique des log-probabilités, la divergence attendue est une log-vraisemblance attendue, etc.
J'apprécie maintenant les nombreuses raisons pratiques et pratiques . De nombreux fichiers PDF communs et utiles proviennent de familles exponentielles, ce qui conduit à des termes élégamment simplifiés lorsqu'ils sont transformés en journal. Les sommes sont plus faciles à utiliser que les produits (surtout pour les différencier). Les sondes logarithmiques ont un grand avantage en virgule flottante par rapport aux sondes droites. La transformation du journal d'un pdf convertit souvent une fonction non concave en fonction concave. Mais quelle est la raison / justification / motivation théorique des log-probs?
Comme exemple de ma perplexité, considérons les informations de Fisher (FI). L'explication habituelle de l'intuition de l'IF est que la dérivée seconde de la vraisemblance logarithmique nous dit à quel point la similitude logarithmique est: une log-vraisemblance très élevée signifie que le MLE est bien spécifié et nous sommes relativement sûrs de sa valeur. , alors qu'un logarithme presque plat (faible courbure) signifie que de nombreuses valeurs de paramètres différents sont presque aussi bonnes (en termes de log-vraisemblance) que le MLE, donc notre MLE est plus incertain.
Tout cela est bien beau, mais n'est-il pas plus naturel de simplement trouver la courbure de la fonction de vraisemblance elle-même (PAS transformée en logarithme)? À première vue, l'accent mis sur la transformation logarithmique semble arbitraire et erroné. Nous sommes certainement plus intéressés par la courbure de la fonction de vraisemblance réelle. Quelle était la motivation de Fisher pour travailler avec la fonction de score et la Hesse de la log-vraisemblance à la place?
La réponse est-elle simplement que, en fin de compte, nous avons de bons résultats de la log-vraisemblance asymptotiquement? Par exemple, Cramer-Rao et la normalité du MLE / postérieur. Ou y a-t-il une raison plus profonde?
la source
Réponses:
C'est vraiment juste une commodité pour loglikelihood, rien de plus.
Je veux dire la commodité des sommes par rapport aux produits: , les sommes sont plus faciles à gérer à bien des égards, comme la différenciation ou l'intégration. Ce n'est pas une commodité uniquement pour les familles exponentielles, j'essaie de dire.ln( ∏jeXje) = ∑jelnXje
Lorsque vous traitez avec un échantillon aléatoire, les probabilités sont de la forme: , donc la loglik vraisemblance décomposerait ce produit en somme, ce qui est plus facile à manipuler et à analyser. Il est utile que tout ce qui nous intéresse soit le point du maximum, la valeur au maximum ne soit pas importante, nous pouvons donc appliquer toute transformation monotone telle que le logarithme.L = ∏jepje
Sur l'intuition de courbure. En fin de compte, c'est essentiellement la même chose que le deuxième dérivé de loglik vraisemblance.
MISE À JOUR: C'est ce que je voulais dire sur la courbure. Si vous avez une fonction , alors sa courbure serait ( voir (14) sur Wolfram):y= f( x )
La dérivée seconde de la vraisemblance logarithmique:
Au point du maximum, la dérivée première est évidemment nulle, donc on obtient: Par conséquent, ma raillerie que la courbure de la la vraisemblance et la dérivée seconde de loglikelihood sont la même chose, en quelque sorte.
D'un autre côté, si la dérivée première de la vraisemblance est petite non seulement au point du maximum, mais autour de celui-ci, c'est-à-dire que la fonction de vraisemblance est plate, alors nous obtenons: Maintenant, la probabilité plate n'est pas une bonne chose pour nous, car elle rend la recherche du maximum plus difficile numériquement, et la probabilité maximale n'est pas meilleure que les autres points autour d'elle, c'est-à-dire que les erreurs d'estimation des paramètres sont élevées.
Et encore une fois, nous avons toujours la courbure et la relation dérivée seconde. Alors pourquoi Fisher n'a-t-il pas examiné la courbure de la fonction de vraisemblance? Je pense que c'est pour la même raison de commodité. Il est plus facile de manipuler la probabilité de connexion en raison des sommes plutôt que du produit. Il a donc pu étudier la courbure de la vraisemblance en analysant la dérivée seconde de la loglik vraisemblance. Bien que l'équation semble très simple pour la courbure , en réalité, vous prenez une dérivée seconde du produit, qui est plus compliquée que la somme des dérivées secondes.κm a x= f′ ′( xm a x)
MISE À JOUR 2:
Voici une démonstration. Je dessine une fonction de vraisemblance (entièrement composée), sa a) courbure et b) la dérivée 2e de son logarithme. Sur le côté gauche, vous voyez la probabilité étroite et sur le côté droit, elle est large. Vous voyez comment au point de la probabilité maximale a) et b) convergent, comme ils le devraient. Plus important encore, vous pouvez étudier la largeur (ou la planéité) de la fonction de vraisemblance en examinant la dérivée seconde de sa log-vraisemblance. Comme je l'ai écrit plus tôt, ce dernier est techniquement plus simple que le premier à analyser.
Il n'est pas surprenant que la dérivée 2e plus profonde des signaux de loglik vraisemblance flatte la fonction de vraisemblance autour de son maximum, ce qui n'est pas souhaité car cela provoque une plus grande erreur d'estimation des paramètres.
Code MATLAB au cas où vous souhaiteriez reproduire les tracés:
MISE À JOUR 3:
Dans le code ci-dessus, j'ai branché une fonction arbitraire en forme de cloche dans l'équation de courbure, puis calculé la dérivée seconde de son journal. Je n'ai rien redimensionné, les valeurs sont directement issues des équations pour montrer l'équivalence que j'ai mentionnée plus tôt.
Voici le tout premier article sur la probabilité que Fisher a publié alors qu'il était encore à l'université, "Sur un critère absolu pour les courbes de fréquence d'ajustement", Messenger of Mathmatics, 41: 155-160 (1912)
Comme j'insistais tout au long, il ne mentionne aucune connexion "plus profonde" des probabilités de journalisation à l'entropie et à d'autres sujets fantaisistes, et il n'offre pas encore son critère d'information. Il met simplement l'équation à la p.54 puis procède à parler de maximisation des probabilités. À mon avis, cela montre qu'il utilisait le logarithme comme une méthode pratique pour analyser les probabilités conjointes elles-mêmes. Il est particulièrement utile dans l'ajustement de courbe continue, pour lequel il donne une formule évidente à la 55: Bonne chance pour analyser cette probabilité (ou probabilité selon Fisher) sans le journal!log P = ∫ ∞ - ∞ log f d x PJournalP′= ∑n1Journalp
Une chose à noter lors de la lecture de l'article, il ne faisait que commencer par un travail d'estimation du maximum de probabilité, et a fait plus de travail au cours des 10 années suivantes, donc même le terme MLE n'a pas encore été inventé, pour autant que je sache.
la source
Point supplémentaire . Certaines des distributions de probabilité couramment utilisées (y compris la distribution normale, la distribution exponentielle, la distribution de Laplace, pour n'en nommer que quelques-unes) sont log-concaves . Cela signifie que leur logarithme est concave. Cela rend la maximisation de la probabilité logarithmique beaucoup plus facile que la maximisation de la probabilité d'origine (ce qui est particulièrement pratique dans les méthodes de vraisemblance maximale ou maximale a posteriori). Pour donner un exemple, l'utilisation de la méthode de Newton pour maximiser directement une distribution gaussienne multivariée peut prendre un grand nombre d'étapes tandis que la maximisation d'un paraboloïde (le journal de la distribution gaussienne multivariée) prend exactement une étape.
la source
L'importance théorique de la log-vraisemblance peut être vue sous (au moins) deux points de vue: la théorie de la vraisemblance asymptotique et la théorie de l'information.
La première d'entre elles (je crois) est la théorie asymptotique de la log-vraisemblance. Je pense que la théorie de l'information a commencé bien après que Fisher ait fixé le maximum de probabilité sur son chemin vers la domination du 20ème siècle.
Dans la théorie de la vraisemblance, une log-vraisemblance parabolique a une place centrale dans l'inférence. Lucien Le Cam a joué un rôle important dans l'élucidation de l' importance de la log-vraisemblance quadratique dans la théorie asymptotique.
Lorsque vous avez une log-vraisemblance quadratique, non seulement la courbure sur le MLE vous indique qualitativement la précision avec laquelle vous pouvez estimer le paramètre, mais nous savons également que l'erreur est normalement distribuée avec une variance égale à l'inverse de la courbure. Lorsque la log-vraisemblance est approximativement quadratique, alors nous disons que ces résultats sont approximativement ou asymptotiquement valables.
Une deuxième raison est l'importance de la log-vraisemblance (ou log-probabilité) dans la théorie de l'information , où c'est la quantité principale utilisée pour mesurer le contenu de l'information.
Il existe une variante d'entropie appelée la divergence de Kullback-Liebler qui est minimisée par l'estimation du maximum de vraisemblance. En particulier, si la vraie distribution des données est alors la distribution "la plus proche" (telle que mesurée par la divergence de Kullback-Liebler) à dans la famille paramétrique est donnée par , où est l'estimation du maximum de vraisemblance.g f ( θ ) f ( θ ) θg g F( θ ) F( θ^) θ^
Enfin, la log-vraisemblance est la quantité utilisée dans divers critères de sélection de modèle tels que AIC et BIC . Essentiellement, chacun de ces critères équivaut à un paramètre / degré de liberté supplémentaire avec un multiple de .lnL^
Ainsi, la vraisemblance logarithmique, en plus d'être une transformation numérique utile, a des liens profonds avec l'inférence et la théorie de l'information.
la source
TLDR: Il est beaucoup plus facile de dériver des sommes que des produits, car l'opérateur dérivé est linéaire avec la sommation mais avec le produit, il faut faire la règle du produit. C'est une complexité linéaire par rapport à une complexité polynomiale d'ordre supérieur
la source