Motivation théorique pour utiliser log-vraisemblance vs vraisemblance

18

J'essaie de comprendre à un niveau plus profond l'ubiquité du log-vraisemblance (et peut-être plus généralement log-probabilités) dans les statistiques et la théorie des probabilités. Les probabilités logarithmiques apparaissent partout: nous travaillons généralement avec la vraisemblance logarithmique pour l'analyse (par exemple pour la maximisation), les informations de Fisher sont définies en termes de dérivée seconde de la vraisemblance logarithmique, l'entropie est une probabilité logarithmique attendue , La divergence de Kullback-Liebler implique des log-probabilités, la divergence attendue est une log-vraisemblance attendue, etc.

J'apprécie maintenant les nombreuses raisons pratiques et pratiques . De nombreux fichiers PDF communs et utiles proviennent de familles exponentielles, ce qui conduit à des termes élégamment simplifiés lorsqu'ils sont transformés en journal. Les sommes sont plus faciles à utiliser que les produits (surtout pour les différencier). Les sondes logarithmiques ont un grand avantage en virgule flottante par rapport aux sondes droites. La transformation du journal d'un pdf convertit souvent une fonction non concave en fonction concave. Mais quelle est la raison / justification / motivation théorique des log-probs?

Comme exemple de ma perplexité, considérons les informations de Fisher (FI). L'explication habituelle de l'intuition de l'IF est que la dérivée seconde de la vraisemblance logarithmique nous dit à quel point la similitude logarithmique est: une log-vraisemblance très élevée signifie que le MLE est bien spécifié et nous sommes relativement sûrs de sa valeur. , alors qu'un logarithme presque plat (faible courbure) signifie que de nombreuses valeurs de paramètres différents sont presque aussi bonnes (en termes de log-vraisemblance) que le MLE, donc notre MLE est plus incertain.

Tout cela est bien beau, mais n'est-il pas plus naturel de simplement trouver la courbure de la fonction de vraisemblance elle-même (PAS transformée en logarithme)? À première vue, l'accent mis sur la transformation logarithmique semble arbitraire et erroné. Nous sommes certainement plus intéressés par la courbure de la fonction de vraisemblance réelle. Quelle était la motivation de Fisher pour travailler avec la fonction de score et la Hesse de la log-vraisemblance à la place?

La réponse est-elle simplement que, en fin de compte, nous avons de bons résultats de la log-vraisemblance asymptotiquement? Par exemple, Cramer-Rao et la normalité du MLE / postérieur. Ou y a-t-il une raison plus profonde?

ratsalad
la source
2
J'ai posé une question similaire ici
Haitao Du

Réponses:

13

C'est vraiment juste une commodité pour loglikelihood, rien de plus.

Je veux dire la commodité des sommes par rapport aux produits: , les sommes sont plus faciles à gérer à bien des égards, comme la différenciation ou l'intégration. Ce n'est pas une commodité uniquement pour les familles exponentielles, j'essaie de dire.ln(ixi)=ilnxi

Lorsque vous traitez avec un échantillon aléatoire, les probabilités sont de la forme: , donc la loglik vraisemblance décomposerait ce produit en somme, ce qui est plus facile à manipuler et à analyser. Il est utile que tout ce qui nous intéresse soit le point du maximum, la valeur au maximum ne soit pas importante, nous pouvons donc appliquer toute transformation monotone telle que le logarithme.L=ipi

Sur l'intuition de courbure. En fin de compte, c'est essentiellement la même chose que le deuxième dérivé de loglik vraisemblance.

MISE À JOUR: C'est ce que je voulais dire sur la courbure. Si vous avez une fonction , alors sa courbure serait ( voir (14) sur Wolfram): y=f(x)

κ=f(x)(1+f(x)2)3/2

La dérivée seconde de la vraisemblance logarithmique:

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

Au point du maximum, la dérivée première est évidemment nulle, donc on obtient: Par conséquent, ma raillerie que la courbure de la la vraisemblance et la dérivée seconde de loglikelihood sont la même chose, en quelque sorte.

κmax=f(xmax)=Af(xmax)

D'un autre côté, si la dérivée première de la vraisemblance est petite non seulement au point du maximum, mais autour de celui-ci, c'est-à-dire que la fonction de vraisemblance est plate, alors nous obtenons: Maintenant, la probabilité plate n'est pas une bonne chose pour nous, car elle rend la recherche du maximum plus difficile numériquement, et la probabilité maximale n'est pas meilleure que les autres points autour d'elle, c'est-à-dire que les erreurs d'estimation des paramètres sont élevées.

κf(x)Af(x)

Et encore une fois, nous avons toujours la courbure et la relation dérivée seconde. Alors pourquoi Fisher n'a-t-il pas examiné la courbure de la fonction de vraisemblance? Je pense que c'est pour la même raison de commodité. Il est plus facile de manipuler la probabilité de connexion en raison des sommes plutôt que du produit. Il a donc pu étudier la courbure de la vraisemblance en analysant la dérivée seconde de la loglik vraisemblance. Bien que l'équation semble très simple pour la courbure , en réalité, vous prenez une dérivée seconde du produit, qui est plus compliquée que la somme des dérivées secondes.κmax=f(xmax)

MISE À JOUR 2:

Voici une démonstration. Je dessine une fonction de vraisemblance (entièrement composée), sa a) courbure et b) la dérivée 2e de son logarithme. Sur le côté gauche, vous voyez la probabilité étroite et sur le côté droit, elle est large. Vous voyez comment au point de la probabilité maximale a) et b) convergent, comme ils le devraient. Plus important encore, vous pouvez étudier la largeur (ou la planéité) de la fonction de vraisemblance en examinant la dérivée seconde de sa log-vraisemblance. Comme je l'ai écrit plus tôt, ce dernier est techniquement plus simple que le premier à analyser.

Il n'est pas surprenant que la dérivée 2e plus profonde des signaux de loglik vraisemblance flatte la fonction de vraisemblance autour de son maximum, ce qui n'est pas souhaité car cela provoque une plus grande erreur d'estimation des paramètres.

entrez la description de l'image ici

Code MATLAB au cas où vous souhaiteriez reproduire les tracés:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

MISE À JOUR 3:

Dans le code ci-dessus, j'ai branché une fonction arbitraire en forme de cloche dans l'équation de courbure, puis calculé la dérivée seconde de son journal. Je n'ai rien redimensionné, les valeurs sont directement issues des équations pour montrer l'équivalence que j'ai mentionnée plus tôt.

Voici le tout premier article sur la probabilité que Fisher a publié alors qu'il était encore à l'université, "Sur un critère absolu pour les courbes de fréquence d'ajustement", Messenger of Mathmatics, 41: 155-160 (1912)

Comme j'insistais tout au long, il ne mentionne aucune connexion "plus profonde" des probabilités de journalisation à l'entropie et à d'autres sujets fantaisistes, et il n'offre pas encore son critère d'information. Il met simplement l'équation à la p.54 puis procède à parler de maximisation des probabilités. À mon avis, cela montre qu'il utilisait le logarithme comme une méthode pratique pour analyser les probabilités conjointes elles-mêmes. Il est particulièrement utile dans l'ajustement de courbe continue, pour lequel il donne une formule évidente à la 55: Bonne chance pour analyser cette probabilité (ou probabilité selon Fisher) sans le journal!log P = - log f d x PlogP=1nlogp

logP=logfdx
P

Une chose à noter lors de la lecture de l'article, il ne faisait que commencer par un travail d'estimation du maximum de probabilité, et a fait plus de travail au cours des 10 années suivantes, donc même le terme MLE n'a pas encore été inventé, pour autant que je sache.

Aksakal
la source
5
Votre dernière phrase (sur la courbure) laisse entendre qu'il y a vraiment quelque chose de fondamental dans la probabilité des journaux et que la prise de journaux n'est pas seulement une simple «commodité». Je crois qu'il se passe beaucoup plus de choses ici que vous ne le laissez.
whuber
2
Votre discussion sur la courbure ne semble pas pertinente, car elle ne distingue pas une analyse de la probabilité logarithmique d'une analyse de la probabilité elle-même. Cette réponse semble se résumer à «les journaux sont pratiques», mais le problème est bien plus que cela, comme d'autres réponses commencent à le suggérer.
whuber
@Aksakal OK, merci, je pense que je vois ça maintenant. La fonction de vraisemblance est spécifiée jusqu'à une constante multiplicative arbitraire. Par conséquent, la valeur de la vraisemblance au maximum, , est également arbitraire. Par exemple, il est courant d'utiliser une fonction de vraisemblance normalisée unitaire, où . Dans ce cas, les dérivées secondes de la vraisemblance et de la log-vraisemblance sont équivalentes au maximum. f ( x m a x ) = 1f(xmax)f(xmax)=1
ratsalad
Ainsi, l'utilisation de la vraisemblance logarithmique pour les informations de Fisher sert apparemment à deux fins pratiques: (1) les probabilités logarithmiques sont plus faciles à utiliser, et (2) elle ignore naturellement le facteur d'échelle arbitraire. Et, il donne la même réponse que le dérivé 2e de la vraisemblance droite. Cela me semble un point important, qui n'était pas évident et que je n'ai jamais vu énoncé dans aucun texte statistique. Vraisemblablement, Fisher le savait.
ratsalad
f ( x m a x ) = 1 f ( x m a x ) = ( ln f ( x ) )
f(xmax)=(lnf(x))f(xmax)
et si la constante multiplicative arbitraire est prise commef(xmax)=1
f(xmax)=(lnf(x))
ratsalad
5

Point supplémentaire . Certaines des distributions de probabilité couramment utilisées (y compris la distribution normale, la distribution exponentielle, la distribution de Laplace, pour n'en nommer que quelques-unes) sont log-concaves . Cela signifie que leur logarithme est concave. Cela rend la maximisation de la probabilité logarithmique beaucoup plus facile que la maximisation de la probabilité d'origine (ce qui est particulièrement pratique dans les méthodes de vraisemblance maximale ou maximale a posteriori). Pour donner un exemple, l'utilisation de la méthode de Newton pour maximiser directement une distribution gaussienne multivariée peut prendre un grand nombre d'étapes tandis que la maximisation d'un paraboloïde (le journal de la distribution gaussienne multivariée) prend exactement une étape.

Luca Citi
la source
2
Pas si vite. Voir l'exercice 7.4 aux pages 393-394 de web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf
Mark L. Stone
Ce n'est pas log-concave. Le gaussien est log-concave par rapport à son argument ou au paramètre moyen, pas également par rapport à la variance. Si vous souhaitez également déterminer l'échelle, vous pouvez utiliser une distribution gamma normale, qui est également log-concave (en utilisant la précision au lieu de la variance).
Luca Citi
2
Exactement ça. Toutes les discussions sur la façon dont les journaux sont plus pratiques sont agréables, mais la convexité (ou la concavité, selon la perspective) est ce qui distingue vraiment la probabilité de journal comme étant la chose "correcte" avec laquelle travailler.
Meni Rosenfeld
2
Notez que j'ai déjà mentionné la concavité des journaux dans l'OP. Mais ce n'est encore qu'une «commodité», il n'y a aucune justification théorique ici pour la log-concavité, et en tout cas les log-vraisemblances ne sont pas log-concaves en général.
ratsalad
1
@ratsalad, oui, vous avez raison, c'est la commodité. Je pense que les probabilités logarithmiques sont un moyen supplémentaire d'examiner une fonction de probabilité. Je ne peux pas dire avec certitude laquelle est la meilleure. Si vous regardez les mesures [ en.wikipedia.org/wiki/… ), certaines fonctionnent efficacement sur la probabilité logarithmique (par exemple, la divergence KL qui est effectivement la valeur attendue de la différence des probabilités logarithmiques), d'autres directement sur la probabilité ( par exemple distance KS).
Luca Citi
4

L'importance théorique de la log-vraisemblance peut être vue sous (au moins) deux points de vue: la théorie de la vraisemblance asymptotique et la théorie de l'information.

La première d'entre elles (je crois) est la théorie asymptotique de la log-vraisemblance. Je pense que la théorie de l'information a commencé bien après que Fisher ait fixé le maximum de probabilité sur son chemin vers la domination du 20ème siècle.

Dans la théorie de la vraisemblance, une log-vraisemblance parabolique a une place centrale dans l'inférence. Lucien Le Cam a joué un rôle important dans l'élucidation de l' importance de la log-vraisemblance quadratique dans la théorie asymptotique.

Lorsque vous avez une log-vraisemblance quadratique, non seulement la courbure sur le MLE vous indique qualitativement la précision avec laquelle vous pouvez estimer le paramètre, mais nous savons également que l'erreur est normalement distribuée avec une variance égale à l'inverse de la courbure. Lorsque la log-vraisemblance est approximativement quadratique, alors nous disons que ces résultats sont approximativement ou asymptotiquement valables.

Une deuxième raison est l'importance de la log-vraisemblance (ou log-probabilité) dans la théorie de l'information , où c'est la quantité principale utilisée pour mesurer le contenu de l'information.

Il existe une variante d'entropie appelée la divergence de Kullback-Liebler qui est minimisée par l'estimation du maximum de vraisemblance. En particulier, si la vraie distribution des données est alors la distribution "la plus proche" (telle que mesurée par la divergence de Kullback-Liebler) à dans la famille paramétrique est donnée par , où est l'estimation du maximum de vraisemblance.g f ( θ ) f ( θ ) θggf(θ)f(θ^)θ^

Enfin, la log-vraisemblance est la quantité utilisée dans divers critères de sélection de modèle tels que AIC et BIC . Essentiellement, chacun de ces critères équivaut à un paramètre / degré de liberté supplémentaire avec un multiple de .lnL^

Ainsi, la vraisemblance logarithmique, en plus d'être une transformation numérique utile, a des liens profonds avec l'inférence et la théorie de l'information.


la source
Votre référence à l'utilisation par la théorie de l'information des log-vraisemblances est circulaire. Pourquoi utilisent- ils le journal? Probablement pour la même raison, surtout si vous considérez que la théorie de l'information est un domaine relativement nouveau par rapport aux statistiques.
Aksakal
@Aksakal oui et non. La théorie de l'information a été fondée en partie sur la mécanique statistique et l'entropie: en.wikipedia.org/wiki/Entropy . Boltzmann a défini l'entropie d'un système en utilisant le logarithme du nombre de microstats. Pourquoi les journaux? Parce que cela rend l'entropie / l'information additive (comme le souligne votre réponse)? Et alors? Au niveau numérique, la linéarité / additivité ouvre l'utilisation des méthodes puissantes de l'algèbre linéaire.
1
@Aksakal cependant, à un niveau plus fondamental, l'additivité transforme l'entropie / information en quelque chose comme une mesure ... semblable à la masse. Si vous combinez deux systèmes statistiquement indépendants, l'entropie du système combiné est la somme de l'entropie de chaque système. Voici une belle explicateur: physics.stackexchange.com/questions/240636/...
1
@Bey L'entropie statistique thermodynamique découle en fait directement de la distribution Boltzmann des microstats et de la thermo macroscopique classique (la forme d'entropie stat mech n'était pas un "choix"). La distribution de Boltzmann elle-même est une conséquence de deux prémisses: (1) la propriété physique que les énergies ne sont spécifiées que jusqu'à une constante additive arbitraire et (2) l'hypothèse fondamentale des mech stat que tous les microstats avec la même énergie ont la même probabilité. Ainsi, au niveau le plus profond, la thermo-entropie implique des sondes logarithmiques parce que l'énergie est additive et proportionnelle à la sonde logarithmique.
ratsalad
2
@ratsalad merci de vous étendre là-dessus ... comme vous pouvez le voir, aller au-delà de simples "journaux sont des explications plus faciles" de la vraisemblance des journaux peut prendre un peu loin. J'utilise le log-vraisemblance pour les raisons qu'Aksakal donne ... cependant, votre PO a demandé quelque chose de plus profond. J'ai donné deux exemples qui montrent des liens avec d'autres domaines qui ont influencé les statistiques et la théorie des probabilités. Je pense que les explications asymptotiques sont plus directes, mais l'entropie et la probabilité sont liées de manière à ce que les log-probabilités nous intéressent au-delà de la simple commodité numérique.
0

TLDR: Il est beaucoup plus facile de dériver des sommes que des produits, car l'opérateur dérivé est linéaire avec la sommation mais avec le produit, il faut faire la règle du produit. C'est une complexité linéaire par rapport à une complexité polynomiale d'ordre supérieur

Charlie Tian
la source
3
C'est ce que la question signifie par «pratique et pratique». C'est loin d'être la seule, voire la principale, raison pour laquelle l'analyse se concentre sur la vraisemblance logarithmique. Considérez, par exemple, à quoi ressemblerait l'expression pour les informations de Fisher en termes de vraisemblance plutôt que de log vraisemblance.
whuber
Oui bien sûr; Je pense que quand il a dit qu'il était "plus facile" de le trouver directement, je pensais qu'il voulait dire le contraire, car il est certainement plus facile de le trouver après avoir appliqué la transformation du journal.
Charlie Tian