J'étudie les statistiques et je rencontre souvent des formules contenant le log
et je suis toujours confus si je dois interpréter cela comme la signification standard de log
, c'est-à-dire la base 10, ou si dans les statistiques le symbole log
est généralement supposé être le logarithme naturel ln
.
J'étudie en particulier l' estimation de fréquence de Good-Turing à titre d'exemple, mais ma question est plus générale.
mathematical-statistics
notation
logarithm
Giuseppe Romagnuolo
la source
la source
ln
qui est considérée. Cependant, les deux sont liés :,log(x) = ln(x) / ln(10) = ln(x) / 2.303
et la fonction ln -likelihood atteint l'extremum au même point que la fonction log10 -likelihood.Réponses:
Il est prudent de supposer que sans base explicite = ln dans les statistiques, car le journal de base 10 n'est pas utilisé très souvent dans les statistiques. Cependant, d'autres affiches soulignent que le log 10 ou d'autres bases peuvent être communs dans certains autres domaines, où les statistiques sont appliquées, par exemple la théorie de l'information. Ainsi, lorsque vous lisez des articles dans d'autres domaines, cela devient parfois déroutant.log=ln log10
La page d'entropie de Wikipedia est un bon exemple d'utilisation confuse du . Dans la même page, ils signifient la base 2, e et toute base. Vous pouvez comprendre par quel contexte il s'agit, mais cela nécessite de lire le texte. Ce n'est pas un bon moyen de présenter le matériel. Comparez-le à la page Logarithme où la base est clairement indiquée dans chaque formule ou ln est utilisé. Personnellement, je pense que c'est la voie à suivre: toujours montrer la base lorsque le signe de journal est utilisé. Ce serait également conforme à la norme ISO car la norme ne définit pas l'utilisation d'une base non spécifiée avec le symbole de journal, comme l'a souligné @Henry.log e ln log log
Enfin, la norme ISO 31-11 prescrit les signes et lg pour les logarithmes en base 2 et 10. Les deux sont rarement utilisés de nos jours. Je me souviens que nous utilisions lg au lycée, mais c'était dans un autre siècle dans un autre monde. Je ne l'ai jamais vu depuis utilisé dans un contexte statistique. Il n'y a même pas de balise pour lb dans LaTeX.lb lg lg lb
la source
Ça dépend.
En dehors de quelques contextes, comme la conversion d'une valeur en décibels, les logarithmes en base 10 sont assez rares dans les équations. Cependant, les graphiques à l'échelle logarithmique sont souvent en base 10, bien que cela devrait être assez facile à vérifier à partir des étiquettes sur les axes.
Dans un contexte mathématique, un non orné est susceptible d'être le log naturel (c'est-à-dire log e ou ln ). D'un autre côté, l'informatique utilise souvent des logarithmes en base 2 ( log 2 ), et ils ne sont pas toujours clairement identifiés comme tels. La bonne nouvelle est que vous pouvez convertir entre les bases de manière triviale et utiliser la "mauvaise" base ne fera que votre réponse par un facteur constant.log loge ln log2
Dans l'article de 1995 de Good-Turing Without Tears de Gale , les logarithmes dans le texte sont en fait le (il le dit à la page 5), mais le code R / S + dans l'annexe utilise la fonction, qui est en fait log e ou ln . Comme le souligne @Henry ci-dessous, cela ne fait aucune différence pratique.log10 loge ln
log
Si j'étais obligé de deviner, voici quelques heuristiques:
Si des puissances de 2, ou 10 sont également présentes, les journaux auront probablement la base correspondante.e
S'il résulte de l'intégration de (ou, plus généralement, implique le calcul), il s'agit probablement d'un logarithme naturel.1/x
S'il résulte de la division répétée de quelque chose en deux (comme dans la recherche binaire), il s'agit probablement du . Plus généralement, quelque chose peut être divisé par n environ log n fois.log2 n logn
Les calculs théoriques de l'information utilisent généralement le , en particulier dans les travaux modernes. Cependant, vous pouvez vérifier les unités pour être sûr: bits → log 2 , nats → ln et bans → log 10 .log2 bits→log2 nats→ln bans→log10
Trouver le point où une fonction tombe ou monte à , (37% et 63%, respectivement) d'une valeur initiale suggère un logarithme naturel.1e or 1−1e
la source
Pour répondre à votre question: non, vous ne pouvez pas supposer une notation fixe générale pour le logarithme.
Une question similaire a été récemment discutée dans SE.Math: Quelle est la différence entre les trois types de logarithmes? d'un point de vue mathématique. Généralement, il existe différentes notations qui dépendent des habitudes (le semble utile en recherche médicale ) ou de la langue (par exemple en allemand, russe, français). Malheureusement, la même notation finit parfois par représenter des définitions différentes. Citant le lien SE.Math ci-dessus:log10
Très souvent, si vous n'êtes pas concerné par la signification des unités physiques (comme les décibels @Matt Krause), ni intéressé par des taux de changement spécifiques (en biostatistique, le ratio pour le changement de pli désigne souvent le logarithme de base 2 log 2 ), il est probable que le logarithme naturel ( log elog 2 log2 loge ) soit utilisé.
Par exemple, dans les transformées de puissance ou de Box-Cox (pour la stabilisation de la variance), le logarithme naturel apparaît comme une limite lorsque l'exposant tend vers0 .
Pour revenir à votre motivation initiale, l'estimation de la fréquence de Good-Turing, il est intéressant de lire The Population Frequencies of Species and the Estimation of Population Parameters , IJ Good, Biometrika, 1953. Ici, il a utilisé des logarithmes dans différents contextes: transformation variable pour stabilisation de la variance (mentionnant Bartlett et Anscombe), somme des séries harmoniques, entropie. Nous voyons qu'il utilise généralement comme logarithme naturel, et de temps en temps dans l'article spécifie log e ou log 10 , lorsque le contexte l'exige. Pour la stabilisation de la variance ou l'estimation de l'entropie de base, un facteur sur le logarithme ne change pas beaucoup le résultat, car le résultat permet un changement linéaire.log loge log10
la source
Dans l' information Akaike la base este , et ln(L^) de la probabilité maximale L est comparé de manière additive au nombre de paramètres k :
A I C = 2 ( k - ln ( L ) ) .L^ k AIC=2(k−ln(L)).
Il semble donc que si vous utilisez une autre base pour le logarithme dans l'AIC, vous pouvez finir par tirer la mauvaise conclusion et sélectionner le mauvais modèle.
la source