En statistiques, dois-je supposer que

18

J'étudie les statistiques et je rencontre souvent des formules contenant le loget je suis toujours confus si je dois interpréter cela comme la signification standard de log, c'est-à-dire la base 10, ou si dans les statistiques le symbole log est généralement supposé être le logarithme naturel ln.

J'étudie en particulier l' estimation de fréquence de Good-Turing à titre d'exemple, mais ma question est plus générale.

Giuseppe Romagnuolo
la source
2
"Pour de nombreuses applications, le logarithme naturel de la fonction de vraisemblance, appelé log-vraisemblance, est plus pratique à utiliser." en.wikipedia.org/wiki/Likelihood_function#Log-likelihood Dans les statistiques, nous travaillons souvent avec la fonction de vraisemblance, c'est généralement celle lnqui est considérée. Cependant, les deux sont liés :, log(x) = ln(x) / ln(10) = ln(x) / 2.303et la fonction ln -likelihood atteint l'extremum au même point que la fonction log10 -likelihood.
John_West du
5
Dans quelques domaines d'application particuliers, lorsque le est mentionné, la base 10 est prévue, mais comme l'indique Aksakal, sinon c'est la convention utilisée en mathématiques - qu'un journal non orné signifie un journal naturel. loglog
Glen_b -Reinstate Monica
2
Comme le dit @John_West et lln(x) sont identiques jusqu'à un facteur d'échelle. Ils sont donc les mêmes que ceux que vous mesurez dans une autre unité. loga(x)
1
@Aksakal; ce que vous dites revient à dire que l'unité est importante (voir mon commentaire ci-dessus), avec laquelle je suis d'accord. J'ai également écrit pour indiquer explicitement la base. Pour (certaines) applications en statistique comme la vraisemblance maximale, ce facteur d'échelle n'est cependant pas pertinent. Le maximum ne changera pas après l'ajout du facteur d'échelle. Dans la référence du PO (bon-turing ...) ils veulent tracer l o g ( N r ) (oulogalog(Nr) ) en fonction de l o g ( r )log(Zr)log(r). Cela signifie que l'unité change sur les deux axes du tracé afin que la `` courbe '' tracée ne change pas.
1
À moins que vous n'écriviez un article, même lorsque vous utilisez la probabilité logarithmique, l'échelle (base du logarithme) est généralement importante. Par exemple, les statistiques de test du rapport de vraisemblance de log utilisent , vous devez ajuster à partir d'une autre base pour utiliser les valeurs critiques. Si vous écrivez un logiciel, il est important d'avoir la bonne base lorsque vous utilisez des fonctions de vraisemblance de journal à partir d'articles, etc. Il y a tout simplement trop de cas où la base est importante pour déclarer que cela n'a pas d'importance. ln
Aksakal

Réponses:

20

Il est prudent de supposer que sans base explicite = ln dans les statistiques, car le journal de base 10 n'est pas utilisé très souvent dans les statistiques. Cependant, d'autres affiches soulignent que le log 10 ou d'autres bases peuvent être communs dans certains autres domaines, où les statistiques sont appliquées, par exemple la théorie de l'information. Ainsi, lorsque vous lisez des articles dans d'autres domaines, cela devient parfois déroutant.log=lnlog10

La page d'entropie de Wikipedia est un bon exemple d'utilisation confuse du . Dans la même page, ils signifient la base 2, e et toute base. Vous pouvez comprendre par quel contexte il s'agit, mais cela nécessite de lire le texte. Ce n'est pas un bon moyen de présenter le matériel. Comparez-le à la page Logarithme où la base est clairement indiquée dans chaque formule ou ln est utilisé. Personnellement, je pense que c'est la voie à suivre: toujours montrer la base lorsque le signe de journal est utilisé. Ce serait également conforme à la norme ISO car la norme ne définit pas l'utilisation d'une base non spécifiée avec le symbole de journal, comme l'a souligné @Henry.logelnloglog

Enfin, la norme ISO 31-11 prescrit les signes et lg pour les logarithmes en base 2 et 10. Les deux sont rarement utilisés de nos jours. Je me souviens que nous utilisions lg au lycée, mais c'était dans un autre siècle dans un autre monde. Je ne l'ai jamais vu depuis utilisé dans un contexte statistique. Il n'y a même pas de balise pour lb dans LaTeX.lblglglb

Aksakal
la source
1
Les logarithmes en base 2 sont également assez courants dans certains domaines. Le journal sans ornement est rarement en base 10, mais ce n'est pas toujours la base e .
Nuclear Wang
Utile, mais je pense que "rarement" est trop fort. Il existe des domaines de fond dans lesquels les gens peuvent ne connaître que les logarithmes de base 10 ou, au mieux, se sentir les plus familiers. Notez que de nombreux graphiques montrent des échelles logarithmiques utilisant des puissances de 10. Quelqu'un qui préfère les logarithmes naturels n'a aucune difficulté à décoder de telles échelles, mais la présomption est de base 10.
Nick Cox
@NickCox, OP indique spécifiquement les "statistiques" en tant que champ, et je ne vois pas souvent le logarithme de base 10 dans les statistiques.
Aksakal
ISO 31-11 semble spécifier pour le journal e , et laisser un journal sans fioritures non définilnlogelog
Henry
1
@NickCox, j'ai adouci la langue, vous soulevez un point juste
Aksakal
14

Ça dépend.

En dehors de quelques contextes, comme la conversion d'une valeur en décibels, les logarithmes en base 10 sont assez rares dans les équations. Cependant, les graphiques à l'échelle logarithmique sont souvent en base 10, bien que cela devrait être assez facile à vérifier à partir des étiquettes sur les axes.

Dans un contexte mathématique, un non orné est susceptible d'être le log naturel (c'est-à-dire log e ou ln ). D'un autre côté, l'informatique utilise souvent des logarithmes en base 2 ( log 2 ), et ils ne sont pas toujours clairement identifiés comme tels. La bonne nouvelle est que vous pouvez convertir entre les bases de manière triviale et utiliser la "mauvaise" base ne fera que votre réponse par un facteur constant.loglogelnlog2

Dans l'article de 1995 de Good-Turing Without Tears de Gale , les logarithmes dans le texte sont en fait le (il le dit à la page 5), mais le code R / S + dans l'annexe utilise la fonction, qui est en fait log e ou ln . Comme le souligne @Henry ci-dessous, cela ne fait aucune différence pratique.log10loglogeln

Si j'étais obligé de deviner, voici quelques heuristiques:

  • Si des puissances de 2, ou 10 sont également présentes, les journaux auront probablement la base correspondante.e

  • S'il résulte de l'intégration de (ou, plus généralement, implique le calcul), il s'agit probablement d'un logarithme naturel.1/x

  • S'il résulte de la division répétée de quelque chose en deux (comme dans la recherche binaire), il s'agit probablement du . Plus généralement, quelque chose peut être divisé par n environ log n fois.log2nlogn

  • Les calculs théoriques de l'information utilisent généralement le , en particulier dans les travaux modernes. Cependant, vous pouvez vérifier les unités pour être sûr: bitslog 2 , natsln et banslog 10 .log2bitslog2natslnbanslog10

  • Trouver le point où une fonction tombe ou monte à , (37% et 63%, respectivement) d'une valeur initiale suggère un logarithme naturel.1e or 11e

Matt Krause
la source
5
+1. Une petite astuce est que si des exponentielles sont trouvées à proximité, le logarithme naturel est plus probable et inversement avec des puissances de 10 ou 2. Si la base utilisée reste incertaine, essayez de reproduire les exemples de calculs des auteurs. exp()
Nick Cox
2
Étant donné que les graphiques des pages 6 et 7 de l'article de Gale montrent les unités originales sur une échelle logarithmique, et les calculs visent la pente d'une relation log-log, c'est-à-dire dans l'expression log ( N r ) = a + b log ( r ) qui correspond à N r = A r b , cela ne fait aucune différence pratique dans ce casblog(Nr)=a+blog(r)Nr=Arb
Henry
2
Un autre exemple de est lors du platelage des données boursières, lorsque vous utilisez un axe de prix logarithmique, il est toujours en base 10.base10
Marcus D
3

Pour répondre à votre question: non, vous ne pouvez pas supposer une notation fixe générale pour le logarithme.

Une question similaire a été récemment discutée dans SE.Math: Quelle est la différence entre les trois types de logarithmes? d'un point de vue mathématique. Généralement, il existe différentes notations qui dépendent des habitudes (le semble utile en recherche médicale ) ou de la langue (par exemple en allemand, russe, français). Malheureusement, la même notation finit parfois par représenter des définitions différentes. Citant le lien SE.Math ci-dessus:log10

La notation (presque) dénote sans ambiguïté le logarithme naturel log e x (latin: logarithmus naturalis), ou logarithme en base e . La notation log x devrait être la notation adoptée pour le logarithme naturel, et c'est le cas en mathématiques. Cependant, il représente souvent le "plus naturel" selon le domaine: je l'ai appris comme le logarithme de base 10 ( log 10 ) à l'école, et il est souvent utilisé de cette façon en ingénierie (par exemple dans la définition des décibels)lnxlogexelogx10log10

Très souvent, si vous n'êtes pas concerné par la signification des unités physiques (comme les décibels @Matt Krause), ni intéressé par des taux de changement spécifiques (en biostatistique, le ratio pour le changement de pli désigne souvent le logarithme de base 2 log 2 ), il est probable que le logarithme naturel ( log elog2log2loge ) soit utilisé.

Par exemple, dans les transformées de puissance ou de Box-Cox (pour la stabilisation de la variance), le logarithme naturel apparaît comme une limite lorsque l'exposant tend vers 0 .

Pour revenir à votre motivation initiale, l'estimation de la fréquence de Good-Turing, il est intéressant de lire The Population Frequencies of Species and the Estimation of Population Parameters , IJ Good, Biometrika, 1953. Ici, il a utilisé des logarithmes dans différents contextes: transformation variable pour stabilisation de la variance (mentionnant Bartlett et Anscombe), somme des séries harmoniques, entropie. Nous voyons qu'il utilise généralement comme logarithme naturel, et de temps en temps dans l'article spécifie log e ou log 10 , lorsque le contexte l'exige. Pour la stabilisation de la variance ou l'estimation de l'entropie de base, un facteur sur le logarithme ne change pas beaucoup le résultat, car le résultat permet un changement linéaire.loglogelog10

Laurent Duval
la source
0

Dans l' information Akaike la base est e , et ln(L^) de la probabilité maximale L est comparé de manière additive au nombre de paramètres k : A I C = 2 ( k - ln ( L ) ) .L^k

AIC=2(kln(L)).

Il semble donc que si vous utilisez une autre base pour le logarithme dans l'AIC, vous pouvez finir par tirer la mauvaise conclusion et sélectionner le mauvais modèle.

Bjørn Kjos-Hanssen
la source