Quand (et pourquoi) devriez-vous prendre le journal d'une distribution (de nombres)?

174

Supposons que je dispose de certaines données historiques, telles que les cours antérieurs, les fluctuations des prix des billets d'avion, les données financières passées de la société ...

Maintenant, quelqu'un (ou une formule) arrive et dit "prenons / utilisons le journal de la distribution" et voici où je vais POURQUOI ?

Des questions:

  1. POURQUOI faut-il prendre le journal de la distribution en premier lieu?
  2. QU'EST-CE QUE le journal de la distribution "donne / simplifie" que la distribution originale ne pouvait pas / n'a pas?
  3. La transformation du journal est-elle «sans perte»? C'est-à-dire que, lors de la transformation en log-space et de l'analyse des données, les mêmes conclusions valent-elles pour la distribution d'origine? Comment venir?
  4. Et enfin QUAND prendre le journal de la distribution? Dans quelles conditions décide-t-on de le faire?

J'ai vraiment voulu comprendre les distributions logarithmiques (par exemple lognormales) mais je n'ai jamais compris les aspects quand / pourquoi - le journal de la distribution est une distribution normale, et alors? Qu'est-ce que cela dit même et moi et pourquoi dérange? D'où la question!

MISE À JOUR : Selon le commentaire de @ whuber, j'ai examiné les publications et, pour une raison quelconque, je comprends l'utilisation des transformations de journal et leur application dans la régression linéaire, car vous pouvez tracer une relation entre la variable indépendante et le journal de la variable dépendante. Cependant, ma question est générique dans le sens où l’on analyse la distribution elle-même - il n’ya aucune relation en soi que je puisse conclure pour aider à comprendre la raison de prendre des journaux pour analyser une distribution. J'espère avoir du sens: - /

En analyse de régression, vous avez des contraintes sur le type / ajustement / distribution des données et vous pouvez les transformer et définir une relation entre la variable dépendante indépendante et (non transformée). Mais quand / pourquoi ferait-on cela pour une distribution isolée où les contraintes de type / ajustement / distribution ne sont pas nécessairement applicables dans un cadre (comme la régression). J'espère que la clarification rend les choses plus claires que déroutantes :)

Cette question mérite une réponse claire quant à "POURQUOI et QUAND"

Doctorat
la source
3
Parce que cela couvre à peu près le même terrain que les questions précédentes ici et ici , veuillez lire ces discussions et mettez à jour votre question afin qu'elle se concentre sur tous les aspects de cette question qui n'ont pas encore été traités. Notez également que le n ° 4 (et une partie du n ° 3) sont des questions élémentaires sur les logarithmes dont les réponses se trouvent facilement dans de nombreux endroits.
whuber
1
La clarification aide. Vous voudrez peut-être réfléchir au fait, cependant, que la régression avec seulement un terme constant (et aucune autre variable indépendante) revient à évaluer la variation des données autour de leur moyenne. Par conséquent, si vous comprenez vraiment les effets de la prise de journaux de variables dépendantes dans la régression, vous comprenez déjà la situation (plus simple) que vous demandez ici. En bref, une fois que vous avez des réponses aux quatre questions de régression, vous n'avez plus besoin de les interroger à nouveau sur "la distribution en isolation".
whuber
@whuber: Je vois ... je comprends donc les raisons de prendre des journaux dans la régression, mais uniquement parce que j'avais appris cela - je le comprends du point de vue de la nécessité de le faire, c.-à-d. pour m'assurer que les données correspondent aux hypothèses de régression linéaire. C'est ma seule compréhension. Peut-être que ce qui me manque, c’est la «réelle compréhension» de l’effet de la prise de journaux et par conséquent de la confusion… de l’aide? ;)
PhD
2
Ah, mais vous en savez beaucoup plus, car après avoir utilisé les journaux dans la régression, vous savez que les résultats sont interprétés différemment et que vous savez prendre soin de transformer les valeurs ajustées et les intervalles de confiance. Je suggère que vous ne soyez peut- être pas dérouté et que vous connaissiez probablement déjà beaucoup des réponses à ces quatre questions, même si vous n'étiez pas au courant au départ :-).
whuber
2
Les lecteurs ici peuvent également vouloir regarder ces fils étroitement liés: interprétation-de-log-transformé-prédicteur , et comment interpréter les coefficients transformés logarithmiquement dans la régression linéaire .
gung

Réponses:

98

Si vous supposez une forme de modèle non linéaire mais pouvant être transformée en un modèle linéaire tel que logY=β0+β1t il serait alors justifié de prendre des logarithmes de Y pour correspondre à la forme de modèle spécifiée. En général, que vous ayez ou non une série causale, le journal de Y ne sera justifié ou correct que si l'on peut prouver que la variance de Y est proportionnelle à la valeur attendue de Y2. Je ne me souviens pas de la source originale de ce qui suit, mais cela résume bien le rôle des transformations de pouvoir. Il est important de noter que les hypothèses de distribution concernent toujours le processus d'erreur et non le Y observé; il est donc tout à fait clair d'analyser la série d'origine pour une transformation appropriée, à moins que la série ne soit définie par une simple constante.

Les transformations injustifiées ou incorrectes, y compris les différences, doivent être soigneusement évitées car elles constituent souvent une tentative mal conçue / mal conçue de traiter des anomalies non identifiées / des changements de niveau / des tendances temporelles ou des modifications de paramètres ou des modifications de la variance d'erreur. Un exemple classique est présenté à partir de la diapositive 60 à l’ adresse suivante: http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation où trois anomalies à impulsions ( non traités) a conduit les premiers chercheurs à une transformation injustifiée du log. Malheureusement, certains de nos chercheurs actuels commettent toujours la même erreur.

La transformation optimale de la puissance se trouve via le test de Box-Cox

  • -1. est une réciproque
  • -.5 est une racine carrée réciproque
  • 0.0 est une transformation du journal
  • .5 est une transformation toot carrée et
  • 1.0 n'est pas une transformation.

Yt=u+atYatatYtatYtYYYXYXlogYlogX. En résumé, les transformations sont comme les drogues, certaines sont bonnes et d'autres sont mauvaises pour vous! Ils ne doivent être utilisés que si nécessaire, puis avec prudence.

IrishStat
la source
2
Je conviens que quiconque a quitté le (s) vote (s) vers le bas devrait laisser une remarque expliquant pourquoi cela a été voté. Pour Irishstat, il serait beaucoup plus facile de lire votre message si vous profitiez des options de formatage pour laisser des réponses, notamment celles disponibles pour baliser des équations en latex. Voir la section d'aide à la rédaction de Markdown . Ce lien est disponible chaque fois que vous tapez une réponse dans le coin supérieur droit de la zone de publication (dans le cercle orange avec le point d'interrogation).
Andy W
4
Le tableau cité se trouve dans Introduction à l'analyse de régression linéaire par Douglas C. Montgomery, Elizabeth A. Peck et G. Geoffrey Vining.
user1717828
@ user1717828 tu .. J'ai toujours été fan de Montgomery car il a une longue barbe impliquant des séries temporelles
IrishStat le
N'est-il pas toujours vrai que le deuxième moment et la variance sont proportionnels l'un à l'autre? Nous avons l'équation classique qui dit: la variance est égale au deuxième moment moins le premier moment au carré.
information_interchange
Comme vous le dites, la variance est fonction du deuxième moment. Où est-ce que j'ai impliqué autrement. De plus, la variance peut changer (de manière déterministe) à différents moments dans le temps, ce qui ne peut pas être corrigé par une transformation de puissance.
IrishStat
108

Log-scale informe sur les changements relatifs (multiplicatifs), tandis que linéaire-scale informe sur les changements absolus (additifs). Quand utilisez-vous chacun? Lorsque vous vous souciez des changements relatifs, utilisez l’échelle logarithmique; lorsque vous vous souciez de changements absolus, utilisez une échelle linéaire. Cela est vrai pour les distributions, mais aussi pour toute quantité ou tout changement de quantité.

Notez que j'utilise le mot "soin" ici très spécifiquement et intentionnellement. Sans modèle ni objectif, il est impossible de répondre à votre question. le modèle ou l'objectif définit quelle échelle est importante. Si vous essayez de modéliser quelque chose et que le mécanisme agit via un changement relatif, l'échelle du journal est essentielle pour capturer le comportement observé dans vos données. Mais si le mécanisme du modèle sous-jacent est additif, vous souhaiterez utiliser une échelle linéaire.


$$$


$$$$


$

Si nous convertissons l'espace de journalisation, les modifications relatives apparaissent en tant que modifications absolues.

log10($1)log10($1.10)
log10($100)log10($110)

Maintenant, en prenant la différence absolue dans l’espace journal , nous constatons que les deux ont changé de .0413.

Ces deux mesures du changement sont importantes et celle qui est importante pour vous dépend uniquement de votre modèle d'investissement. Il y a deux modèles. (1) investir un montant fixe de capital ou (2) investir dans un nombre déterminé d'actions.

Modèle 1: Investir avec un montant fixe de principal.

$$$$$$$$

Modèle 2: nombre d'actions fixe.

$

Supposons maintenant que nous considérions une valeur boursière comme une variable aléatoire fluctuant dans le temps et que nous voulions élaborer un modèle qui reflète généralement le comportement des stocks. Et disons que nous voulons utiliser ce modèle pour maximiser les profits. Nous calculons une distribution de probabilité dont les valeurs x sont exprimées en unités de «cours de bourse» et les valeurs y en probabilité d'observer un cours de bourse donné. Nous procédons ainsi pour les actions A et B. Si vous vous abonnez au premier scénario dans lequel vous souhaitez investir un montant fixe de principal, la journalisation de ces distributions sera alors informative. Pourquoi? Ce qui compte pour vous, c'est la forme de la distribution dans l'espace relatif. Qu'un stock va de 1 à 10 ou de 10 à 100 n'a pas d'importance pour vous, n'est-ce pas? Les deux cas sont un 10 foisgain relatif. Cela apparaît naturellement dans une distribution logarithmique dans la mesure où les gains unitaires correspondent directement aux gains de pli. Pour deux actions dont la valeur moyenne est différente mais dont le changement relatif est distribué de manière identique (elles ont la même distribution de changements quotidiens en pourcentage ), leurs distributions de log seront de forme identique mais simplement décalée. Inversement, leurs distributions linéaires ne seront pas de forme identique, la distribution à valeur élevée ayant une variance supérieure.

Si vous examiniez ces mêmes distributions dans un espace linéaire ou absolu, vous penseriez que les cours des actions à valeur plus élevée correspondent à des fluctuations plus importantes. Pour vos besoins d’investissement cependant, là où seuls les gains relatifs importent, ce n’est pas nécessairement vrai.

Exemple 2. Réactions chimiques. Supposons que nous avons deux molécules A et B qui subissent une réaction réversible.

AB

qui est défini par les constantes de taux individuelles

kabABkbaBA

Leur équilibre est défini par la relation:

K=kabkba=[A][B]

AB

K=kabkba=[A][B]

(0,inf)

EDIT . Un parallèle intéressant qui m'a aidé à construire l'intuition est l'exemple des moyennes arithmétiques vs moyennes géométriques. Une moyenne arithmétique (vanille) calcule la moyenne des nombres en supposant un modèle caché où les différences absolues importent. Exemple. La moyenne arithmétique de 1 et 100 est 50,5. Supposons cependant que nous parlions de concentrations, où la relation chimique entre les concentrations est multiplicative. Ensuite, la concentration moyenne devrait vraiment être calculée sur l’échelle logarithmique. C'est ce qu'on appelle la moyenne géométrique. La moyenne géométrique de 1 et 100 est de 10! En termes de différences relatives, cela a du sens: 10/1 = 10 et 100/10 = 10, c’est-à-dire que le changement relatif entre la moyenne et deux valeurs est identique. Additivement nous trouvons la même chose; 50,5-1 = 49,5 et 100-50,5 = 49,5.

vector07
la source
2
C'est une réponse très utile et j'adore les exemples. Pourriez-vous ajouter plus de détails sur "when" pour utiliser log-transform? Vous dites "Lorsque vous vous souciez de changements relatifs, utilisez l'échelle logarithmique; lorsque vous vous souciez de changements absolus, utilisez l'approche linéaire". Mais existe-t-il des cas où vous vous souciez de changements relatifs mais que vous ne devriez pas transformer en log, et si oui, comment détectez-vous ces cas? Par exemple, cet article montre que les données qui ne suivent pas une distribution log normale ne devraient pas être transformées par ce dernier: ncbi.nlm.nih.gov/pmc/articles/PMC4120293
skeller88
@ skeller88 Je suis d'accord avec ce document. c'est une réponse étroite à la question plus large (et philosophique!) de «pourquoi transformons-nous les distributions? Je pense que la réponse est que nous avons une boîte à outils statistique bien développée pour contraster entre les distributions normales, mais une boîte à outils moins développée pour d'autres distributions, peut-être même non nommées (la majorité). Une approche pour évaluer une distribution qui a l'air géniale pourrait consister à prendre le journal pour voir s'il semble plus normal; mais comme le décrit techniquement IrishStat ci-dessus, ce chemin est semé d'embûches (chevilles carrées, types de trous ronds).
vector07
1
Il existe une explication pertinente de cet effet et pourquoi il est important pour les arbres de décision un peu plus versdatascience.com/…
Keith