Supposons que je dispose de certaines données historiques, telles que les cours antérieurs, les fluctuations des prix des billets d'avion, les données financières passées de la société ...
Maintenant, quelqu'un (ou une formule) arrive et dit "prenons / utilisons le journal de la distribution" et voici où je vais POURQUOI ?
Des questions:
- POURQUOI faut-il prendre le journal de la distribution en premier lieu?
- QU'EST-CE QUE le journal de la distribution "donne / simplifie" que la distribution originale ne pouvait pas / n'a pas?
- La transformation du journal est-elle «sans perte»? C'est-à-dire que, lors de la transformation en log-space et de l'analyse des données, les mêmes conclusions valent-elles pour la distribution d'origine? Comment venir?
- Et enfin QUAND prendre le journal de la distribution? Dans quelles conditions décide-t-on de le faire?
J'ai vraiment voulu comprendre les distributions logarithmiques (par exemple lognormales) mais je n'ai jamais compris les aspects quand / pourquoi - le journal de la distribution est une distribution normale, et alors? Qu'est-ce que cela dit même et moi et pourquoi dérange? D'où la question!
MISE À JOUR : Selon le commentaire de @ whuber, j'ai examiné les publications et, pour une raison quelconque, je comprends l'utilisation des transformations de journal et leur application dans la régression linéaire, car vous pouvez tracer une relation entre la variable indépendante et le journal de la variable dépendante. Cependant, ma question est générique dans le sens où l’on analyse la distribution elle-même - il n’ya aucune relation en soi que je puisse conclure pour aider à comprendre la raison de prendre des journaux pour analyser une distribution. J'espère avoir du sens: - /
En analyse de régression, vous avez des contraintes sur le type / ajustement / distribution des données et vous pouvez les transformer et définir une relation entre la variable dépendante indépendante et (non transformée). Mais quand / pourquoi ferait-on cela pour une distribution isolée où les contraintes de type / ajustement / distribution ne sont pas nécessairement applicables dans un cadre (comme la régression). J'espère que la clarification rend les choses plus claires que déroutantes :)
Cette question mérite une réponse claire quant à "POURQUOI et QUAND"
Réponses:
Si vous supposez une forme de modèle non linéaire mais pouvant être transformée en un modèle linéaire tel quebûcheY= β0+ β1t il serait alors justifié de prendre des logarithmes de Y pour correspondre à la forme de modèle spécifiée. En général, que vous ayez ou non une série causale, le journal de Y ne sera justifié ou correct que si l'on peut prouver que la variance de Y est proportionnelle à la valeur attendue de Y2 . Je ne me souviens pas de la source originale de ce qui suit, mais cela résume bien le rôle des transformations de pouvoir. Il est important de noter que les hypothèses de distribution concernent toujours le processus d'erreur et non le Y observé; il est donc tout à fait clair d'analyser la série d'origine pour une transformation appropriée, à moins que la série ne soit définie par une simple constante.
Les transformations injustifiées ou incorrectes, y compris les différences, doivent être soigneusement évitées car elles constituent souvent une tentative mal conçue / mal conçue de traiter des anomalies non identifiées / des changements de niveau / des tendances temporelles ou des modifications de paramètres ou des modifications de la variance d'erreur. Un exemple classique est présenté à partir de la diapositive 60 à l’ adresse suivante: http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation où trois anomalies à impulsions ( non traités) a conduit les premiers chercheurs à une transformation injustifiée du log. Malheureusement, certains de nos chercheurs actuels commettent toujours la même erreur.
La transformation optimale de la puissance se trouve via le test de Box-Cox où
la source
Log-scale informe sur les changements relatifs (multiplicatifs), tandis que linéaire-scale informe sur les changements absolus (additifs). Quand utilisez-vous chacun? Lorsque vous vous souciez des changements relatifs, utilisez l’échelle logarithmique; lorsque vous vous souciez de changements absolus, utilisez une échelle linéaire. Cela est vrai pour les distributions, mais aussi pour toute quantité ou tout changement de quantité.
Notez que j'utilise le mot "soin" ici très spécifiquement et intentionnellement. Sans modèle ni objectif, il est impossible de répondre à votre question. le modèle ou l'objectif définit quelle échelle est importante. Si vous essayez de modéliser quelque chose et que le mécanisme agit via un changement relatif, l'échelle du journal est essentielle pour capturer le comportement observé dans vos données. Mais si le mécanisme du modèle sous-jacent est additif, vous souhaiterez utiliser une échelle linéaire.
Si nous convertissons l'espace de journalisation, les modifications relatives apparaissent en tant que modifications absolues.
Maintenant, en prenant la différence absolue dans l’espace journal , nous constatons que les deux ont changé de .0413.
Ces deux mesures du changement sont importantes et celle qui est importante pour vous dépend uniquement de votre modèle d'investissement. Il y a deux modèles. (1) investir un montant fixe de capital ou (2) investir dans un nombre déterminé d'actions.
Modèle 1: Investir avec un montant fixe de principal.
Modèle 2: nombre d'actions fixe.
Supposons maintenant que nous considérions une valeur boursière comme une variable aléatoire fluctuant dans le temps et que nous voulions élaborer un modèle qui reflète généralement le comportement des stocks. Et disons que nous voulons utiliser ce modèle pour maximiser les profits. Nous calculons une distribution de probabilité dont les valeurs x sont exprimées en unités de «cours de bourse» et les valeurs y en probabilité d'observer un cours de bourse donné. Nous procédons ainsi pour les actions A et B. Si vous vous abonnez au premier scénario dans lequel vous souhaitez investir un montant fixe de principal, la journalisation de ces distributions sera alors informative. Pourquoi? Ce qui compte pour vous, c'est la forme de la distribution dans l'espace relatif. Qu'un stock va de 1 à 10 ou de 10 à 100 n'a pas d'importance pour vous, n'est-ce pas? Les deux cas sont un 10 foisgain relatif. Cela apparaît naturellement dans une distribution logarithmique dans la mesure où les gains unitaires correspondent directement aux gains de pli. Pour deux actions dont la valeur moyenne est différente mais dont le changement relatif est distribué de manière identique (elles ont la même distribution de changements quotidiens en pourcentage ), leurs distributions de log seront de forme identique mais simplement décalée. Inversement, leurs distributions linéaires ne seront pas de forme identique, la distribution à valeur élevée ayant une variance supérieure.
Si vous examiniez ces mêmes distributions dans un espace linéaire ou absolu, vous penseriez que les cours des actions à valeur plus élevée correspondent à des fluctuations plus importantes. Pour vos besoins d’investissement cependant, là où seuls les gains relatifs importent, ce n’est pas nécessairement vrai.
Exemple 2. Réactions chimiques. Supposons que nous avons deux molécules A et B qui subissent une réaction réversible.
qui est défini par les constantes de taux individuelles
Leur équilibre est défini par la relation:
EDIT . Un parallèle intéressant qui m'a aidé à construire l'intuition est l'exemple des moyennes arithmétiques vs moyennes géométriques. Une moyenne arithmétique (vanille) calcule la moyenne des nombres en supposant un modèle caché où les différences absolues importent. Exemple. La moyenne arithmétique de 1 et 100 est 50,5. Supposons cependant que nous parlions de concentrations, où la relation chimique entre les concentrations est multiplicative. Ensuite, la concentration moyenne devrait vraiment être calculée sur l’échelle logarithmique. C'est ce qu'on appelle la moyenne géométrique. La moyenne géométrique de 1 et 100 est de 10! En termes de différences relatives, cela a du sens: 10/1 = 10 et 100/10 = 10, c’est-à-dire que le changement relatif entre la moyenne et deux valeurs est identique. Additivement nous trouvons la même chose; 50,5-1 = 49,5 et 100-50,5 = 49,5.
la source