Quelle est la signification intuitive d'avoir une relation linéaire entre les journaux de deux variables?

20

J'ai deux variables qui ne montrent pas beaucoup de corrélation lorsqu'elles sont tracées l'une contre l'autre telles quelles, mais une relation linéaire très claire lorsque je trace les journaux de chaque variable contre l'autre.

Je me retrouverais donc avec un modèle du type:

log(Y)=alog(X)+b
, ce qui est génial mathématiquement mais ne semble pas avoir la valeur explicative d'un modèle linéaire régulier.

Comment interpréter un tel modèle?

Les enfants d'Akaike
la source
5
Je n'ai rien de substantiel à ajouter aux réponses existantes, mais un logarithme dans le résultat et le prédicteur est une élasticité. La recherche de ce terme devrait trouver de bonnes ressources pour interpréter cette relation, qui n'est pas très intuitive.
Upper_Case-Stop Harming Monica
L'interprétation d'un modèle log-log, où la variable dépendante est log (y) et la variable indépendante est log (x), est: %Δ=β1%Δx .
Bob
3
Le lien log-log complémentaire est une spécification GLM idéale lorsque le résultat est binaire (modèle de risque) et que l'exposition est cumulative, comme le nombre de partenaires sexuels par rapport à l'infection par le VIH. jstor.org/stable/2532454
AdamO
2
@Alexis, vous pouvez voir les points collants si vous superposez les courbes. Essayez curve(exp(-exp(x)), from=-5, to=5)vs curve(plogis(x), from=-5, to=5). La concavité s'accélère. Si le risque d'événement d'une seule rencontre était p , alors le risque après le deuxième événement devrait être 1(1p)2 et ainsi de suite, c'est une forme probabiliste que le logit ne capturera pas. Des expositions élevées et élevées fausseraient les résultats de la régression logistique de manière plus spectaculaire (faussement selon la règle de probabilité antérieure). Une simulation vous le montrerait.
AdamO
1
@AdamO Il y a probablement un document pédagogique à écrire incorporant une telle simulation qui motive la façon de choisir un lien de résultat dichotomique particulier parmi les trois, y compris les situations où cela fait et ne fait pas de différence.
Alexis

Réponses:

27

Il vous suffit de prendre l'exponentielle des deux côtés de l'équation et vous obtiendrez une relation potentielle, qui peut avoir du sens pour certaines données.

log(Y)=alog(X)+b

exp(log(Y))=exp(alog(X)+b)

Y=ebXa

Et comme n'est qu'un paramètre pouvant prendre n'importe quelle valeur positive, ce modèle équivaut à:eb

Y=cXa

Il convient de noter que l'expression du modèle doit inclure le terme d'erreur, et ces changements de variables ont des effets intéressants sur celui-ci:

log(Y)=alog(X)+b+ϵ

Y=ebXaexp(ϵ)

C'est-à-dire que votre modèle avec des erreurs additives respectant les conditions d'OLS (erreurs normalement distribuées avec variance constante) est équivalent à un modèle potentiel avec des erreurs multiplicatives dont le logarithme suit une distribution normale avec une variance constante.

Pere
la source
3
OP peut être intéressé de savoir que cette distribution a un nom, le log-normal: en.wikipedia.org/wiki/Log-normal_distribution
gardenhead
2
Qu'en est-il de l'effet de l'inégalité de Jensen? Généralement pour g convexe,E[g(X)]g(E[X])
Stats
14

Vous pouvez prendre votre modèle et calculer le différentiel total, vous vous retrouverez avec quelque chose comme: qui donne log(Y)=alog(X)+b

1YdY=a1XdX
dYdXXY=a

D' où une interprétation simple du coefficient sera le changement pour cent en pour un changement pour cent en . Ceci implique en outre que la variable croissances à une constante fraction ( ) du taux de croissance de .aYXYaX

RScrlli
la source
Donc, si le tracé log-log est linéaire, cela impliquerait un taux de croissance constant?
Dimitriy V. Masterov
Pas vraiment, le taux de croissance de sera constant si et seulement si . Ya=0
RScrlli
Pas au fil du temps, le taux de croissance par rapport à la croissance de x.
Dimitriy V. Masterov
la réorganisation n'aide pas, je l'enlèverais
Aksakal
1
@ DimitriyV.Masterov Ok, alors depuis le est linéaire en , cela signifie que la variable croît à une fraction constante du taux de croissance de . Y a-t-il quelque chose qui ne va pas dans ma réponse selon vous? log(Y)log(X)YX
RScrlli
7

Intuitivement nous donne l' ordre de grandeur d'une variable, donc nous pouvons voir la relation car les ordres de grandeur des deux variables sont liés linéairement. Par exemple, l'augmentation du prédicteur d'un ordre de grandeur peut être associée à une augmentation de trois ordres de grandeur de la réponse.log

Lors du tracé à l'aide d'un diagramme log-log, nous espérons voir une relation linéaire. En utilisant un exemple de cette question , nous pouvons vérifier les hypothèses du modèle linéaire:

log-log

qwr
la source
3
+1 pour une réponse intuitive à un concept peu intuitif. Cependant, l'image que vous avez incluse viole clairement la variance d'erreur constante à travers le prédicteur.
Frans Rodenburg
1
La réponse est juste, mais l'attribution de la paternité est fausse. L'image ne doit pas être attribuée à Google Images mais, au moins, à la page Web où elle se trouve, cela peut être découvert simplement en cliquant dans Google images.
Pere
@Pere Je ne trouve malheureusement pas la source originale de l'image (au moins en utilisant la recherche d'image inversée)
qwr
Il semble provenir à l'origine de diagramss.us bien que ce site soit en panne et que la plupart de ses pages ne soient pas dans les archives Web en dehors de sa page d'accueil
Henry
4

En réconciliant la réponse de @Rscrill avec des données discrètes réelles, envisagez

log(Yt)=alog(Xt)+b,log(Yt1)=alog(Xt1)+b

log(Yt)log(Yt1)=a[log(Xt)log(Xt1)]

Mais

log(Yt)log(Yt1)=log(YtYt1)log(Yt1+ΔYtYt1)=log(1+ΔYtYt1)

ΔYtYt1 est le pourcentage de variation de entre les périodes et , ou le taux de croissance de , disons . Quand elle est inférieure à , nous avons qu'une approximation acceptable estYt1tYtgYt0.1

log(1+ΔYtYt1)ΔYtYt1=gYt

Par conséquent, nous obtenons

gYtagXt

qui valide dans les études empiriques le traitement théorique de @Rscrill.

Alecos Papadopoulos
la source
1
C'est probablement ce qu'un mathématicien appellerait intuitif :)
Richard Hardy
2

Une relation linéaire entre les journaux équivaut à une dépendance à la loi de puissance : En physique, un tel comportement signifie que le système est sans échelle ou invariant . Par exemple, si est la distance ou le temps, cela signifie que la dépendance à l'égard de ne peut pas être caractérisée par une longueur ou une échelle de temps caractéristique (par opposition aux décroissances exponentielles). Par conséquent, un tel système présente une dépendance à long terme de l' à .

OuiXα
XXOuiX

Itamar
la source