Je me demande si cela fait une différence d'interprétation si seules les variables dépendantes, indépendantes et dépendantes, ou uniquement les variables indépendantes sont transformées par un journal.
Considérons le cas de
log(DV) = Intercept + B1*IV + Error
Je peux interpréter l'IV comme l'augmentation en pourcentage, mais comment cela change-t-il quand j'ai
log(DV) = Intercept + B1*log(IV) + Error
ou quand j'ai
DV = Intercept + B1*log(IV) + Error
?
regression
data-transformation
interpretation
regression-coefficients
logarithm
r
dataset
stata
hypothesis-testing
contingency-tables
hypothesis-testing
statistical-significance
standard-deviation
unbiased-estimator
t-distribution
r
functional-data-analysis
maximum-likelihood
bootstrap
regression
change-point
regression
sas
hypothesis-testing
bayesian
randomness
predictive-models
nonparametric
terminology
parametric
correlation
effect-size
loess
mean
pdf
quantile-function
bioinformatics
regression
terminology
r-squared
pdf
maximum
multivariate-analysis
references
data-visualization
r
pca
r
mixed-model
lme4-nlme
distributions
probability
bayesian
prior
anova
chi-squared
binomial
generalized-linear-model
anova
repeated-measures
t-test
post-hoc
clustering
variance
probability
hypothesis-testing
references
binomial
profile-likelihood
self-study
excel
data-transformation
skewness
distributions
statistical-significance
econometrics
spatial
r
regression
anova
spss
linear-model
au dessus
la source
la source
Réponses:
Charlie fournit une explication correcte et correcte. Le site d'informatique statistique de l'UCLA contient d'autres exemples: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm et http://www.ats.ucla.edu/stat/mult_pkg/ faq / general / log_transformed_regression.htm
Pour compléter la réponse de Charlie, vous trouverez ci-dessous des interprétations spécifiques de vos exemples. Comme toujours, les interprétations des coefficients supposent que vous pouvez défendre votre modèle, que les diagnostics de régression sont satisfaisants et que les données proviennent d’une étude valide.
Exemple A : Pas de transformation
"Une unité d'augmentation de IV est associée à une
B1
augmentation de ( ) unité de DV."Exemple B : résultat transformé
"Une unité d'augmentation de la IV est associée à une
B1 * 100
augmentation de ( ) pour cent de la DV."Exemple C : exposition transformée
"Une augmentation de 1% de la IV est associée à une
B1 / 100
augmentation de ( ) unité de la DV."Exemple D : résultat transformé et exposition transformée
"Une augmentation de 1% de la IV est associée à une
B1
augmentation de ( )% de la DV."la source
Dans le modèle log-log, voyez que Rappelez-le ou multipliant cette dernière formulation par 100, on obtient le pourcentage de variation de . Nous avons des résultats analogues pour .
En utilisant ce fait, nous pouvons interpréter comme le pourcentage de changement de pour un changement de 1% de .β1 y x
En suivant la même logique, pour le modèle de niveau-log, nous avons
la source
L'objectif principal de la régression linéaire est d'estimer la différence moyenne entre les résultats comparant les niveaux adjacents d'un régresseur. Il existe plusieurs types de moyens. Nous sommes plus familiers avec la moyenne arithmétique.
Le MA est ce qui est estimé à l'aide de MCO et de variables non transformées. La moyenne géométrique est différente:
Pratiquement une différence GM est une différence multiplicative: vous payez X% de la prime en intérêts lorsque vous prenez un prêt, votre taux d'hémoglobine diminue de X% après le début du traitement à la metformine, le taux d'échec des ressorts augmente de X% en fraction de la largeur. Dans tous ces cas, une différence moyenne brute a moins de sens.
La transformation du journal estime une différence de moyenne géométrique. Si vous vous connectez transformer un résultat et modèle dans une régression linéaire en utilisant la spécification de formule suivante:β1 X eβ1
log(y) ~ x
, le coefficient est une différence moyenne du résultat journal comparant les unités adjacentes de . Ceci est pratiquement inutile, donc nous exponencions le paramètre et interprétons cette valeur comme une différence de moyenne géométrique. X e β 1Par exemple, dans une étude de la charge virale en VIH après 10 semaines d'administration d'un traitement antirétroviral, nous pourrions estimer la moyenne géométrique avant de . Cela signifie que quelle que soit la charge virale au départ, elle était en moyenne inférieure de 60% ou elle était 0,6 fois inférieure au suivi. Si la charge était de 10 000 au départ, mon modèle prédirait 4 000 au suivi, si elle était de 1 000 au départ, mon modèle prédisait 400 au suivi (une différence plus petite sur l’échelle brute, mais proportionnellement les mêmes).eβ1=0.40
C'est une distinction importante par rapport aux autres réponses : la convention de multiplier le coefficient de log-scale par 100 provient de l'approximation lorsque est petit. Si le coefficient (sur l'échelle logarithmique) est dire 0,05, puis et l'interprétation est: une « augmentation » du résultat pour une unité 1 « augmentation » de 5% . Cependant, si le coefficient est de 0,5 alors et on interprète cela comme un 65% « augmentation » en pour une unité 1 « augmentation » en . Ce n'est pas une augmentation de 50%.X exp ( 0,05 ) ≈ 1,05 X exp ( 0,5 ) = 1,65 Y Xlog(x)≈1−x X exp(0.05)≈1.05 X exp(0.5)=1.65 Y X
Supposons que nous enregistrons transformer un facteur prédictif:x X β1
y ~ log(x, base=2)
. Ici, je suis intéressé par un changement multiplicatif de plutôt que par une différence brute. Je suis maintenant intéressé à comparer différents participants par 2 fois dans . Supposons, par exemple, que je suis intéressé par la mesure de l'infection (oui / non) à la suite d'une exposition à un agent pathogène transmissible par le sang à différentes concentrations à l'aide d'un modèle de risque additif. Le modèle biologique peut suggérer que le risque augmente proportionnellement pour chaque doublement de la concentration. Ensuite, je ne transforme pas mes résultats, mais le coefficient estimé est interprété comme une différence de risque comparant les groupes exposés à une différence de concentration deux fois supérieure de matériel infectieux.X β 1Enfin, les
log(y) ~ log(x)
auteurs appliquent simplement les deux définitions pour obtenir une différence multiplicative comparant des groupes différant de manière multiplicative en termes de niveaux d’exposition.la source