Ma situation est:
J'ai 1 variable dépendante continue et 1 variable prédictive continue que j'ai transformée logarithmiquement pour normaliser leurs résidus pour une régression linéaire simple.
J'apprécierais toute aide sur la façon dont je peux relier ces variables transformées à leur contexte d'origine.
Je veux utiliser une régression linéaire pour prédire le nombre de jours que les élèves ont manqué l'école en 2011 sur la base du nombre de jours qu'ils ont manqués en 2010. La plupart des élèves manquent 0 jour ou quelques jours seulement, les données sont positivement biaisées vers la gauche. Par conséquent, il existe un besoin de transformation pour utiliser la régression linéaire.
J'ai utilisé log10 (var + 1) pour les deux variables (j'ai utilisé +1 pour les élèves qui avaient manqué 0 jours d'école). J'utilise la régression parce que je veux ajouter des facteurs catégoriels - sexe / origine ethnique, etc.
Mon problème est:
Le public auquel je veux revenir ne comprendrait pas log10 (y) = log (constant) + log (var2) x (et franchement moi non plus).
Mes questions sont:
a) Y a-t-il de meilleures façons d'interpréter les variables transformées dans la régression? C'est-à-dire pour toujours 1 jour manqué en 2010, ils manqueront 2 jours en 2011, par opposition à jamais 1 changement d'unité de journal en 2010, il y aura x changement d'unité de journal en 2011?
b) Plus précisément, étant donné le passage cité de cette source comme suit:
"Il s'agit de l'estimation de régression binomiale négative pour une augmentation d'une unité du score du test normalisé en mathématiques, étant donné que les autres variables sont maintenues constantes dans le modèle. Si un étudiant devait augmenter son score au test de maturité d'un point, la différence dans les journaux de les comptes attendus devraient diminuer de 0,0016 unité, tout en maintenant les autres variables du modèle constantes. "
J'aimerais savoir:
- Ce passage dit-il que pour chaque unité, une augmentation du score de la
UNTRANSFORMED
variable mathématique entraîne une diminution de 0,0016 de la constante (a), donc si leUNTRANSFORMED
score mathématique augmente de deux points, je soustrais 0,0016 * 2 de la constante a? - Cela signifie-t-il que j'obtiens la moyenne géométrique en utilisant exponentielle (a)) et exponentielle (a + bêta * 2) et, que je dois calculer la différence en pourcentage entre ces deux pour dire quel effet la ou les variables prédictives ont / avoir sur la variable dépendante?
- Ou ai-je totalement tort?
J'utilise SPSS v20. Désolé d'avoir cadré cela dans une longue question.
R
contient des forfaits pour les modèles à gonflage nul; recherchez ce site .)Réponses:
Je pense que le point le plus important est suggéré dans le commentaire de @ whuber. Toute votre approche est mal fondée, car en prenant des logarithmes, vous supprimez effectivement de l'ensemble de données tous les étudiants avec zéro jour manquant en 2010 ou 2011. Il semble qu'il y ait suffisamment de ces personnes pour être un problème, et je suis sûr que vos résultats avoir tort en fonction de l'approche que vous adoptez.
Au lieu de cela, vous devez ajuster un modèle linéaire généralisé avec une réponse poisson. SPSS ne peut le faire que si vous avez payé le module approprié, donc je vous suggère de passer à R.
Vous aurez toujours le problème de l'interprétation des coefficients, mais c'est secondaire à l'importance d'avoir un modèle qui est fondamentalement approprié.
la source
Je suis d'accord avec les autres répondants, notamment en ce qui concerne la forme du modèle. Si je comprends la motivation de votre question, cependant, vous vous adressez à un public général et souhaitez transmettre le fondsens (théorique) de votre analyse. À cette fin, je compare les valeurs prévues (par exemple, les jours estimés manqués) sous divers "scénarios". En fonction du modèle que vous choisissez, vous pouvez comparer le nombre ou la valeur attendue de la variable dépendante lorsque les prédicteurs sont à des valeurs fixes spécifiques (leurs médianes ou zéro, par exemple), puis montrer comment un changement "significatif" des prédicteurs affecte les prédictions. Bien sûr, vous devez reconvertir les données dans l'échelle originale et compréhensible avec laquelle vous commencez. Je dis «changement significatif» parce que souvent, le «changement d'une unité en X» standard ne traduit pas la véritable importation ou l'absence d'une variable indépendante. Avec les "données de fréquentation", je ne sais pas trop ce que serait un tel changement. (Si un élève n'a manqué aucun jour en 2010 et un jour en 2011, Je ne suis pas sûr que nous apprendrions quoi que ce soit. Mais je ne sais pas.)
la source
Edit: whoops, ne se rendait pas compte que votre variable dépendante a également été transformée en journal. Voici un lien avec un bon exemple décrivant les trois situations:
1) seul Y est transformé 2) seuls les prédicteurs sont transformés 3) Y et les prédicteurs sont transformés
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm
la source
vous pouvez simplement montrer:
la source