Comment interpréter les coefficients transformés logarithmiquement en régression linéaire?

10

Ma situation est:

J'ai 1 variable dépendante continue et 1 variable prédictive continue que j'ai transformée logarithmiquement pour normaliser leurs résidus pour une régression linéaire simple.

J'apprécierais toute aide sur la façon dont je peux relier ces variables transformées à leur contexte d'origine.

Je veux utiliser une régression linéaire pour prédire le nombre de jours que les élèves ont manqué l'école en 2011 sur la base du nombre de jours qu'ils ont manqués en 2010. La plupart des élèves manquent 0 jour ou quelques jours seulement, les données sont positivement biaisées vers la gauche. Par conséquent, il existe un besoin de transformation pour utiliser la régression linéaire.

J'ai utilisé log10 (var + 1) pour les deux variables (j'ai utilisé +1 pour les élèves qui avaient manqué 0 jours d'école). J'utilise la régression parce que je veux ajouter des facteurs catégoriels - sexe / origine ethnique, etc.

Mon problème est:

Le public auquel je veux revenir ne comprendrait pas log10 (y) = log (constant) + log (var2) x (et franchement moi non plus).

Mes questions sont:

a) Y a-t-il de meilleures façons d'interpréter les variables transformées dans la régression? C'est-à-dire pour toujours 1 jour manqué en 2010, ils manqueront 2 jours en 2011, par opposition à jamais 1 changement d'unité de journal en 2010, il y aura x changement d'unité de journal en 2011?

b) Plus précisément, étant donné le passage cité de cette source comme suit:

"Il s'agit de l'estimation de régression binomiale négative pour une augmentation d'une unité du score du test normalisé en mathématiques, étant donné que les autres variables sont maintenues constantes dans le modèle. Si un étudiant devait augmenter son score au test de maturité d'un point, la différence dans les journaux de les comptes attendus devraient diminuer de 0,0016 unité, tout en maintenant les autres variables du modèle constantes. "

J'aimerais savoir:

  • Ce passage dit-il que pour chaque unité, une augmentation du score de la UNTRANSFORMEDvariable mathématique entraîne une diminution de 0,0016 de la constante (a), donc si le UNTRANSFORMEDscore mathématique augmente de deux points, je soustrais 0,0016 * 2 de la constante a?
  • Cela signifie-t-il que j'obtiens la moyenne géométrique en utilisant exponentielle (a)) et exponentielle (a + bêta * 2) et, que je dois calculer la différence en pourcentage entre ces deux pour dire quel effet la ou les variables prédictives ont / avoir sur la variable dépendante?
  • Ou ai-je totalement tort?

J'utilise SPSS v20. Désolé d'avoir cadré cela dans une longue question.


JimBob
la source
8
Avez-vous pensé à utiliser la régression de Poisson à la place? Il est naturellement indiqué avec des données de comptage dépendantes et votre succès avec une transformation de log est cohérent avec les distributions de Poisson. Les coefficients seraient interprétés en termes d'augmentation proportionnelle de la probabilité prévue de manquer une journée d'école. Un avantage est qu'aucun traitement spécial des zéros n'est nécessaire (bien que ce soit toujours une très bonne idée de regarder un modèle alternatif zéro gonflé).
whuber
Salut Whuber, Oui, je pensais à la régression de Poisson mais je n'en étais pas sûr ou optais pour une régression binomiale négative. Je suppose que le binôme est négatif car les données sont trop dispersées - c'est-à-dire que la moyenne est inférieure à la variance dans l'ensemble de données (d'où un biais positif). Aussi, strictement, il y a une limite supérieure au nombre de sessions scolaires dans l'année, alors que Poisson suppose un dénominateur illimité? Ou pensez-vous toujours que Poisson est plus approprié? Malheureusement, SPSS ne prend pas en charge les modèles zéro gonflés pour autant que je l'ai vu ...) Merci Whuber :)
JimBob
3
Je ne vois pas de problème avec le support illimité des distributions de Poisson: c'est similaire à l'utilisation de distributions normales pour modéliser, disons, des valeurs qui doivent être non négatives. À condition que les chances associées à des valeurs impossibles soient minimes, cela peut néanmoins être un bon modèle. Le binôme négatif est l'alternative standard à Poisson utilisée pour tester la qualité de l'ajustement et la surdispersion; c'est une bonne idée. Si SPSS est trop limité, utilisez autre chose! ( Rcontient des forfaits pour les modèles à gonflage nul; recherchez ce site .)
whuber
2
Je suis d'accord avec @whuber, je pense que vous voulez probablement un modèle ZIP ou ZINB. J'ajouterais simplement qu'ils sont également disponibles en SAS via PROC COUNTREG (en ETS) et, à partir de SAS 9.2, en PROC GENMOD (en STAT)
Peter Flom - Reinstate Monica
2
Il y a de très bonnes informations sur stats.stackexchange.com/questions/18480/… .
rolando2

Réponses:

7

Je pense que le point le plus important est suggéré dans le commentaire de @ whuber. Toute votre approche est mal fondée, car en prenant des logarithmes, vous supprimez effectivement de l'ensemble de données tous les étudiants avec zéro jour manquant en 2010 ou 2011. Il semble qu'il y ait suffisamment de ces personnes pour être un problème, et je suis sûr que vos résultats avoir tort en fonction de l'approche que vous adoptez.

Au lieu de cela, vous devez ajuster un modèle linéaire généralisé avec une réponse poisson. SPSS ne peut le faire que si vous avez payé le module approprié, donc je vous suggère de passer à R.

Vous aurez toujours le problème de l'interprétation des coefficients, mais c'est secondaire à l'importance d'avoir un modèle qui est fondamentalement approprié.

Peter Ellis
la source
Pourquoi ne pas utiliser la transformation ? Cela résoudrait le problème que vous soulevez. Cependant, la transformation inverse serait un peu plus impliquée et l'interprétation serait plus difficile. Il y a un article à ce sujet ici: stats.stackexchange.com/questions/18694/…XJournal(X+1)
toypajme
3

Je suis d'accord avec les autres répondants, notamment en ce qui concerne la forme du modèle. Si je comprends la motivation de votre question, cependant, vous vous adressez à un public général et souhaitez transmettre le fondsens (théorique) de votre analyse. À cette fin, je compare les valeurs prévues (par exemple, les jours estimés manqués) sous divers "scénarios". En fonction du modèle que vous choisissez, vous pouvez comparer le nombre ou la valeur attendue de la variable dépendante lorsque les prédicteurs sont à des valeurs fixes spécifiques (leurs médianes ou zéro, par exemple), puis montrer comment un changement "significatif" des prédicteurs affecte les prédictions. Bien sûr, vous devez reconvertir les données dans l'échelle originale et compréhensible avec laquelle vous commencez. Je dis «changement significatif» parce que souvent, le «changement d'une unité en X» standard ne traduit pas la véritable importation ou l'absence d'une variable indépendante. Avec les "données de fréquentation", je ne sais pas trop ce que serait un tel changement. (Si un élève n'a manqué aucun jour en 2010 et un jour en 2011, Je ne suis pas sûr que nous apprendrions quoi que ce soit. Mais je ne sais pas.)

progressif raisonnable
la source
2

Oui=bXXOui=bJournal(X)XbJournal(1.01)

Edit: whoops, ne se rendait pas compte que votre variable dépendante a également été transformée en journal. Voici un lien avec un bon exemple décrivant les trois situations:

1) seul Y est transformé 2) seuls les prédicteurs sont transformés 3) Y et les prédicteurs sont transformés

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm

JCWong
la source
1
Salut JC, Merci pour ta réponse. J'ai pris l'approche de transformer mes variables dépendantes et indépendantes pour la cohérence, mais j'ai lu que c'est seulement le DV qui a vraiment besoin de transformation pour la normalité par rapport à ses IV.
JimBob
J'ai en fait vu le lien que vous avez suggéré (merci) mais je n'ai pas été clair sur quelques points, en particulier en ce qui concerne la comparaison de la moyenne géométrique avec la `` vie réelle '', mais je suppose que l'utilisation de la moyenne géométrique est plus à voir avec la modélisation l'effet du changement de x sur y plutôt que le résultat du changement de y par unité dans x? Je pense que je dois revenir en arrière et lui donner une deuxième lecture ...
JimBob
2

OuiX1X2X3{0,1}

log(Oui)log(C)+X1W1+X2W2

vous pouvez simplement montrer:

OuiC M1X1 M2X2 M3X3

M1=eW1M2=eW2M3=eW3XjeMjeX1=0X2=1X3=1

OuiC M2 M3

Oui

Guillaume
la source
3
E[Oui]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2Journal(Oui)Mje