Dans la régression linéaire, quand est-il approprié d'utiliser le journal d'une variable indépendante au lieu des valeurs réelles?

164

Est-ce que je cherche une distribution plus sage pour la variable indépendante en question, ou pour réduire l'effet des valeurs aberrantes, ou autre chose?

d_2
la source
1
Voulez-vous savoir comment réduire l’effet des valeurs aberrantes ou quand utiliser le journal de certaines variables?
Benjamin Bannier
23
Je pense que le PO dit: "J'ai entendu dire que des personnes utilisaient le journal des variables d'entrée: pourquoi font-elles cela?"
Shane
Pourquoi seulement le journal? Cette question ne devrait-elle pas s'appliquer à toute technique de transformation de données pouvant être utilisée pour minimiser les résidus associés à mx + b?
AsymLabs
1
@AsymLabs - Le journal peut être spécial dans la régression, car c'est la seule fonction qui convertit un produit en une somme.
probabilityislogic
12
Un avertissement aux lecteurs: la question concerne la transformation des IV, mais certaines des réponses semblent parler de raisons de transformer les DV. Ne vous laissez pas induire en erreur en pensant que ce sont autant de raisons de transformer les intraveineuses. En particulier, la distribution de l'IV n'est généralement pas pertinente (en effet, la distribution marginale du DV n'est pas non plus).
Glen_b

Réponses:

168

J'hésite toujours à me lancer dans une discussion avec autant d'excellentes réponses que cela, mais il me semble que peu de réponses fournissent une raison de préférer le logarithme à une autre transformation qui "écrase" les données, telle qu'une racine ou une réciproque.

Avant d’y arriver, résumons la sagesse des réponses existantes d’une manière plus générale. Une certaine ré-expression non linéaire de la variable dépendante est indiquée lorsque l’un quelconque des cas suivants s’applique:

  • Les résidus ont une distribution asymétrique. Le but d'une transformation est d'obtenir des résidus approximativement symétriquement répartis (environ zéro, bien sûr).

  • L'étalement des résidus change systématiquement avec les valeurs de la variable dépendante ("hétéroscédasticité"). Le but de la transformation est de supprimer ce changement systématique de propagation, en obtenant une "homoscédasticité" approximative.

  • Pour linéariser une relation.

  • Quand la théorie scientifique indique. Par exemple, la chimie suggère souvent d'exprimer les concentrations en logarithmes (activités ou même le pH bien connu).

  • Lorsqu'une théorie statistique plus nébuleuse suggère que les résidus représentent des "erreurs aléatoires" qui ne s'accumulent pas de manière additive.

  • Pour simplifier un modèle. Par exemple, un logarithme peut parfois simplifier le nombre et la complexité des termes "d'interaction".

(Ces indications peuvent être contradictoires; dans de tels cas, un jugement est nécessaire.)

Alors, quand un logarithme est-il spécifiquement indiqué au lieu d’une autre transformation?

  • Les résidus ont une distribution "fortement" asymétrique positive. Dans son livre sur EDA, John Tukey fournit des méthodes quantitatives pour estimer la transformation (au sein de la famille des transformations de Box-Cox, ou puissance) à partir des statistiques de rangs des résidus. Cela revient vraiment au fait que si le logarithme symétrisait les résidus, c’était probablement la bonne forme de ré-expression; sinon, une autre expression est nécessaire.

  • Lorsque le SD des résidus est directement proportionnel aux valeurs ajustées (et non à une certaine puissance des valeurs ajustées).

  • Lorsque la relation est proche de l'exponentielle.

  • Lorsque les résidus sont censés refléter les erreurs accumulées de manière multiplicative.

  • Vous voulez vraiment un modèle dans lequel les changements marginaux dans les variables explicatives sont interprétés en termes de changements multiplicatifs (en pourcentage) dans la variable dépendante.

Enfin, certaines non -raisons d'utiliser une nouvelle expression :

  • Faire que les valeurs aberrantes ne ressemblent pas à des valeurs aberrantes. Une valeur aberrante est une donnée qui ne correspond pas à une description parcimonieuse et relativement simple des données. Changer la description pour améliorer l'apparence des valeurs éloignées est généralement un renversement incorrect des priorités: obtenez d'abord une description scientifiquement valide et statistiquement correcte des données, puis explorez les valeurs aberrantes. Ne laissez pas les valeurs aberrantes occasionnelles déterminer comment décrire le reste des données!

  • Parce que le logiciel l'a fait automatiquement. (Assez dit!)

  • Parce que toutes les données sont positives. (La positivité implique souvent une asymétrie positive, mais cela n'est pas obligatoire. En outre, d'autres transformations peuvent fonctionner mieux. Par exemple, une racine fonctionne souvent mieux avec des données comptées.)

  • Faire en sorte que les "mauvaises" données (peut-être de faible qualité) paraissent bien se comporter.

  • Pour pouvoir tracer les données. (Si une transformation est nécessaire pour pouvoir tracer les données, elle l'est probablement pour une ou plusieurs des bonnes raisons déjà mentionnées. Si la seule raison de la transformation est vraiment de tracer, continuez et faites-le - mais seulement pour tracer le données. Laissez les données non transformées pour analyse.)

whuber
la source
1
Qu'en est-il des variables telles que la densité de population dans une région ou le ratio élèves / enseignant pour chaque district scolaire ou le nombre d'homicides pour 1 000 dans la population? J'ai vu des professeurs prendre le journal de ces variables. Je ne comprends pas pourquoi. Par exemple, le taux d'homicides n'est-il pas déjà un pourcentage? Le log serait le le pourcentage de changement du taux? Pourquoi préférer le logarithme du rapport élèves / enseignant? La transformation du journal doit-elle être prise pour chaque variable continue quand il n’existe pas de théorie sous-jacente d’une véritable forme fonctionnelle?
user1690130
1
@JG Les petits ratios ont tendance à avoir des distributions asymétriques; les logarithmes et les racines sont susceptibles de les rendre plus symétriques. Je ne comprends pas vos questions sur les pourcentages: peut-être confondez-vous différentes utilisations des pourcentages (un pour exprimer quelque chose en tant que proportion d’un tout et un autre pour exprimer un changement relatif)? Je ne crois pas avoir écrit quoi que ce soit en faveur de l'application des logarithmes, loin de là! Je ne comprends donc pas le fondement de votre dernière question.
whuber
2
"Quand on pense que les résidus reflètent des erreurs accumulées de manière multiplicative." J'ai du mal à interpréter cette phrase. Est-il possible d’étoffer un peu cette phrase avec une ou deux phrases? Quelle est l'accumulation dont vous parlez?
Hatshepsut
@ user1690130 pour les ratios et les densités, ceux-ci doivent généralement être ajustés comme une distribution poisson-famille pour les comptages avec une compensation pour l'exposition. Par exemple, le nombre de personnes correspond au nombre et le décalage correspond à la superficie de la région. Voir cette question pour une bonne explication - stats.stackexchange.com/questions/11182/…
Michael Barton
2
@Hatshepsut Un exemple simple d'accumulation d'erreur multiplicative serait le volume en tant que variable dépendante et les erreurs de mesure de chaque dimension linéaire.
Abalter
73

Je dis toujours aux étudiants qu'il y a trois raisons de transformer une variable en prenant le logarithme naturel. La raison de la consignation de la variable déterminera si vous souhaitez consigner la ou les variables indépendantes, dépendantes ou les deux. Pour être clair tout au long je parle de prendre le logarithme naturel.

Tout d'abord, pour améliorer l'ajustement du modèle, comme d'autres afficheurs l'ont noté. Par exemple, si vos résidus ne sont pas distribués normalement, alors prendre le logarithme d'une variable asymétrique peut améliorer l'ajustement en modifiant l'échelle et en rendant la variable plus "normalement" distribuée. Par exemple, les gains sont tronqués à zéro et présentent souvent une asymétrie positive. Si la variable a un biais négatif, vous pouvez d’abord inverser la variable avant de prendre le logarithme. Je pense en particulier aux échelles de Likert qui sont entrées en tant que variables continues. Bien que cela s'applique généralement à la variable dépendante, vous rencontrez parfois des problèmes de résidus (par exemple, l'hétéroscédasticité) causés par une variable indépendante qui peut parfois être corrigée en prenant le logarithme de cette variable. Par exemple, lors de l’exécution d’un modèle qui expliquait les évaluations de conférencier sur un ensemble de covariables de conférencier et de classe, la variable "taille de la classe" (c’est-à-dire le nombre d’étudiants dans l’exposé) présentait des valeurs aberrantes qui induisaient une hétéroscédasticité, car la variance dans les évaluations de cohortes que les cohortes plus petites. Il est utile de consigner la variable de l'étudiant, bien que dans cet exemple, le calcul des erreurs standard robustes ou l'utilisation des moindres carrés pondérés peut faciliter l'interprétation.

β β

β

β

β*100

β/100

Et enfin, il pourrait y avoir une raison théorique à le faire. Par exemple, certains modèles que nous aimerions estimer sont multiplicatifs et donc non linéaires. La prise de logarithmes permet d’estimer ces modèles par régression linéaire. La fonction de production Cobb-Douglas en économie et l’équation Mincer en éducation en sont de bons exemples. La fonction de production Cobb-Douglas explique comment les intrants sont convertis en extrants:

Y=UNELαKβ

Y

UNE

L

K

αβ

En utilisant les logarithmes de cette fonction, il est facile d'estimer la fonction à l'aide de la régression linéaire MCO en tant que telle:

bûche(Y)=bûche(UNE)+αbûche(L)+βbûche(K)
Graham Cookson
la source
5
"Log Y et X - une augmentation d'une unité de X conduirait à une augmentation / diminution de Y de 100%": je pense que cela ne s'applique que lorsque β est petit, de sorte que exp (β) 1 + β
Ida
1
gentil et clair merci! Une question, comment interprétez-vous les interceptions dans les cas Log Y et X? et généralement, je suis inquiet sur la façon de signaler les régressions transformées du journal ...
Bakaburg
2
Je suis un partisan des réponses qui contiennent des exemples tirés des sciences économiques ["Vous m'avez eu à la" Fonction de production Cobb-Douglas ""] ... Une chose cependant: vous devriez changer le terme d'interception dans la deuxième équation pour vous connecter (A ) pour le rendre compatible avec la première équation.
Steve S
100×(eβ-1)
21

Pour en savoir plus sur l'excellent argument de Whubber concernant les raisons de préférer le logarithme à certaines autres transformations telles qu'une transformation racine ou réciproque, mais en mettant l'accent sur la possibilité d' interprétation unique des coefficients de régression résultant d'une transformation par log par rapport à d'autres transformations, voir:

Oliver N. Keene. La transformation du journal est spéciale. Statistics in Medicine 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF de la légalité douteuse disponible sur http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).

Si vous enregistrez la variable indépendante x à la base b , vous pouvez interpréter le coefficient de régression (et le CI) comme le changement de la variable dépendante y par b multiplié par x . (Les logs en base 2 sont donc souvent utiles car ils correspondent au changement de y par doublement de x , ou les logs en base 10 si x varie sur plusieurs ordres de grandeur, ce qui est plus rare). D'autres transformations, telles que la racine carrée, n'ont pas d'interprétation aussi simple.

Si vous enregistrez la variable dépendante y (pas la question initiale, mais celle que plusieurs des réponses précédentes ont abordée), alors je trouve l'idée de Tim Cole de «sympercents» attrayante pour la présentation des résultats (je les ai même utilisés une fois dans un document), bien qu'ils ne semblent pas avoir attrapé si largement:

Tim J Cole. Sympercents: les différences de pourcentage symétriques sur l’échelle 100 log (e) simplifient la présentation des données transformées par log. Statistiques en médecine 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Je suis tellement heureux que Stat Med ait cessé d'utiliser SICI comme DOI ...]

un arrêt
la source
1
Merci pour la référence et de très bons points. La question d’intérêt est de savoir si ce problème s’applique à toutes les transformations et pas seulement aux journaux. Pour nous, les statistiques / probabilités sont utiles dans la mesure où elles permettent une prévision efficace des performances, ou des critères / directives efficaces. Au fil des ans, nous avons utilisé des transformations de pouvoir (journaux sous un autre nom), des transformations polynomiales et autres (même des transformations par morceaux) pour tenter de réduire les résidus, de resserrer les intervalles de confiance et d'améliorer de manière générale la capacité prédictive à partir d'un ensemble de données donné. Sommes-nous en train de dire que c'est inexact?
AsymLabs
1
@ AsymLabs, quelle est la différence entre les deux cultures de Breiman (en gros des prédicteurs et des modélisateurs)? Cf. Deux cultures - controversées.
denis
15

On prend typiquement le journal d’une variable d’entrée pour l’échelonner et changer la distribution (par exemple, pour la rendre normalement distribuée). Cela ne peut pas être fait aveuglément cependant; vous devez faire attention lorsque vous effectuez une mise à l'échelle pour vous assurer que les résultats sont toujours interprétables.

Ceci est discuté dans la plupart des textes introductifs de statistiques. Vous pouvez également lire le document d’Andrew Gelman sur «Les entrées de régression d’échelle en divisant par deux écarts types» pour une discussion à ce sujet. Il a également eu une très bonne discussion à ce sujet au début de "Analyse des données à l'aide de modèles de régression et hiérarchiques / à plusieurs niveaux" .

Prendre le journal n'est pas une méthode appropriée pour traiter les données erronées / non conformes.

Shane
la source
12

Vous avez tendance à prendre des journaux des données en cas de problème avec les résidus. Par exemple, si vous tracez les résidus par rapport à une covariable particulière et observez un modèle croissant / décroissant (une forme d'entonnoir), une transformation peut alors être appropriée. Les résidus non aléatoires indiquent généralement que les hypothèses de votre modèle sont erronées, c'est-à-dire des données non normales.

Certains types de données se prêtent automatiquement aux transformations logarithmiques. Par exemple, je prends habituellement des bûches pour gérer les concentrations ou l’âge.

Bien que les transformations ne soient pas principalement utilisées pour traiter les valeurs aberrantes, elles sont utiles car la prise de journaux supprime vos données.

csgillespie
la source
1
Néanmoins, l'utilisation de log change le modèle - pour la régression linéaire, il s'agit de y ~ a * x + b, pour une régression linéaire sur log, il s'agit de y ~ y0 * exp (x / x0).
1
Je suis d'accord - prendre le journal change votre modèle. Mais si vous devez transformer vos données, cela signifie que votre modèle n'était pas approprié en premier lieu.
csgillespie
2
@cgillespie: concentrations, oui; mais l'âge? C'est étrange.
whuber
@ Whuber: Je suppose que cela dépend beaucoup des données, mais avec les jeux de données que j'ai utilisés, vous constateriez une grande différence entre 10 et 18 ans, mais une petite différence entre 20 et 28 ans. Même pour les jeunes enfants, la différence entre 0 et 1 an n'est pas la même chose que la différence entre 1 et 2 ans.
csgillespie
1
@landroni C'est brièvement rédigé. Je ne dirais pas que c'est pauvre, sauf que c'est probablement "p.ex." était destiné au lieu de "c.-à-d." OLS. Dans certains contextes, les gens supposent en outre que cette distribution sous-jacente commune est normale, mais cela n'est pas strictement nécessaire en pratique ou en théorie: il suffit que les distributions d'échantillonnage des statistiques pertinentes soient proches de la normale.
whuber
10

XXX

XXX3rmsXX

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

X3X

Frank Harrell
la source
E[Y|X]=F(X)
9

Je voudrais répondre à la question de user1690130 qui a été laissée en commentaire à la première réponse du 26 octobre 2012 et qui se lit comme suit: "Qu'en est-il des variables telles que la densité de population dans une région ou le ratio élèves / enseignant pour chaque district scolaire ou le nombre d’homicides pour 1000 dans la population? J’ai vu des professeurs prendre le journal de ces variables. On ne comprend pas pourquoi, par exemple, le taux d’homicides n’est-il pas déjà un pourcentage? Le journal consisterait Pourquoi préférer le log du ratio enseignant / enfant? "

Je cherchais à répondre à un problème similaire et je voulais partager ce que mon ancien manuel de statistiques ( Jeffrey Wooldridge.), Econométrie de base - Une approche moderne, 4ème édition . Wooldridge conseille:

Les variables qui apparaissent sous forme de pourcentage ou de pourcentage, telles que le taux de chômage, le taux de participation à un régime de retraite, le pourcentage d'étudiants ayant réussi un examen standardisé et le taux d'arrestation pour les crimes signalés - peuvent apparaître sous la forme originale ou logarithmique. , bien qu’il y ait une tendance à les utiliser sous forme de niveau . En effet, tous les coefficients de régression impliquant la variable d'origine - qu'il s'agisse de la variable dépendante ou de la variable indépendante - auront une interprétation de changement en points de pourcentage. Si nous utilisons, par exemple, log ( unem ) dans une régression, où unem est le pourcentage de chômeurs, nous devons faire très attention de faire la distinction entre un changement de point de pourcentage et un changement de pourcentage. Rappelez-vous, si unempasse de 8 à 9, il s’agit d’une augmentation d’un point de pourcentage, mais de 12,5% par rapport au niveau de chômage initial. L'utilisation du log signifie que nous examinons la variation en pourcentage du taux de chômage: log (9) - log (8) = 0,118 ou 11,8%, soit l'approximation logarithmique de la hausse réelle de 12,5%.

Sur la base de cela et en se basant sur le commentaire précédent de whuber à la question de user1690130, j’éviterais d’utiliser le logarithme d’une variable de densité ou de pourcentage pour conserver une interprétation simple, à moins que l’utilisation du formulaire log ne crée un compromis important, comme la possibilité de réduire l’asymétrie de la densité. variable de taux.

Sannita
la source
Souvent, pour les pourcentages (c'est-à-dire les proportions sur (0,1), une transformation logit est utilisée. En effet, les données proportionnelles enfreignent souvent l'hypothèse de normalité des résidus, de sorte qu'une transformation de journal ne corrigera pas.
colin
3

Shane a déclaré que prendre le journal pour traiter les mauvaises données est bien pris. Comme Colin en ce qui concerne l'importance des résidus normaux. En pratique, je trouve qu’il est généralement possible d’obtenir des résidus normaux si les variables d’entrée et de sortie sont également relativement normales. En pratique, cela signifie regarder la distribution des jeux de données transformés et non transformés, s’assurer qu’ils sont devenus plus normaux et / ou effectuer des tests de normalité (par exemple des tests de Shapiro-Wilk ou de Kolmogorov-Smirnov) et déterminer si le résultat est plus normal. L'interprétation et la tradition sont également importantes. Par exemple, en psychologie cognitive, on utilise souvent les transformations du temps de réaction logarithmiques; toutefois, du moins pour moi, l'interprétation d'un log RT n'est pas claire. En outre,

russellpierce
la source
2
Les réponses seront réorganisées en fonction des votes; essayez donc de ne pas vous référer à d'autres réponses.
Vebjorn Ljosa
4
Un test de normalité est généralement trop sévère. Souvent, il suffit d’obtenir des résidus symétriquement répartis. (En pratique, les résidus ont tendance à avoir des distributions fortement pics, en partie comme un artefact d'estimation que je soupçonne, et seront donc considérés comme "significativement" non normaux, quelle que soit la manière dont on ré-exprime les données.)
Whuber
@ Whuber: D'accord. C'est pourquoi j'ai spécifié "devenir plus normal". L’objectif devrait être d’observer les statistiques du test pour rechercher des modifications plutôt que de prendre une décision d’accepter / de rejeter basée sur la valeur p du test.
russellpierce
Il faut TOUJOURS se référer aux autres réponses, le cas échéant!
Abalter
@abalter? Je ne suis pas
russellpierce