Maintenant, je comprends que cela dépend des distributions et de la normalité des prédicteurs
la transformation des journaux rend les données plus uniformes
En règle générale, c'est faux --- mais même si c'était le cas, pourquoi l' uniformité serait-elle importante?
Considérez, par exemple,
i) un prédicteur binaire ne prenant que les valeurs 1 et 2. La prise de journaux le laisserait comme un prédicteur binaire ne prenant que les valeurs 0 et log 2. Cela n'affecte vraiment rien sauf l'interception et la mise à l'échelle des termes impliquant ce prédicteur. Même la valeur de p du prédicteur serait inchangée, tout comme les valeurs ajustées.
ii) envisager un prédicteur de gauche. Prenez maintenant les journaux. Il devient généralement plus asymétrique gauche.
iii) les données uniformes deviennent de gauche
(ce n'est souvent pas toujours un changement aussi extrême, cependant)
moins touché par les valeurs aberrantes
En règle générale, c'est faux. Considérez les valeurs aberrantes faibles dans un prédicteur.
J'ai pensé au log transformant toutes mes variables continues qui ne sont pas d'intérêt principal
À quelle fin? Si à l'origine les relations étaient linéaires, elles ne le seraient plus.
Et s'ils étaient déjà incurvés, le faire automatiquement pourrait les aggraver (plus incurvés), pas mieux.
-
Prendre des journaux d'un prédicteur (qu'il soit d'intérêt principal ou non) peut parfois convenir, mais ce n'est pas toujours le cas.
À mon avis, cela n'a aucun sens d'effectuer une transformation de journal (et toute transformation de données , d'ailleurs) juste pour le plaisir. Comme mentionné précédemment, selon les données, certaines transformations seraient soit invalides , soit inutiles . Je vous recommande fortement de lire l'excellent matériel d'introduction de l' OHMI suivant sur la transformation des données : http://fmwww.bc.edu/repec/bocode/t/transint.html . Veuillez noter que les exemples de code dans ce document sont écrits en langage Stata , mais sinon le document est suffisamment générique et, par conséquent, également utile aux utilisateurs non-Stata.
Quelques techniques et outils simples pour traiter les problèmes courants liés aux données , tels que le manque de normalité , les valeurs aberrantes et les distributions de mélange peuvent être trouvés dans cet article (notez que la stratification en tant qu'approche pour traiter la distribution de mélange est probablement la plus simple - une approche plus générale et complexe de cette approche est l' analyse des mélanges , également connue sous le nom de modèles de mélanges finis , dont la description dépasse le cadre de cette réponse). Transformation Box-Cox, brièvement mentionné dans les deux références ci-dessus, est une transformation de données assez importante, en particulier pour les données non normales (avec quelques mises en garde). Pour plus de détails sur la transformation Box-Cox, veuillez consulter cet article d'introduction .
la source
La transformation des journaux n'améliore PAS TOUJOURS les choses. De toute évidence, vous ne pouvez pas log-transformer des variables qui atteignent zéro ou des valeurs négatives, et même des variables positives qui étreignent zéro pourraient produire des valeurs aberrantes négatives si elles sont transformées en log.
Vous ne devez pas simplement tout enregistrer régulièrement, mais c'est une bonne pratique de PENSER à la transformation de prédicteurs positifs sélectionnés (de manière appropriée, souvent un journal mais peut-être autre chose) avant d'adapter un modèle. Il en va de même pour la variable de réponse. La connaissance du sujet est également importante. Une théorie de la physique ou de la sociologie ou quoi que ce soit pourrait naturellement conduire à certaines transformations. Généralement, si vous voyez des variables qui sont positivement asymétriques, c'est là qu'un journal (ou peut-être une racine carrée ou une réciproque) pourrait aider.
Certains textes de régression semblent suggérer que vous devez examiner les tracés de diagnostic avant d'envisager des transformations, mais je ne suis pas d'accord. Je pense qu'il vaut mieux faire le meilleur travail possible en faisant ces choix avant de monter n'importe quel modèle, afin d'avoir le meilleur point de départ possible; puis regardez les diagnostics pour voir si vous devez ajuster à partir de là.
la source
snoq
ensemble de données dans ce thread CrossValidated (en gardant à l'esprit que l'objectif est de faire correspondre un mélange de Gaussiens)?1) données de comptage (y> 0) -> log (y) ou y = exp (b0 + biXi) 2) données de comptage + zéro (y> = 0) -> modèle d'obstacle (binôme + rég. De comptage) 3) tous les effets multiplicateurs (et erreurs) seront additifs 4) variance ~ moyenne -> log (y) ou y = exp (b0 + biXi) 5) ...
la source