Dans cet article intitulé "CHOISIR ENTRE DES MODÈLES LINÉAIRES GÉNÉRALISÉS APPLIQUÉS AUX DONNÉES MÉDICALES", les auteurs écrivent:
Dans un modèle linéaire généralisé, la moyenne est transformée, par la fonction de lien, au lieu de transformer la réponse elle-même. Les deux méthodes de transformation peuvent conduire à des résultats très différents. Par exemple, la moyenne des réponses transformées par logarithme n'est pas la même que le logarithme de la réponse moyenne . En général, le premier ne peut pas facilement être transformé en une réponse moyenne. Ainsi, la transformation de la moyenne permet souvent d’interpréter plus facilement les résultats, notamment parce que les paramètres de la moyenne restent à la même échelle que les réponses mesurées.
Il semble qu’ils recommandent l’adaptation d’un modèle linéaire généralisé (GLM) avec liaison log au lieu d’un modèle linéaire (LM) avec une réponse transformée par log. Je ne comprends pas les avantages de cette approche et cela me semble assez inhabituel.
Ma variable de réponse semble log-normalement distribuée. J'obtiens des résultats similaires en termes de coefficients et d'erreurs-types avec l'une ou l'autre approche.
Je me demande quand même: si une variable a une distribution log-normale, la moyenne de la variable transformée par le journal n’est-elle pas préférable au journal de la variable moyenne non transformée , car la moyenne est le résumé naturel d’une distribution normale et le log La variable transformée est normalement distribuée, alors que la variable elle-même ne l'est pas?
Réponses:
Bien qu'il puisse sembler que la moyenne des variables transformées en log soit préférable (puisque c'est ainsi que log-normal est typiquement paramétré), d'un point de vue pratique, le log de la moyenne est généralement beaucoup plus utile.
Cela est particulièrement vrai lorsque votre modèle n'est pas tout à fait correct, et pour citer George Box: "Tous les modèles sont incorrects, certains sont utiles"
Supposons qu'une certaine quantité soit connectée normalement, la pression artérielle, par exemple (je ne suis pas un médecin!), Et nous avons deux populations, hommes et femmes. On pourrait supposer que la pression artérielle moyenne est plus élevée chez les femmes que chez les hommes. Cela correspond exactement à demander si le log de la pression artérielle moyenne est plus élevé chez les femmes que chez les hommes. Ce n'est pas la même chose que de demander si la moyenne de la tension artérielle est plus élevée chez les femmes que chez les hommes .
De toute évidence, cela rend l'algèbre horriblement compliqué, mais cela fonctionne toujours et signifie la même chose.
Jusqu'à présent, nous avons supposé que la pression artérielle était réellement log-normale. Si les vraies distributions ne sont pas tout à fait log normales, la transformation des données aggravera (en règle générale) les choses encore plus que précédemment, car nous ne saurons pas vraiment ce que signifie notre paramètre "moyenne". C'est-à-dire que nous ne saurons pas que ces deux équations pour la moyenne et la variance que j'ai données ci-dessus sont correctes. L'utilisation de ceux-ci pour transformer va et vient introduira des erreurs supplémentaires.
la source
Voici mes deux cents d'un cours avancé d'analyse de données que j'ai suivi en biostatistique (bien que je n'ai pas de références autres que les notes de mon professeur):
Tout se résume à la nécessité de prendre en compte la linéarité et l'hétéroscédasticité (variances inégales) de vos données, ou simplement la linéarité.
Elle note que la transformation des données affecte les hypothèses de linéarité et de variance d'un modèle. Par exemple, si vos résidus présentent des problèmes avec les deux, vous pouvez envisager de transformer les données, ce qui pourrait éventuellement les corriger. La transformation transforme les erreurs et donc leur variance.
En revanche, l’utilisation de la fonction de lien n’affecte que l’hypothèse de linéarité, pas la variance. Le log est pris de la moyenne (valeur attendue) et la variance des résidus n'est donc pas affectée.
En résumé, si vous n'avez pas de problème avec la variance non constante, elle suggère d'utiliser la fonction de lien sur la transformation, car vous ne souhaitez pas modifier votre variance dans ce cas (vous respectez déjà l'hypothèse).
la source
Si la réponse réelle n'est pas symétrique (non distribuée comme d'habitude) mais que la réponse transformée log est normale, alors une régression linéaire sur la réponse transformée sera utilisée et le coefficient d'exposant nous donne le rapport de la moyenne géométrique.
Si la réponse véritable est symétrique (distribuée comme d'habitude) mais que la relation entre explicatif (X) et la réponse n'est pas linéaire mais que la valeur log estimée est linéaire fonction de X, alors GLM avec log link soit utilisé et le coefficient d'exposant nous donne le rapport de la moyenne arithmétique
la source