Modèle linéaire à réponse logarithmique vs modèle linéaire généralisé à liaison logarithmique

46

Dans cet article intitulé "CHOISIR ENTRE DES MODÈLES LINÉAIRES GÉNÉRALISÉS APPLIQUÉS AUX DONNÉES MÉDICALES", les auteurs écrivent:

Dans un modèle linéaire généralisé, la moyenne est transformée, par la fonction de lien, au lieu de transformer la réponse elle-même. Les deux méthodes de transformation peuvent conduire à des résultats très différents. Par exemple, la moyenne des réponses transformées par logarithme n'est pas la même que le logarithme de la réponse moyenne . En général, le premier ne peut pas facilement être transformé en une réponse moyenne. Ainsi, la transformation de la moyenne permet souvent d’interpréter plus facilement les résultats, notamment parce que les paramètres de la moyenne restent à la même échelle que les réponses mesurées.

Il semble qu’ils recommandent l’adaptation d’un modèle linéaire généralisé (GLM) avec liaison log au lieu d’un modèle linéaire (LM) avec une réponse transformée par log. Je ne comprends pas les avantages de cette approche et cela me semble assez inhabituel.

Ma variable de réponse semble log-normalement distribuée. J'obtiens des résultats similaires en termes de coefficients et d'erreurs-types avec l'une ou l'autre approche.

Je me demande quand même: si une variable a une distribution log-normale, la moyenne de la variable transformée par le journal n’est-elle pas préférable au journal de la variable moyenne non transformée , car la moyenne est le résumé naturel d’une distribution normale et le log La variable transformée est normalement distribuée, alors que la variable elle-même ne l'est pas?

miura
la source
3
Je suis d'accord avec votre indice si nous avons une variable distribuée log-normale. Cependant, la moyenne doit être "reconvertie" pour obtenir une statistique facilement compréhensible basée sur l'échelle de données initiale. Cela pourrait expliquer la conclusion de l'article. De plus, après la transformation du journal, il est possible que nous n'obtenions pas une variable normalement distribuée et, dans ce cas, je ne sais pas quelle approche serait la meilleure.
soufanom

Réponses:

46

Bien qu'il puisse sembler que la moyenne des variables transformées en log soit préférable (puisque c'est ainsi que log-normal est typiquement paramétré), d'un point de vue pratique, le log de la moyenne est généralement beaucoup plus utile.

Cela est particulièrement vrai lorsque votre modèle n'est pas tout à fait correct, et pour citer George Box: "Tous les modèles sont incorrects, certains sont utiles"

Supposons qu'une certaine quantité soit connectée normalement, la pression artérielle, par exemple (je ne suis pas un médecin!), Et nous avons deux populations, hommes et femmes. On pourrait supposer que la pression artérielle moyenne est plus élevée chez les femmes que chez les hommes. Cela correspond exactement à demander si le log de la pression artérielle moyenne est plus élevé chez les femmes que chez les hommes. Ce n'est pas la même chose que de demander si la moyenne de la tension artérielle est plus élevée chez les femmes que chez les hommes .

μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

De toute évidence, cela rend l'algèbre horriblement compliqué, mais cela fonctionne toujours et signifie la même chose.

ln(μ)σln2μln

μln

Jusqu'à présent, nous avons supposé que la pression artérielle était réellement log-normale. Si les vraies distributions ne sont pas tout à fait log normales, la transformation des données aggravera (en règle générale) les choses encore plus que précédemment, car nous ne saurons pas vraiment ce que signifie notre paramètre "moyenne". C'est-à-dire que nous ne saurons pas que ces deux équations pour la moyenne et la variance que j'ai données ci-dessus sont correctes. L'utilisation de ceux-ci pour transformer va et vient introduira des erreurs supplémentaires.

Corone
la source
J'ai trouvé cela très utile: christoph-scherber.de/content/PDF%20Files/…
Aditya le
2
Corone, j'ai souligné deux phrases importantes dans votre réponse. J'espère que ça ne vous dérange pas. S'il vous plaît revenir en arrière si vous n'êtes pas d'accord.
Stefan
17

Voici mes deux cents d'un cours avancé d'analyse de données que j'ai suivi en biostatistique (bien que je n'ai pas de références autres que les notes de mon professeur):

Tout se résume à la nécessité de prendre en compte la linéarité et l'hétéroscédasticité (variances inégales) de vos données, ou simplement la linéarité.

Elle note que la transformation des données affecte les hypothèses de linéarité et de variance d'un modèle. Par exemple, si vos résidus présentent des problèmes avec les deux, vous pouvez envisager de transformer les données, ce qui pourrait éventuellement les corriger. La transformation transforme les erreurs et donc leur variance.

En revanche, l’utilisation de la fonction de lien n’affecte que l’hypothèse de linéarité, pas la variance. Le log est pris de la moyenne (valeur attendue) et la variance des résidus n'est donc pas affectée.

En résumé, si vous n'avez pas de problème avec la variance non constante, elle suggère d'utiliser la fonction de lien sur la transformation, car vous ne souhaitez pas modifier votre variance dans ce cas (vous respectez déjà l'hypothèse).

Meg
la source
6
Bien que la fonction de liaison n'influe que sur la moyenne, la fonction de liaison ne représente qu'une partie d'un GLM. Vos commentaires fonctionnent pour un GLM gaussien avec lien de journal. Un GLM gamma avec log link aura la même hypothèse de fonction de variance (variance proportionnelle à la moyenne au carré) que de prendre des logs et d'ajuster une variance constante sur cette échelle de log. D'autres familles dans le cadre de GLM auront d'autres fonctions de variance. Malheureusement, le tableau de la page wikipedia pour les GLM omet les fonctions de variance pour les familles de distribution qu’il donne.
Glen_b
2
Ils mentionnent cependant quelques exemples ici . Voici le gamma
Glen_b
-1

Si la réponse réelle n'est pas symétrique (non distribuée comme d'habitude) mais que la réponse transformée log est normale, alors une régression linéaire sur la réponse transformée sera utilisée et le coefficient d'exposant nous donne le rapport de la moyenne géométrique.

Si la réponse véritable est symétrique (distribuée comme d'habitude) mais que la relation entre explicatif (X) et la réponse n'est pas linéaire mais que la valeur log estimée est linéaire fonction de X, alors GLM avec log link soit utilisé et le coefficient d'exposant nous donne le rapport de la moyenne arithmétique

Md Ahshanul Haque
la source
Cette réponse n'est pas claire. Voulez-vous dire "variable" plutôt que "véritable"?
Michael Chernick
Ceci est un fragment de réponse. Vous devez expliquer clairement en quoi cela est lié à la question et quelle est la réponse de la question à la question.
ReneBt