Transformer les variables continues pour la régression logistique

11

J'ai de grandes données d'enquête, une variable de résultat binaire et de nombreuses variables explicatives, y compris binaire et continue. Je construis des ensembles de modèles (expérimentant à la fois le GLM et le GLM mixte) et j'utilise des approches théoriques de l'information pour sélectionner le modèle supérieur. J'ai soigneusement examiné les explications (à la fois continues et catégoriques) pour les corrélations et j'utilise uniquement celles du même modèle qui ont un coefficient Pearson ou Phicorr inférieur à 0,3. Je voudrais donner à toutes mes variables continues une chance équitable de concourir pour le modèle haut de gamme. D'après mon expérience, la transformation de ceux qui en ont besoin en fonction de l'inclinaison améliore le modèle auquel ils participent (AIC inférieur).

Ma première question est: cette amélioration est-elle parce que la transformation améliore la linéarité avec le logit? Ou est-ce que la correction du biais améliore l'équilibre des variables explicatives d'une manière ou d'une autre en rendant les données plus symétriques? Je souhaite avoir compris les raisons mathématiques derrière cela, mais pour l'instant, si quelqu'un pouvait expliquer cela en termes simples, ce serait formidable. Si vous avez des références que je pourrais utiliser, je l'apprécierais vraiment.

De nombreux sites Internet affirment que la normalité n'étant pas une hypothèse de régression logistique binaire, ne transformez pas les variables. Mais je pense qu'en ne transformant pas mes variables, je laisse certains désavantagés par rapport aux autres et cela pourrait affecter ce qu'est le modèle supérieur et changer l'inférence (enfin, ce n'est généralement pas le cas, mais dans certains ensembles de données, c'est le cas). Certaines de mes variables fonctionnent mieux lorsqu'elles sont transformées en logarithme, certaines lorsqu'elles sont au carré (direction de décalage différente) et d'autres non transformées.

Quelqu'un pourrait-il me donner une ligne directrice sur quoi faire attention lors de la transformation des variables explicatives de la régression logistique et sinon, pourquoi?

Zsuzsa
la source
2
En effet, dans la régression logistique, il n'y a pas d'hypothèse de normalité (ou de distribution logistique dans ce cas). La fonction de lien (parfois notée ) est utilisée pour modéliser la relation entre la probabilité d'observer un ( ) avec les covariables à travers . Un mauvais ajustement / performances peut être dû au choix de la fonction de liaison. Une alternative pour trier ce problème consiste à utiliser une distribution plus flexible, voir par exemple ce papier . F - 1 1 0 P ( Y = 1 | β , X ) = F ( X β )FF110P(Y=1|β,X)=F(Xβ)
Bien qu'écrit dans un contexte différent, une grande partie de ce que vous demandez se trouve dans ma réponse (ou dans les liens dans ma réponse) ici: les X et Y normalement distribués sont-ils plus susceptibles d'entraîner des résidus normalement distribués?
gung - Réintégrer Monica

Réponses:

3

Vous devez vous méfier de décider de transformer ou non les variables uniquement pour des raisons statistiques . Vous devez regarder sur l'interprétation. ¿Est-il raisonnable que vos réponses soient linéaires en ? ou est-il plus probablement linéaire dans ? Et pour en discuter, il nous faut connaître vos variables ... A titre d'exemple: indépendamment de l'ajustement du modèle, je ne pense pas que la mortalité soit une fonction linéaire de l'âge!journal ( x )xlog(x)

Puisque vous dites que vous avez des "grandes données", vous pouvez examiner les splines, pour laisser les données parler des transformations ... par exemple, empaqueter mgcv dans R. Mais même en utilisant une telle technologie (ou d'autres méthodes pour rechercher automatiquement les transformations), le le test ultime est de vous demander ce qui a un sens scientifique . ¿Que font les autres personnes de votre domaine avec des données similaires?

kjetil b halvorsen
la source
Merci d'avoir soutenu mes inquiétudes: en effet, j'ai pensé à ce qui est logique sur le plan biologique. Le problème est que j'ai en fait deux ensembles de données connexes et je voudrais tirer des conclusions des deux en même temps. Mais dans un sous-ensemble, la variable de densité est meilleure dans les modèles non transformés tandis que dans l'autre transformation logarithmique est la meilleure. La transformation du journal améliore la relation dans l'ensemble de données qui a les valeurs les plus faibles pour cette variable, il sera donc très difficile de réconcilier ces deux ensembles de données, je pense, sauf si je laisse la variable non transformée dans les deux.
Zsuzsa
1
Les experts dans un domaine sont rarement capables de connaître a priori les "bonnes" transformations des variables. Je ne vois presque jamais de relations linéaires, donc lorsque la taille de l'échantillon le justifie, je relâche cette hypothèse en utilisant des splines de régression. Je fais le résultat interprétable avec des images.
Frank Harrell
3

La question critique est de savoir quels sont les nombres censés représenter dans le monde réel et quelle est la relation hypothétique entre ces variables et la variable dépendante. Vous pouvez améliorer votre modèle en «nettoyant» vos données, mais si elles ne reflètent pas mieux le monde réel, vous avez échoué. Peut-être que les distributions de vos données signifient que votre approche de modélisation est incorrecte et que vous avez besoin d'une approche différente, peut-être que vos données ont des problèmes.

Pourquoi vous supprimez des variables si elles ont corr> .3 me dépasse. Peut-être que ces choses sont vraiment liées et que les deux sont importantes pour la variable dépendante. Vous pouvez gérer cela avec un indice ou une fonction représentant la contribution conjointe des variables corrélées. Il semble que vous jetiez aveuglément des informations basées sur des critères statistiques arbitraires. Pourquoi ne pas utiliser corr> 0,31 ou 0,33?

John
la source