J'ai de grandes données d'enquête, une variable de résultat binaire et de nombreuses variables explicatives, y compris binaire et continue. Je construis des ensembles de modèles (expérimentant à la fois le GLM et le GLM mixte) et j'utilise des approches théoriques de l'information pour sélectionner le modèle supérieur. J'ai soigneusement examiné les explications (à la fois continues et catégoriques) pour les corrélations et j'utilise uniquement celles du même modèle qui ont un coefficient Pearson ou Phicorr inférieur à 0,3. Je voudrais donner à toutes mes variables continues une chance équitable de concourir pour le modèle haut de gamme. D'après mon expérience, la transformation de ceux qui en ont besoin en fonction de l'inclinaison améliore le modèle auquel ils participent (AIC inférieur).
Ma première question est: cette amélioration est-elle parce que la transformation améliore la linéarité avec le logit? Ou est-ce que la correction du biais améliore l'équilibre des variables explicatives d'une manière ou d'une autre en rendant les données plus symétriques? Je souhaite avoir compris les raisons mathématiques derrière cela, mais pour l'instant, si quelqu'un pouvait expliquer cela en termes simples, ce serait formidable. Si vous avez des références que je pourrais utiliser, je l'apprécierais vraiment.
De nombreux sites Internet affirment que la normalité n'étant pas une hypothèse de régression logistique binaire, ne transformez pas les variables. Mais je pense qu'en ne transformant pas mes variables, je laisse certains désavantagés par rapport aux autres et cela pourrait affecter ce qu'est le modèle supérieur et changer l'inférence (enfin, ce n'est généralement pas le cas, mais dans certains ensembles de données, c'est le cas). Certaines de mes variables fonctionnent mieux lorsqu'elles sont transformées en logarithme, certaines lorsqu'elles sont au carré (direction de décalage différente) et d'autres non transformées.
Quelqu'un pourrait-il me donner une ligne directrice sur quoi faire attention lors de la transformation des variables explicatives de la régression logistique et sinon, pourquoi?
Réponses:
Vous devez vous méfier de décider de transformer ou non les variables uniquement pour des raisons statistiques . Vous devez regarder sur l'interprétation. ¿Est-il raisonnable que vos réponses soient linéaires en ? ou est-il plus probablement linéaire dans ? Et pour en discuter, il nous faut connaître vos variables ... A titre d'exemple: indépendamment de l'ajustement du modèle, je ne pense pas que la mortalité soit une fonction linéaire de l'âge!journal ( x )x log(x)
Puisque vous dites que vous avez des "grandes données", vous pouvez examiner les splines, pour laisser les données parler des transformations ... par exemple, empaqueter mgcv dans R. Mais même en utilisant une telle technologie (ou d'autres méthodes pour rechercher automatiquement les transformations), le le test ultime est de vous demander ce qui a un sens scientifique . ¿Que font les autres personnes de votre domaine avec des données similaires?
la source
La question critique est de savoir quels sont les nombres censés représenter dans le monde réel et quelle est la relation hypothétique entre ces variables et la variable dépendante. Vous pouvez améliorer votre modèle en «nettoyant» vos données, mais si elles ne reflètent pas mieux le monde réel, vous avez échoué. Peut-être que les distributions de vos données signifient que votre approche de modélisation est incorrecte et que vous avez besoin d'une approche différente, peut-être que vos données ont des problèmes.
Pourquoi vous supprimez des variables si elles ont corr> .3 me dépasse. Peut-être que ces choses sont vraiment liées et que les deux sont importantes pour la variable dépendante. Vous pouvez gérer cela avec un indice ou une fonction représentant la contribution conjointe des variables corrélées. Il semble que vous jetiez aveuglément des informations basées sur des critères statistiques arbitraires. Pourquoi ne pas utiliser corr> 0,31 ou 0,33?
la source