Dans un ensemble de données de deux populations qui ne se chevauchent pas (patients et en bonne santé, total ), je voudrais trouver (sur variables indépendantes) des prédicteurs significatifs pour une variable dépendante continue. Il existe une corrélation entre les prédicteurs. Je voudrais savoir si l'un des prédicteurs est lié à la variable dépendante "en réalité" (plutôt que de prédire la variable dépendante aussi exactement que possible). Comme j'ai été submergé par les nombreuses approches possibles, je voudrais demander quelle approche est la plus recommandée.300
D'après ma compréhension, l'inclusion ou l'exclusion progressive des prédicteurs n'est pas recommandée
Par exemple, exécuter une régression linéaire séparément pour chaque prédicteur et corriger les valeurs de p pour une comparaison multiple à l'aide du FDR (probablement très conservateur?)
Régression en composantes principales: difficile à interpréter car je ne pourrai pas parler du pouvoir prédictif des prédicteurs individuels mais uniquement des composants.
d'autres suggestions?
Réponses:
Je recommanderais d'essayer un GLM avec régularisation au lasso . Cela ajoute une pénalité au modèle pour le nombre de variables et à mesure que vous augmentez la pénalité, le nombre de variables dans le modèle diminue.
Vous devez utiliser la validation croisée pour sélectionner la valeur du paramètre de pénalité. Si vous avez R, je vous suggère d'utiliser le paquet glmnet . À utiliser
alpha=1
pour la régression au lasso etalpha=0
pour la régression des crêtes. La définition d'une valeur entre 0 et 1 utilisera une combinaison de pénalités de lasso et de crête, également connues sous le nom de filet élastique.la source
Pour développer la réponse de Zach (+1), si vous utilisez la méthode LASSO en régression linéaire, vous essayez de minimiser la somme d'une fonction quadratique et d'une fonction de valeur absolue, à savoir:
Le minimum se situe sur la courbe d'intersection, tracée ici avec les courbes de contour de la courbe quadratique et carrée:
Vous pouvez voir que le minimum est sur l'un des axes, il a donc éliminé cette variable de la régression.
la source
Quelle est votre opinion sur le nombre de prédicteurs susceptibles d'être importants? Est-il probable que la plupart d'entre elles aient un effet exactement nul, ou que tout affecte le résultat, certaines variables seulement moins que d'autres?
Et comment l'état de santé est-il lié à la tâche prédictive?
Si vous pensez que seules quelques variables sont importantes, vous pouvez essayer le pic et la dalle avant (dans le package spikeSlabGAM de R, par exemple), ou L1. Si vous pensez que tous les prédicteurs affectent le résultat, vous n'avez peut-être pas de chance.
Et en général, toutes les mises en garde liées à l'inférence causale à partir des données d'observation s'appliquent.
la source
Quoi que vous fassiez, il est utile d'obtenir des intervalles de confiance bootstrap sur les rangs d'importance des prédicteurs pour montrer que vous pouvez vraiment le faire avec votre ensemble de données. Je doute que l'une des méthodes puisse trouver de manière fiable les "vrais" prédicteurs.
la source
la source