Comment sélectionnez-vous les variables dans un modèle de régression?

12

L'approche traditionnelle de la sélection des variables consiste à trouver les variables qui contribuent le plus à prédire une nouvelle réponse. Récemment, j'ai appris une alternative à cela. Dans la modélisation des variables qui déterminent l'effet d'un traitement - comme par exemple dans un essai clinique d'un produit pharmaceutique - la variable est censée interagir qualitativementavec le traitement si, en laissant d'autres choses fixes, un changement dans cette variable peut créer un changement dans lequel le traitement est le plus efficace. Ces variables ne sont pas toujours de bons prédicteurs de l'effet mais peuvent être importantes pour un médecin lorsqu'il décide du traitement de chaque patient. Dans sa thèse de doctorat, Lacey Gunter a développé une méthode pour sélectionner ces variables en interaction qualitative qui pourraient être manquées par les algorithmes qui basent la sélection sur la prédiction. Récemment, j'ai travaillé avec elle sur l'extension de ces méthodes à d'autres modèles, y compris les modèles de régression logistique et de régression à risques proportionnels de Cox.

J'ai deux questions:

  1. Que pensez-vous de la valeur de ces nouvelles méthodes?
  2. Dans le cas des méthodes traditionnelles, quelle approche préférez-vous? Des critères tels que les tests AIC, BIC, Mallows Cp, F pour entrer ou supprimer des variables par étapes, en avant et en arrière ...

Le premier article à ce sujet est paru dans Gunter, L., Zhu, J et Murphy, SA (2009). Sélection variable pour les interactions qualitatives . Méthodologie statistique doi: 10, 1016 / j.stamet.2009.05.003.

L'article suivant a paru dans Gunter, L., Zhu, J. et Murphy, SA (2011). Sélection variable d'interactions qualitatives en médecine personnalisée tout en contrôlant le taux d'erreur familial . Journal of Biopharmaceutical Statistics 21, 1063-1078.

Le suivant est paru dans un numéro spécial sur la sélection des variables Gunter, L., Chernick, MR et Sun, J. (2011). Une méthode simple pour la sélection des variables en régression par rapport à la sélection du traitement . Pakistan Journal of Statistics and Operations Research 7: 363-380.

Vous pouvez trouver les articles sur les sites Web de la revue. Vous devrez peut-être acheter l'article. Je pourrais avoir les fichiers pdf de ces articles. Lacey et moi venons de terminer une monographie sur ce sujet qui sera publiée sous forme de SpringerBrief plus tard cette année.

Michael R. Chernick
la source
11
Peut-être que je ne suis pas en train de suivre - s'il y a une raison a priori de soupçonner une modification d'effet, alors comment ces nouvelles méthodes diffèrent-elles, par exemple, de l'inclusion de termes d'interaction dans la liste des variables "candidates" pour la sélection du modèle?
Macro
6
(1) Une ou plusieurs lignes semblent avoir été perdues dans cette question. Je suppose que cela pourrait continuer "pas à pas, en avant et en arrière, ..." (2) L'identification du modèle et la sélection des variables ont été largement discutées ici. Par exemple, la recherche sur + modèle + variable + sélection présente 145 threads à ce stade. Limiter cette recherche répondra probablement à la deuxième question. (3) Pour faciliter les réponses à la première question, pourriez-vous fournir un lien ou des références explicites à cette recherche?
whuber
2
Il s'agit d'inclure une variable qui interagit avec le traitement. Mais c'est une interaction qualitative et pas seulement une simple interaction. Pour interagir, les deux lignes ne doivent pas être parallèles. Pour interagir qualitativement, ils doivent traverser l'intervalle dans lequel la variable est définie. L'idée est donc de trouver une variable qui interagit qualitativement. Ceci est différent de la sélection de variables et de termes d'interaction qui améliorent l'ajustement ou la prédiction.
Michael R. Chernick
3
Merci d'avoir profité de l'occasion pour répondre, Michael. Peut-être un point clé à évoquer est que ce site n'est pas un site de discussion, mais plutôt un site de questions / réponses. Cela s'accompagne de modalités de communication légèrement différentes. La FAQ couvre cela en détail. Parfois, le filetage peut être un peu perdu, mais c'est en fait étonnamment rare, je trouve, une fois que l'on obtient un peu plus d'expérience avec le schéma général des choses. À votre santé.
cardinal
6
Michael, oui, le système SE prend un certain temps pour s'y habituer et n'est pas parfait. Mais cela a du sens et c'est cohérent. Une chose que nous visons est l' amélioration continue : contrairement aux serveurs de listes et aux tableaux d'affichage, les questions (et réponses) peuvent être modifiées; cela est prévu. En fin de compte, nous aimerions qu'un fil de discussion commence par une seule question complète, bien formulée et indépendante, sans référence au fil de commentaires; il devrait ensuite continuer avec une ou plusieurs réponses canoniques bien écrites et bien attribuées. Avec cet idéal à l'esprit, les suggestions de @ cardinal peuvent vous sembler plus pertinentes.
whuber

Réponses:

2
  1. Voir Gelman et Hill, Analyse des données à l'aide de la régression et du modèle multiniveau / hiérarchique p. 69, ils ont une section sur la sélection du modèle. Elle utilise une approche basée sur les questions, ce qui est tout à fait correct, mais dans son article, elle doit justifier pourquoi elle a inclus ce qu'elle a fait dans le modèle. Comme vous l'avez dit "Ces variables ne sont pas toujours de bons prédicteurs de l'effet mais peuvent être importantes pour un médecin lorsqu'il décide du traitement de chaque patient". aussi longtemps qu'elle justifie pourquoi ces prédicteurs devraient être inclus, alors ça va. Personnellement, je préfère ces méthodes. Voici donc ma réponse à 2.
  2. Pas à pas, en avant et en arrière, je pense que ce sont des boîtes noires. Lorsque vous exécutez un modèle à travers les trois, vous n'arrivez pas aux mêmes prédicteurs. Par conséquent, en termes d'utilisation, je n'aurais pas de réponse claire. AIC ou BIC peut être utilisé pour comparer des modèles.
Lauren Goodwin
la source