Étant donné les multiples plis de validation croisée d'une régression logistique et les estimations multiples résultantes de chaque coefficient de régression, comment doit-on mesurer si un prédicteur (ou un ensemble de prédicteurs) est ou non stable et significatif sur la base du ou des coefficients de régression ? Est-ce différent pour la régression linéaire?
regression
model-selection
cross-validation
Jack Tanner
la source
la source
Réponses:
Vous pouvez traiter les coefficients de régression résultant de chaque repli de test dans le CV comme des observations indépendantes, puis calculer leur fiabilité / stabilité en utilisant le coefficient de corrélation intra-classe (ICC) tel que rapporté par Shrout & Fleiss.
la source
Je suppose que dans votre validation croisée, vous divisez les données en deux parties, un ensemble de formation et un ensemble de test. Dans un pli, vous ajustez un modèle de l'ensemble d'entraînement et l'utilisez pour prédire la réponse de l'ensemble de test, non? Cela vous donnera un taux d'erreur pour l'ensemble du modèle, pas pour un seul prédicteur.
Je ne sais pas s'il est possible de trouver des valeurs de p pour les prédicteurs en utilisant quelque chose comme les tests F utilisés dans la régression linéaire ordinaire.
Vous pouvez essayer de supprimer les prédicteurs du modèle en utilisant par exemple la sélection vers l'arrière ou vers l'avant si tel est votre objectif.
Au lieu de CV, vous pouvez utiliser le bootstrap pour trouver un intervalle de confiance pour chaque prédicteur, puis voir à quel point il est stable.
Combien de plis utilisez-vous dans votre CV? S'agit-il d'une validation croisée sans laisser de place?
Peut-être que plus de détails sur votre objectif aideraient à répondre à cette question.
la source
glm(..., family="binomial")
de R. Que dois-je faire avec les intervalles pour chaque prédicteur sur les cycles de sortie?