Stabilité du modèle dans la validation croisée des modèles de régression

10

Étant donné les multiples plis de validation croisée d'une régression logistique et les estimations multiples résultantes de chaque coefficient de régression, comment doit-on mesurer si un prédicteur (ou un ensemble de prédicteurs) est ou non stable et significatif sur la base du ou des coefficients de régression ? Est-ce différent pour la régression linéaire?

Jack Tanner
la source
@BGreene Très intelligent. Pourquoi ne pas poster cela comme réponse? Vous me demandez également si la littérature d'apprentissage d'ensemble contient quelque chose de pertinent.
Jack Tanner
Lorsque vous dites "validation croisée multiple", voulez-vous dire que vous exécutez fois une validation croisée fois? mk
Boscovich
@andrea, je dis "plis de validation croisée multiples", c'est-à-dire plis. k
Jack Tanner

Réponses:

2

Vous pouvez traiter les coefficients de régression résultant de chaque repli de test dans le CV comme des observations indépendantes, puis calculer leur fiabilité / stabilité en utilisant le coefficient de corrélation intra-classe (ICC) tel que rapporté par Shrout & Fleiss.

BGreene
la source
0

Je suppose que dans votre validation croisée, vous divisez les données en deux parties, un ensemble de formation et un ensemble de test. Dans un pli, vous ajustez un modèle de l'ensemble d'entraînement et l'utilisez pour prédire la réponse de l'ensemble de test, non? Cela vous donnera un taux d'erreur pour l'ensemble du modèle, pas pour un seul prédicteur.

Je ne sais pas s'il est possible de trouver des valeurs de p pour les prédicteurs en utilisant quelque chose comme les tests F utilisés dans la régression linéaire ordinaire.

Vous pouvez essayer de supprimer les prédicteurs du modèle en utilisant par exemple la sélection vers l'arrière ou vers l'avant si tel est votre objectif.

Au lieu de CV, vous pouvez utiliser le bootstrap pour trouver un intervalle de confiance pour chaque prédicteur, puis voir à quel point il est stable.

Combien de plis utilisez-vous dans votre CV? S'agit-il d'une validation croisée sans laisser de place?

Peut-être que plus de détails sur votre objectif aideraient à répondre à cette question.

Tobias Abenius
la source
Supposons qu'il s'agisse d'une absence. Chaque prédicteur dans chaque repli a déjà un intervalle de confiance, par exemple, à partir d'un CI bayésien postérieur ou d'une erreur std à partir glm(..., family="binomial")de R. Que dois-je faire avec les intervalles pour chaque prédicteur sur les cycles de sortie?
Jack Tanner