J'ai parcouru divers fils ici, mais je ne pense pas que ma question exacte soit répondue.
J'ai un ensemble de données d'environ 50 000 étudiants et leur temps d'abandon. Je vais effectuer une régression des risques proportionnels avec un grand nombre de covariables potentielles. Je vais également faire une régression logistique sur le décrochage / séjour. L'objectif principal sera la prédiction pour les nouvelles cohortes d'étudiants, mais nous n'avons aucune raison de croire qu'elles varieront beaucoup par rapport à la cohorte de l'année dernière.
Habituellement, je n'ai pas un tel luxe de données et je fais l'ajustement de modèle avec une sorte de pénalisation, mais cette fois, j'ai pensé à diviser les ensembles de données d'entraînement et de test, puis à faire la sélection des variables sur l'ensemble d'entraînement; puis en utilisant l'ensemble de données de test pour estimer les paramètres et la capacité prédictive.
Est-ce une bonne stratégie? Sinon, quoi de mieux?
Les citations sont les bienvenues mais pas nécessaires.
la source
J'ai moi-même consulté cet article pour la tâche similaire de validation croisée des prévisions de survie. Les bons morceaux commencent au chapitre 2.
la source
Depuis, j'ai trouvé cet article qui non seulement répond à ma question, mais fournit une méthode pour déterminer la répartition optimale pour des ensembles de données particuliers. J'ai trouvé cela grâce à l'utilisation par @FrankHarrell du terme "configuration de séparation optimale" que j'ai ensuite recherchée sur Google.
la source