Formation, test, validation dans un problème d'analyse de survie

14

J'ai parcouru divers fils ici, mais je ne pense pas que ma question exacte soit répondue.

J'ai un ensemble de données d'environ 50 000 étudiants et leur temps d'abandon. Je vais effectuer une régression des risques proportionnels avec un grand nombre de covariables potentielles. Je vais également faire une régression logistique sur le décrochage / séjour. L'objectif principal sera la prédiction pour les nouvelles cohortes d'étudiants, mais nous n'avons aucune raison de croire qu'elles varieront beaucoup par rapport à la cohorte de l'année dernière.

Habituellement, je n'ai pas un tel luxe de données et je fais l'ajustement de modèle avec une sorte de pénalisation, mais cette fois, j'ai pensé à diviser les ensembles de données d'entraînement et de test, puis à faire la sélection des variables sur l'ensemble d'entraînement; puis en utilisant l'ensemble de données de test pour estimer les paramètres et la capacité prédictive.

Est-ce une bonne stratégie? Sinon, quoi de mieux?

Les citations sont les bienvenues mais pas nécessaires.

Peter Flom - Réintégrer Monica
la source

Réponses:

8

Avec une fréquence de résultat similaire, j'ai constaté que le fractionnement des données peut fonctionner si . Et il fournit une estimation impartiale des performances du modèle, pénalisant correctement la sélection du modèle (si vous avez vraiment besoin d'une sélection de modèle; la pénalisation est encore plus susceptible de donner un meilleur modèle) si vous n'utilisez l'échantillon de test qu'une seule fois. MAIS n'utilisez pas l'échantillon de test pour toute réestimation des paramètres. Le fractionnement des données repose sur le modèle construit à l'aide de l'échantillon d'apprentissage à mettre en «gel profond» et appliqué à l'échantillon de test sans peaufiner.n>20,000

Frank Harrell
la source
Merci. Recommanderiez-vous 80-20? 90-10? Autre chose? Des références à ce sujet?
Peter Flom - Réintègre Monica
2
Je n'ai pas suivi la littérature concernant la configuration optimale de split. Mais certains principes généraux s'appliquent. Pour l'échantillon de validation dont vous avez besoin suffisamment grand pour pouvoir estimer la courbe d'étalonnage avec une grande précision, vous devez voir que ce qui reste est plus que suffisant pour un ajustement fiable du modèle (en utilisant, disons, un rapport d'événements de 20: 1: candidat si vous ne pénalisez pas). n
Frank Harrell
3

J'ai moi-même consulté cet article pour la tâche similaire de validation croisée des prévisions de survie. Les bons morceaux commencent au chapitre 2.

Cam.Davidson.Pilon
la source
Cela semble comparer 5 fois à l'estimation basée sur le modèle CV (et il conclut que 5 fois est mieux). Mais j'étais plus intéressé à simplement diviser les données en 2 parties et à utiliser l'une pour valider l'autre.
Peter Flom - Réintègre Monica
1
Le résultat que j'ai trouvé de cela, et pourquoi j'ai été initialement attiré par cet article, était de savoir comment gérer la censure dans les prédictions de survie, c'est-à-dire quelle fonction de perte utiliser (bien que relisant votre question, vous ne puissiez pas avoir la censure).
Cam.Davidson.Pilon
J'ai de la censure et la thèse est intéressante, mais ce n'est pas une réponse à ma question, je ne pense pas.
Peter Flom - Réintègre Monica
1

Depuis, j'ai trouvé cet article qui non seulement répond à ma question, mais fournit une méthode pour déterminer la répartition optimale pour des ensembles de données particuliers. J'ai trouvé cela grâce à l'utilisation par @FrankHarrell du terme "configuration de séparation optimale" que j'ai ensuite recherchée sur Google.

Peter Flom - Réintégrer Monica
la source
2
Peter Je pense que le papier a utilisé une règle de notation incorrecte. Des résultats différents peuvent être obtenus lors de l'utilisation de règles de notation appropriées. En outre, le document n'a pas abordé la «volatilité» de l'analyse. Compte tenu de la petite taille totale des échantillons, la répétition du processus en utilisant une répartition aléatoire différente se traduira par des modèles très différents et une précision très différente par rapport à la première division. Je vois que c'est très indésirable.
Frank Harrell
@FrankHarrell: Je vois votre point et c'est en effet un très bon point. Que recommandez-vous alors de faire? Peform Monte Carlo exécute des fractionnements train / test, puis à chaque parcours ix k-folds CV (ou bootstrapping)? Mais cela contaminerait l'ensemble des données ... Je ne vois pas de meilleure solution que de trouver un moyen approprié de diviser l'ensemble de données en trains et en ensembles de tests (quels seraient les critères?) Je ne suis tout simplement pas à l'aise d'utiliser tous les ensemble de données pour former et valider (à l'aide de CV ou de démarrage) les modèles (à partir desquels un (ou plusieurs) sera utilisé pour prédire des valeurs de sortie inconnues sur la base de certaines données d'entrée).
jpcgandre
J'en ai parlé dans le message que vous venez de mettre sur une autre page de sujet.
Frank Harrell