Existe-t-il des méthodes pour corriger le biais dans le modèle de risque proportionnel de Cox causé par un échantillon non sélectionné au hasard (quelque chose comme la correction de Heckman)?
Contexte :
Disons que la situation se présente comme suit:
- Au cours des deux premières années, tous les clients sont acceptés.
- Après ces deux ans, un modèle Cox PH est construit. Le modèle prédit combien de temps les clients utiliseront notre service.
- En raison de la politique de l'entreprise désormais seuls les clients avec une probabilité de survie de 3 mois supérieure à 0,5 sont acceptés, les autres sont rejetés.
- Après encore deux ans, un nouveau modèle doit être construit. Le problème est que nous ne ciblons que les clients acceptés et que nous n'utilisons que ces clients peut entraîner de graves biais.
Réponses:
Il existe des solutions proposées aux modèles de risques paramétriques. Jetez un oeil à ces derniers:
Prieger, James, 2000. «A Generalized Parametric Selection Model for Non-normal Data», Working Papers 00-9, University of California at Davis, Department of Economics.
Boehmke, Frederick J., Daniel Morey et Megan Shannon. 2006. «Biais de sélection et modèles de durée en temps continu: conséquences et solution proposée». American Journal of Political Science 50 (1): 192-207.
Il y a du code pour le dernier article dans Stata, paquet "dursel"
Cependant, je ne connais pas de solution pour le modèle de Cox semi-paramétrique.
la source
La réponse simple est la pondération. Autrement dit, vous pouvez utiliser des pondérations pour standardiser les groupes du groupe «accepté» en fonction de la population d'intérêt. Le problème qui découle de l'utilisation de ces poids dans une analyse groupée utilisant à la fois la première et la deuxième phases de 2 ans est que les poids estimés de la population et les paramètres sont désormais dépendants. L'approche de pseudo-vraisemblance est généralement utilisée (dans ce cas, il s'agirait d'une sorte de vraisemblance pseudo-partielle) où vous ignorez la dépendance entre les poids d'échantillon et les estimations des paramètres. Cependant, dans de nombreuses circonstances pratiques (et celle-ci n'est pas différente), la prise en compte de cette dépendance est nécessaire. La question de la création d'un estimateur efficace des ratios de risque est difficile et, pour autant que je sache, ouverte.
Amélioration de l'estimation de Horvitz-Thompson des paramètres du modèle à partir d'échantillons stratifiés en deux phases: applications en épidémiologie .
L'article traite des méthodes d'enquête, généralement appliquées à la régression logistique, mais vous pouvez également pondérer les données de survie. Certaines considérations importantes que vous avez omis de mentionner sont de savoir si vous êtes intéressé à créer une prédiction qui s’applique à l’ensemble de la population, ou à la population "éligible" sur la base des estimations sur 2 ans, ou à la population "éligible" sur la base de la résultante modèle. Vous n'avez pas non plus mentionné exactement comment un tel modèle de "prédiction" est créé à partir d'un modèle de Cox, car les valeurs ajustées d'un modèle de Cox ne peuvent pas être interprétées comme des risques. Je suppose que vous estimez les ratios de risque, puis obtenez une estimation lissée de la fonction de risque de base.
la source