Est-ce jamais une bonne idée d'accorder un «crédit partiel» (résultat continu) à la formation d'une régression logistique?

J'entraîne une régression logistique pour prédire quels coureurs sont les plus susceptibles de terminer une course d'endurance exténuante.

Très peu de coureurs terminent cette course, j'ai donc un grave déséquilibre de classe et un petit échantillon de succès (peut-être quelques dizaines). Je sens que je pourrais obtenir un bon "signal" des dizaines de coureurs qui ont presque réussi. (Mes données de formation ne sont pas seulement terminées, mais aussi dans quelle mesure celles qui n'ont pas fini l'ont fait.) Je me demande donc si c'est une idée terrible ou non d'inclure un "crédit partiel". Je suis venu avec quelques fonctions pour le crédit partiel, la rampe et la courbe logistique, qui pourraient recevoir divers paramètres.

La seule différence avec la régression serait que j'utiliserais des données d'entraînement pour prédire le résultat modifié et continu au lieu d'un résultat binaire. En comparant leurs prédictions sur un ensemble de tests (en utilisant la réponse binaire), j'ai eu des résultats assez peu concluants - le crédit partiel logistique semblait améliorer légèrement le R au carré, l'ASC, le P / R, mais ce n'était qu'une tentative sur un cas d'utilisation en utilisant un petit échantillon.

Je ne me soucie pas que les prévisions soient uniformément biaisées vers l'achèvement - ce qui m'importe, c'est de classer correctement les candidats sur leur probabilité de terminer, ou peut-être même d'estimer leur probabilité relative de terminer.

Je comprends que la régression logistique suppose une relation linéaire entre les prédicteurs et le log du rapport de cotes, et évidemment ce rapport n'a pas d'interprétation réelle si je commence à jouer avec les résultats. Je suis sûr que ce n'est pas intelligent d'un point de vue théorique, mais cela pourrait aider à obtenir un signal supplémentaire et à éviter le sur-ajustement. (J'ai presque autant de prédicteurs que de succès, il peut donc être utile d'utiliser les relations avec achèvement partiel comme vérification des relations avec achèvement complet).

Cette approche est-elle jamais utilisée dans la pratique responsable?

Quoi qu'il en soit, existe-t-il d'autres types de modèles (peut-être quelque chose qui modélise explicitement le taux de risque, appliqué sur la distance plutôt que sur le temps) qui pourraient être mieux adaptés à ce type d'analyse?

logistic binary-data continuous-data C8H10N4O2
la source

Réponses:

Cela semble être un travail d'analyse de survie, comme l'analyse des risques proportionnels de Cox ou peut-être un modèle de survie paramétrique.

Pensez à ce problème à l'inverse de la façon dont vous l'expliquez: quelles sont les variables prédictives associées aux distances antérieures à l' arrêt ?

Quitter est l'événement. La distance parcourue pourrait être considérée comme équivalente au délai jusqu'à l'événement dans l'analyse de survie standard. Vous avez alors un nombre d'événements égal au nombre de personnes qui quittent, donc votre problème avec un nombre limité de prédicteurs diminuera. Tous ceux qui ont démissionné fournissent des informations.

Un modèle de Cox, s'il fonctionne sur vos données, fournira un prédicteur linéaire basé sur toutes les valeurs des variables du prédicteur, classant les candidats par ordre de distance prédite au départ.

EdM
la source

Merci pour cela. Il semble que vous disiez qu'en utilisant le modèle Cox, les coureurs avec la plus longue distance prévue pour quitter sont également les moins susceptibles de quitter avant la distance d'arrivée, en raison de la construction des risques proportionnels. Est-ce exact? De plus, puisque vous recommandez cela, deviner que l'idée de crédit partiel ne vous a pas paru aussi bien fondé?

C8H10N4O2

C'est essentiellement correct. Je vois l'incorporation de la distance jusqu'au départ dans un modèle de survie comme un moyen d'accorder un «crédit partiel» d'une manière qui a une justification théorique et pratique bien établie. Je n'ai pas travaillé sur les détails, mais je soupçonne que cela accomplit exactement ce que vous vouliez, comme indiqué dans votre graphique.

EdM