J'ai 100 000 observations (9 variables indicatrices factices) avec 1000 positifs. La régression logistique devrait bien fonctionner dans ce cas, mais la probabilité de coupure me laisse perplexe.
Dans la littérature courante, nous choisissons un seuil de 50% pour prédire les 1 et les 0. Je ne peux pas le faire car mon modèle donne une valeur maximale de ~ 1%. Un seuil peut donc être à 0,007 ou quelque part autour de lui.
Je comprends les ROC
courbes et comment l'aire sous la courbe peut m'aider à choisir entre deux modèles LR pour le même ensemble de données. Cependant, ROC ne m'aide pas à choisir une probabilité de coupure optimale qui peut être utilisée pour tester le modèle sur des données hors échantillon.
Dois-je simplement utiliser une valeur de coupure qui minimise le misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Ajouté -> Pour un taux d'événements aussi bas, mes taux de mauvaise classification sont affectés par un grand nombre de faux positifs. Bien que le taux dans l'ensemble semble bon, car la taille totale de l'univers est également grande, mais mon modèle ne devrait pas avoir autant de faux positifs (car il s'agit d'un modèle de retour sur investissement). 5/10 coeff sont significatifs.
Réponses:
Je ne suis pas d'accord pour dire qu'un seuil de 50% est soit intrinsèquement valide, soit étayé par la littérature. Le seul cas où une telle coupure pourrait être justifiée est dans une conception cas-témoins où la prévalence du résultat est exactement de 50%, mais même dans ce cas, le choix serait soumis à quelques conditions. Je pense que la principale justification du choix de la coupure est la caractéristique de fonctionnement souhaitée du test de diagnostic.
Un seuil peut être choisi pour atteindre la sensibilité ou la spécificité souhaitée. Pour un exemple de cela, consultez la documentation sur les dispositifs médicaux. La sensibilité est souvent fixée à un montant fixe: les exemples incluent 80%, 90%, 95%, 99%, 99,9% ou 99,99%. Le compromis sensibilité / spécificité doit être comparé aux inconvénients des erreurs de type I et de type II. Souvent, comme pour les tests statistiques, le préjudice d'une erreur de type I est plus important et nous contrôlons donc ce risque. Pourtant, ces méfaits sont rarement quantifiables. Pour cette raison, j'ai des objections majeures aux méthodes de sélection de coupure qui reposent sur une seule mesure de précision prédictive: elles véhiculent, à tort, que les dommages peuvent et ont été quantifiés.
Votre problème de trop de faux positifs est un exemple du contraire: une erreur de type II peut être plus nocive. Ensuite, vous pouvez définir le seuil pour atteindre la spécificité souhaitée et signaler la sensibilité atteinte à ce seuil.
Si vous trouvez que les deux sont trop faibles pour être acceptables pour la pratique, votre modèle de risque ne fonctionne pas et il doit être rejeté.
La sensibilité et la spécificité sont facilement calculées ou recherchées à partir d'un tableau sur une plage entière de valeurs de coupure possibles. Le problème avec le ROC est qu'il omet les informations de coupure spécifiques du graphique. Le ROC n'est donc pas pertinent pour choisir une valeur seuil.
la source