Question philosophique sur la régression logistique: pourquoi la valeur seuil optimale n'est-elle pas formée?

13

Habituellement, dans la régression logistique, nous ajustons un modèle et obtenons des prédictions sur l'ensemble d'entraînement. Nous validons ensuite ces prévisions d'entraînement (quelque chose comme ici ) et décidons de la valeur seuil optimale en fonction de quelque chose comme la courbe ROC.

Pourquoi ne pas intégrer la validation croisée du seuil dans le modèle réel et former le tout de bout en bout?

StatsSorcière
la source

Réponses:

19

Un seuil n'est pas formé avec le modèle parce que la régression logistique n'est pas un classificateur (cf., Pourquoi la régression logistique n'est-elle pas appelée classification logistique? ). C'est un modèle pour estimer le paramètre, p , qui régit le comportement de la distribution de Bernoulli. Autrement dit, vous supposez que la distribution de la réponse, conditionnelle aux covariables, est Bernoulli, et vous voulez donc estimer comment le paramètre qui contrôle cette variable change en fonction des covariables. Il s'agit uniquement d'un modèle de probabilité directe . Bien sûr, il peut être utilisé comme classificateur par la suite, et parfois dans certains contextes, mais c'est toujours un modèle de probabilité.

gung - Réintégrer Monica
la source
1
D'accord, je comprends cette partie de la théorie (merci pour cette explication éloquente!) Mais pourquoi ne pouvons-nous pas incorporer l'aspect classification dans le modèle? Autrement dit, pourquoi ne pouvons-nous pas trouver p, puis trouver le seuil, et former le tout de bout en bout pour minimiser certaines pertes?
StatsSorceress
4
Vous pourriez certainement (la réponse de @ Sycorax parle de cette possibilité). Mais parce que ce n'est pas ce que LR lui-même est, mais plutôt une augmentation ad hoc, vous devrez coder vous-même le schéma d'optimisation complet. Remarque BTW, que Frank Harrell a souligné que le processus conduira à ce qui pourrait être considéré comme un modèle inférieur par de nombreuses normes.
gung - Rétablir Monica
1
Hmm. J'ai lu la réponse acceptée dans la question connexe ici , et je suis d'accord en théorie, mais parfois, dans les applications de classification d'apprentissage automatique, nous ne nous soucions pas des types d'erreur relatifs, nous nous soucions simplement de la "classification correcte". Dans ce cas, pourriez-vous vous entraîner de bout en bout comme je le décris?
StatsSorceress
4
Comme je l'ai dit, vous pouvez très bien configurer votre propre optimisation personnalisée qui entraînera le modèle et sélectionnera le seuil simultanément. Vous n'avez qu'à le faire vous-même et le modèle final sera probablement plus pauvre selon la plupart des normes.
gung - Rétablir Monica
1
@StatsSorceress "... parfois dans la classification d'apprentissage automatique ...". Il devrait y avoir une grande importance parfois . Il est difficile d'imaginer un projet où la précision est la bonne réponse. D'après mon expérience, cela implique toujours la précision et le rappel d'une classe minoritaire.
Wayne
14

C'est parce que le seuil optimal n'est pas seulement fonction du vrai taux positif (TPR), du taux de faux positifs (FPR), de la précision ou de quoi que ce soit d'autre. L'autre ingrédient crucial est le coût et la rentabilité des décisions correctes et erronées .

Si votre cible est un rhume, votre réponse à un test positif est de prescrire deux aspirines, et le coût d'un vrai positif non traité est une valeur inutile de deux jours de maux de tête, alors votre seuil de décision optimal (pas de classification!) Est tout à fait différent de si votre cible est une maladie mortelle, et votre décision est (a) une procédure relativement simple comme une appendicectomie, ou (b) une intervention majeure comme des mois de chimiothérapie! Et notez que bien que votre variable cible puisse être binaire (malade / en bonne santé), vos décisions peuvent avoir plus de valeurs (envoyer à la maison avec deux aspirines / exécuter plus de tests / admettre à l'hôpital et regarder / opérer immédiatement).

Conclusion: si vous connaissez votre structure de coûts et toutes les différentes décisions, vous pouvez certainement former un système d'aide à la décision (DSS) directement, qui comprend une classification ou une prévision probabiliste. Je dirais cependant fermement que discréditer les prédictions ou les classifications via des seuils n'est pas la bonne façon de procéder.

Voir aussi ma réponse au fil précédent "Seuil de probabilité de classification" . Ou ma réponse . Ou celui-là .

Stephan Kolassa
la source
4

Mis à part les préoccupations philosophiques, cela entraînerait des difficultés de calcul.

La raison en est que les fonctions à sortie continue sont relativement faciles à optimiser. Vous recherchez la direction dans laquelle la fonction augmente, puis allez dans cette direction. Si nous modifions notre fonction de perte pour inclure l'étape de "coupure", notre sortie devient discrète, et notre fonction de perte est donc également discrète. Maintenant, lorsque nous modifions les paramètres de notre fonction logistique par "un peu" et modifions conjointement la valeur de coupure par "un peu", notre perte donne une valeur identique et l'optimisation devient difficile. Bien sûr, ce n'est pas impossible (il y a tout un domaine d'étude en optimisation discrète ) mais l'optimisation continue est de loinle problème le plus facile à résoudre lorsque vous optimisez de nombreux paramètres. Commodément, une fois que le modèle logistique a été ajusté, trouver le seuil optimal, bien que toujours un problème de sortie discret, ne se trouve désormais que dans une seule variable, et nous pouvons simplement faire une recherche dans la grille, ou une autre, qui est totalement viable dans une variable.

Scott
la source
3

Quel que soit le modèle sous-jacent, nous pouvons déterminer les distributions d'échantillonnage de TPR et FPR à un seuil. Cela implique que nous pouvons caractériser la variabilité du TPR et du FPR à un certain seuil, et que nous pouvons revenir à un compromis souhaité de taux d'erreur.

Une courbe ROC est un peu trompeuse car la seule chose que vous contrôlez est le seuil, mais le tracé affiche TPR et FPR, qui sont des fonctions du seuil. De plus, le TPR et le FPR sont tous deux des statistiques , ils sont donc soumis aux aléas de l'échantillonnage aléatoire. Cela implique que si vous deviez répéter la procédure (par exemple par validation croisée), vous pourriez trouver un FPR et un TPR différents à une valeur de seuil spécifique.

Cependant, si nous pouvons estimer la variabilité du TPR et du FPR, il n'est pas nécessaire de répéter la procédure ROC. Nous choisissons simplement un seuil tel que les points limites d'un intervalle de confiance (avec une certaine largeur) soient acceptables. Autrement dit, choisissez le modèle de sorte que le FPR soit plausiblement inférieur à un maximum spécifié par le chercheur et / ou que le TPR soit plausiblement supérieur un minimum spécifié par le chercheur. Si votre modèle ne peut pas atteindre vos objectifs, vous devrez construire un meilleur modèle.

Bien sûr, les valeurs TPR et FPR tolérables dans votre utilisation dépendent du contexte.

Pour plus d'informations, voir ROC Curves for Continuous Data par Wojtek J. Krzanowski et David J. Hand.

Sycorax dit de réintégrer Monica
la source
Cela ne répond pas vraiment à ma question, mais c'est une très belle description des courbes ROC.
StatsSorceress
En quoi cela ne répond-il pas à votre question? Quelle est votre question, si vous ne demandez pas comment choisir un seuil de classification?
Sycorax dit Réintégrer Monica le
2
Je ne connais aucune procédure statistique qui fonctionne de cette façon. Pourquoi cette roue carrée est-elle une bonne idée? Quel problème résout-il?
Sycorax dit Réintégrer Monica le
1
"Comment choisir un seuil de manière à réduire le temps de formation?" semble être une question très différente de celle de votre message d'origine.
Sycorax dit Réintégrer Monica le
1
Quoi qu'il en soit, je ne vois pas comment cela fait gagner du temps. Faire une courbe ROC n'est pas la partie la plus coûteuse de l'estimation d'un modèle, donc déplacer le choix du seuil dans l'étape d'optimisation semble ad hoc et inutile.
Sycorax dit Réintégrer Monica le
-2

Habituellement, dans la recherche biomédicale, nous n'utilisons pas un ensemble de formation --- nous appliquons simplement une régression logistique sur l'ensemble de données complet pour voir quels prédicteurs sont des facteurs de risque importants pour le résultat que nous examinons; ou pour examiner un prédicteur d'intérêt tout en contrôlant l'effet d'autres prédicteurs possibles sur le résultat.
Je ne sais pas exactement ce que vous entendez par valeurs de seuil, mais il y a divers paramètres que l'on peut chercher à optimiser: AUC, valeurs de coupure pour une dichotomisation d'une variable prédictive continue, valeurs prédictives positives et négatives, intervalles de confiance et valeurs p, taux de faux positifs et de faux négatifs. La régression logistique examine une population de sujets et évalue la force et la direction causale des facteurs de risque qui contribuent au résultat d'intérêt pour cette population. Il est également possible de «l'exécuter en sens inverse», pour ainsi dire, et de déterminer le risque de résultat d'un individu, compte tenu des facteurs de risque de l'individu. La régression logistique attribue à chaque individu un risque de résultat, en fonction de ses facteurs de risque individuels, et par défaut, il est de 0,5. Si un sujet ' s la probabilité d'avoir le résultat (sur la base de toutes les données et sujets de votre modèle) est de 0,5 ou plus, cela prédit qu'il aura le résultat; s'il est inférieur à 0,5, il prédit qu'il ne le fera pas. Mais vous pouvez ajuster ce niveau de coupure, par exemple pour signaler plus d'individus qui pourraient être à risque d'avoir le résultat, mais au prix d'avoir plus de faux positifs prédits par le modèle. Vous pouvez ajuster ce niveau de coupure pour optimiser les décisions de dépistage afin de prédire quelles personnes seraient invitées à subir un suivi médical supplémentaire, par exemple; et pour construire votre valeur prédictive positive, votre valeur prédictive négative et vos taux de faux négatifs et de faux positifs pour un test de dépistage basé sur le modèle de régression logistique. Vous pouvez développer le modèle sur la moitié de votre jeu de données et le tester sur l'autre moitié, mais vous ne le faites pas ' ce n'est pas vraiment le cas (et cela réduira de moitié vos données d '«entraînement» et réduira ainsi le pouvoir de trouver des prédicteurs significatifs dans le modèle). Alors oui, vous pouvez «entraîner le tout de bout en bout». Bien sûr, dans la recherche biomédicale, vous voudriez le valider sur une autre population, un autre ensemble de données avant de dire que vos résultats peuvent être généralisés à une population plus large. Une autre approche consiste à utiliser une approche de type bootstrap où vous exécutez votre modèle sur un sous-échantillon de votre population d'étude, puis replacez ces sujets dans le pool et répétez avec un autre échantillon, plusieurs fois (généralement 1000 fois). Si vous obtenez des résultats significatifs la majorité du temps prescrite (par exemple 95% du temps), votre modèle peut être considéré comme validé --- au moins sur vos propres données. Mais encore une fois, plus la population étudiée sur laquelle vous exécutez votre modèle est petite, moins il est probable que certains prédicteurs seront des facteurs de risque statistiquement significatifs pour le résultat. Cela est particulièrement vrai pour les études biomédicales avec un nombre limité de participants.
Utiliser la moitié de vos données pour «former» votre modèle et ensuite le «valider» sur l'autre moitié est une charge inutile. Vous ne faites pas cela pour les tests t ou la régression linéaire, alors pourquoi le faire dans la régression logistique? Le plus que cela puisse faire est de vous laisser dire «oui ça marche», mais si vous utilisez votre ensemble de données complet, vous le déterminez quand même. La division de vos données en ensembles de données plus petits risque de ne pas détecter de facteurs de risque significatifs dans la population d'étude (OU la population de validation) lorsqu'ils sont en fait présents, en raison de la petite taille de l'échantillon, de trop de prédicteurs pour la taille de votre étude et de la possibilité que votre «échantillon de validation» ne montrera aucune association par hasard. La logique derrière l'approche «former puis valider» semble être que si les facteurs de risque que vous identifiez comme importants ne sont pas assez forts, alors ils ne seront pas statistiquement significatifs lorsqu'ils seront modélisés sur une moitié choisie au hasard de vos données. Mais cet échantillon choisi au hasard peut ne montrer aucune association par hasard, ou parce qu'il est trop petit pour que le ou les facteurs de risque soient statistiquement significatifs. Mais c'est l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons plus petits, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. t être statistiquement significatif lorsqu'il est modélisé sur une moitié choisie au hasard de vos données. Mais cet échantillon choisi au hasard peut ne montrer aucune association par hasard, ou parce qu'il est trop petit pour que le ou les facteurs de risque soient statistiquement significatifs. Mais c'est l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons plus petits, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. t être statistiquement significatif lorsqu'il est modélisé sur une moitié choisie au hasard de vos données. Mais cet échantillon choisi au hasard peut ne montrer aucune association par hasard, ou parce qu'il est trop petit pour que le ou les facteurs de risque soient statistiquement significatifs. Mais c'est l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons de plus petite taille, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. Mais cet échantillon choisi au hasard peut ne montrer aucune association par hasard, ou parce qu'il est trop petit pour que le ou les facteurs de risque soient statistiquement significatifs. Mais c'est l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons plus petits, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. Mais cet échantillon choisi au hasard peut ne montrer aucune association par hasard, ou parce qu'il est trop petit pour que le ou les facteurs de risque soient statistiquement significatifs. Mais c'est l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons de plus petite taille, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. s l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons de plus petite taille, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude. s l'ampleur du ou des facteurs de risque ET leur signification statistique qui déterminent leur importance et pour cette raison, il est préférable d'utiliser votre ensemble de données complet pour construire votre modèle. La signification statistique deviendra moins importante avec des échantillons de plus petite taille, comme c'est le cas avec la plupart des tests statistiques. La régression logistique est un art presque autant qu'une science statistique. Il existe différentes approches à utiliser et différents paramètres à optimiser en fonction de la conception de votre étude.

Jeremy
la source