PRÉFACE: Je ne me soucie pas des avantages d'utiliser ou non un seuil, ni de la façon de choisir un seuil. Ma question est purement mathématique et due à la curiosité.
La régression logistique modélise la probabilité conditionnelle postérieure de la classe A par rapport à la classe B et elle s'adapte à un hyperplan où les probabilités conditionnelles postérieures sont égales. Donc, en théorie, j'ai compris qu'un point de classification de 0,5 minimisera les erreurs totales indépendamment de l'équilibre défini, car il modélise la probabilité postérieure (en supposant que vous rencontrez systématiquement le même rapport de classe).
Dans mon exemple réel, j'obtiens une très mauvaise précision en utilisant P> 0,5 comme seuil de classification (précision d'environ 51%). Cependant, quand j'ai regardé l'AUC, elle est supérieure à 0,99. J'ai donc examiné différentes valeurs de coupure et constaté que P> 0,6 me donnait une précision de 98% (90% pour la petite classe et 99% pour la plus grande classe) - seulement 2% des cas mal classés.
Les classes sont fortement déséquilibrées (1: 9) et c'est un problème de grande dimension. Cependant, j'ai alloué les classes de manière égale à chaque ensemble de validation croisée afin qu'il n'y ait pas de différence entre l'équilibre des classes entre l'ajustement du modèle et la prédiction. J'ai également essayé d'utiliser les mêmes données de l'ajustement du modèle et des prévisions et le même problème s'est produit.
Je m'intéresse à la raison pour laquelle 0,5 ne minimiserait pas les erreurs, je pensais que ce serait par conception si le modèle est ajusté en minimisant la perte d'entropie croisée.
Quelqu'un at-il des commentaires sur la raison pour laquelle cela se produit? Est-ce dû à l'ajout d'une pénalisation, quelqu'un peut-il expliquer ce qui se passe si c'est le cas?
Réponses:
Il n'est pas nécessaire d'obtenir des catégories prédites à partir d'un modèle de régression logistique. Il peut être bon de rester avec des probabilités prédites. Si vous obtenez des catégories prédites, vous ne devez pas utiliser ces informations pour faire autre chose que de dire «cette observation est mieux classée dans cette catégorie». Par exemple, vous ne devez pas utiliser «précision» / pourcentage correct pour sélectionner un modèle.
Cela dit, sera rarement le seuil optimal pour classer les observations. Pour avoir une idée intuitive de la façon dont cela pourrait se produire, imaginez que vous aviez avec observations dans la catégorie positive. Un modèle simple à interception seule pourrait facilement avoir faux négatifs lorsque vous utilisez comme seuil. D'un autre côté, si vous venez de qualifier tout de positif, vous auriez faux positif, mais correct..50 N= 100 99 49 .50 1 99%
Plus généralement, la régression logistique cherche à ajuster la vraie probabilité positive des observations en fonction des variables explicatives. Il n'essaie pas de maximiser la précision en centrant les probabilités prédites autour de la coupure de . Si votre échantillon n'est pas positif à , il n'y a tout simplement aucune raison que maximise le pourcentage correct..50 50% .50
la source
Je pense que cela pourrait être dû à plusieurs raisons:
Ainsi, vous devrez peut-être parfois jouer avec la valeur de coupure, pour maximiser la sortie souhaitée, comme la précision, l'exactitude, etc. Parce que la plupart du temps, les populations ne sont pas très homogènes.
la source