J'ai une question concernant la classification en général. Soit f un classificateur, qui donne un ensemble de probabilités à partir de données D. Normalement, on dirait: si P (c | D)> 0.5, nous assignerons une classe 1, sinon 0 (que ce soit un binaire classification).
Ma question est la suivante: si je découvre que si je classe également 1, les probabilités sont supérieures à: c’est-à-dire 0,2, le classifieur donne de meilleurs résultats. Est-il légitime d'utiliser ensuite ce nouveau seuil lors de la classification?
J'interpréterais la nécessité d'une limite inférieure de classification dans le contexte des données émettant un signal plus petit; encore significatif pour le problème de la classification.
Je me rends compte que c’est une façon de le faire, mais si ce n’est pas une pensée juste, quelles seraient les transformations de données qui mettent l’accent sur les caractéristiques individuelles de la même manière, de sorte que le seuil puisse rester à 0,5?
la source
Réponses:
Frank Harrell a écrit à ce sujet sur son blog: Classification vs. Prédiction , avec lequel je suis tout à fait d'accord.
Son argument principal est que la composante statistique de votre exercice se termine lorsque vous indiquez une probabilité pour chaque classe de votre nouvel échantillon. Le choix d'un seuil au-delà duquel vous classifiez une nouvelle observation comme étant 1 vs 0 ne fait plus partie des statistiques . Cela fait partie de la composante décision . Et ici, vous avez besoin de la sortie probabiliste de votre modèle, mais également de considérations telles que:
Alors, pour répondre à votre question, adressez-vous au consommateur final de votre classification et obtenez des réponses aux questions ci-dessus. Ou expliquez-lui votre résultat probabiliste et laissez-le franchir les étapes suivantes.
la source
La réponse de Stephan est géniale. Cela dépend fondamentalement de ce que vous voulez faire avec le classificateur.
Ajoutons juste quelques exemples.
Un moyen de trouver le meilleur seuil consiste à définir une fonction objective. Pour la classification binaire, cela peut être la précision ou le score F1 par exemple. Selon ce que vous choisissez, le meilleur seuil sera différent. Pour F1-score, il existe une réponse intéressante ici: Qu'est-ce que le seuil optimal F1? Comment le calculer? . Mais en faisant "je veux utiliser F1-score", vous faites réellement le choix. Que ce choix soit bon ou non dépend du but final.
Une autre façon de le voir est de faire face au compromis entre exploration et exploitation (dernier point de Stephan): le bandit aux armes multiples est un exemple d'un tel problème: vous devez faire face à deux objectifs contradictoires: acquérir des informations et choisir le meilleur bandit. . Une stratégie bayésienne consiste à choisir chaque bandit au hasard avec la probabilité qu'il soit le meilleur. Ce n'est pas exactement une classification mais une gestion similaire des probabilités de sortie.
Si le classificateur n'est qu'une brique dans l'algorithme décisionnel, le meilleur seuil dépendra de la finalité de l'algorithme. Il devrait être évalué et réglé en fonction de la fonction objective de l'ensemble du processus.
la source
Il y a peut-être une certaine valeur à considérer comment la probabilité est calculée. De nos jours, les classificateurs utilisent un vecteur de biais qui est multiplié par une matrice (algèbre linéaire). Tant que le vecteur contient des valeurs non nulles, la probabilité (le produit du vecteur et de la matrice) ne sera jamais égale à 0.
Cela crée de la confusion dans le monde réel des personnes qui n'ont pas pris l'algèbre linéaire, je suppose. Ils sont gênés par le fait qu'il existe des scores de probabilité pour les éléments qui, à leur avis, devraient avoir 0. En d'autres termes, ils confondent l'entrée statistique avec la décision basée sur cette entrée. En tant qu'êtres humains, nous pourrions dire que quelque chose avec une probabilité de 0,0002234 est égal à 0, dans la plupart des cas d'utilisation "pratiques". Dans les discussions sur les sciences cognitives supérieures, il y a peut-être une discussion intéressante sur la raison pour laquelle le vecteur de biais fait cela, ou plutôt, est-ce valable pour les applications cognitives.
la source
Il n'y a pas de faux seuil. Le seuil que vous choisissez dépend de votre objectif dans votre prédiction, ou plutôt de ce que vous souhaitez privilégier, par exemple précision ou rappel (essayez de le représenter graphiquement et mesurez son AUC associée pour comparer différents modèles de classification de votre choix).
Je vous donne cet exemple de précision par rapport au rappel, car mon propre cas sur lequel je travaille actuellement, je choisis mon seuil en fonction de la précision minimale (ou de la valeur prédictive positive du PPV) que je veux que mon modèle ait lors de la prédiction, mais ne vous souciez pas beaucoup des négatifs. En tant que tel, je prends le seuil qui correspond à la précision souhaitée une fois que j'ai formé mon modèle. La précision est ma contrainte et le rappel est la performance de mon modèle, comparé à d'autres modèles de classification.
la source