Quand une règle de notation appropriée est-elle une meilleure estimation de la généralisation dans un cadre de classification?

9

Une approche typique pour résoudre un problème de classification consiste à identifier une classe de modèles candidats, puis à effectuer une sélection de modèle à l'aide d'une procédure telle que la validation croisée. Généralement, on sélectionne le modèle avec la plus grande précision, ou une fonction associée qui code des informations spécifiques au problème, comme .Fβ

En supposant que l'objectif final est de produire un classificateur précis (où la définition de la précision est à nouveau, dépend du problème), dans quelles situations est-il préférable d'effectuer la sélection du modèle en utilisant une règle de notation appropriée plutôt que quelque chose de incorrect, comme l'exactitude, la précision, le rappel , etc? De plus, ignorons les problèmes de complexité des modèles et supposons a priori que nous considérons tous les modèles également probables.

Auparavant, j'aurais dit jamais. Nous savons, au sens formel, que la classification est un problème plus facile que la régression [1], [2] et nous pouvons dériver des limites plus strictes pour la première que pour la dernière ( ). En outre, dans certains cas, essayer de faire correspondre avec précision les probabilités peut entraîner des limites de décision incorrectes ou un surajustement . Cependant, sur la base de la conversation ici et du modèle de vote de la communauté en ce qui concerne ces questions, j'ai remis en question cette opinion.

  1. Devroye, Luc. Une théorie probabiliste de la reconnaissance des formes. Vol. 31. springer, 1996., section 6.7
  2. Kearns, Michael J. et Robert E. Schapire. Apprentissage efficace et sans distribution de concepts probabilistes. Foundations of Computer Science, 1990. Actes., 31e Symposium annuel sur. IEEE, 1990.

() Cette déclaration pourrait être un peu bâclée. Je veux dire spécifiquement que, étant donné les données étiquetées de la forme avec et , il semble plus facile d'estimer une frontière de décision que d'estimer avec précision les probabilités conditionnelles.S={(x1,y1),,(xn,yn)}xiXyi{1,,K}

alto
la source

Réponses:

4

Considérez cela comme une comparaison entre le test -test / Wilcoxon et le test médian de l'humeur. Le test médian utilise une classification optimale (au-dessus ou au-dessous de la médiane pour une variable continue) de sorte qu'il ne perd que des informations de l'échantillon. La dichotomisation à un point différent de la médiane perdra beaucoup plus d'informations. L'utilisation d'une règle de notation incorrecte telle qu'une proportion classée "correctement" est tout au plus ou environ efficace. Cela se traduit par la sélection des fonctionnalités erronées et la recherche d'un modèle qui est faux.t1π2π23

Frank Harrell
la source
Je suppose que je ne comprends pas pourquoi la dichotomisation est pertinente. En fin de compte, le but est de choisir un classifieur dans une classe d'hypothèses telle que est minime, étant donné un échantillon fini composé d'exemples répartis selon . hHP(x,y)D(h(x)y)SD
alto
2
Le problème est que la classification (par opposition à la prédiction des risques) est une dichotomisation inutile.
Frank Harrell
Est-il donc prudent de supposer que la réponse à cette question n'est jamais, à condition que l'objectif soit une prise de décision optimale de Bayes en ce qui concerne une fonction d'utilité et une correspondance non exacte des probabilités?
alto
La décision optimale de Bayes nécessite des risques prédits bien calibrés, de sorte que les deux sont liés. La décision optimale n'utilise pas une dichotomisation faite plus tôt dans le pipeline mais des conditions sur des informations complètes, par exemple, pas . Prob(Y=1|X=x)Prob(Y=1|X>c)
Frank Harrell
1
Belle discussion. Dans certains cas, comme avec certains détecteurs de spam, vous pouvez obtenir un «incertain». Je suis plus préoccupé par le seuillage de problèmes tels que le diagnostic médical et le pronostic.
Frank Harrell