Les données déséquilibrées à échantillonnage supérieur ou inférieur sont-elles réellement efficaces? Pourquoi?

J'entends souvent un échantillonnage à la hausse ou à la baisse des données discutées comme moyen de traiter la classification des données déséquilibrées.

Je comprends que cela pourrait être utile si vous travaillez avec un classificateur binaire (par opposition à un classificateur probabiliste ou basé sur les scores) et que vous le traitez comme une boîte noire, donc les schémas d'échantillonnage sont votre seul moyen de modifier sa position sur la "courbe ROC". "(entre guillemets parce que si votre classifieur est intrinsèquement binaire, je suppose qu'il n'a pas de véritable courbe ROC, mais le même concept d'échange de faux positifs et de faux négatifs s'applique toujours).

Mais il semble que la même justification ne se vérifie pas si vous avez réellement accès à une sorte de score que vous définissez plus tard pour prendre une décision. Dans ce cas, le suréchantillonnage n'est-il pas simplement un moyen ad hoc d'exprimer une opinion sur le compromis souhaité entre les faux positifs et les faux négatifs lorsque vous avez de bien meilleurs outils disponibles, comme une analyse ROC réelle? Il semble qu'il serait étrange dans ce cas de s'attendre à ce que le sur-échantillonnage ou le sous-échantillonnage fasse autre chose que de changer le "précédent" de votre classificateur sur chaque classe (c'est-à-dire la probabilité inconditionnelle d'être cette classe, la prédiction de base) - je ne voudrais pas t s'attendre à ce qu'il modifie le «rapport de cotes» du classificateur (dans quelle mesure le classificateur ajuste sa prédiction de base en fonction des covariables).

Ma question est donc la suivante: si vous avez un classifieur qui n'est pas une boîte noire binaire, y a-t-il des raisons de s'attendre à ce que l'échantillonnage à la hausse ou à la baisse ait un bien meilleur effet que d'ajuster le seuil à votre goût? À défaut, existe-t-il des études empiriques montrant des effets raisonnablement importants pour un échantillonnage à la hausse ou à la baisse sur des mesures de performance raisonnables (par exemple, pas la précision)?

classification roc unbalanced-classes Ben Kuhn
la source

Les données déséquilibrées à échantillonnage supérieur ou inférieur sont-elles réellement efficaces? Pourquoi?

Réponses: