Les données déséquilibrées à échantillonnage supérieur ou inférieur sont-elles réellement efficaces? Pourquoi?

8

J'entends souvent un échantillonnage à la hausse ou à la baisse des données discutées comme moyen de traiter la classification des données déséquilibrées.

Je comprends que cela pourrait être utile si vous travaillez avec un classificateur binaire (par opposition à un classificateur probabiliste ou basé sur les scores) et que vous le traitez comme une boîte noire, donc les schémas d'échantillonnage sont votre seul moyen de modifier sa position sur la "courbe ROC". "(entre guillemets parce que si votre classifieur est intrinsèquement binaire, je suppose qu'il n'a pas de véritable courbe ROC, mais le même concept d'échange de faux positifs et de faux négatifs s'applique toujours).

Mais il semble que la même justification ne se vérifie pas si vous avez réellement accès à une sorte de score que vous définissez plus tard pour prendre une décision. Dans ce cas, le suréchantillonnage n'est-il pas simplement un moyen ad hoc d'exprimer une opinion sur le compromis souhaité entre les faux positifs et les faux négatifs lorsque vous avez de bien meilleurs outils disponibles, comme une analyse ROC réelle? Il semble qu'il serait étrange dans ce cas de s'attendre à ce que le sur-échantillonnage ou le sous-échantillonnage fasse autre chose que de changer le "précédent" de votre classificateur sur chaque classe (c'est-à-dire la probabilité inconditionnelle d'être cette classe, la prédiction de base) - je ne voudrais pas t s'attendre à ce qu'il modifie le «rapport de cotes» du classificateur (dans quelle mesure le classificateur ajuste sa prédiction de base en fonction des covariables).

Ma question est donc la suivante: si vous avez un classifieur qui n'est pas une boîte noire binaire, y a-t-il des raisons de s'attendre à ce que l'échantillonnage à la hausse ou à la baisse ait un bien meilleur effet que d'ajuster le seuil à votre goût? À défaut, existe-t-il des études empiriques montrant des effets raisonnablement importants pour un échantillonnage à la hausse ou à la baisse sur des mesures de performance raisonnables (par exemple, pas la précision)?

Ben Kuhn
la source

Réponses:

1

Si vous souhaitez d'abord collecter l'échantillon pour effectuer une classification en fonction de ces résultats, un sous-échantillonnage peut être nécessaire, même du point de vue des coûts.

Mais dans ce cas, vos méthodes d'estimation ne renvoient généralement pas les probabilités au niveau de la population, elles sont conditionnelles au schéma d'échantillonnage qui a été utilisé.

Voici un exemple:

/stats/127476/inference-possabilities-for-matched-case-control-study

Analyste
la source
Sûr. Je m'interroge davantage sur le sous- échantillonnage des données que vous avez déjà, plutôt que sur le sous-échantillonnage lors de la collecte des données.
Ben Kuhn