Création d'un ensemble de données déséquilibré

11

J'aimerais que mon modèle formé soit testé sur un ensemble de données déséquilibré. Existe-t-il des algorithmes disponibles pour générer des données synthétiques à partir d'un ensemble de données étiqueté équilibré (spam / non-spam)?

Stuart Peterson
la source
Vous pouvez toujours déséquilibrer n'importe quel ensemble de données en sous-échantillonnant simplement une classe.
user2974951

Réponses:

8

Essayez SMOTE , c'est un algorithme utilisé pour le suréchantillonnage . Il crée des échantillons synthétiques à partir de la classe que vous souhaitez suréchantillonner.

Vous pouvez l'utiliser pour créer le nombre d'échantillons dont vous avez besoin.

Mary93
la source
1
SMOTE peut-il également être utilisé pour le sous-échantillonnage?
Stuart Peterson
Eh bien, vous pouvez obtenir un sous-échantillonnage de la classe A en suréchantillonnant la classe notA ...
kjetil b halvorsen
3
@StuartPeterson Non, SMOTE est un algorithme de suréchantillonnage, mais il existe de nombreux autres algorithmes de sous-échantillonnage
Mary93