Avantages de l'échantillonnage stratifié par rapport à l'échantillonnage aléatoire pour générer des données de formation dans la classification

20

Je voudrais savoir s'il y a des avantages / certains à utiliser l'échantillonnage stratifié au lieu de l'échantillonnage aléatoire, lors de la division de l'ensemble de données d'origine en ensemble de formation et de test pour la classification.

De plus, l'échantillonnage stratifié introduit-il plus de biais dans le classificateur que l'échantillonnage aléatoire?

23

[1] Chawla, Nitesh V. et al. " SMOTE: technique de sur-échantillonnage des minorités synthétiques. " Journal of Artificial Intelligence Research 16 (2002): 321-357.

gc5
la source

Réponses:

20

L'échantillonnage stratifié vise à diviser un ensemble de données afin que chaque division soit similaire par rapport à quelque chose.

Dans un cadre de classification, il est souvent choisi de s'assurer que le train et les ensembles de test ont approximativement le même pourcentage d'échantillons de chaque classe cible que l'ensemble complet.

Par conséquent, si l'ensemble de données comprend une grande quantité de chaque classe, l'échantillonnage stratifié est à peu près le même que l'échantillonnage aléatoire. Mais si une classe n'est pas beaucoup représentée dans l'ensemble de données, ce qui peut être le cas dans votre ensemble de données puisque vous prévoyez de suréchantillonner la classe minoritaire, alors l'échantillonnage stratifié peut produire une distribution de classe cible différente dans le train et les ensembles de test que ce qui est aléatoire. l'échantillonnage peut donner.

Notez que l'échantillonnage stratifié peut également être conçu pour répartir également certaines caractéristiques dans les prochains trains et ensembles de tests. Par exemple, si chaque échantillon représente un individu et qu'une caractéristique est l'âge, il est parfois utile d'avoir la même répartition par âge dans le train et dans l'ensemble de test.

Pour info:

Franck Dernoncourt
la source