On m'a dit qu'il est avantageux d'utiliser la validation croisée stratifiée, en particulier lorsque les classes de réponse sont déséquilibrées. Si l'un des objectifs de la validation croisée est d'aider à rendre compte du caractère aléatoire de notre échantillon de données de formation d'origine, faire en sorte que chaque pli ait la même distribution de classe irait à l'encontre de cela, sauf si vous étiez sûr que votre ensemble de formation d'origine avait une distribution de classe représentative.
Ma logique est-elle défectueuse?
EDIT Je suis intéressé de savoir si cette méthode endommage le bien du CV. Je peux voir pourquoi il est nécessaire si vous avez un petit échantillon / des classes très déséquilibrées / les deux pour éviter de ne pas avoir un seul représentant de la classe mineure dans un pli.
L'article Apples-to-Apples in Cross-Validation Studies: Pitfalls in Classifier Performance Measurement met bien en avant les arguments en faveur de la stratification, mais tous les arguments semblent équivaloir à `` la stratification fournit une sauvegarde et plus de cohérence '', mais aucune sauvegarde ne serait requise étant donné suffisamment Les données.
La réponse est-elle simplement "Nous l'utilisons par nécessité car nous avons rarement assez de données." ?
la source
Vous pouvez peut-être y penser de cette façon. Disons que vous avez un ensemble de données où il y a 100 échantillons, 90 en classe 'A' et 10 en classe 'B'. Dans cette conception très déséquilibrée, si vous faites des groupes aléatoires normaux, vous pourriez finir par construire des modèles sur très peu (ou MÊME AUCUN!) De la classe 'B'. Si vous construisez un modèle qui est formé sur des données où il y a si peu, voire aucune, de l'autre classe, comment pourriez-vous vous attendre à ce qu'il prédise efficacement le groupe le plus rare? La validation croisée stratifiée permet la randomisation mais garantit également que ces ensembles de données déséquilibrés ont certaines des deux classes.
Pour apaiser les inquiétudes concernant l'utilisation de CV stratifié avec des ensembles de données plus «équilibrés», regardons un exemple utilisant le code R.
Comme vous pouvez le voir, dans un ensemble de données bien équilibré, les plis auront une distribution similaire par hasard. Par conséquent, le CV stratifié est simplement une mesure d'assurance dans ces circonstances. Cependant, pour corriger la variance, vous devez examiner les distributions de chaque pli. Dans certaines circonstances (même à partir de 50-50), vous pourriez avoir des plis qui ont des divisions de 30-70 par hasard (vous pouvez exécuter le code ci-dessus et voir cela se produire réellement!). Cela pourrait conduire à un modèle moins performant car il n'avait pas assez d'une classe pour le prédire avec précision, augmentant ainsi la variance globale du CV. Ceci est évidemment plus important lorsque vous avez des échantillons «limités» où vous êtes plus susceptibles d'avoir des différences de distribution très extrêmes.
Maintenant, avec de très grands ensembles de données, la stratification peut ne pas être nécessaire car les plis seront suffisamment grands pour contenir probablement encore au moins une bonne proportion de la classe «plus rare». Cependant, il n'y a vraiment aucune perte de calcul et aucune raison réelle de renoncer à la stratification si vos échantillons sont déséquilibrés, peu importe la quantité de données dont vous disposez à mon avis.
la source
stratifcation is generally a better scheme, both in terms of bias and variance, when compared to regular cross-validation
. Il n'y a pas de schéma d'échantillonnage parfait, mais dans les plans déséquilibrés, la stratification est une bonne approche.