Quelle est la différence entre la validation croisée stratifiée et la validation croisée ?
Wikipedia dit:
Dans la validation croisée des plis en k , les plis sont sélectionnés de sorte que la valeur de réponse moyenne soit approximativement égale dans tous les plis. Dans le cas d'une classification dichotomique, cela signifie que chaque pli contient à peu près les mêmes proportions des deux types d'étiquettes de classe.
Mais je suis toujours confus.
- Que veut
mean response value
dire dans ce contexte? - Pourquoi le n ° 1 est-il important?
- Comment atteindre le n ° 1 en pratique?
la source
La stratification vise à garantir que chaque pli est représentatif de toutes les strates des données. Généralement, cela se fait de manière supervisée pour la classification et vise à assurer que chaque classe est (approximativement) également représentée à travers chaque pli de test (qui sont bien entendu combinés de manière complémentaire pour former des plis d’entraînement).
L'intuition derrière cela est liée au biais de la plupart des algorithmes de classification. Ils ont tendance à pondérer équitablement chaque instance, ce qui signifie que les classes surreprésentées ont trop de poids (par exemple, l'optimisation de la mesure F, la précision ou une forme d'erreur complémentaire). La stratification n’est pas aussi importante pour un algorithme qui pondère chaque classe de la même manière (par exemple, optimisation de Kappa, Informedness ou ROC AUC) ou selon une matrice de coût mal classer). Voir, par exemple, DMW Powers (2014), Ce que la mesure F ne mesure pas: caractéristiques, défauts, erreurs et correctifs. http://arxiv.org/pdf/1503.06410
Un problème spécifique, qui est important pour tous les algorithmes, même non biaisés ou équilibrés, est qu’ils ont tendance à ne pas être en mesure d’apprendre ou de tester une classe qui n’est pas représentée du tout dans un repli. représenté dans un pli ne permet pas la généralisation effectuée resp. évalué. Cependant, même cette considération n'est pas universelle et ne s'applique pas beaucoup, par exemple, à l'apprentissage par classe, qui tente de déterminer ce qui est normal pour une classe individuelle, et identifie efficacement les valeurs éloignées comme étant une classe différente, étant donné que la validation croisée consiste à déterminer des statistiques ne générant pas de classificateur spécifique.
D'autre part, la stratification supervisée compromet la pureté technique de l'évaluation car les étiquettes des données de test ne doivent pas affecter la formation, mais la stratification est utilisée dans la sélection des instances de formation. Une stratification non supervisée est également possible en répartissant des données similaires en ne regardant que les attributs des données, et non la vraie classe. Voir, par exemple, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 . NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Stratification non supervisée de la validation croisée pour l'estimation de la précision.
La stratification peut également être appliquée à la régression plutôt qu'à la classification, auquel cas, comme pour la stratification non supervisée, la similarité plutôt que l'identité est utilisée, mais la version supervisée utilise la valeur de fonction vraie connue.
Les complications suivantes sont des classes rares et une classification multilabel, où les classifications sont effectuées sur plusieurs dimensions (indépendantes). Ici, les nuplets des étiquettes vraies dans toutes les dimensions peuvent être traités comme des classes aux fins de validation croisée. Cependant, toutes les combinaisons ne se produisent pas nécessairement et certaines combinaisons peuvent être rares. Les classes rares et les combinaisons rares posent un problème en ce sens qu'une classe / combinaison apparaissant au moins une fois mais moins de K fois (en K-CV) ne peut pas être représentée dans tous les plis du test. Dans de tels cas, on pourrait plutôt envisager une forme de surenchère stratifiée (échantillonnage avec remplacement pour générer un repli d’entraînement complet avec des répétitions attendues et 36,8% attendus non sélectionnés pour le test, une instance de chaque classe étant sélectionnée initialement sans remplacement pour le repli du test). .
Une autre approche de la stratification multilabel consiste à essayer de stratifier ou d’amorcer chaque dimension de classe séparément sans chercher à garantir une sélection représentative des combinaisons. Avec L étiquettes et N instances et Kkl d'instances de classe k pour étiquette l, nous pouvons choisir de manière aléatoire (sans remplacement) dans l'ensemble correspondant d'instances étiquetées Dkl approximativement N / LKkl instances. Ceci n'assure pas un équilibre optimal mais cherche plutôt un équilibre de manière heuristique. Cela peut être amélioré en interdisant la sélection d'étiquettes égales ou supérieures au quota, à moins que le choix ne soit pas fait (certaines combinaisons n'existant pas ou rares). Les problèmes tendent à signifier soit qu'il y a trop peu de données, soit que les dimensions ne sont pas indépendantes.
la source
La valeur moyenne de la réponse est approximativement égale dans tous les plis est une autre façon de dire que la proportion de chaque classe dans tous les plis est approximativement égale.
Par exemple, nous avons un ensemble de données avec 80 enregistrements de classe 0 et 20 enregistrements de classe 1. Nous pouvons obtenir une valeur de réponse moyenne de (80 * 0 + 20 * 1) / 100 = 0,2 et nous voulons que 0,2 soit la valeur de réponse moyenne de tous les plis. C'est également un moyen rapide dans EDA de déterminer si l'ensemble de données donné est déséquilibré au lieu de compter.
la source