Comprendre la validation croisée stratifiée

55

Quelle est la différence entre la validation croisée stratifiée et la validation croisée ?

Wikipedia dit:

Dans la validation croisée des plis en k , les plis sont sélectionnés de sorte que la valeur de réponse moyenne soit approximativement égale dans tous les plis. Dans le cas d'une classification dichotomique, cela signifie que chaque pli contient à peu près les mêmes proportions des deux types d'étiquettes de classe.

Mais je suis toujours confus.

  1. Que veut mean response valuedire dans ce contexte?
  2. Pourquoi le n ° 1 est-il important?
  3. Comment atteindre le n ° 1 en pratique?
Amelio Vazquez-Reina
la source

Réponses:

44

Un article sur la validation croisée dans Encyclopedia of Database Systems indique:

La stratification est le processus de réorganisation des données afin de s'assurer que chaque pli est un bon représentant de l'ensemble. Par exemple, dans un problème de classification binaire où chaque classe comprend 50% des données, il est préférable de disposer les données de telle sorte que chaque classe comporte environ la moitié des instances.

À propos de l'importance de la stratification, Kohavi (étude de la validation croisée et du bootstrap pour l'estimation de la précision et la sélection du modèle) conclut que:

la stratification est généralement un meilleur schéma, à la fois en termes de biais et de variance, par rapport à la validation croisée régulière.

Baumann
la source
5
Pouvez-vous décrire intuitivement pourquoi c'est mieux qu'un CV régulier?
MohamedEzz
Incluez peut-être un paragraphe indiquant qu'il existe différents degrés de stratification que vous pouvez viser et qu'ils interfèrent à différents degrés avec le caractère aléatoire des plis. Parfois, tout ce dont vous avez besoin est de vous assurer qu’il existe au moins un enregistrement de chaque classe dans chaque pli. Ensuite, vous pouvez simplement générer les plis de manière aléatoire, vérifier si cette condition est remplie et uniquement dans le cas improbable où elle ne l’aura pas été, remanie les plis.
David Ernst
37

La stratification vise à garantir que chaque pli est représentatif de toutes les strates des données. Généralement, cela se fait de manière supervisée pour la classification et vise à assurer que chaque classe est (approximativement) également représentée à travers chaque pli de test (qui sont bien entendu combinés de manière complémentaire pour former des plis d’entraînement).

L'intuition derrière cela est liée au biais de la plupart des algorithmes de classification. Ils ont tendance à pondérer équitablement chaque instance, ce qui signifie que les classes surreprésentées ont trop de poids (par exemple, l'optimisation de la mesure F, la précision ou une forme d'erreur complémentaire). La stratification n’est pas aussi importante pour un algorithme qui pondère chaque classe de la même manière (par exemple, optimisation de Kappa, Informedness ou ROC AUC) ou selon une matrice de coût mal classer). Voir, par exemple, DMW Powers (2014), Ce que la mesure F ne mesure pas: caractéristiques, défauts, erreurs et correctifs. http://arxiv.org/pdf/1503.06410

Un problème spécifique, qui est important pour tous les algorithmes, même non biaisés ou équilibrés, est qu’ils ont tendance à ne pas être en mesure d’apprendre ou de tester une classe qui n’est pas représentée du tout dans un repli. représenté dans un pli ne permet pas la généralisation effectuée resp. évalué. Cependant, même cette considération n'est pas universelle et ne s'applique pas beaucoup, par exemple, à l'apprentissage par classe, qui tente de déterminer ce qui est normal pour une classe individuelle, et identifie efficacement les valeurs éloignées comme étant une classe différente, étant donné que la validation croisée consiste à déterminer des statistiques ne générant pas de classificateur spécifique.

D'autre part, la stratification supervisée compromet la pureté technique de l'évaluation car les étiquettes des données de test ne doivent pas affecter la formation, mais la stratification est utilisée dans la sélection des instances de formation. Une stratification non supervisée est également possible en répartissant des données similaires en ne regardant que les attributs des données, et non la vraie classe. Voir, par exemple, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 . NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Stratification non supervisée de la validation croisée pour l'estimation de la précision.

La stratification peut également être appliquée à la régression plutôt qu'à la classification, auquel cas, comme pour la stratification non supervisée, la similarité plutôt que l'identité est utilisée, mais la version supervisée utilise la valeur de fonction vraie connue.

Les complications suivantes sont des classes rares et une classification multilabel, où les classifications sont effectuées sur plusieurs dimensions (indépendantes). Ici, les nuplets des étiquettes vraies dans toutes les dimensions peuvent être traités comme des classes aux fins de validation croisée. Cependant, toutes les combinaisons ne se produisent pas nécessairement et certaines combinaisons peuvent être rares. Les classes rares et les combinaisons rares posent un problème en ce sens qu'une classe / combinaison apparaissant au moins une fois mais moins de K fois (en K-CV) ne peut pas être représentée dans tous les plis du test. Dans de tels cas, on pourrait plutôt envisager une forme de surenchère stratifiée (échantillonnage avec remplacement pour générer un repli d’entraînement complet avec des répétitions attendues et 36,8% attendus non sélectionnés pour le test, une instance de chaque classe étant sélectionnée initialement sans remplacement pour le repli du test). .

Une autre approche de la stratification multilabel consiste à essayer de stratifier ou d’amorcer chaque dimension de classe séparément sans chercher à garantir une sélection représentative des combinaisons. Avec L étiquettes et N instances et Kkl d'instances de classe k pour étiquette l, nous pouvons choisir de manière aléatoire (sans remplacement) dans l'ensemble correspondant d'instances étiquetées Dkl approximativement N / LKkl instances. Ceci n'assure pas un équilibre optimal mais cherche plutôt un équilibre de manière heuristique. Cela peut être amélioré en interdisant la sélection d'étiquettes égales ou supérieures au quota, à moins que le choix ne soit pas fait (certaines combinaisons n'existant pas ou rares). Les problèmes tendent à signifier soit qu'il y a trop peu de données, soit que les dimensions ne sont pas indépendantes.

David MW Powers
la source
5

La valeur moyenne de la réponse est approximativement égale dans tous les plis est une autre façon de dire que la proportion de chaque classe dans tous les plis est approximativement égale.

Par exemple, nous avons un ensemble de données avec 80 enregistrements de classe 0 et 20 enregistrements de classe 1. Nous pouvons obtenir une valeur de réponse moyenne de (80 * 0 + 20 * 1) / 100 = 0,2 et nous voulons que 0,2 soit la valeur de réponse moyenne de tous les plis. C'est également un moyen rapide dans EDA de déterminer si l'ensemble de données donné est déséquilibré au lieu de compter.

Lucy Lu
la source