Comment la validation croisée surmonte-t-elle le problème de surajustement?

34

Pourquoi une procédure de validation croisée résout-elle le problème de surapprentissage d'un modèle?

utilisateur3269
la source
4
Regardez les travaux d' Alain Celisse . Son travail, à ma connaissance (trop peu hélas), porte sur les mérites de la validation croisée.
Mpiktas
@mpiktas En effet, et l'un de ses papiers avait déjà été proposé pour le CVJC, mendeley.com/groups/999241/crossvalidated-journal-club/papers .
chl

Réponses:

23

Je ne peux pas penser à une explication suffisamment claire pour le moment, alors je la laisserai à quelqu'un d'autre; Cependant, la validation croisée ne résout pas complètement le problème de sur-ajustement dans la sélection du modèle, elle le réduit simplement. L'erreur de validation croisée n'a pas une variance négligeable, surtout si la taille de l'ensemble de données est petite; En d'autres termes, vous obtenez une valeur légèrement différente en fonction de l'échantillon de données que vous utilisez. Cela signifie que si vous avez plusieurs degrés de liberté dans la sélection du modèle (par exemple de nombreuses fonctionnalités permettant de sélectionner un petit sous-ensemble, de nombreux hyper-paramètres à ajuster, de nombreux modèles parmi lesquels choisir), vous pouvez sur-ajuster le critère de validation croisée. le modèle étant réglé de manière à exploiter cette variation aléatoire plutôt que de manière à réellement améliorer les performances, et vous pouvez vous retrouver avec un modèle qui fonctionne mal. Pour une discussion à ce sujet, voirCawley et Talbot "Sur-ajustement dans la sélection du modèle et biais de sélection subséquent dans l'évaluation de la performance", JMLR, vol. 11, pp. 2079-2107, 2010

Malheureusement, la validation croisée est plus susceptible de vous laisser tomber lorsque vous avez un petit jeu de données, qui correspond exactement au moment où vous avez le plus besoin de validation croisée. Notez que la validation croisée au pli multiple est généralement plus fiable que la validation croisée "laissez un test" car elle a une variance inférieure, mais peut être plus coûteuse à calculer pour certains modèles (raison pour laquelle LOOCV est parfois utilisé pour la sélection de modèle, même si la variance est élevée).

Dikran Marsupial
la source
1
On m'a dit que la validation croisée consiste simplement à appliquer un modèle (implicite) différent pour les données. Vous pouvez certainement montrer cela avec le "cousin" de CV, le bootstrap non paramétrique (basé sur un modèle de processus de Dirichlet avec un paramètre de concentration égal à 0).
probabilitéislogique
Idée intéressante. Mon point de vue est que (pour les modèles qui m'intéressent), la séparation en paramètres et hyper-paramètres est un calcul plutôt que logique; les hyper-paramètres sont toujours des paramètres qui doivent être adaptés aux données, et cela indirectement en utilisant la validation croisée ne change pas vraiment cela. Dans le dernier article, j’ai étudié le réglage des hyper-paramètres d’un modèle de noyau en utilisant le critère de formation et l’ajout d’un terme de régularisation supplémentaire afin d’éviter de sur-adapter le critère de sélection du modèle (LOOCV), et cela a très bien fonctionné.
Dikran Marsupial
1
Pourquoi k-fold CV est-il plus cher que Leave-one-out? Mon expérience (et mon intuition) dit le contraire. Puisque dans k-fold CV nous faisons k tests, où que ce soit en L1O, nous faisons N (>> k) tests, et généralement la partie formation prend plus de temps en raison d'une inversion de matrice, donc L1O n'est-elle pas une option coûteuse?
Jeff
1
Une option laissée de côté peut être réalisée (ou approximée) comme un sous-produit de l’adaptation du modèle à l’ensemble du jeu de données, moyennant un coût supplémentaire minime, pour un large éventail de modèles (par exemple, une régression linéaire). Je vais modifier la réponse pour que cela soit plus clair.
Dikran Marsupial
Ma compréhension de Leave-one-out est que c’est le k-fold CV - la meilleure forme, mais la plus coûteuse en calcul, de k-fold CV, où k = taille du jeu de données.
Daniel Winterstein
10

Ma réponse est plus intuitive que rigoureuse, mais peut-être que ça va aider ...

Si je comprends bien, le surajustement est le résultat d’une sélection de modèle reposant sur une formation et sur des tests utilisant les mêmes données, dans laquelle vous disposez d’un mécanisme d’ajustement flexible: vous adaptez votre échantillon de données à un tel l'autre variance.

La division des données en un ensemble de formation et de test vous empêche de le faire. Mais une scission statique n'utilise pas vos données efficacement et votre scission elle-même pourrait poser problème. La validation croisée conserve l'avantage de ne pas récompenser exactement l'adaptation aux données d'entraînement de la division essais de formation, tout en utilisant les données que vous avez aussi efficacement que possible (toutes vos données sont utilisées données d’entraînement et de test, mais pas dans la même série).

Si vous disposez d'un mécanisme d'adaptation flexible, vous devez limiter la sélection de votre modèle afin qu'il ne privilégie pas les ajustements «parfaits», mais complexe. Vous pouvez le faire avec AIC, BIC ou une autre méthode de pénalisation qui pénalise directement la complexité de l'ajustement, ou avec CV. (Ou vous pouvez le faire en utilisant une méthode d’ajustement qui n’est pas très flexible, ce qui est une des raisons pour lesquelles les modèles linéaires sont sympas.)

Une autre façon de voir les choses est que l’apprentissage est une question de généralisation, et un ajustement trop serré est en quelque sorte une généralisation. En faisant varier ce que vous apprenez et ce que vous testez, vous généralisez mieux que si vous appreniez les réponses à un ensemble spécifique de questions.

Wayne
la source
3

D'un point de vue bayésien, je ne suis pas sûr que la validation croisée fasse tout ce qu'une analyse bayésienne "correcte" ne permet pas de comparer des modèles. Mais je ne suis pas sûr à 100% que ce soit le cas.

MAMBDI

P(MA|D,I)P(MB|D,I)=P(MA|I)P(MB|I)×P(D|MA,I)P(D|MB,I)

Et P(D|MA,I)

P(D|MA,I)=P(D,θA|MA,I)dθA=P(θA|MA,I)P(D|MA,θA,I)dθA

Qui s'appelle la distribution prédictive antérieure . Il indique en gros à quel point le modèle prédit les données réellement observées, ce qui correspond exactement à la validation croisée, le "préalable" étant remplacé par le modèle "de formation" et les "données" remplacées par le "test". Les données. Donc, si le modèle B prédit mieux les données que le modèle A, sa probabilité a posteriori augmente par rapport au modèle A. Il semble donc que le théorème de Bayes procède effectivement à une validation croisée en utilisant toutes les données plutôt qu’un sous-ensemble. Cependant, je ne suis pas totalement convaincu de cela - il semble que nous obtenons quelque chose pour rien.

Une autre caractéristique intéressante de cette méthode est qu’elle a un "rasoir occam" intégré, donné par le rapport des constantes de normalisation des distributions antérieures de chaque modèle.

Cependant, la validation croisée semble utile pour le vieux "quelque chose d'autre" tant redouté ou ce que l'on appelle parfois "la spécification erronée du modèle". Je suis constamment déchiré par le fait que ce "quelque chose d'autre" compte ou non, car il semble que ce devrait être le cas - mais cela vous laisse paralysé sans solution du tout lorsque cela semble important. Juste quelque chose qui vous donne mal à la tête, mais vous ne pouvez rien y faire - à moins de penser à ce que pourrait être cet "autre chose" et de l'essayer dans votre modèle (pour qu'il ne fasse plus partie de "autre chose") .

De plus, la validation croisée est un moyen de réellement effectuer une analyse bayésienne lorsque les intégrales ci-dessus sont ridiculement dures. Et la validation croisée "a du sens" pour n'importe qui - c'est "mécanique" plutôt que "mathématique". Il est donc facile de comprendre ce qui se passe. Et cela semble également vous amener à vous concentrer sur la partie importante des modèles - faire de bonnes prédictions.

probabilislogic
la source
2
La question du modèle erroné est la clé. Les méthodes bayésiennes (en particulier les méthodes de maximisation des preuves Bayes des "pauvres") peuvent donner de très mauvais résultats si le modèle est mal spécifié, alors que la validation croisée semble fonctionner presque tout le temps. Le gain lorsque les hypothèses ("a priori") sont "correctes" est généralement beaucoup plus faible que la pénalité lorsqu'elles sont "erronées", de sorte que la validation croisée gagne en moyenne (car elle ne fait pratiquement aucune hypothèse). Ce n'est cependant pas aussi satisfaisant intellectuellement! ; o)
Dikran Marsupial le
1
@ Dikran - intéressant. Je ne suis pas sûr d'être d'accord avec ce que vous dites. Vous dites donc que si le modèle est mal spécifié, la validation croisée avec ce même modèle est préférable à l’utilisation du théorème de Bayes? J'aimerais voir un exemple de cela.
probabilityislogic
@probabiltyislogic Je ne pense pas que ce soit une observation particulièrement nouvelle, Rasmussen et Williams le mentionnent à la page 118 de leur excellent livre sur le processus gaussien (bien qu'il s'agisse essentiellement d'une référence à un commentaire similaire dans la monographie de Spline de Grace Wahba). La vraisemblance marginale est essentiellement la probabilité des données compte tenu des hypothèses du modèle, tandis que la probabilité XVAL est une estimation de la probabilité des données, quelles que soient les hypothèses du modèle, donc plus fiable lorsque les hypothèses ne sont pas valides. Une étude empirique appropriée serait utile.
Dikran Marsupial le
@probabilityislogic J'ajouterais que j'aime bien l'approche bayésienne de la sélection de modèle, mais j'ai presque toujours utilisé la validation croisée dans la pratique simplement parce qu'elle donne généralement des résultats (statistiquement) aussi bons ou meilleurs que les approches bayésiennes.
Dikran Marsupial le
XjeyjeXjep(yje|Xje,θy)p(Xje|θX). Le deuxième terme a une contribution beaucoup plus importante à la probabilité, donc si un modèle y réussit bien et qu’il mord sur la prévision, la probabilité marginale ne l’intéressera pas.
JMS