Quelle est la définition du «meilleur» utilisée dans le terme «meilleur ajustement» et validation croisée?

16

Si vous ajustez une fonction non linéaire à un ensemble de points (en supposant qu'il n'y a qu'une seule ordonnée pour chaque abscisse), le résultat peut être:

  1. une fonction très complexe avec de petits résidus
  2. une fonction très simple avec de gros résidus

La validation croisée est couramment utilisée pour trouver le «meilleur» compromis entre ces deux extrêmes. Mais que signifie "le meilleur"? Est-ce "très probable"? Comment pourriez-vous même commencer à prouver quelle est la solution la plus probable?

Ma voix intérieure me dit que CV trouve une sorte de solution d'énergie minimale. Cela me fait penser à l'entropie, que je sais vaguement se produire à la fois dans les statistiques et la physique.

Il me semble que le "meilleur" ajustement est généré en minimisant la somme des fonctions de complexité et d'erreur c.-à-d.

minimising m where m = c(Complexity) + e(Error)

Est-ce que cela a un sens? Quelles seraient les fonctions c et e?

Pouvez-vous expliquer en utilisant un langage non mathématique, car je ne comprendrai pas beaucoup les mathématiques.

Bart
la source
1
Le meilleur est le modèle avec l'erreur future la plus faible et la validation croisée vous donne cette estimation. La raison des formules c (Complexité) + e (Erreur) est que vous pouvez utiliser l'erreur sur les données d'entraînement comme estimation de l'erreur future, mais c'est trop optimiste, vous ajoutez donc un terme pour rendre cette estimation non biaisée, qui est généralement une fonction de complexité du modèle
Yaroslav Bulatov
D'un autre côté, le raisonnement à la lumière du phénomène de Runge (inspirations physiques à nouveau) conduit à la conclusion que l'erreur future est quelque chose de Complexity / Train_Error.
Matt Krause a donné une excellente réponse à une question similaire ici: stats.stackexchange.com/a/21925/14640 Paraphrasant de sa réponse: Le but est d'équilibrer la complexité du modèle avec le pouvoir explicatif du modèle et donc le concept de parcimonie est meilleur mesure de la pertinence d'un modèle que le concept du meilleur ajustement à l'erreur. En effet, un modèle très complexe peut surcharger les données sans être mieux en mesure de prédire ou d'expliquer de nouveaux résultats.
Assad Ebrahim

Réponses:

6

Je pense que c'est une excellente question. Je vais paraphase juste pour être sûr d'avoir bien compris:

Il semblerait qu'il existe de nombreuses façons de choisir la fonction de pénalité de complexité et la fonction de pénalité d'erreur e . Quel choix est le meilleur. Qu'est-ce qui devrait le mieux signifier ?ce

Je pense que la réponse (s'il y en a une) vous mènera bien au-delà de la simple validation croisée. J'aime la façon dont cette question (et le sujet en général) se relie bien au rasoir d' Occam et au concept général de parcimonie qui est fondamental pour la science. Je ne suis nullement un expert dans ce domaine, mais je trouve cette question extrêmement intéressante. Le meilleur texte que je connaisse sur ce genre de question est l'Intelligence Artificielle Universelle de Marcus Hutter (ne me posez pas de questions à ce sujet cependant, je n'en ai pas lu la plupart). Je suis allé à une conférence de Hutter et il y a quelques années et j'ai été très impressionné.

Vous avez raison de penser qu'il y a un argument d'entropie minimale quelque part (utilisé pour la fonction de pénalité de complexité d'une certaine manière). Hutter préconise l'utilisation de la complexité de Kolmogorov au lieu de l'entropie. De plus, la définition de Hutter du «meilleur» (pour autant que je m'en souvienne) est (officieusement) le modèle qui prédit le mieux l'avenir (c'est-à-dire le mieux prédit les données qui seront observées à l'avenir). Je ne me souviens pas comment il formalise cette notion.c

Robby McKilliam
la source
Vous comprenez la question. Je vais suivre les liens.
bart
Vous devez savoir que ces liens ne vous mèneront probablement pas dans un endroit «pratique». Si vous essayez de construire quelque chose en utilisant la validation croisée (ou une autre sorte de sélection de modèle), dans la pratique, il est probable que cela se résume toujours à quelque chose d'heuristique et un peu ad hoc (bien que je convienne que ce n'est pas satisfaisant).
Robby McKilliam
Nous arrivons maintenant quelque part. en.wikipedia.org/wiki/Minimum_message_length semble être ce que je pensais. Merci!
bart
Pas de soucis. C'est juste une réflexion, pas pratique.
bart
9

Je proposerai une brève réponse intuitive (à un niveau assez abstrait) jusqu'à ce qu'une meilleure réponse soit proposée par quelqu'un d'autre:

Tout d'abord, notez que les fonctions / modèles complexes obtiennent un meilleur ajustement (c.-à-d. Ont des résidus plus faibles) car ils exploitent certaines caractéristiques locales (pensez au bruit) de l'ensemble de données qui ne sont pas présentes à l'échelle mondiale (pensez aux modèles systématiques).

Deuxièmement, lors de la validation croisée, nous divisons les données en deux ensembles: l'ensemble d'apprentissage et l'ensemble de validation.

Ainsi, lorsque nous effectuons une validation croisée, un modèle complexe peut ne pas prédire très bien car, par définition, un modèle complexe exploitera les caractéristiques locales de l'ensemble d'apprentissage. Cependant, les caractéristiques locales de l'ensemble d'apprentissage peuvent être très différentes de celles des caractéristiques locales de l'ensemble de validation, ce qui entraîne de mauvaises performances prédictives. Par conséquent, nous avons tendance à sélectionner le modèle qui capture les caractéristiques globales de la formation et des ensembles de données de validation.

En résumé, la validation croisée protège contre le surajustement en sélectionnant le modèle qui capture les modèles globaux de l'ensemble de données et en évitant les modèles qui exploitent une caractéristique locale d'un ensemble de données.


la source
@Srikant, je sais tout cela. CV est un moyen de trouver "le meilleur". Quelle est la définition du "meilleur"?
bart
@bart 'best model' = un modèle qui 'best' capture les modèles globaux tout en évitant les caractéristiques locales d'une donnée. C'est le mieux que je puisse faire pour une description non mathématique. Peut-être que quelqu'un d'autre peut élaborer un peu plus ou être plus précis.
@bart: "meilleur" signifie la fonction qui correspond le mieux aux données de formation, et qui "se généralise" bien aux données de l'ensemble de validation / test invisible. Je pense que cela ressort très clairement de la réponse de Srikant. Il existe de nombreuses façons de définir formellement un bon comportement de généralisation. Dans un sens non formel, vous pouvez penser à cela comme trouver une fonction qui est "lisse" et pas très ondulante. Essayer de s'adapter uniquement aux données de formation peut conduire à une fonction d'aspect ondulé, tandis que la fluidité garantit généralement que la fonction fonctionnera raisonnablement bien à la fois sur les données de formation et de validation / test.
ebony1
@ebony: Vous manquez le point. J'ai reformulé la question pour, espérons-le, être plus claire
Bart
5

Dans une vue générale d'apprentissage automatique, la réponse est assez simple: nous voulons construire un modèle qui aura la plus grande précision lors de la prévision de nouvelles données (invisible pendant la formation). Parce que nous ne pouvons pas tester directement cela (nous n'avons pas de données du futur), nous faisons une simulation Monte Carlo d'un tel test - et c'est fondamentalement l'idée sous la validation croisée.

Il peut y avoir des problèmes concernant la précision (par exemple, un client professionnel peut déclarer que le dépassement coûte 5 € par unité et le sous-dépassement 0,01 € par unité, il est donc préférable de construire un modèle moins précis mais plus sous-estimé), mais en général, il est un pourcentage assez intuitif de réponses vraies dans la classification et la variance expliquée largement utilisée dans la régression.


la source
3

Beaucoup de gens ont d'excellentes réponses, voici mon 0,02 $.

Il existe deux façons de considérer le «meilleur modèle» ou la «sélection de modèle», en parlant statistiquement:

1 Une explication aussi simple que possible, mais pas plus simple (Attrib. Einstein)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research


2 La prédiction est l'intérêt, similaire au développement de l'ingénierie.

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

(Mauvaise) conception généralisée:

Le choix du modèle équivaut à choisir le meilleur modèle

Pour l'explication, nous devons être attentifs à la possibilité qu'il existe plusieurs modèles explicatifs (à peu près) tout aussi bons. La simplicité aide à la fois à communiquer les concepts incarnés dans le modèle et dans ce que les psychologues appellent la généralisation, la capacité de «travailler» dans des scénarios très différents de ceux dans lesquels le modèle a été étudié. Il y a donc une prime sur quelques modèles.

Pour la prédiction: (Dr Ripley's) la bonne analogie est celle de choisir entre des opinions d'experts: si vous avez accès à un large panel d'experts, comment utiliseriez-vous leurs opinions?

La validation croisée prend en charge l'aspect prédiction. Pour plus de détails sur le CV, veuillez vous référer à cette présentation du Dr BD Ripley Présentation du Dr Brian D. Ripley sur la sélection des modèles

Citation: Veuillez noter que tout dans cette réponse provient de la présentation citée ci-dessus. Je suis un grand fan de cette présentation et j'aime ça. D'autres opinions peuvent varier. Le titre de la présentation est: "Sélection parmi de grandes classes de modèles" et a été donné au Symposium en l'honneur du 80e anniversaire de John Nelder, Imperial College, 29/30 mars 2004, par le Dr Brian D. Ripley.

suncoolsu
la source
3

Grande discussion ici, mais je pense à la validation croisée d'une manière différente des réponses jusqu'à présent (mbq et moi sommes sur la même page je pense). Donc, je vais mettre mes deux cents au risque d'embrouiller les eaux ...

La validation croisée est une technique statistique permettant d'évaluer la variabilité et le biais, dus à l'erreur d'échantillonnage, de la capacité d'un modèle à ajuster et à prédire les données. Ainsi, le «meilleur» serait le modèle qui fournit l'erreur de généralisation la plus faible, qui serait en unités de variabilité et de biais. Des techniques telles que Bayesian et Bootstrap Model Averaging peuvent être utilisées pour mettre à jour un modèle de manière algorithmique en fonction des résultats de l'effort de validation croisée.

Cette FAQ fournit de bonnes informations pour plus de contexte sur ce qui informe mon opinion.

Josh Hemann
la source
1

La fonction d'erreur est l'erreur de votre modèle (fonction) sur les données d'entraînement. La complexité est une norme (par exemple, la norme l2 au carré) de la fonction que vous essayez d'apprendre. La minimisation du terme de complexité favorise essentiellement les fonctions fluides, qui fonctionnent bien non seulement sur les données d'entraînement mais également sur les données de test. Si vous représentez votre fonction par un ensemble de coefficients (par exemple, si vous effectuez une régression linéaire), pénaliser la complexité par la norme au carré entraînerait de petites valeurs de coefficient dans votre fonction (pénaliser d'autres normes conduit à différentes notions de contrôle de la complexité).

ébène1
la source
1

(p,q)1,λ>0

(1)Argmin.β|λ,x,y||ym(x,β)||p+λ||β||q

est équivalent à

(2)Argmin.β|λ,x,y||ym(x,β)||p

s.t. ||β||qλ

||β||qλq=1,2β^β^

λλ=(x,y)(1)(2)λβ^|λ

e()=||ym(x,β)||pp=1p=2 ) cette mesure de distance entre le modèle et les observations a (facilement) propriétés asymptotiques dérivables (forte convergence vers des parties significatives de la populationm()).

user603
la source
1
Est λun paramètre qui est libre d'être choisi?
Robby McKilliam
@Robby:> merci. J'ai légèrement ajouté le texte pour clarifier la distinction entre paramètres et hyperparamètres.
user603
@kwak: Je suis désolé de dire que je n'ai aucune idée de ce que cela signifie. Que signifient les symboles p, q, lambda, x, y, m et bêta?
bart
@bart:> Ma réponse est essentiellement la même que celle de Srikant. Là où il fournit une explication intuitive, je voulais en ajouter une plus rigoureuse pour les avantages des futurs visiteurs qui pourraient avoir la même question que vous, mais qui sont plus familiers avec les mathématiques que le langage non formel. Tous les symboles que vous mentionnez sont définis dans ma réponse (bien que, encore une fois, cela se fasse formellement).
user603
@kwak: Où, par exemple, est défini p?
bart