Si vous ajustez une fonction non linéaire à un ensemble de points (en supposant qu'il n'y a qu'une seule ordonnée pour chaque abscisse), le résultat peut être:
- une fonction très complexe avec de petits résidus
- une fonction très simple avec de gros résidus
La validation croisée est couramment utilisée pour trouver le «meilleur» compromis entre ces deux extrêmes. Mais que signifie "le meilleur"? Est-ce "très probable"? Comment pourriez-vous même commencer à prouver quelle est la solution la plus probable?
Ma voix intérieure me dit que CV trouve une sorte de solution d'énergie minimale. Cela me fait penser à l'entropie, que je sais vaguement se produire à la fois dans les statistiques et la physique.
Il me semble que le "meilleur" ajustement est généré en minimisant la somme des fonctions de complexité et d'erreur c.-à-d.
minimising m where m = c(Complexity) + e(Error)
Est-ce que cela a un sens? Quelles seraient les fonctions c et e?
Pouvez-vous expliquer en utilisant un langage non mathématique, car je ne comprendrai pas beaucoup les mathématiques.
Réponses:
Je pense que c'est une excellente question. Je vais paraphase juste pour être sûr d'avoir bien compris:
Je pense que la réponse (s'il y en a une) vous mènera bien au-delà de la simple validation croisée. J'aime la façon dont cette question (et le sujet en général) se relie bien au rasoir d' Occam et au concept général de parcimonie qui est fondamental pour la science. Je ne suis nullement un expert dans ce domaine, mais je trouve cette question extrêmement intéressante. Le meilleur texte que je connaisse sur ce genre de question est l'Intelligence Artificielle Universelle de Marcus Hutter (ne me posez pas de questions à ce sujet cependant, je n'en ai pas lu la plupart). Je suis allé à une conférence de Hutter et il y a quelques années et j'ai été très impressionné.
Vous avez raison de penser qu'il y a un argument d'entropie minimale quelque part (utilisé pour la fonction de pénalité de complexité d'une certaine manière). Hutter préconise l'utilisation de la complexité de Kolmogorov au lieu de l'entropie. De plus, la définition de Hutter du «meilleur» (pour autant que je m'en souvienne) est (officieusement) le modèle qui prédit le mieux l'avenir (c'est-à-dire le mieux prédit les données qui seront observées à l'avenir). Je ne me souviens pas comment il formalise cette notion.c
la source
Je proposerai une brève réponse intuitive (à un niveau assez abstrait) jusqu'à ce qu'une meilleure réponse soit proposée par quelqu'un d'autre:
Tout d'abord, notez que les fonctions / modèles complexes obtiennent un meilleur ajustement (c.-à-d. Ont des résidus plus faibles) car ils exploitent certaines caractéristiques locales (pensez au bruit) de l'ensemble de données qui ne sont pas présentes à l'échelle mondiale (pensez aux modèles systématiques).
Deuxièmement, lors de la validation croisée, nous divisons les données en deux ensembles: l'ensemble d'apprentissage et l'ensemble de validation.
Ainsi, lorsque nous effectuons une validation croisée, un modèle complexe peut ne pas prédire très bien car, par définition, un modèle complexe exploitera les caractéristiques locales de l'ensemble d'apprentissage. Cependant, les caractéristiques locales de l'ensemble d'apprentissage peuvent être très différentes de celles des caractéristiques locales de l'ensemble de validation, ce qui entraîne de mauvaises performances prédictives. Par conséquent, nous avons tendance à sélectionner le modèle qui capture les caractéristiques globales de la formation et des ensembles de données de validation.
En résumé, la validation croisée protège contre le surajustement en sélectionnant le modèle qui capture les modèles globaux de l'ensemble de données et en évitant les modèles qui exploitent une caractéristique locale d'un ensemble de données.
la source
Dans une vue générale d'apprentissage automatique, la réponse est assez simple: nous voulons construire un modèle qui aura la plus grande précision lors de la prévision de nouvelles données (invisible pendant la formation). Parce que nous ne pouvons pas tester directement cela (nous n'avons pas de données du futur), nous faisons une simulation Monte Carlo d'un tel test - et c'est fondamentalement l'idée sous la validation croisée.
Il peut y avoir des problèmes concernant la précision (par exemple, un client professionnel peut déclarer que le dépassement coûte 5 € par unité et le sous-dépassement 0,01 € par unité, il est donc préférable de construire un modèle moins précis mais plus sous-estimé), mais en général, il est un pourcentage assez intuitif de réponses vraies dans la classification et la variance expliquée largement utilisée dans la régression.
la source
Beaucoup de gens ont d'excellentes réponses, voici mon 0,02 $.
Il existe deux façons de considérer le «meilleur modèle» ou la «sélection de modèle», en parlant statistiquement:
1 Une explication aussi simple que possible, mais pas plus simple (Attrib. Einstein)
2 La prédiction est l'intérêt, similaire au développement de l'ingénierie.
(Mauvaise) conception généralisée:
Le choix du modèle équivaut à choisir le meilleur modèle
Pour l'explication, nous devons être attentifs à la possibilité qu'il existe plusieurs modèles explicatifs (à peu près) tout aussi bons. La simplicité aide à la fois à communiquer les concepts incarnés dans le modèle et dans ce que les psychologues appellent la généralisation, la capacité de «travailler» dans des scénarios très différents de ceux dans lesquels le modèle a été étudié. Il y a donc une prime sur quelques modèles.
Pour la prédiction: (Dr Ripley's) la bonne analogie est celle de choisir entre des opinions d'experts: si vous avez accès à un large panel d'experts, comment utiliseriez-vous leurs opinions?
La validation croisée prend en charge l'aspect prédiction. Pour plus de détails sur le CV, veuillez vous référer à cette présentation du Dr BD Ripley Présentation du Dr Brian D. Ripley sur la sélection des modèles
Citation: Veuillez noter que tout dans cette réponse provient de la présentation citée ci-dessus. Je suis un grand fan de cette présentation et j'aime ça. D'autres opinions peuvent varier. Le titre de la présentation est: "Sélection parmi de grandes classes de modèles" et a été donné au Symposium en l'honneur du 80e anniversaire de John Nelder, Imperial College, 29/30 mars 2004, par le Dr Brian D. Ripley.
la source
Grande discussion ici, mais je pense à la validation croisée d'une manière différente des réponses jusqu'à présent (mbq et moi sommes sur la même page je pense). Donc, je vais mettre mes deux cents au risque d'embrouiller les eaux ...
La validation croisée est une technique statistique permettant d'évaluer la variabilité et le biais, dus à l'erreur d'échantillonnage, de la capacité d'un modèle à ajuster et à prédire les données. Ainsi, le «meilleur» serait le modèle qui fournit l'erreur de généralisation la plus faible, qui serait en unités de variabilité et de biais. Des techniques telles que Bayesian et Bootstrap Model Averaging peuvent être utilisées pour mettre à jour un modèle de manière algorithmique en fonction des résultats de l'effort de validation croisée.
Cette FAQ fournit de bonnes informations pour plus de contexte sur ce qui informe mon opinion.
la source
La fonction d'erreur est l'erreur de votre modèle (fonction) sur les données d'entraînement. La complexité est une norme (par exemple, la norme l2 au carré) de la fonction que vous essayez d'apprendre. La minimisation du terme de complexité favorise essentiellement les fonctions fluides, qui fonctionnent bien non seulement sur les données d'entraînement mais également sur les données de test. Si vous représentez votre fonction par un ensemble de coefficients (par exemple, si vous effectuez une régression linéaire), pénaliser la complexité par la norme au carré entraînerait de petites valeurs de coefficient dans votre fonction (pénaliser d'autres normes conduit à différentes notions de contrôle de la complexité).
la source
est équivalent à
la source