Je suis un étudiant en physique qui étudie l'apprentissage automatique / la science des données, donc je ne veux pas que cette question déclenche des conflits :) Cependant, une grande partie de tout programme de premier cycle en physique consiste à faire des laboratoires / expériences, ce qui signifie beaucoup de données traitement et analyse statistique. Cependant, je remarque une nette différence entre la façon dont les physiciens traitent les données et la façon dont mes livres de science des données / d'apprentissage statistique traitent les données.
La principale différence est que lorsque vous essayez d'effectuer des régressions aux données obtenues à partir d' expériences de physique, les algorithmes de régression sont appliqués au ENTIER ensemble de données, il n'y a absolument pas se diviser en formation et de test. Dans le monde de la physique, le R ^ 2 ou un certain type de pseudo-R ^ 2 est calculé pour le modèle sur la base de l'ensemble des données. Dans le monde des statistiques, les données sont presque toujours divisées en 80-20, 70-30, etc., puis le modèle est évalué par rapport à l'ensemble de données de test.
Il y a aussi quelques expériences de physique majeures (ATLAS, BICEP2, etc ...) qui ne font jamais ce partage de données, donc je me demande pourquoi il y a une telle différence entre la façon dont les physiciens / expérimentateurs font les statistiques et la façon dont les scientifiques des données faire des statistiques.
Réponses:
Toutes les procédures statistiques ne se divisent pas en données de formation / tests, également appelées «validation croisée» (bien que l'ensemble de la procédure implique un peu plus que cela).
Il s'agit plutôt d'une technique spécifiquement utilisée pour estimer l' erreur hors échantillon ; c'est-à-dire dans quelle mesure votre modèle prédira-t-il de nouveaux résultats en utilisant un nouvel ensemble de données? Cela devient un problème très important lorsque vous avez, par exemple, un très grand nombre de prédicteurs par rapport au nombre d'échantillons dans votre jeu de données. Dans de tels cas, il est vraiment facile de construire un modèle avec une grande erreur dans l'échantillon mais une erreur hors échantillon terrible (appelée "sur-ajustement"). Dans les cas où vous avez à la fois un grand nombre de prédicteurs et un grand nombre d'échantillons, la validation croisée est un outil nécessaire pour aider à évaluer le comportement du modèle lors de la prévision de nouvelles données. C'est également un outil important lors du choix entre des modèles prédictifs concurrents.
Sur une autre note, la validation croisée est presque toujours utilisée uniquement lorsque vous essayez de créer un modèle prédictif . En général, cela n'est pas très utile pour les modèles lorsque vous essayez d'estimer l'effet d'un traitement. Par exemple, si vous comparez la distribution de la résistance à la traction entre les matériaux A et B (le «traitement» étant du type de matériau), la validation croisée ne sera pas nécessaire; alors que nous espérons que notre estimation de l'effet du traitement se généralisera hors de l'échantillon, pour la plupart des problèmes, la théorie statistique classique peut répondre à cette question (c.-à-d. «erreurs types» des estimations) plus précisément que la validation croisée. Malheureusement, la méthodologie statistique classique 1pour les erreurs standard ne tient pas en cas de sur-ajustement. La validation croisée fait souvent beaucoup mieux dans ce cas.
D'un autre côté, si vous essayez de prédire quand un matériau se cassera en fonction de 10 000 variables mesurées que vous introduisez dans un modèle d'apprentissage automatique basé sur 100 000 observations, vous aurez beaucoup de mal à créer un excellent modèle sans validation croisée!
Je suppose que dans de nombreuses expériences de physique effectuées, vous êtes généralement intéressé par l'estimation des effets. Dans ces cas, la validation croisée est très peu nécessaire.
1 On pourrait soutenir que les méthodes bayésiennes avec des a priori informatifs sont une méthodologie statistique classique qui traite du sur-ajustement. Mais c'est une autre discussion.
Note latérale: bien que la validation croisée soit apparue pour la première fois dans la littérature statistique et qu'elle soit définitivement utilisée par des personnes qui se disent statisticiens, elle est devenue un outil indispensable dans la communauté du machine learning. De nombreux modèles de statistiques fonctionneront bien sans utiliser de validation croisée, mais presque tous les modèles considérés comme des "modèles prédictifs d'apprentissage automatique" nécessitent une validation croisée, car ils nécessitent souvent la sélection de paramètres de réglage, ce qui est presque impossible à faire sans croix -validation.
la source
glment
'scv.glmnet
pour toute la procédure dans une jolie fonction compacte.En tant que chimiste (analytique) , je rencontre les deux approches: le calcul analytique des valeurs de mérite [principalement pour la régression univariée] ainsi que la mesure directe des figures prédictives de mérite.
Le fractionnement train / test est pour moi le "petit frère" d'une expérience de validation pour mesurer la qualité des prédictions.
Longue réponse:
Les expériences typiques que nous faisons par exemple en chimie physique de premier cycle utilisent une régression univariée. Les propriétés d'intérêt sont souvent les paramètres du modèle, par exemple la constante de temps lors de la mesure de la cinétique de réaction, mais parfois aussi les prévisions (par exemple l'étalonnage linéaire univarié pour prédire / mesurer une valeur d'intérêt).
Ces situations sont très bénignes en termes de non surajustement: il y a généralement un nombre confortable de degrés de liberté après que tous les paramètres ont été estimés, et ils sont utilisés pour former (comme dans l'éducation) les élèves avec une confiance classique ou un calcul d'intervalle de prédiction, et une erreur classique propagation - ils ont été développés pour ces situations. Et même si la situation n'est pas entièrement semblable à un manuel (par exemple, j'ai une structure dans mes données, par exemple dans la cinétique, je m'attends à ce que les données soient mieux décrites par la variance entre les cycles de la réaction + la variance entre les mesures dans un cycle plutôt que par un approche à une seule variance), je peux généralement avoir suffisamment d'exécutions de l'expérience pour obtenir des résultats utiles.
Cependant, dans ma vie professionnelle, je m'occupe d'ensembles de données spectroscopiques (typiquement 100s à 1000s de variables ) et en plus d'ensembles assez limités de cas indépendants (échantillons) . Souvent , nous utilisons donc une régularisation dont il n'est pas toujours facile de dire combien de degrés de liberté nous utilisons, et en plus nous essayons de compenser au moins quelque peu le petit en utilisant un (grand) nombre de mesures presque répétées - ce qui nous laisse avec un efficace inconnu . Sans connaître oup n n<p n n n df , les approches classiques ne fonctionnent pas. Mais comme je fais surtout des prédictions, j'ai toujours une possibilité très directe de mesurer la capacité prédictive de mon modèle: je fais des prédictions et je les compare aux valeurs de référence.
Cette approche est en fait très puissante (bien que coûteuse en raison de l'effort expérimental accru), car elle me permet de sonder la qualité prédictive également pour des conditions qui n'étaient pas couvertes par les données d'entraînement / d'étalonnage. Par exemple, je peux mesurer la détérioration de la qualité prédictive avec l'extrapolation (l'extrapolation inclut également, par exemple, des mesures effectuées, disons, un mois après l'acquisition des données d'entraînement), je peux tester la robustesse contre des facteurs de confusion que je pense importants, etc. En d'autres termes , nous pouvons étudier le comportement de notre modèle comme nous étudions le comportement de tout autre système: nous sondons certains points, ou le perturbons et observons le changement dans la réponse du système, etc.
Je dirais que plus la qualité prédictive est importante (et plus le risque de sur-ajustement est élevé), plus nous avons tendance à préférer des mesures directes de la qualité prédictive plutôt que des nombres dérivés analytiquement. (Bien sûr, nous aurions pu inclure tous ces facteurs de confusion également dans la conception de l'expérience de formation). Certains domaines tels que le diagnostic médical exigent que des études de validation appropriées soient effectuées avant que le modèle ne soit «lâché» sur de vrais patients.
Le fractionnement train / test (qu'il s'agisse de validation *, de validation croisée ou de bootstrap ou ...) facilite cette étape. Nous sauvegardons l'expérience supplémentaire et n'extrapolons pas (nous généralisons uniquement pour prédire des cas indépendants inconnus de la même distribution des données d'entraînement). Je décrirais cela comme une vérification plutôt qu'une validation (bien que la validation soit profondément ancrée dans la terminologie ici). C'est souvent la voie à suivre pragmatique s'il n'y a pas d'exigences trop élevées sur la précision des chiffres du mérite (il n'est peut-être pas nécessaire de les connaître très précisément dans un scénario de preuve de concept).
* ne confondez pas une seule division aléatoire en train et test avec une étude correctement conçue pour mesurer la qualité des prévisions.
la source