La division des données en ensembles de test et de formation est-elle purement «statistique»?

11

Je suis un étudiant en physique qui étudie l'apprentissage automatique / la science des données, donc je ne veux pas que cette question déclenche des conflits :) Cependant, une grande partie de tout programme de premier cycle en physique consiste à faire des laboratoires / expériences, ce qui signifie beaucoup de données traitement et analyse statistique. Cependant, je remarque une nette différence entre la façon dont les physiciens traitent les données et la façon dont mes livres de science des données / d'apprentissage statistique traitent les données.

La principale différence est que lorsque vous essayez d'effectuer des régressions aux données obtenues à partir d' expériences de physique, les algorithmes de régression sont appliqués au ENTIER ensemble de données, il n'y a absolument pas se diviser en formation et de test. Dans le monde de la physique, le R ^ 2 ou un certain type de pseudo-R ^ 2 est calculé pour le modèle sur la base de l'ensemble des données. Dans le monde des statistiques, les données sont presque toujours divisées en 80-20, 70-30, etc., puis le modèle est évalué par rapport à l'ensemble de données de test.

Il y a aussi quelques expériences de physique majeures (ATLAS, BICEP2, etc ...) qui ne font jamais ce partage de données, donc je me demande pourquoi il y a une telle différence entre la façon dont les physiciens / expérimentateurs font les statistiques et la façon dont les scientifiques des données faire des statistiques.

Thomas Moore
la source
1
(+1) très belle question (à laquelle je n'ai pas le temps de répondre correctement). Commentaire: La physique a le luxe de "vraies expériences"; conditions généralement contrôlées / de laboratoire, résultats / variables généralement bien définis et répétabilité présumée. Les projets habituels de santé publique / économétrie / statistiques d'enquête (pour ne citer que quelques sous-domaines évidents) ne comprennent tout simplement pas. La confusion, la saisonnalité (dépendance temporelle) et généralement la dérive conceptuelle sont monnaie courante dans les statistiques, de sorte que ce «fractionnement des données» est l'un des moyens évidents d'éviter des résultats totalement stupides. De plus, tous les estimateurs ne sont pas créés avec la même efficacité. :)
usεr11852
3
Vous trouverez une multitude de discussions pertinentes et de fond dans un récent document de discussion de David Donoho, professeur de statistique à Stanford: courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf Voir en particulier la discussion sur "Culture prédictive "contrairement aux statistiques traditionnelles.
Gordon Smyth
1
Je pense que c'est une "prédiction en l'absence de théorie", qui est un petit sous-ensemble de "stats", et un grand sous-ensemble de machine learning.
Le Laconic
les statisticiens ne divisent pas non plus leurs données (p <.05)
rep_ho
@rep_ho certains - peut-être beaucoup - des statisticiens impliqués dans des situations où la prédiction hors échantillon est importante le font (et certains le font depuis longtemps). des idées comme la validation croisée et les statistiques d'absence (par exemple) existent depuis des lustres. Les statisticiens ont tendance à ne pas se séparer une seule fois, sauf si cela est inévitable. Cela peut dépendre des statisticiens à qui vous parlez
Glen_b -Reinstate Monica

Réponses:

6

Toutes les procédures statistiques ne se divisent pas en données de formation / tests, également appelées «validation croisée» (bien que l'ensemble de la procédure implique un peu plus que cela).

Il s'agit plutôt d'une technique spécifiquement utilisée pour estimer l' erreur hors échantillon ; c'est-à-dire dans quelle mesure votre modèle prédira-t-il de nouveaux résultats en utilisant un nouvel ensemble de données? Cela devient un problème très important lorsque vous avez, par exemple, un très grand nombre de prédicteurs par rapport au nombre d'échantillons dans votre jeu de données. Dans de tels cas, il est vraiment facile de construire un modèle avec une grande erreur dans l'échantillon mais une erreur hors échantillon terrible (appelée "sur-ajustement"). Dans les cas où vous avez à la fois un grand nombre de prédicteurs et un grand nombre d'échantillons, la validation croisée est un outil nécessaire pour aider à évaluer le comportement du modèle lors de la prévision de nouvelles données. C'est également un outil important lors du choix entre des modèles prédictifs concurrents.

Sur une autre note, la validation croisée est presque toujours utilisée uniquement lorsque vous essayez de créer un modèle prédictif . En général, cela n'est pas très utile pour les modèles lorsque vous essayez d'estimer l'effet d'un traitement. Par exemple, si vous comparez la distribution de la résistance à la traction entre les matériaux A et B (le «traitement» étant du type de matériau), la validation croisée ne sera pas nécessaire; alors que nous espérons que notre estimation de l'effet du traitement se généralisera hors de l'échantillon, pour la plupart des problèmes, la théorie statistique classique peut répondre à cette question (c.-à-d. «erreurs types» des estimations) plus précisément que la validation croisée. Malheureusement, la méthodologie statistique classique 1pour les erreurs standard ne tient pas en cas de sur-ajustement. La validation croisée fait souvent beaucoup mieux dans ce cas.

D'un autre côté, si vous essayez de prédire quand un matériau se cassera en fonction de 10 000 variables mesurées que vous introduisez dans un modèle d'apprentissage automatique basé sur 100 000 observations, vous aurez beaucoup de mal à créer un excellent modèle sans validation croisée!

Je suppose que dans de nombreuses expériences de physique effectuées, vous êtes généralement intéressé par l'estimation des effets. Dans ces cas, la validation croisée est très peu nécessaire.

1 On pourrait soutenir que les méthodes bayésiennes avec des a priori informatifs sont une méthodologie statistique classique qui traite du sur-ajustement. Mais c'est une autre discussion.

Note latérale: bien que la validation croisée soit apparue pour la première fois dans la littérature statistique et qu'elle soit définitivement utilisée par des personnes qui se disent statisticiens, elle est devenue un outil indispensable dans la communauté du machine learning. De nombreux modèles de statistiques fonctionneront bien sans utiliser de validation croisée, mais presque tous les modèles considérés comme des "modèles prédictifs d'apprentissage automatique" nécessitent une validation croisée, car ils nécessitent souvent la sélection de paramètres de réglage, ce qui est presque impossible à faire sans croix -validation.

Cliff AB
la source
Je pense que votre dernier montage sur la distinction prédiction / inférence est un peu décalé et sujet à une mauvaise interprétation (ce que je pourrais faire en ce moment). Si quoi que ce soit, si nous supposons que le matériau A est plus fort que B, nous voulons que cela reste également hors échantillon. De plus, une telle idée ignorerait les approches bootstrap / permutations. Et l'exemple est un peu décalé; un n'est pas vraiment sauvé par une approche train-test-split mais plutôt par la régularisation. np
usεr11852
@ usεr11852: oui, mais il est presque impossible de choisir des pénalités de régularisation raisonnables sans validation croisée (à part penser aux pénalités comme des prieurs bayésiens, mais c'est difficile avec les modèles à boîte noire!). Et bien que nous voulons que nos résultats en comparant A à B tiennent hors de l'échantillon, ce n'est généralement pas un problème qui nécessite un ajustement du modèle (comme le fait souvent la prédiction), et avec le nombre relativement faible de paramètres, la théorie statistique classique peut gérer cela sans utiliser de validation croisée.
Cliff AB
Il s'agit d'un argument circulaire, la régularisation utilise la validation croisée mais la validation croisée est effectuée pour la régularisation. C'est pourquoi je me suis un peu opposé à cela pour commencer. Je pense que l'inférence / causalité statistique s'éloigne de cette approche de réglage non-modèle (voir par exemple 2016 Johansson et al. "Learning Representations for contrefactual inference" - un si beau papier en désordre). Enfin, la recherche en physique fondamentale lorsqu'elle est présentée, les problèmes difficiles peuvent également s'appuyer sur les approches ML (par exemple, le Higgs Boson Machine Learning Challenge ).
usεr11852
@ usεr11852 La régularisation n'utilise pas la validation croisée, mais votre paramètre de réglage pour la régularisation est choisi à l'aide de la validation croisée. Par exemple, voyez glment's cv.glmnetpour toute la procédure dans une jolie fonction compacte.
Cliff AB
1
De plus, je n'ai jamais prétendu que la recherche en physique ne pouvait pas utiliser les approches ML ni la validation croisée! J'expliquais seulement que la validation croisée est généralement utilisée spécifiquement pour choisir entre des modèles complexes / paramètres de réglage dans les modèles prédictifs, et que dans de nombreuses expériences de physique classique, la validation croisée n'est pas nécessaire. Donc, ce que les physiciens font avec ces données n'est pas nécessairement en contradiction avec ce que les statisticiens feraient avec ces données, ce qui, je crois, était au cœur de la question du PO.
Cliff AB
3

En tant que chimiste (analytique) , je rencontre les deux approches: le calcul analytique des valeurs de mérite [principalement pour la régression univariée] ainsi que la mesure directe des figures prédictives de mérite.
Le fractionnement train / test est pour moi le "petit frère" d'une expérience de validation pour mesurer la qualité des prédictions.


Longue réponse:

Les expériences typiques que nous faisons par exemple en chimie physique de premier cycle utilisent une régression univariée. Les propriétés d'intérêt sont souvent les paramètres du modèle, par exemple la constante de temps lors de la mesure de la cinétique de réaction, mais parfois aussi les prévisions (par exemple l'étalonnage linéaire univarié pour prédire / mesurer une valeur d'intérêt).
Ces situations sont très bénignes en termes de non surajustement: il y a généralement un nombre confortable de degrés de liberté après que tous les paramètres ont été estimés, et ils sont utilisés pour former (comme dans l'éducation) les élèves avec une confiance classique ou un calcul d'intervalle de prédiction, et une erreur classique propagation - ils ont été développés pour ces situations. Et même si la situation n'est pas entièrement semblable à un manuel (par exemple, j'ai une structure dans mes données, par exemple dans la cinétique, je m'attends à ce que les données soient mieux décrites par la variance entre les cycles de la réaction + la variance entre les mesures dans un cycle plutôt que par un approche à une seule variance), je peux généralement avoir suffisamment d'exécutions de l'expérience pour obtenir des résultats utiles.

Cependant, dans ma vie professionnelle, je m'occupe d'ensembles de données spectroscopiques (typiquement 100s à 1000s de variables ) et en plus d'ensembles assez limités de cas indépendants (échantillons) . Souvent , nous utilisons donc une régularisation dont il n'est pas toujours facile de dire combien de degrés de liberté nous utilisons, et en plus nous essayons de compenser au moins quelque peu le petit en utilisant un (grand) nombre de mesures presque répétées - ce qui nous laisse avec un efficace inconnu . Sans connaître oupnn<pnnndf, les approches classiques ne fonctionnent pas. Mais comme je fais surtout des prédictions, j'ai toujours une possibilité très directe de mesurer la capacité prédictive de mon modèle: je fais des prédictions et je les compare aux valeurs de référence.

Cette approche est en fait très puissante (bien que coûteuse en raison de l'effort expérimental accru), car elle me permet de sonder la qualité prédictive également pour des conditions qui n'étaient pas couvertes par les données d'entraînement / d'étalonnage. Par exemple, je peux mesurer la détérioration de la qualité prédictive avec l'extrapolation (l'extrapolation inclut également, par exemple, des mesures effectuées, disons, un mois après l'acquisition des données d'entraînement), je peux tester la robustesse contre des facteurs de confusion que je pense importants, etc. En d'autres termes , nous pouvons étudier le comportement de notre modèle comme nous étudions le comportement de tout autre système: nous sondons certains points, ou le perturbons et observons le changement dans la réponse du système, etc.

Je dirais que plus la qualité prédictive est importante (et plus le risque de sur-ajustement est élevé), plus nous avons tendance à préférer des mesures directes de la qualité prédictive plutôt que des nombres dérivés analytiquement. (Bien sûr, nous aurions pu inclure tous ces facteurs de confusion également dans la conception de l'expérience de formation). Certains domaines tels que le diagnostic médical exigent que des études de validation appropriées soient effectuées avant que le modèle ne soit «lâché» sur de vrais patients.

Le fractionnement train / test (qu'il s'agisse de validation *, de validation croisée ou de bootstrap ou ...) facilite cette étape. Nous sauvegardons l'expérience supplémentaire et n'extrapolons pas (nous généralisons uniquement pour prédire des cas indépendants inconnus de la même distribution des données d'entraînement). Je décrirais cela comme une vérification plutôt qu'une validation (bien que la validation soit profondément ancrée dans la terminologie ici). C'est souvent la voie à suivre pragmatique s'il n'y a pas d'exigences trop élevées sur la précision des chiffres du mérite (il n'est peut-être pas nécessaire de les connaître très précisément dans un scénario de preuve de concept).

* ne confondez pas une seule division aléatoire en train et test avec une étude correctement conçue pour mesurer la qualité des prévisions.

cbeleites mécontents de SX
la source
2
+1 pour signaler la différence de vérification et de validation.
prévisionniste le