Pourquoi la méthode d'exclusion (fractionnement des données en formation et tests) n'est-elle pas utilisée dans les statistiques classiques?

12

Dans mon exposition en classe à l'exploration de données, la méthode de rétention a été introduite comme moyen d'évaluer les performances du modèle. Cependant, lorsque j'ai suivi mon premier cours sur les modèles linéaires, cela n'a pas été introduit comme moyen de validation ou d'évaluation des modèles. Ma recherche en ligne ne montre également aucune sorte d'intersection. Pourquoi la méthode du holdout n'est-elle pas utilisée dans les statistiques classiques?

tirkquest
la source

Réponses:

22

Une question plus productive pourrait être "pourquoi n'a-t-elle pas été utilisée dans les statistiques classiques que j'ai apprises?"

Selon le ou les niveaux auxquels il a été enseigné, le contenu du cours (et le temps disponible) ce choix peut être dû à une combinaison de divers facteurs. Souvent, des sujets importants sont laissés de côté parce que d'autres matières doivent être enseignées pour une raison ou une autre, dans l'espoir qu'elles puissent être traitées dans des matières ultérieures.

Dans certains sens au moins, la notion a longtemps été utilisée par diverses personnes. Elle était plus courante dans certains domaines que dans d'autres. De nombreuses utilisations des statistiques n'ont pas de prédiction ou de sélection de modèle en tant que composant majeur (ou dans certains cas, même pas du tout), et dans ce cas, l'utilisation d'échantillons d'exclusion peut être moins critique que lorsque la prédiction est le point principal. On peut dire qu'il aurait dû être utilisé plus largement à un stade antérieur dans certaines applications pertinentes qu'il ne l'a fait, mais ce n'est pas la même chose qu'être inconnu.

Si vous regardez les domaines qui se concentrent sur la prédiction, la notion d'évaluation de modèle en prédisant des données que vous n'avez pas utilisées pour estimer votre modèle était certainement présente (mais pas universelle). Je le faisais certainement avec la modélisation de séries chronologiques que je faisais dans les années 1980, par exemple, où la performance prédictive hors échantillon des données les plus récentes était particulièrement importante.

L'idée de laisser de côté au moins certaines données a été utilisée dans la régression (résidus supprimés, PRESS, jacknife, etc.) et dans l'analyse des valeurs aberrantes, par exemple.

Certaines de ces idées remontent encore beaucoup plus tôt. Stone (1974) [1] fait référence à des articles sur la validation croisée (avec le mot dans le titre) des années 50 et 60. Peut-être encore plus près de votre intention, il mentionne l'utilisation par Simon (1971) des termes «échantillon de construction» et «échantillon de validation» - mais souligne également que «Larson (1931) a utilisé la division aléatoire de l'échantillon dans un multiple éducatif. -étude de régression ".

Des sujets comme la validation croisée et l'utilisation de statistiques basées sur la prédiction, etc., devenaient beaucoup plus fréquents dans la littérature statistique dans les années 70 et dans les années 80, par exemple, mais de nombreuses idées de base existaient depuis un certain temps même ensuite.

[1]: Stone, M., (1974)
"Cross-Validatory Choice and Assessment of Statistical Predictions",
Journal de la Royal Statistical Society. Série B (méthodologique) , vol. 36, n ° 2., pp. 111-147

Glen_b -Reinstate Monica
la source
Juste pour mémoire, que M. Stone n'est pas moi, et il n'est pas lié à moi, sauf peut-être par l'intermédiaire d'Adam et Eve.
Mark L. Stone
11

Pour compléter la réponse de Glen_b, les statistiques classiques ont souvent mis l'accent sur l'utilisation optimale des données, les tests optimaux, les estimateurs optimaux, la suffisance, etc., et dans ce cadre théorique, il est difficile de justifier de ne pas utiliser une partie des informations ! Une partie de cette tradition est l'accent mis sur les situations avec de petits échantillons, où le maintien est pratiquement difficile.

Fisher travaillait, par exemple, principalement avec la génétique et l'expérimentation agricole, et dans ces domaines, un petit nombre d'observations était la règle. Il était donc principalement exposé à de tels problèmes avec de petits ensembles de données.

kjetil b halvorsen
la source
6

Je répondrai à partir d'un domaine appliqué qui se situe peut-être entre les statistiques classiques et le machine learning: la chimiométrie, c'est-à-dire les statistiques pour les analyses chimiques. J'ajouterai deux scénarios différents où le maintien n'est pas aussi important que dans les classes d'apprentissage automatique typiques.


Scénario 1:

Je pense qu'un point crucial ici est de réaliser qu'il y a une différence fondamentale entre ce qui est un petit échantillon pour la formation et les tests:

  • Pour la formation, généralement le rapport du nombre de cas: la complexité du modèle (nombre de paramètres) compte (degrés de liberté)
  • Pour les tests, le nombre absolu de cas de test est important.
    (La qualité de la procédure de test doit être indépendante du modèle: celle-ci est traitée comme une boîte noire par validation avec des cas de test indépendants)

Le deuxième point dont je vais avoir besoin pour mon argumentation est que la situation dans laquelle les cas de test indépendants sont cruciaux est sur-adaptée. Si le modèle n'est pas assez complexe (biais variance , donc sous ajustement), les résidus peuvent vous en dire autant sur l'erreur de prédiction totale que les cas indépendants.

Maintenant, les cours de statistiques sur les modèles linéaires "classiques" mettent souvent l'accent sur les modèles univariés. Pour un modèle linéaire univarié, la taille de l'échantillon d'apprentissage n'est probablement pas petite: la taille des échantillons d'apprentissage est généralement jugée par rapport à la complexité du modèle, et le modèle linéaire n'a que deux paramètres, le décalage et la pente. En chimie analytique, nous avons en fait une norme qui stipule que vous devez avoir au moins 10 échantillons d'étalonnage pour votre étalonnage linéaire univarié. Cela garantit une situation où l'instabilité du modèle n'est pas un problème fiable, donc le maintien n'est pas nécessaire.

Cependant, dans l'apprentissage automatique, ainsi qu'avec les détecteurs multicanaux modernes en analyse chimique (parfois 10⁴ "canaux" par exemple en spectrométrie de masse), la stabilité du modèle (c'est-à-dire la variance) est un problème important. Ainsi, un maintien ou un meilleur rééchantillonnage est nécessaire.


Scénario 2:

Une situation complètement différente est que le hold-out peut être ignoré au profit d'une combinaison d'une mesure de performance plus facile (résidus) et d'une mesure de performance plus sophistiquée. Notez que le maintien dans le sens de mettre au hasard (au hasard) une partie d' un ensemble de données et de l'exclure de la formation n'est pas équivalent à ce que les tests indépendants peuvent réaliser. En chimie analytique, des expériences de validation dédiées peuvent être menées qui comprendront par exemple la mesure de la dégradation des performances dans le temps (dérive de l'instrument) qui ne peut pas être mesurée par maintien et l'établissement par exemple des performances du capteur dans l'environnement industriel réel (alors que l'étalonnage du capteur a été fait en laboratoire sur des échantillons d'étalonnage). Voir également /stats//a/104750/4598 pour plus de détails sur les tests indépendants et les résultats.

cbeleites mécontents de SX
la source
Ci-dessus, dans le scénario 1, je pense que vous vouliez dire (biais << variance)? Corrigez s'il vous plaît!
kjetil b halvorsen
1
@kjetilbhalvorsen non, car elle fait référence au sous-ajustement dans ce paragraphe (modèle qui n'est pas assez complexe).
Marc Claesen
@kjetilbhalvorsen; Marc Claesen a raison, j'ai souligné que c'est pour des situations où vous pouvez être sûr que le problème est insuffisant.
cbeleites mécontents de SX
D'ACCORD. quelques lettres pour satisfaire req
kjetil b halvorsen