De quelle taille un ensemble d'entraînement est-il nécessaire?

24

Existe-t-il une méthode courante pour déterminer le nombre d'échantillons d'apprentissage nécessaires pour former un classificateur (un LDA dans ce cas) afin d'obtenir une précision de généralisation de seuil minimum?

Je pose la question parce que je voudrais minimiser le temps d'étalonnage habituellement requis dans une interface cerveau-ordinateur.

Lunat1c
la source
2
user2030669, @cbeleites, la réponse ci-dessous est superbe mais en règle générale: vous avez besoin d'au moins 6 fois le nombre de cas (échantillons) en tant que fonctionnalités.
BGreene
2
... dans chaque classe. J'ai également vu des recommandations de 5p et 3p / classe.
cbeleites prend en charge Monica

Réponses:

31

Le terme de recherche que vous recherchez est "courbe d'apprentissage", qui donne les performances (moyennes) du modèle en fonction de la taille de l'échantillon d'apprentissage.

Les courbes d'apprentissage dépendent de beaucoup de choses, par exemple

  • méthode de classification
  • complexité du classificateur
  • dans quelle mesure les classes sont séparées.

(Je pense que pour un LDA à deux classes, vous pouvez peut-être dériver des calculs de puissance théoriques, mais le fait crucial est toujours de savoir si vos données répondent réellement à l'hypothèse "COV normal multivarié égal". J'irais pour une simulation sur les deux LDA hypothèses et rééchantillonnage de vos données déjà existantes).

n

  • nn=
  • n

    n

Un autre aspect que vous devrez peut-être prendre en compte est qu'il ne suffit généralement pas de former un bon classificateur, mais vous devez également prouver que le classificateur est bon (ou assez bon). Vous devez donc planifier également la taille de l'échantillon nécessaire à la validation avec une précision donnée. Si vous devez donner ces résultats sous forme de fraction de succès parmi autant de cas de test (par exemple, l'exactitude / la précision / la sensibilité / la valeur prédictive positive du producteur ou du consommateur), et la tâche de classification sous-jacente est plutôt facile, cela peut nécessiter des cas plus indépendants que la formation de un bon modèle.

En règle générale, pour la formation, la taille de l'échantillon est généralement discutée en fonction de la complexité du modèle (nombre de cas: nombre de variables), tandis que des limites absolues sur la taille de l'échantillon de test peuvent être données pour une précision requise de la mesure des performances.

Voici un article, où nous avons expliqué ces choses plus en détail, et discutons également de la façon de constuire les courbes d'apprentissage:
Beleites, C. et Neugebauer, U. et Bocklitz, T. et Krafft, C. et Popp, J .: Planification de la taille de l'échantillon pour les modèles de classification. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrit accepté sur arXiv: 1211.1323

Ceci est le "teaser", montrant un problème de classification facile (nous avons en fait une distinction facile comme celle-ci dans notre problème de classification, mais d'autres classes sont beaucoup plus difficiles à distinguer): papier de planification de la taille de l'échantillon

Nous n'avons pas essayé d'extrapoler à de plus grandes tailles d'échantillons de formation pour déterminer combien de cas de formation supplémentaires sont nécessaires, car les tailles des échantillons de test sont notre goulot d'étranglement, et des tailles plus grandes des échantillons de formation nous permettraient de construire des modèles plus complexes, donc l'extrapolation est discutable. Pour le type d'ensembles de données dont je dispose, j'aborderais cela de manière itérative, en mesurant un tas de nouveaux cas, en montrant combien les choses se sont améliorées, en mesurant plus de cas, etc.

Cela peut être différent pour vous, mais l'article contient des références bibliographiques à des articles utilisant l'extrapolation à des tailles d'échantillon plus élevées afin d'estimer le nombre d'échantillons requis.

cbeleites soutient Monica
la source
l'utilisation d'un programme de régularisation pour mon LDA me permettrait-elle de travailler avec un ensemble de formations plus petit?
Lunat1c
1
@ user2036690, Un modèle plus parcimonieux (moins de fonctionnalités) nécessiterait moins d'échantillons de formation. Un schéma de régularisation n'affecterait pas le nombre d'échantillons nécessaires, s'il ne faisait que réduire l'impact de caractéristiques moins importantes. Une sorte de rationalisation des fonctionnalités peut permettre un ensemble d'entraînement plus petit
BGreene
1
Pourtant, la sélection des fonctionnalités basée sur les données nécessite d'énormes quantités d'échantillons, car chaque comparaison de modèle est en fait un test statistique. Cependant, la sélection des fonctionnalités par des connaissances d'experts peut aider immédiatement. @BGreene: pouvez-vous expliquer pourquoi la régularisation ne peut pas aider à réduire les exigences de taille d'échantillon (par exemple en considérant une crête sur une matrice de covariance mal conditionnée)? À mon humble avis, il ne peut pas faire de merveilles, mais il peut aider.
cbeleites prend en charge Monica
Eh bien, sans entrer dans une discussion épique, je parlais de la formule de régularisation de Friedman plutôt que de la crête ou d'une autre régression pénalisée. Mais dans les deux cas, les coefficients ne sont pas réduits à zéro comme dans Lasso, de sorte que la dimensionnalité n'est pas affectée, ce qui n'aurait par conséquent aucun effet sur la taille de l'échantillon nécessaire pour éviter une matrice mal posée comme vous le mentionnez ci-dessus.
Toutes mes
@BGreene: pas de promenades, ai-je demandé en retour. La question intéressante est la suivante: dans quelle mesure le df / la complexité globale est-il réduit en définissant les coefficients à zéro de manière pilotée par les données . Quoi qu'il en soit, nous dérivons vers une autre histoire ...
cbeleites soutient Monica
4

Poser des questions sur la taille de l'échantillon de formation implique que vous allez retenir les données pour la validation du modèle. Il s'agit d'un processus instable nécessitant une énorme taille d'échantillon. Une validation interne forte avec le bootstrap est souvent préférée. Si vous choisissez ce chemin, vous devez uniquement calculer la taille d'un échantillon. Comme @cbeleites l'a si bien dit, il s'agit souvent d'une évaluation des «événements par variable candidate», mais vous avez besoin d'un minimum de 96 observations pour prédire avec précision la probabilité d'un résultat binaire même s'il n'y a pas de caractéristiques à examiner [c'est pour atteindre 0,95 marge d'erreur de confiance de 0,1 dans l'estimation de la probabilité marginale réelle que Y = 1].

Il est important de considérer les règles de notation appropriées pour l'évaluation de la précision (par exemple, le score de Brier et la probabilité / déviance du journal). Assurez-vous également que vous voulez vraiment classer les observations au lieu d'estimer la probabilité d'appartenance. Ce dernier est presque toujours plus utile car il permet une zone grise.

Frank Harrell
la source