Existe-t-il une méthode courante pour déterminer le nombre d'échantillons d'apprentissage nécessaires pour former un classificateur (un LDA dans ce cas) afin d'obtenir une précision de généralisation de seuil minimum?
Je pose la question parce que je voudrais minimiser le temps d'étalonnage habituellement requis dans une interface cerveau-ordinateur.
classification
Lunat1c
la source
la source
Réponses:
Le terme de recherche que vous recherchez est "courbe d'apprentissage", qui donne les performances (moyennes) du modèle en fonction de la taille de l'échantillon d'apprentissage.
Les courbes d'apprentissage dépendent de beaucoup de choses, par exemple
(Je pense que pour un LDA à deux classes, vous pouvez peut-être dériver des calculs de puissance théoriques, mais le fait crucial est toujours de savoir si vos données répondent réellement à l'hypothèse "COV normal multivarié égal". J'irais pour une simulation sur les deux LDA hypothèses et rééchantillonnage de vos données déjà existantes).
Un autre aspect que vous devrez peut-être prendre en compte est qu'il ne suffit généralement pas de former un bon classificateur, mais vous devez également prouver que le classificateur est bon (ou assez bon). Vous devez donc planifier également la taille de l'échantillon nécessaire à la validation avec une précision donnée. Si vous devez donner ces résultats sous forme de fraction de succès parmi autant de cas de test (par exemple, l'exactitude / la précision / la sensibilité / la valeur prédictive positive du producteur ou du consommateur), et la tâche de classification sous-jacente est plutôt facile, cela peut nécessiter des cas plus indépendants que la formation de un bon modèle.
En règle générale, pour la formation, la taille de l'échantillon est généralement discutée en fonction de la complexité du modèle (nombre de cas: nombre de variables), tandis que des limites absolues sur la taille de l'échantillon de test peuvent être données pour une précision requise de la mesure des performances.
Voici un article, où nous avons expliqué ces choses plus en détail, et discutons également de la façon de constuire les courbes d'apprentissage:
Beleites, C. et Neugebauer, U. et Bocklitz, T. et Krafft, C. et Popp, J .: Planification de la taille de l'échantillon pour les modèles de classification. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrit accepté sur arXiv: 1211.1323
Ceci est le "teaser", montrant un problème de classification facile (nous avons en fait une distinction facile comme celle-ci dans notre problème de classification, mais d'autres classes sont beaucoup plus difficiles à distinguer):
Nous n'avons pas essayé d'extrapoler à de plus grandes tailles d'échantillons de formation pour déterminer combien de cas de formation supplémentaires sont nécessaires, car les tailles des échantillons de test sont notre goulot d'étranglement, et des tailles plus grandes des échantillons de formation nous permettraient de construire des modèles plus complexes, donc l'extrapolation est discutable. Pour le type d'ensembles de données dont je dispose, j'aborderais cela de manière itérative, en mesurant un tas de nouveaux cas, en montrant combien les choses se sont améliorées, en mesurant plus de cas, etc.
Cela peut être différent pour vous, mais l'article contient des références bibliographiques à des articles utilisant l'extrapolation à des tailles d'échantillon plus élevées afin d'estimer le nombre d'échantillons requis.
la source
Poser des questions sur la taille de l'échantillon de formation implique que vous allez retenir les données pour la validation du modèle. Il s'agit d'un processus instable nécessitant une énorme taille d'échantillon. Une validation interne forte avec le bootstrap est souvent préférée. Si vous choisissez ce chemin, vous devez uniquement calculer la taille d'un échantillon. Comme @cbeleites l'a si bien dit, il s'agit souvent d'une évaluation des «événements par variable candidate», mais vous avez besoin d'un minimum de 96 observations pour prédire avec précision la probabilité d'un résultat binaire même s'il n'y a pas de caractéristiques à examiner [c'est pour atteindre 0,95 marge d'erreur de confiance de 0,1 dans l'estimation de la probabilité marginale réelle que Y = 1].
Il est important de considérer les règles de notation appropriées pour l'évaluation de la précision (par exemple, le score de Brier et la probabilité / déviance du journal). Assurez-vous également que vous voulez vraiment classer les observations au lieu d'estimer la probabilité d'appartenance. Ce dernier est presque toujours plus utile car il permet une zone grise.
la source