Nombre d'entités vs nombre d'observations

26

Existe-t-il des articles / livres / idées sur la relation entre le nombre de caractéristiques et le nombre d'observations nécessaires pour former un classifieur "robuste"?

Par exemple, supposons que j'ai 1000 fonctionnalités et 10 observations de deux classes en tant qu'ensemble de formation et 10 autres observations en tant qu'ensemble de test. Je forme un classificateur X et cela me donne 90% de sensibilité et 90% de spécificité sur l'ensemble de test. Disons que je suis satisfait de cette précision et que je peux dire que c'est un bon classificateur. D'un autre côté, j'ai approximé une fonction de 1000 variables en utilisant seulement 10 points, ce qui peut sembler pas très ... robuste?

Leo
la source

Réponses:

20

Ce que vous avez frappé ici, c'est la malédiction de la dimensionnalité ou le problème p >> n (où p est des prédicteurs et n des observations). De nombreuses techniques ont été développées au fil des ans pour résoudre ce problème. Vous pouvez utiliser AIC ou BIC pour pénaliser les modèles avec plus de prédicteurs. Vous pouvez choisir des ensembles aléatoires de variables et évaluer leur importance à l'aide de la validation croisée . Vous pouvez utiliser la régression de crête , le lasso ou le filet élastique pour la régularisation . Ou vous pouvez choisir une technique, telle qu'une machine à vecteurs de support ou une forêt aléatoire qui gère bien un grand nombre de prédicteurs.

Honnêtement, la solution dépend de la nature spécifique du problème que vous essayez de résoudre.

Zach
la source
9

+1-10,000001jeje, aucune quantité de données d'entraînement ne vous donnera un classificateur utile. À la fin de la journée, la quantité d'échantillons dont vous avez besoin pour un nombre donné de fonctionnalités dépend de la façon dont les données sont distribuées, en général, plus vous avez de fonctionnalités, plus vous aurez besoin de données pour décrire correctement la distribution des données (exponentielle dans le nombre de fonctionnalités si vous n'avez pas de chance - voir la malédiction de la dimensionnalité mentionnée par Zach).

Si vous utilisez la régularisation, alors en principe (une borne supérieure sur) l'erreur de généralisation est indépendante du nombre d'entités (voir le travail de Vapnik sur la machine à vecteurs de support). Cependant, cela pose le problème de trouver une bonne valeur pour le paramètre de régularisation (la validation croisée est pratique).

Dikran Marsupial
la source
9

Vous êtes probablement plus impressionné par la modélisation classique, qui est vulnérable aux problèmes de type paradoxe de Runge et nécessite donc un réglage de parcimonie en post-traitement.
Cependant, dans le cas de l'apprentissage automatique, l'idée d'inclure la robustesse comme objectif d'optimisation du modèle n'est que le cœur de tout le domaine (souvent exprimé sous forme de précision sur des données invisibles). Donc, tant que vous savez que votre modèle fonctionne bien (par exemple à partir de CV), il n'y a probablement pas de raison de s'embêter.

pn


la source
1

Tinsley and Brown's Handbook est l' un de mes livres les plus précieux au fil des ans . Il existe de nombreux endroits dans le livre où ce sujet est discuté, par différents auteurs contributeurs.

rolando2
la source