Modélisation avec plus de variables que de points de données

12

Je suis relativement nouveau dans l'apprentissage machine / modélisation et j'aimerais avoir des informations sur ce problème. J'ai un ensemble de données où le nombre d'observations est mais le nombre de variables est . Premièrement, est-il même judicieux d'envisager de construire un modèle sur un ensemble de données comme celui-ci ou faut-il envisager une technique de sélection des variables pour commencer, comme la régression de crête ou le Lasso? J'ai lu que cette situation peut conduire à un sur-ajustement. Est-ce le cas pour toutes les techniques de ML ou certaines techniques gèrent-elles mieux que d'autres? Sans trop de mathématiques, une explication simple sur la raison pour laquelle les mathématiques commencent à se décomposer pour serait appréciée.n<200p8000p>n

PaulB.
la source

Réponses:

14

Il est certainement possible d'ajuster de bons modèles lorsqu'il y a plus de variables que de points de données, mais cela doit être fait avec soin.

Lorsqu'il y a plus de variables que de points de données, le problème peut ne pas avoir de solution unique à moins qu'il ne soit davantage contraint. Autrement dit, il peut y avoir plusieurs (peut-être une infinité de solutions) qui s'adaptent aussi bien aux données. Un tel problème est appelé «mal posé» ou «sous-déterminé». Par exemple, lorsqu'il y a plus de variables que de points de données, la régression des moindres carrés standard propose une infinité de solutions qui n'atteignent aucune erreur sur les données d'apprentissage.

Un tel modèle conviendrait certainement car il est «trop flexible» pour la quantité de données d'entraînement. À mesure que la flexibilité du modèle augmente (par exemple, plus de variables dans un modèle de régression) et que la quantité de données d'entraînement diminue, il devient de plus en plus probable que le modèle sera en mesure de produire une faible erreur en ajustant les fluctuations aléatoires des données d'apprentissage qui ne représentent pas le vraie distribution sous-jacente. Les performances seront donc médiocres lorsque le modèle sera exécuté sur des données futures tirées de la même distribution.

Les problèmes de mauvaise pose et de surajustement peuvent tous deux être résolus en imposant des contraintes. Cela peut prendre la forme de contraintes explicites sur les paramètres, d'un terme de pénalisation / régularisation ou d'un a priori bayésien. La formation devient alors un compromis entre bien ajuster les données et satisfaire les contraintes. Vous avez mentionné deux exemples de cette stratégie pour les problèmes de régression: 1) LASSO contraint ou pénalise la norme des poids, ce qui équivaut à imposer un a priori laplacien. 2) La régression de crête contraint ou pénalise la norme des poids, ce qui équivaut à imposer un a priori gaussien.12

Les contraintes peuvent générer une solution unique, ce qui est souhaitable lorsque nous voulons interpréter le modèle pour en savoir plus sur le processus qui a généré les données. Ils peuvent également fournir de meilleures performances prédictives en limitant la flexibilité du modèle, réduisant ainsi la tendance à la sur-adaptation.

Cependant, simplement imposer des contraintes ou garantir l'existence d'une solution unique n'implique pas que la solution résultante sera bonne. Les contraintes ne produiront de bonnes solutions que lorsqu'elles sont réellement adaptées au problème.

Quelques points divers:

  • L'existence de solutions multiples n'est pas nécessairement problématique. Par exemple, les réseaux neuronaux peuvent avoir de nombreuses solutions possibles qui sont distinctes les unes des autres mais presque aussi bonnes.
  • L'existence de plus de variables que de points de données, l'existence de solutions multiples et le sur-ajustement coïncident souvent. Mais, ce sont des concepts distincts; chacun peut se produire sans les autres.
user20160
la source
3

Il existe de nombreuses solutions pour qu'une somme de termes soit égale à : , , par exemple.33=7313=123423451+22220

Sans hypothèses supplémentaires, on ne peut pas obtenir une solution très significative. En pratique, vous pouvez supposer que vous n'avez plus que deux termes non nuls (hypothèse de rareté) et vous pouvez les contraindre à être positifs (hypothèse de positivité). Dans un tel cas, vous vous retrouvez avec des triplets ordonnés comme ou , un ensemble réduit que vous pouvez explorer en tant que solutions "pratiques" potentielles qui doivent être testées.(3,0,0)(2,1,0)

C'est à cela que sert la régression pénalisée (comme le lasso ou la crête): trouver un sous-ensemble gérable de solutions «plus simples», potentiellement plus naturelles dans une certaine mesure. Ils utilisent la loi de la parcimonie, ou le rasoir d'Ockham , pour lequel si deux modèles expliquent l'observation avec la même précision, il peut être plus sage de choisir le plus compact en termes, par exemple, de nombre de paramètres libres. On n'explique pas vraiment la relation utile entre les variables avec des modèles trop impliqués.

Une citation attribuée à John von Neumann illustre ce contexte:

Avec quatre paramètres, je peux adapter un éléphant, et avec cinq, je peux le faire bouger sa trompe.

Laurent Duval
la source