Il est certainement possible d'ajuster de bons modèles lorsqu'il y a plus de variables que de points de données, mais cela doit être fait avec soin.
Lorsqu'il y a plus de variables que de points de données, le problème peut ne pas avoir de solution unique à moins qu'il ne soit davantage contraint. Autrement dit, il peut y avoir plusieurs (peut-être une infinité de solutions) qui s'adaptent aussi bien aux données. Un tel problème est appelé «mal posé» ou «sous-déterminé». Par exemple, lorsqu'il y a plus de variables que de points de données, la régression des moindres carrés standard propose une infinité de solutions qui n'atteignent aucune erreur sur les données d'apprentissage.
Un tel modèle conviendrait certainement car il est «trop flexible» pour la quantité de données d'entraînement. À mesure que la flexibilité du modèle augmente (par exemple, plus de variables dans un modèle de régression) et que la quantité de données d'entraînement diminue, il devient de plus en plus probable que le modèle sera en mesure de produire une faible erreur en ajustant les fluctuations aléatoires des données d'apprentissage qui ne représentent pas le vraie distribution sous-jacente. Les performances seront donc médiocres lorsque le modèle sera exécuté sur des données futures tirées de la même distribution.
Les problèmes de mauvaise pose et de surajustement peuvent tous deux être résolus en imposant des contraintes. Cela peut prendre la forme de contraintes explicites sur les paramètres, d'un terme de pénalisation / régularisation ou d'un a priori bayésien. La formation devient alors un compromis entre bien ajuster les données et satisfaire les contraintes. Vous avez mentionné deux exemples de cette stratégie pour les problèmes de régression: 1) LASSO contraint ou pénalise la norme des poids, ce qui équivaut à imposer un a priori laplacien. 2) La régression de crête contraint ou pénalise la norme des poids, ce qui équivaut à imposer un a priori gaussien.ℓ1ℓ2
Les contraintes peuvent générer une solution unique, ce qui est souhaitable lorsque nous voulons interpréter le modèle pour en savoir plus sur le processus qui a généré les données. Ils peuvent également fournir de meilleures performances prédictives en limitant la flexibilité du modèle, réduisant ainsi la tendance à la sur-adaptation.
Cependant, simplement imposer des contraintes ou garantir l'existence d'une solution unique n'implique pas que la solution résultante sera bonne. Les contraintes ne produiront de bonnes solutions que lorsqu'elles sont réellement adaptées au problème.
Quelques points divers:
- L'existence de solutions multiples n'est pas nécessairement problématique. Par exemple, les réseaux neuronaux peuvent avoir de nombreuses solutions possibles qui sont distinctes les unes des autres mais presque aussi bonnes.
- L'existence de plus de variables que de points de données, l'existence de solutions multiples et le sur-ajustement coïncident souvent. Mais, ce sont des concepts distincts; chacun peut se produire sans les autres.