Quels sont les applications ou les avantages des techniques de régression par réduction de dimension (DRR) ou de réduction de dimensionnalité supervisée (SDR) par rapport aux techniques de régression traditionnelles (sans réduction de dimensionnalité)? Ces classes de techniques trouvent une représentation de faible dimension de l'ensemble des caractéristiques du problème de régression. Des exemples de telles techniques comprennent la régression inverse en tranches, les directions de la Hesse principale, l'estimation de la variance moyenne en tranches, la régression inverse en tranches du noyau, la régression des composantes principales, etc.
En termes de RMSE à validation croisée, si un algorithme fonctionnait mieux sur une tâche de régression sans aucune réduction de dimensionnalité, alors quelle est l'utilité réelle de la réduction de dimensionnalité pour la régression? Je ne comprends pas l'intérêt de ces techniques.
Ces techniques sont-elles utilisées par hasard pour réduire la complexité de l'espace et du temps pour la régression? Si tel est le principal avantage, certaines ressources sur la réduction de la complexité des ensembles de données de grande dimension lorsque ces techniques sont mises en œuvre seraient utiles. J'en débat avec le fait que l'exécution d'une technique DRR ou SDR elle-même nécessite un certain temps et de l'espace. Cette régression SDR / DRR + sur un ensemble de données à faible dim. Est-elle plus rapide que la régression uniquement sur un ensemble de données à faible dim?
Ce cadre a-t-il été étudié uniquement par intérêt abstrait et n'a-t-il pas une bonne application pratique?
Comme une pensée secondaire: il existe parfois des hypothèses selon lesquelles la distribution conjointe des caractéristiques et de la réponse repose sur une variété. Il est logique d'apprendre la variété de l'échantillon observé dans ce contexte pour résoudre un problème de régression.Y
Réponses:
Selon l'hypothèse du collecteur, les données sont supposées se trouver sur un collecteur de faible dimension, ce qui implique que le résidu est du bruit, donc si vous effectuez correctement votre réduction de dimensionnalité, vous devez améliorer les performances en modélisant le signal plutôt que le bruit. Ce n'est pas seulement une question d'espace et de complexité.
la source
Le but de la réduction de dimensionnalité dans la régression est la régularisation.
La plupart des techniques que vous avez énumérées ne sont pas très bien connues; Je n'ai entendu parler d'aucun d'entre eux en dehors de la régression des principaux composants (PCR). Je répondrai donc à propos de la PCR, mais je m'attends à ce qu'il en soit de même pour les autres techniques.
Les deux mots clés ici sont le sur- ajustement et la régularisation . Pour un long traitement et une discussion, je vous renvoie aux éléments de l'apprentissage statistique , mais très brièvement, ce qui se passe si vous avez beaucoup de prédicteurs ( ) et pas assez d'échantillons ( ), c'est que la régression standard remplira les données et vous construire un modèle qui semble avoir de bonnes performances sur l'ensemble d'entraînement mais qui a en fait de très mauvaises performances sur n'importe quel ensemble de test.np n
Dans un exemple extrême, lorsque le nombre de prédicteurs dépasse le nombre d'échantillons (les gens se réfèrent à lui comme à un problème ), vous pouvez en fait parfaitement adapter n'importe quelle variable de réponse , atteignant des performances apparemment de . C'est clairement un non-sens.y 100 %p>n y 100%
Pour gérer le surapprentissage, il faut recourir à la régularisation , et il existe de nombreuses stratégies de régularisation différentes. Dans certaines approches, on essaie de réduire considérablement le nombre de prédicteurs, en réduisant le problème à la situation , puis d'utiliser la régression standard. C'est exactement ce que fait la régression des principaux composants. Veuillez consulter The Elements , sections 3.4--3.6. La PCR est généralement sous-optimale et dans la plupart des cas, certaines autres méthodes de régularisation fonctionnent mieux, mais elles sont faciles à comprendre et à interpréter.p≪n
Notez que la PCR n'est pas non plus arbitraire (par exemple, le maintien aléatoire des dimensions de est susceptible de fonctionner bien pire). La raison en est que la PCR est étroitement liée à la régression de crête, qui est un régularisateur de rétrécissement standard qui fonctionne bien dans une grande variété de cas. Voir ma réponse ici pour la comparaison: Relation entre la régression de crête et la régression PCA .p
Pour voir une augmentation des performances par rapport à la régression standard, vous avez besoin d'un ensemble de données avec beaucoup de prédicteurs et pas autant d'échantillons, et vous devez absolument utiliser la validation croisée ou un ensemble de tests indépendant. Si vous ne constatez aucune augmentation des performances, votre jeu de données n'a peut-être pas suffisamment de dimensions.
Sujets associés avec de bonnes réponses:
Régression dans le paramètre (prédiction de l'efficacité du médicament à partir de l'expression génique avec 30 k prédicteurs et ~ 30 échantillons)p≫N
Régression en : comment choisir la méthode de régularisation (Lasso, PLS, PCR, ridge)?p>n
la source