Quel est l'avantage de réduire la dimensionnalité des prédicteurs à des fins de régression?

11

Quels sont les applications ou les avantages des techniques de régression par réduction de dimension (DRR) ou de réduction de dimensionnalité supervisée (SDR) par rapport aux techniques de régression traditionnelles (sans réduction de dimensionnalité)? Ces classes de techniques trouvent une représentation de faible dimension de l'ensemble des caractéristiques du problème de régression. Des exemples de telles techniques comprennent la régression inverse en tranches, les directions de la Hesse principale, l'estimation de la variance moyenne en tranches, la régression inverse en tranches du noyau, la régression des composantes principales, etc.

  1. En termes de RMSE à validation croisée, si un algorithme fonctionnait mieux sur une tâche de régression sans aucune réduction de dimensionnalité, alors quelle est l'utilité réelle de la réduction de dimensionnalité pour la régression? Je ne comprends pas l'intérêt de ces techniques.

  2. Ces techniques sont-elles utilisées par hasard pour réduire la complexité de l'espace et du temps pour la régression? Si tel est le principal avantage, certaines ressources sur la réduction de la complexité des ensembles de données de grande dimension lorsque ces techniques sont mises en œuvre seraient utiles. J'en débat avec le fait que l'exécution d'une technique DRR ou SDR elle-même nécessite un certain temps et de l'espace. Cette régression SDR / DRR + sur un ensemble de données à faible dim. Est-elle plus rapide que la régression uniquement sur un ensemble de données à faible dim?

  3. Ce cadre a-t-il été étudié uniquement par intérêt abstrait et n'a-t-il pas une bonne application pratique?

Comme une pensée secondaire: il existe parfois des hypothèses selon lesquelles la distribution conjointe des caractéristiques et de la réponse repose sur une variété. Il est logique d'apprendre la variété de l'échantillon observé dans ce contexte pour résoudre un problème de régression.YXY

corbillard
la source
1
Vous parlez d'apprentissage multiple afin que le blog suivant puisse être utile: normaldeviate.wordpress.com/2012/09/08/08/hunting-for-manifolds
kjetil b halvorsen

Réponses:

5

Selon l'hypothèse du collecteur, les données sont supposées se trouver sur un collecteur de faible dimension, ce qui implique que le résidu est du bruit, donc si vous effectuez correctement votre réduction de dimensionnalité, vous devez améliorer les performances en modélisant le signal plutôt que le bruit. Ce n'est pas seulement une question d'espace et de complexité.

Emre
la source
mais je ne vois pas de techniques comme SIR faire mieux après la réduction de dimensionnalité sur une base robuste. Corrigez-moi si je me trompe ou si vous connaissez une technique SDR / DDR qui peut mieux trouver ce signal - dans un cadre de régression, faites-moi savoir de quelle technique (nom) il s'agit.
corbillard
Bien sûr, cela dépend de l'algorithme de régression et de la dimensionnalité intrinsèque des données. Je ne peux pas parler pour SIR en particulier, mais voici un article qui compare divers algorithmes de régression sur l'ensemble de données MNIST, qui est de faible dimension. Peut-être pourriez-vous partager des données gênantes afin que les gens puissent s'y attaquer.
Emre
Qu'est-ce que "l'hypothèse multiple"?
amibe dit Réintégrer Monica
Je me demande si ce truc est similaire aux réseaux de neurones et à la mise à l'échelle multidimensionnelle non linéaire en ce qu'il "sonne", il devrait être génial partout, mais en pratique, il fonctionne bien dans un ensemble de cas plus limité
shadowtalker
6

Le but de la réduction de dimensionnalité dans la régression est la régularisation.

La plupart des techniques que vous avez énumérées ne sont pas très bien connues; Je n'ai entendu parler d'aucun d'entre eux en dehors de la régression des principaux composants (PCR). Je répondrai donc à propos de la PCR, mais je m'attends à ce qu'il en soit de même pour les autres techniques.

Les deux mots clés ici sont le sur- ajustement et la régularisation . Pour un long traitement et une discussion, je vous renvoie aux éléments de l'apprentissage statistique , mais très brièvement, ce qui se passe si vous avez beaucoup de prédicteurs ( ) et pas assez d'échantillons ( ), c'est que la régression standard remplira les données et vous construire un modèle qui semble avoir de bonnes performances sur l'ensemble d'entraînement mais qui a en fait de très mauvaises performances sur n'importe quel ensemble de test.npn

Dans un exemple extrême, lorsque le nombre de prédicteurs dépasse le nombre d'échantillons (les gens se réfèrent à lui comme à un problème ), vous pouvez en fait parfaitement adapter n'importe quelle variable de réponse , atteignant des performances apparemment de . C'est clairement un non-sens.y 100 %p>ny100%

Pour gérer le surapprentissage, il faut recourir à la régularisation , et il existe de nombreuses stratégies de régularisation différentes. Dans certaines approches, on essaie de réduire considérablement le nombre de prédicteurs, en réduisant le problème à la situation , puis d'utiliser la régression standard. C'est exactement ce que fait la régression des principaux composants. Veuillez consulter The Elements , sections 3.4--3.6. La PCR est généralement sous-optimale et dans la plupart des cas, certaines autres méthodes de régularisation fonctionnent mieux, mais elles sont faciles à comprendre et à interpréter.pn

Notez que la PCR n'est pas non plus arbitraire (par exemple, le maintien aléatoire des dimensions de est susceptible de fonctionner bien pire). La raison en est que la PCR est étroitement liée à la régression de crête, qui est un régularisateur de rétrécissement standard qui fonctionne bien dans une grande variété de cas. Voir ma réponse ici pour la comparaison: Relation entre la régression de crête et la régression PCA .p

Pour voir une augmentation des performances par rapport à la régression standard, vous avez besoin d'un ensemble de données avec beaucoup de prédicteurs et pas autant d'échantillons, et vous devez absolument utiliser la validation croisée ou un ensemble de tests indépendant. Si vous ne constatez aucune augmentation des performances, votre jeu de données n'a peut-être pas suffisamment de dimensions.

Sujets associés avec de bonnes réponses:

amibe dit réintégrer Monica
la source
1
Étant donné ses publications, il est sûr de supposer qu'il le sait.
Emre
Merci, @Emre, je ne savais pas qui était l'OP. J'ai peut-être mal compris la question, mais après l'avoir relue maintenant, je ne vois pas comment je peux l'interpréter différemment. Si l'on demande quel est l'avantage pratique de la PCR, alors la réponse est la régularisation; La PCR est en fait étroitement liée à la régression des crêtes, qui est l'une des méthodes de régularisation les plus courantes.
amibe dit Réintégrer Monica
Mais même dans Elements, j'ai eu l'impression que LASSO bat la PCR la plupart du temps de toute façon, et que le principal avantage de la PCR est quandp>n
shadowtalker
@ssdecontrol: je suis d'accord. Je pense que le consensus est que la PCR est à peu près non compétitive et il y a presque toujours de meilleures approches. C'est aussi ce que j'ai écrit dans ma réponse (n'est-ce pas?), Mais la question portait spécifiquement sur la réduction de la dimensionnalité des prédicteurs et sur son objectif. Ma réponse est que le but est la régularisation.
amibe dit Réintégrer Monica
Compris. Mais je pense que nous pouvons convenir que la question est chargée spécifiquement pour contester son utilité étant donné que ce n'est pas vraiment la meilleure façon de régulariser malgré son attrait intuitif
shadowtalker