Données de grande dimension: quelles sont les techniques utiles à connaître?

14

En raison de diverses malédictions de dimensionnalité , la précision et la vitesse de nombreuses techniques prédictives courantes se dégradent sur des données de grande dimension. Quelles sont les techniques / astuces / heuristiques les plus utiles qui aident à gérer efficacement les données de grande dimension? Par exemple,

  • Certaines méthodes statistiques / de modélisation fonctionnent-elles bien sur des ensembles de données de grande dimension?
  • Pouvons-nous améliorer les performances de nos modèles prédictifs sur des données de grande dimension en utilisant certains (qui définissent des notions alternatives de distance) ou des noyaux (qui définissent des notions alternatives de produit scalaire)?
  • Quelles sont les techniques de réduction de dimensionnalité les plus utiles pour les données de grande dimension?
ASX
la source

Réponses:

10

Il s'agit d' une question très large , que je pense qu'il est impossible de couvrir de manière exhaustive dans une seule réponse. Par conséquent, je pense qu'il serait plus avantageux de fournir des indications sur les réponses et / ou ressources pertinentes. C'est exactement ce que je ferai en fournissant les informations et pensées suivantes.

Tout d'abord, je dois mentionner l'excellent et complet didacticiel sur la réduction de la dimensionnalité de Burges (2009) de Microsoft Research. Il aborde fréquemment les aspects de grande dimension des données tout au long de la monographie. Ce travail, se référant à la réduction de dimensionnalité comme réduction de dimension , présente une introduction théorique au problème , suggère une taxonomie des méthodes de réduction de dimensionnalité, consistant en des méthodes projectives et des méthodes de modélisation multiples , ainsi qu'un aperçu de plusieurs méthodes dans chaque catégorie.

Les méthodes de "poursuite projective " examinées comprennent l' analyse en composantes indépendantes (ICA) , l' analyse en composantes principales (PCA) et ses variations, telles que la PCA du noyau et la PCA probabiliste , l' analyse de corrélation canonique (CCA) et sa variation du CCA du noyau , l'analyse discriminante linéaire (LDA) ) , la réduction de la dimension du noyau (KDR) et quelques autres. Les nombreuses méthodes examinées comprennent la mise à l'échelle multidimensionnelle (MDS) et sa variation historique MDS , Isomap , Localement Linear Embeddinget des méthodes graphiques, telles que les cartes propres laplaciennes et le regroupement spectral . Je répertorie ici la plupart des méthodes examinées au cas où, si la publication d'origine vous était inaccessible, soit en ligne (lien ci-dessus), soit hors ligne (références).

Il y a une mise en garde pour le terme «complet» que j'ai appliqué au travail susmentionné. Bien qu'elle soit en effet assez complète, elle est relative, car certaines des approches de la réduction de la dimensionnalité ne sont pas discutées dans la monographie, en particulier celles centrées sur les variables inobservables (latentes) . Certains d'entre eux sont mentionnés, cependant, avec des références à une autre source - un livre sur la réduction de la dimensionnalité.

Maintenant, je vais brièvement couvrir plusieurs aspects plus étroits du sujet en question en faisant référence à mes réponses pertinentes ou connexes. En ce qui concerne les approches de type voisins les plus proches (NN) pour les données de grande dimension, veuillez voir mes réponses ici (je recommande particulièrement de vérifier le document n ° 4 dans ma liste). L'un des effets de la malédiction de la dimensionnalité est que les données de grande dimension sont souvent rares . Compte tenu de ce fait, je pense que mes réponses pertinentes ici et ici sur la régression et l' ACP pour les données clairsemées et de grande dimension pourraient être utiles.

Les références

Burges, CJC (2010). Réduction des dimensions: une visite guidée. Foundations and Trends® in Machine Learning, 2 (4), 275-365. doi: 10.1561 / 2200000002

Aleksandr Blekh
la source
0

Aleksander a donné une réponse très complète mais il y en a quelques-uns qui sont très largement poursuivis:

Pour la réduction de la dimensionnalité, l'ACP est utilisée, mais cela ne fait qu'une transformation linéaire et pour la réduction de la dimensionnalité non linéaire, l'apprentissage collecteur est ce que vous recherchez.

La projection de données de dimension inférieure à des dimensions supérieures peut être effectuée à l'aide de noyaux. Vous le faites généralement lorsque votre classificateur n'est pas en mesure de trouver un plan de séparation linéaire dans la dimension actuelle, mais sera en mesure de trouver un hyperplan linéaire qui sépare les classes dans une dimension supérieure. Les noyaux sont largement utilisés dans les SVM.

RAM
la source