Les endroits que j'ai lus sur la malédiction de la dimensionnalité l'expliquent conjointement avec kNN principalement et les modèles linéaires en général. Je vois régulièrement les meilleurs classeurs de Kaggle utiliser des milliers d'entités sur un ensemble de données qui ne contient pratiquement pas 100 000 points de données. Ils utilisent principalement les arbres boostés et NN, entre autres. Que de nombreuses fonctionnalités semblent trop élevées et je pense qu'elles seraient affectées par la malédiction de la dimensionnalité. Mais cela ne semble pas être le cas, car ces modèles les placent en tête des compétitions. Donc, revenons à ma question initiale - certains modèles sont-ils plus affectés par la malédiction de la dimensionnalité que d'autres?
Plus précisément, je m'intéresse aux modèles suivants (uniquement parce que ce sont ceux que je connais / utilise):
- Régression linéaire et logistique
- Arbres de décision / Forêts aléatoires / Arbres boostés
- Les réseaux de neurones
- SVM
- kNN
- clustering k-means
la source
Réponses:
En général, la malédiction de la dimensionnalité rend le problème de la recherche à travers un espace beaucoup plus difficile et affecte la majorité des algorithmes qui "apprennent" en partitionnant leur espace vectoriel. Plus la dimensionnalité de notre problème d'optimisation est élevée, plus nous avons besoin de données pour remplir l'espace sur lequel nous optimisons.
Modèles linéaires généralisés
Arbres de
décision Les arbres de décision souffrent également de la malédiction de la dimensionnalité. Les arbres de décision partitionnent directement l'espace échantillon à chaque nœud. À mesure que l'espace d'échantillonnage augmente, les distances entre les points de données augmentent, ce qui rend beaucoup plus difficile de trouver une «bonne» répartition.
Forêts
aléatoires Les forêts aléatoires utilisent une collection d'arbres de décision pour faire leurs prédictions. Mais au lieu d'utiliser toutes les fonctionnalités de votre problème, les arborescences individuelles utilisent uniquement un sous-ensemble des fonctionnalités. Cela minimise l'espace sur lequel chaque arbre optimise et peut aider à lutter contre le problème de la malédiction de la dimensionnalité.
Les
algorithmes de Boosted Tree Boosting tels que AdaBoost souffrent de la malédiction de la dimensionnalité et ont tendance à sureffectuer si la régularisation n'est pas utilisée. Je n'entrerai pas dans les détails, car la publication AdaBoost est-elle moins ou plus sujette au sur-ajustement? explique la raison pour laquelle mieux que moi.
Les réseaux de neurones
Les réseaux de neurones sont étranges dans le sens où ils sont tous deux et ne sont pas impactés par la malédiction de la dimensionnalité dépendant de l'architecture, des activations, de la profondeur, etc. dimensions pour couvrir un espace d'entrée. Une façon d'interpréter les réseaux de neurones profonds est de penser que toutes les couches s'attendent à ce que la toute dernière couche fasse une projection compliquée d'un collecteur de dimension élevée dans un collecteur de dimension inférieure, où la dernière couche se classe par-dessus. Ainsi, par exemple, dans un réseau convolutif pour la classification où la dernière couche est une couche softmax, nous pouvons interpréter l'architecture comme faisant une projection non linéaire sur une dimension plus petite, puis faisant une régression logistique multinomiale (la couche softmax) sur cette projection. Donc, dans un sens, la représentation compressée de nos données nous permet de contourner la malédiction de la dimensionnalité. Encore une fois, c'est une interprétation, en réalité, la malédiction de la dimensionnalité affecte en fait les réseaux de neurones, mais pas au même niveau que les modèles décrits ci-dessus.
SVM
SVM a tendance à ne pas surévaluer autant que les modèles linéaires généralisés en raison de la régularisation excessive qui se produit. Consultez ce post SVM, Overfitting, malédiction de dimensionnalité pour plus de détails.
K-NN, K-Means
K-mean et K-NN sont tous deux fortement impactés par la malédiction de la dimensionnalité, car ils utilisent tous deux la mesure de distance au carré L2. À mesure que la quantité de dimensions augmente, la distance entre les différents points de données augmente également. C'est pourquoi vous avez besoin d'un plus grand nombre de points pour couvrir plus d'espace dans l'espoir que la distance soit plus descriptive.
N'hésitez pas à demander des détails sur les modèles, car mes réponses sont assez générales. J'espère que cela t'aides.
la source