J'ai un ensemble de données avec ~ 1M lignes et ~ 500K fonctionnalités clairsemées. Je veux réduire la dimensionnalité quelque part dans l'ordre des entités denses 1K-5K.
sklearn.decomposition.PCA
ne fonctionne pas sur des données éparses, et j'ai essayé d'utiliser sklearn.decomposition.TruncatedSVD
mais j'obtiens une erreur de mémoire assez rapidement. Quelles sont mes options pour une réduction efficace de la dimensionnalité à cette échelle?
la source
Juste au cas où les gens rencontrant ce message trouveraient UMAP pas assez efficace, voici quelques autres techniques que j'ai rencontrées qui sont encore plus efficaces (mais pas aussi de haute qualité):
sklearn.random_projection
sklearn.feature_extraction.FeatureHasher
la source