Science des données

18
Regroupement basé sur des scores de similitude

Supposons que nous avons un ensemble d'éléments E et une similitude ( non loin ) fonction SIM (ei, ej) entre deux éléments ei, ej ∈ E . Comment pourrions-nous (efficacement) regrouper les éléments de E , en utilisant sim ? k -moyen, par exemple, nécessite un k donné , Canopy Clustering nécessite...

18
Les dimensions t-sne ont-elles un sens?

Existe-t-il des significations pour les dimensions d'un encastrement en T-SNE? Comme avec PCA, nous avons ce sens de maximisations de variance linéairement transformées, mais pour t-sne y a-t-il une intuition en plus de l'espace que nous définissons pour la cartographie et la minimisation de la...

18
PNL - pourquoi «n'est pas» un mot d'arrêt?

J'essaie de supprimer les mots vides avant d'effectuer la modélisation du sujet. J'ai remarqué que certains mots de négation (pas, ni, jamais, aucun, etc.) sont généralement considérés comme des mots vides. Par exemple, NLTK, spacy et sklearn incluent "not" dans leurs listes de mots vides....