Questions marquées «clustering»

L'analyse de cluster ou le clustering consiste à regrouper un ensemble d'objets de telle sorte que les objets du même groupe (appelé cluster) soient plus similaires (dans un sens ou dans un autre) les uns aux autres qu'à ceux des autres groupes (clusters) . Il s'agit d'une tâche principale d'exploration de données d'exploration et d'une technique commune d'analyse de données statistiques, utilisée dans de nombreux domaines, notamment l'apprentissage automatique, la reconnaissance de formes, l'analyse d'images, la recherche d'informations, etc.

29
Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine...

18
Regroupement basé sur des scores de similitude

Supposons que nous avons un ensemble d'éléments E et une similitude ( non loin ) fonction SIM (ei, ej) entre deux éléments ei, ej ∈ E . Comment pourrions-nous (efficacement) regrouper les éléments de E , en utilisant sim ? k -moyen, par exemple, nécessite un k donné , Canopy Clustering nécessite...

16
agrandir la carte thermique de Seaborn

Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen d'imprimer...

15
K-means vs K-means en ligne

K-means est un algorithme bien connu pour le clustering, mais il existe également une variante en ligne de cet algorithme (K-means en ligne). Quels sont les avantages et les inconvénients de ces approches et quand devraient-elles être

15
Regroupement des visiteurs uniques par useragent, ip, session_id

Étant donné les données d'accès au site Web sous la forme session_id, ip, user_agent, et éventuellement l'horodatage, en suivant les conditions ci-dessous, comment regrouperiez-vous au mieux les sessions en visiteurs uniques? session_id: est un identifiant donné à chaque nouveau visiteur. Il...

14
K-means rapide comme algorithme pour 10 ^ 10 points?

Je cherche à regrouper k-means sur un ensemble de points à 10 dimensions. Le hic: il y a 10 ^ 10 points . Je recherche juste le centre et la taille des plus grands clusters (disons 10 à 100 clusters); Je me fiche du cluster dans lequel se trouve chaque point. L'utilisation de k-means en particulier...