Science des données

14
K-means rapide comme algorithme pour 10 ^ 10 points?

Je cherche à regrouper k-means sur un ensemble de points à 10 dimensions. Le hic: il y a 10 ^ 10 points . Je recherche juste le centre et la taille des plus grands clusters (disons 10 à 100 clusters); Je me fiche du cluster dans lequel se trouve chaque point. L'utilisation de k-means en particulier...

14
Pandas Dataframe à DMatrix

J'essaie d'exécuter xgboost dans scikit learn. Et j'utilise uniquement des Pandas pour charger des données dans la trame de données. Comment suis-je censé utiliser pandas df avec xgboost. Je suis confus par la routine DMatrix requise pour exécuter xgboost

14
Heatmap sur une carte en Python

Mode Analytics a une belle fonctionnalité de carte thermique ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Mais ce n'est pas propice à la comparaison des cartes (une seule par rapport). Ce qu'ils permettent, c'est que les données soient facilement tirées dans un bloc-notes...