Questions marquées «clustering»

133

Regroupement K-Means pour des données numériques et catégoriques mixtes

Mon ensemble de données contient un certain nombre d'attributs numériques et un catégorique. Dis NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, où CategoricalAttrprend l' une des trois valeurs possibles: CategoricalAttrValue1, CategoricalAttrValue2ou CategoricalAttrValue3....

51

Regroupement des coordonnées géographiques (lat, paires longues)

Quelle est la bonne approche et le bon algorithme de clustering pour le clustering de géolocalisation? J'utilise le code suivant pour regrouper les coordonnées de géolocalisation: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([...

machine-learning python clustering k-means geospatial

30

Quel est le meilleur modèle Keras pour la classification multi-classes?

Je travaille sur la recherche, là où le besoin de classer l' un des trois cas GAGNANT = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Mon modèle actuel est: def...

python neural-network classification clustering keras

29

Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

23

Est-il nécessaire de standardiser vos données avant le clustering?

Est-il nécessaire de standardiser vos données avant cluster? Dans l'exemple de scikit learnDBSCAN, ici, ils le font dans la ligne: X = StandardScaler().fit_transform(X) Mais je ne comprends pas pourquoi c'est nécessaire. Après tout, le clustering ne suppose aucune distribution particulière de...

python clustering clusters anomaly-detection

23

K-signifie un comportement incohérent choisissant K avec la méthode du coude, le BIC, la variance expliquée et la silhouette

J'essaie de regrouper certains vecteurs avec 90 fonctionnalités avec K-means. Étant donné que cet algorithme me demande le nombre de clusters, je veux valider mon choix avec de belles mathématiques. Je m'attends à avoir de 8 à 10 grappes. Les fonctionnalités sont à l'échelle Z-score. Explication de...

clustering k-means

22

Calcul de la divergence KL en Python

Je suis plutôt nouveau dans ce domaine et je ne peux pas dire que j'ai une compréhension complète des concepts théoriques derrière cela. J'essaie de calculer la divergence KL entre plusieurs listes de points en Python. J'utilise

python clustering scikit-learn

22

Comment gérer les séries chronologiques qui changent de saisonnalité ou d'autres modèles?

Contexte Je travaille sur un ensemble de données de séries chronologiques de relevés de compteurs d'énergie. La longueur de la série varie selon le mètre - pour certains j'ai plusieurs années, d'autres seulement quelques mois, etc. Beaucoup présentent une saisonnalité importante, et souvent...

data-mining clustering time-series beginner

18

Regroupement basé sur des scores de similitude

Supposons que nous avons un ensemble d'éléments E et une similitude ( non loin ) fonction SIM (ei, ej) entre deux éléments ei, ej ∈ E . Comment pourrions-nous (efficacement) regrouper les éléments de E , en utilisant sim ? k -moyen, par exemple, nécessite un k donné , Canopy Clustering nécessite...

clustering algorithms similarity

18

Meilleur algorithme pratique pour la similitude des phrases

J'ai deux phrases, S1 et S2, qui ont toutes deux un nombre de mots (généralement) inférieur à 15. Quels sont les algorithmes les plus utiles et les plus efficaces (apprentissage automatique), qui sont peut-être faciles à mettre en œuvre (le réseau de neurones est correct, sauf si l'architecture est...

nlp clustering word2vec similarity

18

Word2Vec contre Sentence2Vec contre Doc2Vec

J'ai récemment rencontré les termes Word2Vec , Sentence2Vec et Doc2Vec et un peu confus car je suis nouveau dans la sémantique vectorielle. Quelqu'un peut-il expliquer les différences entre ces méthodes en termes simples? Quelles sont les tâches les plus adaptées à chaque

machine-learning data-mining clustering nlp unsupervised-learning

17

K-means: Quels sont les bons moyens de choisir un ensemble efficace de centroïdes initiaux?

Lorsqu'une initialisation aléatoire des centroïdes est utilisée, différentes séries de K-moyennes produisent différentes SSE totales. Et c'est crucial dans les performances de l'algorithme. Quelles sont les approches efficaces pour résoudre ce problème? Les approches récentes sont...

data-mining clustering k-means

17

Algorithmes pour le clustering de texte

J'ai un problème de regrouper une énorme quantité de phrases en groupes par leur signification. Ceci est similaire à un problème lorsque vous avez beaucoup de phrases et que vous souhaitez les regrouper par leur signification. Quels algorithmes sont suggérés pour ce faire? Je ne connais pas le...

clustering text-mining algorithms scikit-learn

16

agrandir la carte thermique de Seaborn

Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen d'imprimer...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

15

K-means vs K-means en ligne

K-means est un algorithme bien connu pour le clustering, mais il existe également une variante en ligne de cet algorithme (K-means en ligne). Quels sont les avantages et les inconvénients de ces approches et quand devraient-elles être

clustering algorithms k-means

15

Regroupement des visiteurs uniques par useragent, ip, session_id

Étant donné les données d'accès au site Web sous la forme session_id, ip, user_agent, et éventuellement l'horodatage, en suivant les conditions ci-dessous, comment regrouperiez-vous au mieux les sessions en visiteurs uniques? session_id: est un identifiant donné à chaque nouveau visiteur. Il...

clustering

14

K-means rapide comme algorithme pour 10 ^ 10 points?

Je cherche à regrouper k-means sur un ensemble de points à 10 dimensions. Le hic: il y a 10 ^ 10 points . Je recherche juste le centre et la taille des plus grands clusters (disons 10 à 100 clusters); Je me fiche du cluster dans lequel se trouve chaque point. L'utilisation de k-means en particulier...

clustering k-means

14

Utilisation d'attributs pour classer / regrouper les profils utilisateur

J'ai un ensemble de données d'utilisateurs qui achètent des produits sur un site Web. Les attributs que j'ai sont l'ID utilisateur, la région (état) de l'utilisateur, l'ID catégories du produit, l'ID mots clés du produit, l'ID mots clés du site Web et le montant des ventes dépensées pour le...

machine-learning data-mining classification clustering

13

Reconnaître une grammaire dans une séquence de jetons flous

J'ai des documents texte qui contiennent principalement des listes d'articles. Chaque élément est un groupe de plusieurs jetons de différents types: prénom, nom, date de naissance, numéro de téléphone, ville, profession, etc. Un jeton est un groupe de mots. Les articles peuvent se trouver sur...

data-mining clustering text-mining time-series correlation

12

Classer les clients en fonction de 2 fonctionnalités ET d'une série d'événements chronologiques

J'ai besoin d'aide sur ce qui devrait être ma prochaine étape dans un algorithme que je conçois. En raison des NDA, je ne peux pas divulguer grand-chose, mais je vais essayer d'être générique et compréhensible. Fondamentalement, après plusieurs étapes dans les algorithmes, j'ai ceci: Pour chaque...

classification clustering time-series