Questions marquées «clustering»

10

Comprendre l'utilisation des logarithmes dans le logarithme TF-IDF

Je lisais: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Mais je n'arrive pas à comprendre exactement pourquoi la formule a été construite telle qu'elle est. Ce que je comprends: iDF devrait à un certain niveau mesurer la fréquence à laquelle un terme S apparaît dans chacun des documents,...

9

Quel modèle d'apprentissage en profondeur peut classer des catégories qui ne s'excluent pas mutuellement

Exemples: J'ai une phrase dans la description de poste: "Java senior engineer in UK". Je veux utiliser un modèle d'apprentissage profond pour le prédire en 2 catégories: English et IT jobs. Si j'utilise un modèle de classification traditionnel, il ne peut prédire qu'une seule étiquette avec...

machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

9

Calculer la courbe ROC pour les données

Donc, j'ai 16 essais dans lesquels j'essaie d'authentifier une personne à partir d'un trait biométrique en utilisant Hamming Distance. Mon seuil est fixé à 3,5. Mes données sont ci-dessous et seul l'essai 1 est un vrai positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47...

mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

9

Premiers pas avec le biclustering

J'ai fait des recherches occasionnelles sur Internet sur les biclusters. (J'ai lu l'article Wiki plusieurs fois.) Jusqu'à présent, il semble qu'il y ait peu de définitions ou de terminologie standard. Je me demandais s'il y avait des articles ou des livres standard que toute personne intéressée par...

clustering data-mining

9

Comment effectuer plusieurs tests chi carré post-hoc sur une table 2 X 3?

Mon ensemble de données comprend la mortalité totale ou la survie d'un organisme sur trois types de sites: côtier, médian et extracôtier. Les nombres dans le tableau ci-dessous représentent le nombre de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Je voudrais...

logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

9

Cyclisme dans l'algorithme k-means

Selon wiki, le critère de convergence le plus utilisé est "l'assignation n'a pas changé". Je me demandais si le cyclisme peut se produire si nous utilisons un tel critère de convergence? Je serais heureux si quelqu'un faisait référence à un article qui donne un exemple de cyclisme ou prouve que...

clustering algorithms k-means

9

Critères du coude pour déterminer le nombre de grappes

Il est mentionné ici qu'une des méthodes pour déterminer le nombre optimal de grappes dans un ensemble de données est la "méthode du coude". Ici, le pourcentage de variance est calculé comme le rapport de la variance entre les groupes à la variance totale. J'avais du mal à comprendre ce calcul....

clustering k-means

9

Clustering spatial basé sur la densité des applications avec bruit (DBSCAN) clustering dans R

cette question a commencé comme " Clustering spatial data in R " et est maintenant passée à la question DBSCAN. Comme les réponses à la première question l'ont suggéré, j'ai cherché des informations sur DBSCAN et j'ai lu quelques documents. De nouvelles questions ont surgi. DBSCAN nécessite...

r clustering spatial

9

Regroupement avec des mesures de distance asymétriques

Comment regrouper une entité avec une mesure de distance asymétrique? Par exemple, supposons que vous regroupiez un ensemble de données avec des jours de la semaine comme entité - la distance du lundi au vendredi n'est pas la même que la distance du vendredi au lundi. Comment intégrez-vous cela...

clustering distance

9

Une distance doit-elle être une «métrique» pour qu'un clustering hiérarchique soit valide sur celle-ci?

Disons que nous définissons une distance, qui n'est pas une métrique , entre N éléments. Sur la base de cette distance, nous utilisons ensuite un regroupement hiérarchique agglomératif . Pouvons-nous utiliser chacun des algorithmes connus (liaison simple / maximale / moyenne, etc.) pour obtenir des...

clustering multilevel-analysis metric hierarchical-clustering

9

Sélection de fonctionnalités pour les problèmes de clustering

J'essaie de regrouper différents ensembles de données en utilisant des algorithmes non supervisés (clustering). Le problème est que j'ai de nombreuses fonctionnalités (~ 500) et une petite quantité de cas (200-300). Jusqu'à présent, je ne faisais que des problèmes de classification pour lesquels...

r clustering feature-selection unsupervised-learning

9

Recherche de données artificielles 2D pour démontrer les propriétés des algorithmes de clustering

Je recherche des ensembles de données de points de données bidimensionnels (chaque point de données est un vecteur de deux valeurs (x, y)) suivant différentes distributions et formes. Un code pour générer de telles données serait également utile. Je veux les utiliser pour tracer / visualiser le...

distributions data-visualization clustering dataset

9

Comment comparer les événements observés aux événements attendus?

Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences observées de mes quatre événements (18), je peux calculer...

r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

9

Le préclustering aide-t-il à construire un meilleur modèle prédictif?

Pour la tâche de modélisation de l'attrition, je considérais: Calculer k clusters pour les données Construisez k modèles pour chaque cluster individuellement. La raison en est, qu'il n'y a rien à prouver, que la population des abonnés est homogène, il est donc raisonnable de supposer que le...

machine-learning clustering data-mining predictive-models

9

Choisir des clusters pour k-means: le cas de 1 cluster

Quelqu'un connaît-il une bonne méthode pour déterminer si le regroupement à l'aide de kmeans est même approprié? Autrement dit, que se passe-t-il si votre échantillon est réellement homogène? Je sais que quelque chose comme un modèle de mélange (via mclust dans R) fournira des statistiques...

r clustering k-means

9

Calculer le critère de clustering BIC (pour valider les clusters après K-means)

Je me demande s'il existe un bon moyen de calculer le critère de clustering basé sur la formule BIC, pour une sortie k-means dans R? Je suis un peu confus quant à la façon de calculer ce BIC afin de pouvoir le comparer avec d'autres modèles de clustering. Actuellement, j'utilise l'implémentation du...

r clustering k-means bic

9

Application de l'inférence variationnelle stochastique au mélange bayésien de gaussien

J'essaie d'implémenter le modèle de mélange gaussien avec l'inférence variationnelle stochastique, à la suite de cet article . C'est le pgm du mélange gaussien. Selon l'article, l'algorithme complet d'inférence variationnelle stochastique est: Et je suis encore très confus de la méthode pour...

machine-learning bayesian clustering gaussian-mixture variational-bayes

9

Regroupement d'une donnée bruyante ou avec des valeurs aberrantes

J'ai des données bruyantes de deux variables comme celle-ci. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07)...

r machine-learning clustering

9

Comment ce graphique «États-Unis de Reddit» est-il créé?

Voici un graphique de p. 202 du Dataclysm de Christian Rudder , bien qu'il ait été fait par James Dowdell. Il illustre les relations entre les 200 principaux sous-mariages, qui sont des domaines d'intérêt sur reddit.com où les utilisateurs peuvent soumettre des liens, des commentaires et des votes....

clustering data-visualization

9

La meilleure façon de regrouper une matrice d'adjacence

J'ai eu du mal à interpréter les grappes résultantes d'une matrice d'adjacence. J'ai 200 matrices relativement grandes représentant des sujets qui contiennent des corrélations partielles (scores z) de séries chronologiques (données neuronales). L'objectif est de regrouper ces 210 matrices et de...

clustering neuroimaging