Comment savoir quantitativement si les données 1D sont regroupées autour de 1 ou 3 valeurs?

9

J'ai quelques données sur le temps entre les battements cardiaques d'un humain. Une indication des battements ectopiques (supplémentaires) est que ces intervalles sont regroupés autour de trois valeurs au lieu d'une. Comment puis-je obtenir une mesure quantitative de cela?

Je cherche à comparer plusieurs ensembles de données, et ces deux histogrammes à 100 cases sont représentatifs de chacun d'eux.

entrez la description de l'image ici

Je pourrais comparer les variances, mais je veux que mon algorithme puisse détecter s'il y a un ou trois clusters dans chaque cas sans les comparer aux autres cas.

C'est pour le traitement hors ligne, donc il y a beaucoup de puissance de calcul disponible, si cela est nécessaire.

Nikolaus
la source

Réponses:

3

Je vous conseille fortement contre l' utilisation des k-means ici. Les résultats pour différentes valeurs de k ne sont pas très comparables. La méthode est juste une heuristique grossière. Si vous voulez vraiment utiliser le clustering, utilisez le clustering EM, car vos données semblent contenir des distributions normales. Et validez vos résultats!

Au lieu de cela, l'approche évidente consiste à essayer d'ajuster une seule fonction gaussienne et (par exemple en utilisant la méthode de Levenberg-Marquard) à trois fonctions gaussiennes, peut-être contraintes à la même hauteur (pour éviter la dégénérescence).

Ensuite, testez laquelle des deux distributions convient le mieux.

A QUIT - Anony-Mousse
la source
Merci, je ne connaissais pas Levenberg-Marquardt! Ces grappes ne sont pas gaussiennes; pensez-vous toujours que les fonctions gaussiennes seraient le meilleur PDF pour les adapter?
Nikolaus
+1 à cela et à Greg Snow. Je suis totalement d'accord avec ce conseil. @Nikolaus Je pense que cela semble "assez gaussien" pour s'adapter à un mélange de distributions gaussiennes. Vous ne voulez pas un ajustement parfait, juste un moyen de vérifier le nombre de clusters. Dans cette optique, contraindre tous les composants à partager le même écart-type peut être une bonne idée (pour les raisons expliquées par Anony-Mousse).
Elvis
Ils me semblent clairement assez gaussiens. K-means modélise des données avec des cellules Voronoi. Il ne me semble pas raisonnable de supposer que le meilleur point de partage se situe exactement au milieu des deux moyens voisins.
A QUIT - Anony-Mousse
6

Ajustez une distribution de mélange aux données, quelque chose comme un mélange de 3 distributions normales, puis comparez la probabilité de cet ajustement à un ajustement d'une distribution normale unique (en utilisant le test du rapport de vraisemblance, ou AIC / BIC). Le flexmixpackage pour Rpeut être utile.

Greg Snow
la source
4

Si vous souhaitez utiliser le clustering K-means, vous avez besoin d'un moyen de comparer les cas et . Une approche consisterait à utiliser la statistique des écarts de Tibshirani et al. et choisissez le qui offre la meilleure valeur. Il y a une implémentation R disponible dans SLmisc , bien que cette fonction particulière essaiera , vous devrez donc vous assurer que seul ou peut être renvoyé comme valeur optimale.K = 3 K K = 1 , 2 , 3 K = 1 K = 3K=1K=3KK=1,2,3K=1K=3

bnaul
la source
2

Utiliser un algorithme de clustering K-means pour identifier les différents moyens

Recherchez la fonction KNN dans R-chercher pour trouver la fonction appropriée

Ram Ahluwalia
la source
1
ahh, j'étais sur le point de poster ça! Vous pouvez également vous référer à ce lien pour les codes et autres joyeusetés: statmethods.net/advstats/cluster.html
King
J'ai essayé avec la kmeansfonction de Matlab . Les moyens qui en résultent varient considérablement d'un essai à l'autre. (Mauvaise heuristique dans cette implémentation?) Pour l'ensemble à 1 cluster, j'obtiens parfois des moyens (270 293 693), parfois (260 285 308). Pour l'ensemble à 3 grappes, certaines réponses sont (196 324 468) et (290 459 478).
Nikolaus
Y a-t-il un endroit où je peux coller les données?
Nikolaus
Oh, à propos de cette moyenne de 693: il y a deux valeurs aberrantes évidentes, une 532 et une 855, sur un total de 755 valeurs. Toutes les autres valeurs sont visibles dans l'histogramme.
Nikolaus
Vous devez regarder au-delà des moyens que vous obtenez de k-means et voir dans quelle mesure ils décrivent réellement vos données!
A QUIT - Anony-Mousse