Sélection du modèle Mclust

11

Le package R mclustutilise BIC comme critère de sélection de modèle de cluster. D'après ma compréhension, un modèle avec le BIC le plus bas devrait être sélectionné par rapport aux autres modèles (si vous ne vous souciez que du BIC). Cependant, lorsque les valeurs BIC sont toutes négatives, la Mclustfonction utilise par défaut le modèle avec la valeur BIC la plus élevée. Ma compréhension globale de divers essais consiste à mclustidentifier les «meilleurs» modèles comme ceux ayant le .muneX{BjeCje}

J'essaie de comprendre pourquoi les auteurs ont pris cette décision. Il est illustré sur le site du CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

De plus, les auteurs des mclustpackages en font état dans leur article Méthodes basées sur un modèle de classification: Utilisation du logiciel mclust en chimiométrie à la page 5.

Le «meilleur» modèle est considéré comme celui qui a le BIC le plus élevé parmi les modèles équipés.

Quelqu'un peut-il mettre en lumière cette question? Si un BIC inférieur est toujours meilleur, pourquoi les auteurs ne choisissent-ils pas le modèle avec le BIC le plus bas mais plutôt le modèle avec le BIC absolu le plus petit? Si possible, fournissez des références.

Jon
la source

Réponses:

10

Solution trouvée:

Donc, pour reformuler la question, pourquoi la Mclustfonction utilise-t-elle par défaut le modèle avec la valeur BIC la plus élevée comme "meilleur" modèle?

Grande question! Permettez-moi de vous donner une réponse longue à ce sujet.

TL; DR : les valeurs BIC sont une approximation de la probabilité intégrée (non maximale), et vous voulez que le modèle avec la plus grande vraisemblance intégrée (facteur Bayes) afin que vous choisissiez le modèle avec le plus grand BIC.

Réponse longue : Le but de l'utilisation du clustering basé sur un modèle plutôt que des approches de clustering basées sur l'heuristique telles que les k-means et le clustering hiérarchique (agglomératif) est de fournir une approche plus formelle et intuitive pour comparer et sélectionner un modèle de cluster approprié pour vos données.

Mclust utilise des techniques de clustering basées sur des modèles de probabilité, des modèles mixtes gaussiens. L'utilisation de modèles de probabilité permet de développer des approches basées sur des modèles pour comparer différents modèles et tailles de grappes. Voir * Méthodes de classification basées sur un modèle: Utilisation du logiciel mclust en chimiométrie * ( https://www.jstatsoft.org/article/view/v018i06 ) pour plus de détails.

Comme mentionné ci-dessus, les auteurs déclarent que le "meilleur" modèle est celui qui présente les valeurs BIC les plus élevées. Voici un autre exemple du logiciel Enhanced Model-Based Clustering, Density Estimation and Discriminant Analysis: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Le critère d'information baysien ou BIC (?) Est la valeur du loglik vraisemblance maximisé avec une pénalité sur le nombre de paramètres dans le modèle, et permet la comparaison de modèles avec des paramétrisations et / ou des nombres de clusters différents. En général, plus la valeur du BIC est élevée, plus les preuves du modèle et du nombre de grappes sont solides (voir, par exemple, Fraley et Raftery 2002a).

Sélection de modèle : Maintenant qu'il existe un modèle de probabilité attaché aux grappes, vous pouvez utiliser des outils plus sophistiqués pour comparer plusieurs modèles de grappe en utilisant la sélection de modèles bayésiens via des facteurs Bayes.

Dans leur article, Combien de clusters? Quelle méthode de clustering? Réponses via l'analyse de cluster basée sur un modèle ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

Le facteur Bayes est la cote postérieure d'un modèle contre l'autre en supposant qu'aucun des deux n'est favorisé a priori. Banfield et Raftery [2] ont utilisé une approximation dérivée heuristiquement du double du facteur log Bayes, appelé «AWE», pour déterminer le nombre de clusters dans un clustering hiérarchique en fonction de la probabilité de classification. Lorsque EM est utilisé pour trouver la probabilité de mélange maximale, une approximation plus fiable de deux fois le facteur log Bayes appelé BIC (Schwarz [32]) est applicable:

2Journal(p(X|M))+constunent2lM(X,θ^)-mmlog(n)BjeC

p(X|M)lM(X,θ^)une prjeorjep(X|M)M

Donc, en résumé, le BIC ne doit pas être minimisé. La personne qui utilise cette approche de clustering basée sur un modèle doit rechercher le modèle qui maximise le BIC car il se rapproche du facteur Bayes avec une probabilité intégrée maximale.

Cette dernière déclaration a également une référence:

Banfield, JD et Raftery, AE (1993) Clustering gaussien et non gaussien basé sur un modèle. Biometrics, 49, 803– 821.

EDIT : basé sur un échange d'e-mails,

En remarque, vérifiez toujours comment le BIC est défini. Parfois, par exemple dans la plupart des contextes de régression (où traditionnellement une statistique est minimisée pour l'estimation des paramètres, par exemple la somme résiduelle des carrés, la déviance, etc.) le BIC est calculé comme -2 * loglik + npar * log (n), c'est-à-dire l'inverse de ce qui est utilisé dans mclust. De toute évidence, dans ce cas, le BIC doit être minimisé.

BjeC=-2×ln(L(θ|X))+k×ln(n)

Jon
la source
1
Je ne sais pas à quelle version de Mclust cette correspondance par courrier électronique était liée. La version 4 de Mclust utilise la composante négative de BIC et doit donc être maximisée. J'espère que cela peut être utile pour les personnes qui essaient de déterminer si une maximisation ou une minimisation doit être effectuée.
Rasika
Merci de l'avoir signalé, je mettrai à jour cette question afin qu'elle soit logique. Je pourrais aussi examiner la documentation pour voir s'il y a pourquoi ils ont décidé de faire ce changement après tant d'années
Jon