Dans le chapitre 9 du livre Reconnaissance de formes et apprentissage automatique, il y a cette partie sur le modèle de mélange gaussien:
Pour être honnête, je ne comprends pas vraiment pourquoi cela créerait une singularité. Quelqu'un peut-il m'expliquer cela? Je suis désolé mais je suis juste un étudiant de premier cycle et un novice en apprentissage automatique, donc ma question peut sembler un peu idiote, mais aidez-moi s'il vous plaît. Merci beaucoup
gaussian-mixture
Dang Manh Truong
la source
la source
Réponses:
Si nous voulons adapter un gaussien à un seul point de données en utilisant le maximum de vraisemblance, nous obtiendrons un gaussien très hérissé qui "s'effondrera" à ce point. La variance est nulle lorsqu'il n'y a qu'un seul point, ce qui dans le cas gaussien multivarié, conduit à une matrice de covariance singulière, donc on l'appelle le problème de singularité.
Lorsque la variance atteint zéro, la probabilité de la composante gaussienne (formule 9.15) passe à l'infini et le modèle devient surajusté. Cela ne se produit pas lorsque nous ajustons un seul gaussien à un certain nombre de points, car la variance ne peut pas être nulle. Mais cela peut arriver quand nous avons un mélange de gaussiens, comme illustré sur la même page de PRML.
Mise à jour :
le livre propose deux méthodes pour résoudre le problème de la singularité, qui sont
1) réinitialiser la moyenne et la variance en cas de singularité
2) en utilisant MAP au lieu de MLE en ajoutant un prior.
la source
Je suis également un peu confus par cette partie, et voici mon interprétation. Prenez le boîtier 1D pour plus de simplicité.
Lorsqu'un seul gaussien "s'effondre" sur un point de données , c'est-à-dire μ = x i , la probabilité globale devient:xi μ=xi
Vous voyez comme , le terme à gauche p ( x i ) → ∞ , qui est comme le cas pathologique dans GMM, mais le terme à droite, qui est la probabilité d'autres points de données p ( x ∖ i ) , contient toujours des termes comme e - ( x n - μ ) 2σ→0 p(xi)→∞ p(x∖i) qui→0exponentiellement rapide commeσ→0, donc l'effet global sur la probabilité est qu'il aille à zéro.e−(xn−μ)22σ2 →0 σ→0
Le point principal ici est que lors de l'ajustement d'un seul gaussien, tous les points de données doivent partager un ensemble de paramètres , contrairement au cas du mélange où un composant peut "se concentrer" sur un point de données sans pénaliser la probabilité globale des données .μ,σ
la source
Cette réponse donnera un aperçu de ce qui se passe qui conduit à une matrice de covariance singulière lors de l'ajustement d'un GMM à un ensemble de données, pourquoi cela se produit ainsi que ce que nous pouvons faire pour éviter cela.
Par conséquent, il est préférable de commencer par récapituler les étapes lors de l'ajustement d'un modèle de mélange gaussien à un ensemble de données.
0. Décidez du nombre de sources / clusters (c) que vous souhaitez adapter à vos données
1. Initialisez les paramètres moyenne , covariance Σ c et fraction_per_class π c par cluster c
oùN(x|μ
ricnous donne pour chaque point de donnéexila mesure de:Probabilitythatxibelongstoclas
μc=1
Σc=1
N'oubliez pas que vous devez utiliser les moyens mis à jour dans cette dernière formule. Répétez itérativement les étapes E et M jusqu'à ce que la fonction log-vraisemblance de notre modèle converge où la log-vraisemblance est calculée avec: lnp(X|π,μ,Σ)=Σ N i = 1 ln(Σ K
Consequently as said above, this is a singular matrix and will lead to an error during the calculations of the multivariate gaussian. So how can we prevent such a situation. Well, we have seen that the covariance matrix is singular if it is the
la source
À mon humble avis, toutes les réponses manquent un fait fondamental. Si l'on regarde l'espace des paramètres d'un modèle de mélange gaussien, cet espace est singulier le long du sous-espace où il y a moins que le nombre total de composants dans le mélange. Cela signifie que les dérivées sont automatiquement nulles et généralement tout le sous-espace apparaîtra comme un mle. Plus philosophiquement, le sous-espace des covariances de rang inférieur au rang complet est la limite de l'espace des paramètres et il faut toujours se méfier lorsque le mle se produit sur la frontière - cela indique généralement qu'il y a un plus grand espace de paramètres qui se cache dans lequel on peut trouver le «vrai» mle. Il existe un livre intitulé "Statistiques algébriques" de Drton, Sturmfeld et Sullivant. Cette question est discutée dans ce livre en détail. Si vous êtes vraiment curieux, vous devriez regarder cela.
la source
For a single Gaussian, the mean may possibly equal one of the data points (xn for example) and then there is the following term in the likelihood function:
However for a data pointxm different from the mean σj , we will have
la source