Je travaille sur certaines techniques de regroupement, où pour un groupe donné de vecteurs de dimension d, je suppose une distribution normale multivariée et je calcule le vecteur moyen d'échantillon d et la matrice de covariance de l'échantillon.
Ensuite , lorsque vous essayez de décider si un nouveau vecteur invisible, d dimensions appartient à ce groupe je vérifie sa distance par cette mesure:
Ce qui me oblige à calculer l'inverse de la matrice de covariance σ X . Mais étant donné certains échantillons, je ne peux pas garantir que la matrice de covariance sera inversible, que dois-je faire dans le cas contraire?
Merci
Réponses:
Si la dimensionnalité de vos échantillons est inférieure à la dimensionnalité de l'espace vectoriel, des matrices singulières peuvent apparaître. Si vous avez moins d'échantillons que (lorsque d est votre dimensionnalité), cette situation se produira même nécessairement: k + 1 échantillons s'étendent au plus sur un hyperplan d dimensionnel. Étant donné un échantillon aussi petit, vous ne pouvez évidemment pas calculer une variance dans l'espace orthogonal.ré+ 1 ré k + 1 ré
C'est pourquoi il est courant de ne pas utiliser l'ACP littérale, mais plutôt d'effectuer une décomposition en valeurs singulières , qui peut être utilisée pour calculer le pseudoinverse d'une matrice. Si la matrice est inversible, le pseudoinverse sera l'inverse.
Cependant, si vous voyez des matrices non inversibles, il y a de fortes chances que votre distance par rapport au cluster soit vide de sens si le vecteur est en dehors de l'hyperplan que le cluster représente, car vous ne connaissez pas la variance dans l'espace orthogonal (vous pouvez penser à cette variance comme 0!) SVD peut calculer le pseudoinverse, mais les "variances" ne seront toujours pas déterminées par vos données.
De plus, selon la façon dont vous calculez la matrice de covariance, vous pourriez rencontrer des problèmes numériques en raison d'une annulation catastrophique. La solution de contournement la plus simple consiste à toujours centrer les données en premier, pour obtenir une moyenne nulle.
la source