LSA contre PCA (regroupement de documents)

25

J'étudie différentes techniques utilisées dans le clustering de documents et je voudrais dissiper certains doutes concernant PCA (analyse en composantes principales) et LSA (analyse sémantique latente).

Première chose - quelles sont les différences entre eux? Je sais qu'en PCA, la décomposition SVD est appliquée à la matrice terme-covariance, tandis qu'en LSA c'est la matrice terme-document. Y a-t-il autre chose?

Deuxièmement - quel est leur rôle dans la procédure de regroupement de documents? De ce que j'ai lu jusqu'à présent, je déduis que leur objectif est la réduction de la dimensionnalité, la réduction du bruit et l'intégration des relations entre les termes dans la représentation. Après avoir exécuté PCA ou LSA, des algorithmes traditionnels comme k-means ou des méthodes agglomératives sont appliqués sur l'espace à terme réduit et des mesures de similitude typiques, comme la distance cosinusoïdale, sont utilisées. Corrigez-moi si j'ai tort, s'il-vous plait.

Troisièmement - est-il important que les vecteurs de termes TF / IDF soient normalisés avant d'appliquer PCA / LSA ou non? Et devraient-ils être normalisés à nouveau après cela?

Quatrièmement - disons que j'ai effectué un regroupement sur le terme espace réduit par LSA / PCA. Maintenant, comment dois-je attribuer des étiquettes aux clusters de résultats? Puisque les dimensions ne correspondent pas aux mots réels, c'est plutôt une question difficile. La seule idée qui me vient à l'esprit est de calculer les centroïdes pour chaque cluster à l'aide de vecteurs de termes originaux et de sélectionner des termes avec des poids supérieurs, mais cela ne semble pas très efficace. Existe-t-il des solutions spécifiques à ce problème? Je n'ai rien trouvé.

Je serai très reconnaissant d'avoir clarifié ces questions.

user1315305
la source
LSA ou LSI: identiques ou différents? Si vous voulez dire LSI = indexation sémantique latente, veuillez corriger et standardiser.
Nick Cox
3
LSI et LSA sont-ils deux choses différentes? Je pensais qu'ils étaient équivalents.
user1315305
1
Je n'ai aucune idée; il s'agit (s'il vous plaît) d'utiliser un terme pour une chose et non deux; sinon, votre question est encore plus difficile à comprendre.
Nick Cox
Ok, je l'ai corrigé déjà. Merci de l'avoir signalé :)
user1315305
3
Wikipedia donne l'impression que LSA = LSI. Mais LSI est l' analyse de correspondance (CA). CA est un terme d'analyse statistique, comme PCA, tandis que LSI / LSA est un terme d'exploration de texte. Alors, recherchez des articles comparant PCA et CA.
ttnphns

Réponses:

8
  1. PCA et LSA sont les deux analyses qui utilisent SVD. L'ACP est une classe générale d'analyse et pourrait en principe être appliquée aux corpus de texte énumérés de diverses manières. En revanche, LSA est un moyen très clairement spécifié d'analyser et de réduire le texte. Les deux exploitent l'idée que le sens peut être extrait du contexte. Dans LSA, le contexte est fourni dans les chiffres via une matrice terme-document. Dans l'APC, le contexte que vous proposez est fourni dans les chiffres en fournissant une matrice de covariance des termes (dont les détails de la génération peuvent probablement vous en dire beaucoup plus sur la relation entre votre PCA et LSA). Vous voudrez peut-être regarder ici pour plus de détails.
  2. Vous êtes fondamentalement sur la bonne voie ici. Les raisons exactes de leur utilisation dépendront du contexte et des objectifs de la personne jouant avec les données.
  3. La réponse dépendra probablement de la mise en œuvre de la procédure que vous utilisez.
  4. Soigneusement et avec beaucoup d'art. La plupart considèrent que les dimensions de ces modèles sémantiques ne sont pas interprétables. Notez que vous vous attendez presque certainement à ce qu'il y ait plus d'une dimension sous-jacente. Lorsqu'il y a plus d'une dimension dans l'analyse factorielle, nous faisons tourner la solution factorielle pour produire des facteurs interpérables. Cependant, pour une raison quelconque, cela n'est généralement pas fait pour ces modèles. Votre approche ressemble à une façon de démarrer votre art selon des principes ... bien que je ne sois pas certain que la mise à l'échelle entre les dimensions est suffisamment similaire pour faire confiance à une solution d'analyse de cluster. Si vous voulez jouer avec le sens, vous pouvez également envisager une approche plus simple dans laquelle les vecteurs ont une relation directe avec des mots spécifiques, par exemple HAL .
russellpierce
la source
6

LSI est calculé sur la matrice terme-document, tandis que PCA est calculé sur la matrice de covariance, ce qui signifie que LSI essaie de trouver le meilleur sous-espace linéaire pour décrire l'ensemble de données, tandis que PCA essaie de trouver le meilleur sous-espace linéaire parallèle.

Gaurav Singh
la source
4
Nick, pourriez-vous fournir plus de détails sur la différence entre le meilleur sous-espace linéaire et le meilleur sous-espace linéaire parallèle? Est-ce lié à l'orthogonalité? Dois-je les poser comme une nouvelle question?
russellpierce
1
Meilleur dans quel sens? Minimiser la norme Frobinius de l'erreur de reconstruction? Dans ce cas, cela me semble être PCA.
Andrew M
2

Juste une extension de la réponse de russellpierce.

1) LSA est essentiellement une PCA appliquée aux données textuelles. Lorsque vous utilisez SVD pour PCA, il n'est pas appliqué à la matrice de covariance mais directement à la matrice d'échantillons de caractéristiques, qui n'est que la matrice de termes-documents dans LSA. La différence est que PCA nécessite souvent une normalisation par fonctionnalité des données, contrairement à LSA.

Il y a une belle conférence d'Andrew Ng qui illustre les liens entre PCA et LSA.

2/3) Les données du document étant de différentes longueurs, il est généralement utile de normaliser l'ampleur. Ici, la normalisation par échantillon doit être utilisée et non par la normalisation par fonctionnalité. Dans la pratique, j'ai trouvé utile de normaliser avant et après LSI.

Si la métrique de l'algorithme de clustering ne dépend pas de la magnitude (disons la distance cosinus), alors la dernière étape de normalisation peut être omise.

4) Il pense que c'est en général un problème difficile pour obtenir des étiquettes significatives à partir de clusters. Certaines personnes extraient des termes / expressions qui maximisent la différence de distribution entre le corpus et le cluster. Une autre façon consiste à utiliser le clustering semi-supervisé avec des étiquettes prédéfinies.

dontloo
la source