Quelles sont les différences entre l'analyse sémantique latente (LSA), l'indexation sémantique latente (LSI) et la décomposition en valeurs singulières (SVD)?

15

Ces termes se mélangent beaucoup, mais j'aimerais savoir quelles sont, selon vous, les différences, le cas échéant.

Merci

Neil McGuigan
la source

Réponses:

12

LSA et LSI sont principalement utilisés de manière synonyme, la communauté de recherche d'informations s'y référant généralement sous le nom de LSI. LSA / LSI utilise SVD pour décomposer la matrice de termes-documents A en une matrice de termes-concepts U, une matrice de valeurs singulières S et une matrice de documents-concepts V sous la forme: A = USV '. La page wikipedia contient une description détaillée de l'indexation sémantique latente .

ébène1
la source
8

En particulier, alors que LSA et LSI utilisent SVD pour faire leur magie, il existe une méthode plus simple sur le plan des calculs et des concepts appelée HAL (Hyperspace Analogue to Language) qui passe en revue le texte en gardant une trace des contextes précédents et suivants. Des vecteurs sont extraits de ces matrices de cooccurrence (souvent pondérées) et des mots spécifiques sont sélectionnés pour indexer l'espace sémantique. À bien des égards, on me donne à comprendre qu'il fonctionne aussi bien que LSA sans nécessiter l'étape mathématiquement / conceptuellement complexe de SVD. Voir Lund & Burgess, 1996 pour plus de détails.

russellpierce
la source
4
... récapitulant les travaux antérieurs de Finch et Chater (1992, 1994), Schütze (1993) et d'autres. HAL, LSA et d'autres travaux de l'art antérieur en générant une mesure de similitude pour les mots en calculant leur similitude contextuelle. (Il s'agit de la similitude du deuxième ordre de Shephard: la similitude du «premier ordre» se produit lorsque le mot a se produit près du mot b; la similitude du «deuxième ordre» est que le mot a se produit près des mêmes sortes de mots que le mot b).
conjugateprior
3
Comparaison et contraste: pour LSA, le contexte est le document complet. Pour HAL et d'autres, il s'agit d'une fenêtre textuelle entourant le mot cible. LSA mesure la distance dans un sous-espace linéaire extrait via SVD / PCA, et l'autre traite des distances dans l'espace d'origine des nombres de mots environnants.
conjugateprior
6

NMF et SVD sont tous deux des algorithmes de factorisation matricielle. Wikipedia a quelques informations pertinentes sur NMF .

AA=AA ), les valeurs singulières sont simplement les valeurs absolues des valeurs propres. Dans tous les cas, les valeurs singulières ne sont pas négatives et perdre le signe des valeurs propres est le prix à payer pour pouvoir travailler avec des matrices non carrées.

Les autres intervenants ont couvert LSI / LSA ...

Emre
la source
ce devrait être une matrice de covariance, non? pas la matrice de corrélation.
Rafael
Oui, sauf si vous centrez d'abord vos variables.
Emre
après normalisation des variables, il devient matrice de corrélation?
Rafael
La normalisation est centrée sur la mise à l'échelle, donc c'est différent.
Emre