Comprendre la décomposition en valeurs singulières dans le contexte de LSI

9

Ma question porte généralement sur la décomposition en valeurs singulières (SVD), et en particulier sur l'indexation sémantique latente (LSI).

Dis, j'ai qui contient des fréquences de 5 mots pour 7 documents.Aword×document

A =  matrix(data=c(2,0,8,6,0,3,1,
                   1,6,0,1,7,0,1,
                   5,0,7,4,0,5,6,
                   7,0,8,5,0,8,5,
                   0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')

J'obtenir la matrice factorisation de en utilisant SVD: A = U D V T .AA=UDVT

s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.

En 1 et 2 , il est indiqué que:

donne la matrice de similarité des mots, où les rangées de W o r d S i m représentent des mots différents. WordSim=USWordSim

WordSim = s$u %*% S

donne la matrice de similitude des documentsoù les colonnes de D o c S i m représentent différents documents.DocSim=SVTDocSim

DocSim = S %*% t(s$v)

Des questions:

  1. WordSimDocSimS
  2. WordSimDocSim

entrez la description de l'image ici

Zhubarb
la source
AV=UDAAU=VDA
Ah .. Je vois dans wikipedia que LSI n'est qu'une analyse de correspondance (CA). C'est mieux. CA est le biplot d'un tableau de données spécialement préparé. Les projections ou coordonnées susmentionnées - vous les utilisez pour tracer des points de ligne et de colonne dans l'espace des axes principaux. La proximité entre les points ligne-ligne, col-col et ligne-col établit leur similitude. Cependant, la disposition sur le tracé dépend de la façon dont vous répartissez l'inertie (variance) sur la ligne et les points de col.
ttnphns
AV=UDAU=VDD
2
SDUDDVUSSVA=UDVU(S2)V=(US)(SV).
1
D=svd(A)$dUD

Réponses:

2

La factorisation matricielle utilisant SVD décompose la matrice d'entrée en trois parties:

  • U
  • DDUVT
  • VT

WordSim

Pieter
la source