Modèles de sujet et méthodes de cooccurrence de mots

26

Les modèles de sujet populaires comme LDA regroupent généralement les mots qui ont tendance à co-apparaître ensemble dans le même sujet (cluster).

Quelle est la principale différence entre de tels modèles de sujet et d'autres approches simples de regroupement basées sur la cooccurrence comme PMI? (PMI signifie Pointwise Mutual Information, et il est utilisé pour identifier les mots qui coexistent avec un mot donné.)

kanzen_master
la source

Réponses:

32

Récemment, un énorme corpus de littérature sur la façon d'extraire des informations d'un texte écrit s'est développé. Par conséquent, je vais simplement décrire quatre jalons / modèles populaires et leurs avantages / inconvénients et souligner ainsi (certaines) les principales différences (ou du moins ce que je pense être les différences principales / les plus importantes).

Vous mentionnez l'approche "la plus simple", qui serait de regrouper les documents en les comparant à une requête prédéfinie de termes (comme dans PMI). Ces méthodes d'appariement lexical pourraient cependant être inexactes en raison de la polysémie (significations multiples) et de la synonymie (plusieurs mots qui ont des significations similaires) de termes uniques.

Comme remède, l'indexation sémantique latente ( LSI ) tente de surmonter cela en mappant les termes et les documents dans un espace sémantique latent via une décomposition en valeurs singulières. Les résultats de l'ISL sont des indicateurs de sens plus solides que ne le seraient les termes individuels. Cependant, un inconvénient de LSI est qu'il manque en termes de fondement probabiliste solide.

Cela a été en partie résolu par l'invention du LSI probabiliste ( pLSI ). Dans les modèles pLSI, chaque mot d'un document est tiré d'un modèle de mélange spécifié via des variables aléatoires multinomiales (ce qui permet également des co-occurrences d'ordre supérieur comme @sviatoslav hong l'a mentionné). Il s'agissait d'une avancée importante dans la modélisation probabiliste de texte, mais incomplète dans le sens où elle n'offre aucune structure probabiliste au niveau des documents.

L'allocation de Dirichlet latente ( LDA ) atténue cela et a été le premier modèle entièrement probabiliste pour le clustering de texte. Blei et al. (2003) montrent que le pLSI est un modèle de LDA estimé maximum a posteriori sous un a priori uniforme de Dirichlet.

Notez que les modèles mentionnés ci-dessus (LSI, pLSI, LDA) ont en commun d'être basés sur l'hypothèse du «sac de mots» - c'est-à-dire qu'au sein d'un document, les mots sont échangeables, c'est-à-dire que l'ordre des mots dans un document peut être négligé. Cette hypothèse d'échangeabilité offre une justification supplémentaire pour LDA par rapport aux autres approches: en supposant que non seulement les mots dans les documents sont échangeables, mais aussi les documents, c'est-à-dire que l'ordre des documents dans un corpus peut être négligé, le théorème de De Finettiindique que tout ensemble de variables aléatoires échangeables a une représentation sous forme de distribution de mélange. Ainsi, si l'on suppose que les documents et les mots peuvent être échangés dans les documents, un modèle de mélange pour les deux est nécessaire. C'est exactement ce que LDA réalise généralement, mais pas PMI ou LSI (et même pLSI pas aussi beau que LDA).

Momo
la source
2
1/2 Merci! Très clair. Permettez-moi de vérifier si j'ai bien compris: dans LSI, les documents sont formés d'un mélange de mots (aucune notion de sujet) et les mots et les documents sont mappés à un espace sémantique de dimension inférieure à l'aide de SVD. Comme les mots ayant une signification sémantique similaire sont cartographiés de plus près, il peut traiter de la synonymie mais a des problèmes de polisémie. pLSI résout le problème de polisémie en introduisant le concept de sujets. Dans pLSI, les mots sont tirés d'une distribution multinomiale de mots (sujets), le même mot peut appartenir à plusieurs sujets et un document a plusieurs sujets, bien que cela ne soit pas modélisé explicitement.
kanzen_master
2
Je pense qu'en général, vous avez raison. Quelques corrections plus petites: LSI est considéré comme fonctionnant bien avec la polysémie et la synomie. pLSI est fondamentalement une formulation pour atteindre ce que LSI s'efforce de faire avec les outils d'analyse de classe latente / modèles de mélange et de probabilité plutôt que simplement l'algèbre linéaire. LDA par rapport à pLSI est un modèle entièrement génératif en spécifiant une distribution de sujet par document.
Momo
1
En ce qui concerne vos points sur le sur-ajustement et la prévision, je ne connais pas assez pour une déclaration qualifiée. Mais, pour toute sa valeur, je ne vois pas pourquoi LDA devrait être moins enclin à sur-adapter que pLSI (car LDA ajoute simplement un avant un modèle pLSI). Les deux n'ont pas de correction intégrée pour le sur-ajustement ou similaire. La «prédiction» de nouveaux documents pourrait en effet être plus facile ou réalisable avec un modèle entièrement générateur comme LDA, voir stats.stackexchange.com/questions/9315/… Mais je considérerais LDA comme un modèle descriptif non supervisé.
Momo
1
Merci encore! Juste 2 questions finales: (1) Concernant la polysémie, dans ce pdf, fin de la page 3 Hoffman déclare qu'une des différences de PLSI par rapport à LSI est la polysémie, car le même mot peut appartenir à différentes distributions de mots (sujets); c'est pourquoi je pensais que LSI ne fonctionnait pas avec la polysémie. (2) Concernant le sur-ajustement, ce blog indique qu'une augmentation linéaire des paramètres suggère que le modèle est sujet au sur-ajustement. Qu'est-ce que tu penses ?
kanzen_master
2
Aucun problème. Vous en savez déjà beaucoup sur ces choses, alors j'apprends aussi des choses. ad (1) Eh bien, comme d'habitude, cela dépend: LSI peut gérer la polysémie en raison de la combinaison linéaire de termes comme dans PCA. Il le fait mieux avec les synonymes, mais dans une certaine mesure aussi avec la polysémie. Les mots fondamentalement polysémiques qui sont similaires sont des composants ajoutés de mots qui partagent une signification similaire. Cependant, il le fait beaucoup moins bien que pLSI car chaque occurrence d'un mot étant représenté comme un point unique dans l'espace. La représentation des mots est donc une moyenne de toutes les différentes significations du mot dans le corpus.
Momo
5

LDA peut capturer un ordre supérieur de cooccurrences de termes (en raison de l'hypothèse que chaque sujet est une distribution multinomiale sur les termes), ce qui n'est pas possible en calculant simplement le PMI entre les termes.

Liangjie Hong
la source
4
Merci! Quelle est la définition de «haut niveau de cooccurrences»?
kanzen_master
5

J'ai peut-être 3 ans de retard, mais je veux poursuivre votre question sur l'exemple du «haut niveau de cooccurrence».

Fondamentalement, si le terme t1 coexiste avec le terme t2 qui coexiste avec le terme t3, alors le terme t1 est la cooccurrence de second ordre avec le terme t3. Vous pouvez passer à un ordre supérieur si vous le souhaitez, mais à la fin, vous contrôlez la similitude des deux mots.

suthee
la source