Classification des conversations en fonction du contenu

8

J'aimerais pouvoir concevoir un classifieur capable de faire la distinction entre différents types de conversations (sans nécessairement dire quoi que ce soit sur l'humeur, la sincérité ou le résultat, c'est un peu trop tiré par les cheveux).

Savoir, par exemple, que parmi 50 échantillons de conversations, 10 impliquent les deux parties à la recherche d'informations sur un événement futur, 30 semblent n'avoir aucun objectif, et 10 impliquent une partie à la recherche d'informations d'une autre sur un événement passé (en réalité, l'algorithme classerait ces types I, II ou III sans tenir compte des circonstances réelles).

En d'autres termes, l'ordre des locuteurs importerait avec le contenu, peut-être aidé en semant l'algorithme avec certains mots clés.

Existe-t-il un système de classification qui pourrait effectuer cette tâche avec un degré de précision assez élevé?

jonsca
la source
1
pour clarifier, s'agit-il de données textuelles ou audio?
tdc
1
@tdc Text data, sorry
jonsca

Réponses:

4

C'est ainsi que je l'aborderais. Vous devez en fait vérifier si un texte est dans la classe I ou III (sinon ce serait la classe II).

  • Tout d'abord, définissez un sac de mots pour les classes I et III. Vous pouvez le faire manuellement
  • Pour chaque texte, calculez le tf-idf pour les mots de ces deux classes et additionnez-le (obtenez deux sommes).
  • Si certaines de ces deux sommes dépassent un certain seuil prédéfini, elles appartiennent à cette classe.

Si vous avez un ensemble de données d'apprentissage assez grand, vous pouvez facilement savoir quels sont les deux sacs de mots, ainsi que les deux seuils pour eux.

vonPetrushev
la source
J'allais juste vérifier tf-idf en lisant votre question. Cela semble prometteur.
jonsca