Quels algorithmes de classification pour essayer de classer les données de texte en 300 catégories

8

J'ai 40000 lignes de données textuelles du domaine des soins de santé. Les données ont une colonne pour le texte (2-5 phrases) et une colonne pour sa catégorie. Je veux classer cela en 300 catégories. Certaines catégories sont indépendantes tandis que d'autres sont quelque peu liées. La distribution des données entre les catégories n'est pas uniforme non plus, c'est-à-dire que certaines des catégories (environ 40 d'entre elles) ont moins de données sur 2-3 lignes.

J'attache la probabilité de journal de chaque classe / catégories. (OU répartition des classes) ici. Classer le logarithme antérieur des probabilités (distribution de la classe de log des données)

Alok Nayak
la source
2
Besoin de plus d'informations. Quelle est la relation entre les catégories? Les catégories s'excluent-elles mutuellement? Y a-t-il un chevauchement catégorique?
Ryan J. Smith
3
Bienvenue dans Data Science! Votre question est actuellement de très mauvaise qualité. Vous ne pouvez pas vous attendre à des réponses de qualité sans poser des questions bien décrites. Veuillez fournir plus d'informations (meilleure description des données, de vos antécédents, langages de programmation, approches recherchées, etc.).
Wojciech Walczak

Réponses:

8

En général, un point de départ décent pour des problèmes comme ceux-ci est la classification de Naive Bayes (NB) à l'aide d'un modèle simple de mots. Voici quelques diapositives décrivant NB comme appliqué au traitement du langage naturel . Il n'y a rien de particulièrement sophistiqué dans cette approche, mais elle est assez facile à mettre en œuvre et vous donnera un point de départ pour vous développer.

Une fois que vous avez trouvé des résultats initiaux en supposant l'indépendance de vos fonctionnalités et de vos étiquettes de sortie, vous aurez probablement une meilleure idée de la faiblesse du modèle. À partir de ce moment, vous pouvez appliquer une ingénierie des fonctionnalités (peut - être TF-IDF ) ainsi qu'un post-traitement pour traiter les échantillons qui sont affectés à des catégories connexes.

Ryan J. Smith
la source
1
J'apprécie votre réponse et les références ici, même si la question est vague. C'est très utile pour moi et probablement beaucoup plus de gens qui se mouillent aussi les pieds. Merci! :)
Brian Topping
Merci, j'ai commencé à travailler avec les bayes naïfs et l'ingénierie des fonctionnalités en général. Y a-t-il d'autres choses à part les bayes naïves que je devrais essayer?
Alok Nayak
Eh bien, vous n'avez toujours pas fourni beaucoup de détails sur les données elles-mêmes ou les détails de ce que vous avez fait, il est donc très difficile de vous donner des suggestions spécifiques. Le mieux que je puisse dire est d'envisager d'incorporer une structure séquentielle dans votre modèle et vos fonctionnalités soit en utilisant des bigrammes, soit des modèles markoviens / machines à états finis.
Ryan J. Smith