J'ai 40000 lignes de données textuelles du domaine des soins de santé. Les données ont une colonne pour le texte (2-5 phrases) et une colonne pour sa catégorie. Je veux classer cela en 300 catégories. Certaines catégories sont indépendantes tandis que d'autres sont quelque peu liées. La distribution des données entre les catégories n'est pas uniforme non plus, c'est-à-dire que certaines des catégories (environ 40 d'entre elles) ont moins de données sur 2-3 lignes.
J'attache la probabilité de journal de chaque classe / catégories. (OU répartition des classes) ici.
machine-learning
classification
nlp
text-mining
Alok Nayak
la source
la source
Réponses:
En général, un point de départ décent pour des problèmes comme ceux-ci est la classification de Naive Bayes (NB) à l'aide d'un modèle simple de mots. Voici quelques diapositives décrivant NB comme appliqué au traitement du langage naturel . Il n'y a rien de particulièrement sophistiqué dans cette approche, mais elle est assez facile à mettre en œuvre et vous donnera un point de départ pour vous développer.
Une fois que vous avez trouvé des résultats initiaux en supposant l'indépendance de vos fonctionnalités et de vos étiquettes de sortie, vous aurez probablement une meilleure idée de la faiblesse du modèle. À partir de ce moment, vous pouvez appliquer une ingénierie des fonctionnalités (peut - être TF-IDF ) ainsi qu'un post-traitement pour traiter les échantillons qui sont affectés à des catégories connexes.
la source