Je suis un programmeur sans connaissances statistiques et je suis actuellement en train d’examiner différentes méthodes de classification pour un grand nombre de documents que je souhaite classer en catégories prédéfinies. J'ai lu sur kNN, SVM et NN. Cependant, j'ai du mal à démarrer. Quelles ressources recommandez-vous? Je connais assez bien le calcul à une variable et à plusieurs variables, alors mes calculs devraient être assez solides. Je possède également le livre de Bishop sur les réseaux de neurones, mais il s’est avéré un peu dense en introduction.
32
Introduction à la recherche d'information , disponible gratuitement en ligne en texte intégral, constitue un excellent texte d'introduction sur les sujets que vous avez mentionnés .
la source
Le réseau de neurones risque de ralentir pour un grand nombre de documents (il est également devenu obsolète).
Et vous pouvez aussi vérifier Random Forest parmi les classificateurs; il est assez rapide, les échelles sont agréables et ne nécessite pas de réglages complexes.
la source
Si vous venez du côté de la programmation, une option consiste à utiliser Natural Language Toolkit (NLTK) pour Python. Un livre O'Reilly, disponible gratuitement , peut constituer une introduction moins dense et plus pratique à la construction de classificateurs de documents, entre autres.
Si vous souhaitez approfondir vos connaissances statistiques, le livre en cours de Roger Levy, intitulé Modèles probabilistes dans l'étude du langage , n'est peut-être pas mauvais à lire. Il est écrit pour les étudiants diplômés de cogsci / compsci débutant avec les techniques de la PNL statistique.
la source
Premièrement, je peux vous recommander le livre Fondements du traitement statistique du langage naturel de Manning et Schütze.
Les méthodes que j'utiliserais sont les distributions de fréquence de mots et les modèles de langage ngram. Le premier fonctionne très bien lorsque vous souhaitez classer par sujet et que vos sujets sont spécifiques et experts (avec des mots-clés). La modélisation Ngram est le meilleur moyen de classer les styles d'écriture, etc.
la source
Naive Bayes est généralement le point de départ de la classification de texte. Vous trouverez ci-dessous un article de M. Dobbs sur la manière de la mettre en œuvre. C'est aussi souvent le point final de la classification du texte, car très efficace et très bien parallélisé, SpamAssassin et POPFile l'utilisent.
la source