De bons livres sur l'exploration de texte?

11

Salut, je voulais savoir s'il y avait de bons livres sur l'exploration de texte et la classification avec quelques études de cas?. Sinon, certains articles / revues accessibles au public feraient l'affaire. S'ils illustrent encore mieux leurs exemples avec R. Je ne cherche pas un manuel étape par étape mais quelque chose qui illustre les avantages et les inconvénients de diverses approches d'exploration de texte pour différentes classes de problèmes.

dasman
la source

Réponses:

5

Consultez http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf Data-Intensive Text Processing with MapReduce - ce livre est assez académique mais couvre un certain nombre de techniques de traitement de texte couramment utilisées et comment elles peuvent être parrallisées sur un grand ensemble de données à l'aide de la carte réduire.

www.rtexttools.com Il s'agit d'un excellent package R qui vous aide à appliquer un large éventail d'algorithmes de classification (y compris certaines méthodes d'ensemble) à l'analyse de texte. et

Ross Farrelly
la source
4
Pour que cette réponse soit autonome, voudriez-vous fournir un bref résumé de chaque lien?
chl
4

J'ai récemment lu quatre livres dans ce domaine:

Feldman, R. et James Sanger, J. (2006). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. La presse de l'Universite de Cambridge.

Celui-ci se concentre sur des exemples pratiques, des logiciels et l'exploration de texte appliquée. Il donne plusieurs exemples d'utilisation pratique de l'exploration de texte. Cela pourrait être intéressant si vous souhaitez en savoir plus sur les applications commerciales des outils d'exploration de texte.

Srivastava, AN et Sahami, M. (2009). Exploration de texte: classification, regroupement et applications. Chapman & Hall / CRC.

Il s'agit d'une série de documents de recherche qui sont utilisés comme exemples d'utilisation de différents outils d'exploration de texte. Il est plutôt trop ciblé que pour le test d'introduction.

Weiss, SM, Indurkhya, N., Zhang, T. et Damerau, F. (2005). Exploration de texte: méthodes prédictives pour l'analyse d'informations non structurées. Springer.

Texte très introductif qui décrit quelques problèmes généraux.

Manning, C. (1999). Fondements du traitement statistique du langage naturel. MIT Appuyez sur.

C'est le meilleur livre que j'ai déjà lu sur ce sujet. Il est bien écrit, clair, va plus loin dans la théorie mais de manière pratique. Commence par une introduction générale, mais passe en revue certaines des méthodes et algorithmes les plus couramment utilisés. Si vous ne deviez choisir qu'un seul livre, je recommanderais celui-ci.

Vous pouvez également trouver facilement plusieurs livres sur le traitement du langage naturel et l'exploration de texte qui se concentrent sur l'utilisation de R ( bibliothèque tm ) ou Python ( bibliothèque nltk ).

Tim
la source
2

Ce n'est peut-être pas exactement ce que vous recherchez, mais la maîtrise des expressions régulières par Jeffrey Friedl est une excellente source pour apprendre à utiliser des expressions régulières pour analyser du texte. Il ne discute pas des techniques de modélisation, mais, armé du nombre d'applications d'expressions régulières, vous pouvez appliquer une variété d'approches de modélisation standard.

Charlie
la source
2

Un livre que je reviens à maintes reprises pour des idées est Text Mining: Predictive Methods ... par Sholom Weiss. Il a beaucoup d'idées pour aborder les problèmes que je trouve utiles car parfois l'exploration de texte consiste à essayer différentes choses - dictionnaire global vs local, nombre de fonctionnalités à conserver, etc. Je trouve que ce livre est un bon générateur d'idées. Il contient également des études de cas.

Wake2Sleep
la source