Exemples d'exploration de texte avec R (package tm)

14

J'ai passé trois jours à essayer tmaprès avoir lu le projet de document d'un ami où il a exploré un corpus de texte avec UCINET, montrant des nuages ​​de texte, des graphiques de réseau à deux modes et une décomposition en valeur unique (avec des graphiques, en utilisant Stata). J'ai rencontré un grand nombre de problèmes: sur Mac OS X, il y a des problèmes avec Java derrière des bibliothèques comme Snowball (stemming) ou Rgraphviz (graphiques).

Quelqu'un pourrait -il sur le point pas de paquets - je l' ai regardé tm, wordfishet wordscores, et savoir au sujet NLTK - mais la recherche, si possible avec le code, sur des données textuelles, qui utilise avec succès tmou quelque chose d' autre pour analyser des données telles que les débats parlementaires ou des documents législatifs? Je n'arrive pas à trouver grand-chose sur la question, et encore moins de code à apprendre.

Mon propre projet est un débat parlementaire de deux mois, avec ces variables renseignées dans un fichier CSV: session parlementaire, orateur, groupe parlementaire, texte de l'intervention orale. Je recherche des divergences entre les orateurs et surtout entre les groupes parlementaires dans l'utilisation de termes rares et moins rares, par exemple "discours de sécurité" contre discours de "libertés civiles".

Fr.
la source

Réponses:

7

La thèse de doctorat de l'auteur de tm, Ingo Feinerer d'Autriche, est rédigée en anglais. Les chapitres 7 à 10 de ce document contiennent des applications du paquet tm, avec une complexité croissante.

http://epub.wu.ac.at/1923/

Le chapitre 7 présente une application de tm en analysant la liste de diffusion R-devel 2006. Le chapitre 8 montre une application de l'exploration de texte pour les entreprises au commerce électronique grand public. Le chapitre 9 est une application de tm pour enquêter sur les juridictions de la cour administrative suprême autrichienne concernant les droits et taxes. [...] . Le chapitre 10 montre une application pour la stylométrie et l'attribution d'auteur sur l'ensemble de données Wizard of Oz.

Lisez la couverture du document dans son intégralité. Notez, cependant, que le document a été écrit en 2008, et depuis lors, il y a eu quelques changements d'API, par exemple, la thèse de doctorat mentionne une fonction tmMap()qui a été renommée tm_map(). Les exemples de code ne fonctionneront donc pas tels quels, vous ne pouvez pas utiliser le copier-coller pour les essayer.

Vous pouvez aussi aller sur

http://tm.r-forge.r-project.org/users.html

"Afin d'informer les nouveaux utilisateurs des applications tm existantes, ce site vise à fournir une liste (incomplète par ordre alphabétique) des utilisateurs tm et de leurs commentaires. Les utilisateurs connus vont des instituts de recherche aux entreprises en passant par les particuliers."

et recherchez sur cette page l'expression «a écrit un document» et vous trouverez de nombreux liens. Je n'ai lu qu'un seul article, "Détection automatique des sujets dans les paroles des chansons". Assez intéressant et drôle.

knb
la source
Je pense que la thèse de Feinerer est le document qui m'a le plus aidé jusqu'à présent. Merci!
Fr.
5

Un bon point de départ pourrait être liste des publications sur le site Web tm, comme celle-ci:

La liste des références à la fin de chacune de ces publications comprend les applications réussies de tm, ce que vous semblez rechercher. Il y en a beaucoup - surtout si vous suivez ensuite les références des références.

Par exemple, en voici une qui pourrait être pertinente:

Feinerer I, Hornik K (2007). \ Text Mining of Supreme Administrative Court Juridictions. "In C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (éd.), \ Data Analysis, Machine Learning, and Applications (Actes de la 31e Conférence annuelle de la Gesellschaft f ur Klassikation eV, 7 {9 mars 2007, Freiburg, Allemagne), "Studies in Classication, Data Analysis, and Knowledge Organization. Springer-Verlag.

Bonne chance.

Un homme
la source
Merci pour les références. Le niveau de détail est cependant insuffisant dans ces publications - j'ai dû lire la dissertation de Feinerer pour obtenir suffisamment de détails sur la façon d'opérer tmde mon côté. Pourtant, merci beaucoup :)
Fr.