J'ai passé trois jours à essayer tm
après avoir lu le projet de document d'un ami où il a exploré un corpus de texte avec UCINET, montrant des nuages de texte, des graphiques de réseau à deux modes et une décomposition en valeur unique (avec des graphiques, en utilisant Stata). J'ai rencontré un grand nombre de problèmes: sur Mac OS X, il y a des problèmes avec Java derrière des bibliothèques comme Snowball (stemming) ou Rgraphviz (graphiques).
Quelqu'un pourrait -il sur le point pas de paquets - je l' ai regardé tm
, wordfish
et wordscores
, et savoir au sujet NLTK - mais la recherche, si possible avec le code, sur des données textuelles, qui utilise avec succès tm
ou quelque chose d' autre pour analyser des données telles que les débats parlementaires ou des documents législatifs? Je n'arrive pas à trouver grand-chose sur la question, et encore moins de code à apprendre.
Mon propre projet est un débat parlementaire de deux mois, avec ces variables renseignées dans un fichier CSV: session parlementaire, orateur, groupe parlementaire, texte de l'intervention orale. Je recherche des divergences entre les orateurs et surtout entre les groupes parlementaires dans l'utilisation de termes rares et moins rares, par exemple "discours de sécurité" contre discours de "libertés civiles".
la source
Réponses:
La thèse de doctorat de l'auteur de tm, Ingo Feinerer d'Autriche, est rédigée en anglais. Les chapitres 7 à 10 de ce document contiennent des applications du paquet tm, avec une complexité croissante.
http://epub.wu.ac.at/1923/
Lisez la couverture du document dans son intégralité. Notez, cependant, que le document a été écrit en 2008, et depuis lors, il y a eu quelques changements d'API, par exemple, la thèse de doctorat mentionne une fonction
tmMap()
qui a été renomméetm_map()
. Les exemples de code ne fonctionneront donc pas tels quels, vous ne pouvez pas utiliser le copier-coller pour les essayer.Vous pouvez aussi aller sur
http://tm.r-forge.r-project.org/users.html
et recherchez sur cette page l'expression «a écrit un document» et vous trouverez de nombreux liens. Je n'ai lu qu'un seul article, "Détection automatique des sujets dans les paroles des chansons". Assez intéressant et drôle.
la source
Un bon point de départ pourrait être liste des publications sur le site Web
tm
, comme celle-ci:La liste des références à la fin de chacune de ces publications comprend les applications réussies de
tm
, ce que vous semblez rechercher. Il y en a beaucoup - surtout si vous suivez ensuite les références des références.Par exemple, en voici une qui pourrait être pertinente:
Bonne chance.
la source
tm
de mon côté. Pourtant, merci beaucoup :)