Existe-t-il un logiciel (ou pseudo-code) qui peut numériser automatiquement un morceau de texte (soit collé dans l'outil, soit lu à partir d'un fichier .doc / .pdf) et identifier les données de citation en utilisant des formats standard? Les données seraient ensuite divisées en ses champs constitutifs et exportées au format XML, CSV ou dans un autre format de données structuré. J'ai regardé cb2Bib mais il n'a pu extraire l'année que des références de style Harvard, ce qui est insuffisant.
18
Réponses:
Jetez un œil à cette liste d'analyseurs de citation qui peuvent générer du XML à partir du texte d'entrée:
http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (en mode maintenance au 1er août 2012)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10
Avec freecite, vous pouvez utiliser une
curl
commande pour soumettre des citations comme suit (en PHP):la source
À l'heure actuelle (2017), le projet Open-Source le plus actif implémentant cela semble être Anystyle Parser (dernière version 07-2016). Il peut être utilisé via une interface Web, une API ou téléchargé en tant que RubyGem.
Ils mentionnent explicitement sur leur site Internet que l'implémentation est inspirée de ParsCit (dernière version 2013?) Et FreeCite (dernier commit 2009).
Formez également leur site Web:
C'est une fonctionnalité vraiment cool, qui en fait l'implémentation la plus intéressante (à mon humble avis). La formation semble être assez simple, comme expliqué dans la documentation de l' API . Vous fournissez simplement des résultats corrigés manuellement et exécutez la
Anystyle.parser.train
commande. Je ne sais pas si ParsCit et FreeCite prennent également en charge cela, mais s'ils ne le font pas, cela semble être une énorme différence de fonctionnalités pour moi.la source
Essayez un outil tel que Regex Buddy ou Expresso .
Si vous n'êtes pas un programmeur, les expressions régulières peuvent être un peu intimidantes, mais elles ne sont vraiment pas si difficiles, surtout avec un outil décent comme l'un des précédents.
Voici un exemple d'une personne utilisant des expressions régulières pour extraire des citations:
Citation analysant l'expression régulière
la source
Mendeley devrait pouvoir le faire. Il peut importer des fichiers PDF, puis exporter les métadonnées vers BibTeX, RIS et EndNote XML. Il est gratuit à télécharger et est multiplateforme.
Edit: J'ai testé cela sur quelques documents. L'importation PDF semble bien fonctionner pour les références correctement formatées. Pour un document que j'ai créé en utilisant LaTeX, toutes les références avec l'auteur sous la forme "Smith, J." ou "J. Smith", etc., ont été importés très bien. Si l'auteur est une entreprise (un seul mot), ou la référence est incomplète, cela ne fonctionne pas aussi bien. Les références extraites peuvent facilement être éditées et exportées vers BibTeX, etc.
la source
J'ai vu un programme Westlaw faire cela pour les citations légales, mais ce n'est probablement pas ce que vous recherchez. Reference Manager peut faire quelque chose comme ça pour les formats académiques, mais je ne l'ai jamais utilisé.
la source
Essayez http://www.crossref.org/guestquery/#stqsearch
Celui-ci est capable d'analyser automatiquement votre texte de référence et propose un lien vers un article en ligne.
la source
Zotero est un plugin pour Firefox qui le fait pour le contenu Web. Je ne sais pas s'il existe un outil similaire pour les documents / PDF
la source
Cela appartient probablement plus à @Abhinav, mais zotero ne gère définitivement que les données structurées, comme vous le trouverez décrit ici:
http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools
Un hack intéressant pourrait être d'essayer d'écrire un programme qui utilise chaque citation comme requête de recherche dans votre base de données préférée, puis utilise quelque chose comme zotero pour générer les informations de référence. Vous pouvez également télécharger des informations structurées à partir de services comme citeUlike. Faites-moi savoir si vous finissez par faire quelque chose comme ça! (mettez-le sur github si vous le faites;).
la source