Je ne sais pas si cette question est pleinement appropriée ici, sinon, veuillez la supprimer.
Je suis un étudiant diplômé en économie. Pour un projet qui étudie les problèmes des assurances sociales, j'ai accès à un grand nombre de cas administratifs (> 200k) qui traitent des évaluations d'éligibilité. Ces rapports peuvent éventuellement être liés à des informations administratives individuelles. Je veux extraire des informations de ces rapports qui peuvent être utilisées dans l'analyse quantitative, et idéalement plus que de simples recherches par mot clé / expression régulière à l'aide de grep
/ awk
etc.
Quelle est l'utilité du traitement du langage naturel pour cela? Quelles sont les autres approches utiles d'exploration de texte? D'après ce que je comprends, c'est un vaste domaine, et très probablement certains des rapports devraient être transformés pour être utilisés comme corpus. Vaut-il la peine d'investir du temps pour se familiariser avec la littérature et les méthodes? Peut-il être utile et quelque chose de similaire a-t-il été fait auparavant? Est-ce que cela en vaut la peine en termes de récompenses, c'est-à-dire que je peux extraire des informations potentiellement utiles en utilisant la PNL pour une étude empirique en économie?
Il y a peut-être un financement pour embaucher quelqu'un pour lire et préparer certains des rapports. Il s'agit d'un projet plus vaste et il est possible de demander plus de financement. Je peux fournir plus de détails sur le sujet si cela est strictement nécessaire. Une complication potentielle est que la langue est l'allemand, pas l'anglais.
Concernant les diplômes, je suis majoritairement formé en économétrie, et possède quelques connaissances en statistiques computationnelles au niveau de Hastie et al. livre. Je connais Python, R, Stata et je pourrais probablement me familiariser rapidement avec Matlab. Compte tenu des bibliothèques, je suppose que Python est l'outil de choix pour cela. Pas de formation du tout sur les méthodes qualitatives si cela est pertinent, mais je connais des personnes à qui je pourrais m'adresser.
Je suis heureux de toute contribution à ce sujet, c'est-à-dire si cela est potentiellement utile, si oui, où commencer la lecture et sur quels outils se concentrer en particulier.
Réponses:
Je pense qu'il vous serait utile de définir les informations que vous souhaitez extraire des données. De simples recherches par mots clés / expressions régulières peuvent en fait être très fructueuses pour vous. Je travaille dans l'assurance et nous utilisons ce type d'exploration de texte assez fréquemment - c'est sans doute naïf et certainement imparfait, mais c'est un bon début (ou une approximation proche) de ce qui nous intéresse généralement.
Mais à mon point principal, afin de déterminer si la méthode que vous avez choisie est appropriée, je recommanderais de définir exactement ce que vous voulez extraire des données; c'est la partie la plus difficile, à mon avis.
Il peut être intéressant de trouver les mots uniques dans toutes les chaînes et de faire une fréquence des 1000 premiers mots environ. Cela peut être coûteux en calcul (en fonction de votre RAM / processeur) mais il peut être intéressant de regarder. Si j'explorais les données sans beaucoup de connaissances à ce sujet, c'est là que je commencerais (d'autres peuvent offrir des vues différentes).
J'espère que cela pourra aider.
la source