Utilisation d'outils d'exploration de texte / de langage naturel pour l'économétrie

Je ne sais pas si cette question est pleinement appropriée ici, sinon, veuillez la supprimer.

Je suis un étudiant diplômé en économie. Pour un projet qui étudie les problèmes des assurances sociales, j'ai accès à un grand nombre de cas administratifs (> 200k) qui traitent des évaluations d'éligibilité. Ces rapports peuvent éventuellement être liés à des informations administratives individuelles. Je veux extraire des informations de ces rapports qui peuvent être utilisées dans l'analyse quantitative, et idéalement plus que de simples recherches par mot clé / expression régulière à l'aide de grep/ awketc.

Quelle est l'utilité du traitement du langage naturel pour cela? Quelles sont les autres approches utiles d'exploration de texte? D'après ce que je comprends, c'est un vaste domaine, et très probablement certains des rapports devraient être transformés pour être utilisés comme corpus. Vaut-il la peine d'investir du temps pour se familiariser avec la littérature et les méthodes? Peut-il être utile et quelque chose de similaire a-t-il été fait auparavant? Est-ce que cela en vaut la peine en termes de récompenses, c'est-à-dire que je peux extraire des informations potentiellement utiles en utilisant la PNL pour une étude empirique en économie?

Il y a peut-être un financement pour embaucher quelqu'un pour lire et préparer certains des rapports. Il s'agit d'un projet plus vaste et il est possible de demander plus de financement. Je peux fournir plus de détails sur le sujet si cela est strictement nécessaire. Une complication potentielle est que la langue est l'allemand, pas l'anglais.

Concernant les diplômes, je suis majoritairement formé en économétrie, et possède quelques connaissances en statistiques computationnelles au niveau de Hastie et al. livre. Je connais Python, R, Stata et je pourrais probablement me familiariser rapidement avec Matlab. Compte tenu des bibliothèques, je suppose que Python est l'outil de choix pour cela. Pas de formation du tout sur les méthodes qualitatives si cela est pertinent, mais je connais des personnes à qui je pourrais m'adresser.

Je suis heureux de toute contribution à ce sujet, c'est-à-dire si cela est potentiellement utile, si oui, où commencer la lecture et sur quels outils se concentrer en particulier.

machine-learning data-mining econometrics text-mining natural-language ilprincipe
la source

LASSO, la régression du moindre angle et l'analyse logistique sont quelques outils potentiellement pertinents. Vous voudrez peut-être vérifier comment j'ai abordé un problème similaire pour mon doctorat. thèse ici et mon blog sur les outils de PNL en économie ici . Si vous avez obtenu quelque chose avec cela, ce serait formidable d'entendre parler de vos progrès ou de tout défi que vous pourriez avoir rencontré.

gradstudent

Réponses:

Je pense qu'il vous serait utile de définir les informations que vous souhaitez extraire des données. De simples recherches par mots clés / expressions régulières peuvent en fait être très fructueuses pour vous. Je travaille dans l'assurance et nous utilisons ce type d'exploration de texte assez fréquemment - c'est sans doute naïf et certainement imparfait, mais c'est un bon début (ou une approximation proche) de ce qui nous intéresse généralement.

Mais à mon point principal, afin de déterminer si la méthode que vous avez choisie est appropriée, je recommanderais de définir exactement ce que vous voulez extraire des données; c'est la partie la plus difficile, à mon avis.

Il peut être intéressant de trouver les mots uniques dans toutes les chaînes et de faire une fréquence des 1000 premiers mots environ. Cela peut être coûteux en calcul (en fonction de votre RAM / processeur) mais il peut être intéressant de regarder. Si j'explorais les données sans beaucoup de connaissances à ce sujet, c'est là que je commencerais (d'autres peuvent offrir des vues différentes).

J'espère que cela pourra aider.

Francisco Arceo
la source

merci, je pensais vraiment commencer par quelque chose comme ça. Je sais que ma question est vague, mais je suis plus généralement intéressé par le type d'informations que je pourrais extraire avec d'autres méthodes. J'avoue ne pas savoir s'il est possible de répondre à cela sans connaître le contexte spécifique.

ilprincipe

Je pense que c'est toujours le défi avec tout travail / profession lié aux données. Je recommanderais probablement de regarder certaines de vos données, s'il y a des variables avec des descriptions sur les données ou l'événement d'assurance, lisez-en quelques dizaines - obtenez une idée des données. N'oubliez pas que tout ce que nous essayons de faire est de modéliser le processus sous-jacent des données et pour vraiment faire un excellent travail, il faut connaître les données.

Francisco Arceo