Je travaille sur un projet impliquant des données Twitter. J'ai plusieurs centaines de milliers de tweets téléchargés et stockés dans des fichiers. Les données ont été renvoyées au format JSON et le consommateur de flux que j'utilisais les a converties en dictionnaires Python. Elles sont donc toutes stockées dans des fichiers texte, un tweet par ligne, sous la forme de dictionnaires Python.
Il y a beaucoup d'informations superflues. J'ai donc un script python qui lit chaque ligne sous forme de dict et extrait des informations utiles. Quel serait le meilleur moyen de stocker ces données maintenant qu'elles sont extraites? Je l'ai réimprimé dans des fichiers csv, mais cela me pose problème et j'ai rencontré des personnes qui semblent penser que ce n'est pas la meilleure façon de le stocker.
Quel serait le moyen le plus efficace de stocker ces données? Je devrai y accéder pour trouver des modèles, faire correspondre des éléments similaires, etc. Je pensais utiliser une base de données - est-ce la meilleure option? Y a-t-il d'autres qui sont meilleurs?