Comment stocker les données traitées?

Je travaille sur un projet impliquant des données Twitter. J'ai plusieurs centaines de milliers de tweets téléchargés et stockés dans des fichiers. Les données ont été renvoyées au format JSON et le consommateur de flux que j'utilisais les a converties en dictionnaires Python. Elles sont donc toutes stockées dans des fichiers texte, un tweet par ligne, sous la forme de dictionnaires Python.

Il y a beaucoup d'informations superflues. J'ai donc un script python qui lit chaque ligne sous forme de dict et extrait des informations utiles. Quel serait le meilleur moyen de stocker ces données maintenant qu'elles sont extraites? Je l'ai réimprimé dans des fichiers csv, mais cela me pose problème et j'ai rencontré des personnes qui semblent penser que ce n'est pas la meilleure façon de le stocker.

Quel serait le moyen le plus efficace de stocker ces données? Je devrai y accéder pour trouver des modèles, faire correspondre des éléments similaires, etc. Je pensais utiliser une base de données - est-ce la meilleure option? Y a-t-il d'autres qui sont meilleurs?

database document-management bsg
la source

Réponses:

Si ses paires de clés ne sont que des paires de bases de données , apparemment , les bases de données de style nosql fonctionnent bien - twitter les utilise, et elles pourraient bien convenir si vous devez gérer beaucoup de données avec très peu de structure. Vous pourriez probablement utiliser un traditionnel SGBDR , ou peut - être un intégré sqlite db s'il y a plus qu'un simple magasin de paires de clés et avaient des données structurées avec des relations.

Il peut également être utile de comprendre les faiblesses d’un magasin de fichiers à plat (pas de journalisation ou de structure de transaction), de nosql (pas d’ ACID ) et d’une base de données classique (volumineuse, moins évolutive mais bien comprise et souvent assez rapide). Avec un petit ensemble de données non mis à jour, n'importe laquelle d'entre elles devrait fonctionner

Compagnon Geek
la source

Merci - Je pense que je vais essayer d'utiliser Hadoop et HDFS. Merci de votre aide!

bsg