Je travaille sur un projet de science des données lié à l'exploration des relations sociales et j'ai besoin de stocker des données dans certaines bases de données graphiques. Au départ, j'ai choisi Neo4j comme base de données. Mais il semble que Neo4j ne soit pas à l'échelle. L'alternative que j'ai découverte est Titan et oriebtDB. J'ai parcouru cette comparaison sur ces trois bases de données, mais je voudrais obtenir plus de détails sur ces bases de données. Alors, quelqu'un pourrait-il m'aider à choisir le meilleur? Je voudrais principalement comparer les performances, la mise à l'échelle, la documentation en ligne / les didacticiels disponibles, le support de la bibliothèque Python, la complexité du langage de requête et le support de l'algorithme graphique de ces bases de données. Existe-t-il également d'autres bonnes options de base de données?
la source
Réponses:
Je pense que vous devrez peut-être garder à l'esprit les pipelines de données globaux et les pipelines d'apprentissage automatique. Pour lequel vous avez besoin d'un cadre robuste pour déplacer les données entre le stockage sous forme de tableau et de graphique en dehors d'un traitement distribué puissant. D'après ma compréhension, Spark GraphX promet de construire ces pipelines. La discussion de Joseph Gonzalez (l'un des créateurs de GraphLab de CMU) sur GraphX sur youtube mérite d'être regardée.
la source