Je suis presque arrivé à Cassandra après mes recherches sur les solutions de stockage de données à grande échelle. Mais on dit généralement que Hbase est la meilleure solution pour le traitement et l'analyse de données à grande échelle.
Alors que les deux sont le même stockage de clé / valeur et que les deux sont / peuvent exécuter (Cassandra récemment) la couche Hadoop, ce qui fait de Hadoop un meilleur candidat lorsque le traitement / l'analyse est nécessaire sur de grandes données.
J'ai également trouvé de bons détails sur les deux sur http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/
mais je suis toujours à la recherche des avantages concrets d'Hbase.
Bien que je sois plus convaincu de Cassandra en raison de sa simplicité pour l'ajout de nœuds et d'une réplication transparente et sans point de défaillance. Et il conserve également la fonction d'index secondaire, donc c'est un bon plus.
L'utilisation de clusters hBase à 100 nœuds n'est pas due au fait que HBase ne s'adapte pas à des tailles plus grandes. C'est parce qu'il est plus facile d'effectuer des mises à niveau logicielles hBase / HDFS de manière continue sans interrompre l'ensemble de votre service. Une autre raison est d'empêcher qu'un seul NameNode soit un SPOF pour l'ensemble du service. En outre, HBase est utilisé pour divers services (pas seulement pour les messages FB) et il est prudent d'avoir une approche à l'emporte-pièce pour configurer de nombreux clusters HBase basés sur une approche de pod à 100 nœuds. Le nombre 100 est adhoc, nous ne nous sommes pas concentrés sur la question de savoir si 100 est optimal ou non.
la source