En parcourant la présentation et le matériel de Summingbird par Twitter, l'une des raisons mentionnées pour utiliser les clusters Storm et Hadoop ensemble dans Summingbird est que le traitement via Storm entraîne une cascade d'erreurs. Afin d'éviter cette cascade d'erreurs et leur accumulation, le cluster Hadoop est utilisé pour traiter par lots les données et supprimer les résultats Storm après le traitement des mêmes données par Hadoop.
Quelles sont les raisons de la génération de cette accumulation d'erreur? et pourquoi n'est-il pas présent dans Hadoop? Comme je n'ai pas travaillé avec Storm, je n'en connais pas les raisons. Est-ce parce que Storm utilise un algorithme approximatif pour traiter les données afin de les traiter en temps réel? ou la cause est-elle autre chose?
la source