Comment les entreprises qui gèrent de grandes quantités de données, par exemple Google ou Facebook, sauvegardent-elles tout?
Selon cet article de la plateforme Google sur Wikipédia, Google a environ 450 000+ serveurs chacun avec un disque dur de 80+ Go. Ça fait beaucoup de données. Gardent-ils vraiment 1+ Go de sauvegarde pour chaque 1 Go de données?
backup
google
large-data
Olivier Lalonde
la source
la source
Réponses:
Cela dépend de votre objectif.
Si vous recherchez des sauvegardes pour la récupération après sinistre (serveur éclaté, datacentre brûlé, etc.), la réponse courte est qu'ils ne peuvent pas faire de sauvegardes du tout. Nous avons un client qui traite des données gouvernementales sensibles, et une partie de son mandat est que nous ne sommes pas autorisés à effectuer des sauvegardes ou des sauvegardes sur des supports amovibles . Nous sommes autorisés à répliquer en direct sur un site DR et c'est tout. Les deux sites sont couverts par le même niveau de sécurité physique et logique. Le hic ici est que si je vis quelque chose sur le site A, il est répliqué sur le site B presque instantanément.
Si vous parlez de sauvegardes du point de vue de l'intégrité des données (par exemple, vous avez accidentellement supprimé la table Customers et elle est déjà répliquée sur le site DR), les bandes LTO-5 dans une grande bibliothèque de bandes sont souvent la solution. Avec jusqu'à 3 To par bande et plusieurs bandes dans une bibliothèque de bandes, vous pouvez rapidement sauvegarder de grandes quantités de données (rapide ici se réfère à Mbps, il peut encore prendre de nombreuses heures pour sauvegarder 25 To de données).
Toute suite de sauvegarde décente effectuera une compression et une déduplication élevées, ce qui réduit considérablement la quantité d'espace de stockage requise. J'ai vu une estimation pour un outil de sauvegarde Exchange compressé et déduposé une fois qui réclamait un rapport de 15: 1 (15 Go de données stockées dans 1 Go de sauvegardes).
Je doute fort que Google se soucie des sauvegardes pour beaucoup de leurs données de moteur de recherche, car la plupart d'entre elles sont remplaçables et distribuées si loin que si elles perdent même une partie importante, ou peut-être même un centre de données entier, le système reste en ligne grâce aux routes de basculement BGP.
En fait, il semble que Google sauvegarde une bande de données métriques sur bande , ce qui n'est pas tout à fait ce à quoi je m'attendais:
la source
La plupart de leurs données sont stockées sur leur propre système de fichiers GFS, et GFS requiert qu'il y ait au moins trois copies de chaque bloc de 64 Mo qui crée un fichier (GFS utilise des blocs de 64 Mo). Cela dit, je ne pense pas qu'ils se soucient des sauvegardes, car ils ont au moins trois copies de chaque fichier, et les blocs sur le nœud défaillant peuvent être rapidement remplacés en répliquant simplement les données de l'une des deux bonnes copies restantes vers un nouveau nœud.
Pour plus d'informations, consultez http://labs.google.com/papers/gfs.html
la source
La réponse de farseeker est bonne mais je pense qu'elle pourrait être clarifiée en y réfléchissant dans cette perspective: qu'essayez-vous de restaurer? Est-ce pour DR? Quel est le temps de récupération requis? Par exemple, supposons que votre entreprise s'appuie sur une base de données de serveurs SQL de 25 To. En cas d'échec ou d'erreur de données (table supprimée, base de données corrompue, etc.), le CTO souhaite pouvoir récupérer la base de données en moins d'une heure. En cas de défaillance du site, 2 heures sont nécessaires.
À première vue, cela semble difficile, mais ce n'est pas impossible. Puisque vous savez que votre stratégie de sauvegarde doit récupérer en une heure, vous savez que vous n'allez pas restaurer des sauvegardes complètes, vous devrez travailler avec les équipes dba pour vous assurer que la base de données est partitionnée en morceaux gérables. Vous allez également effectuer des sauvegardes trans-log fréquentes. Pour DR, il faudrait envisager une stratégie de réplication (peut-être une version temporisée avec des données de journal répliquées en temps réel mais non appliquées). Comme l'a dit farseeker, cela dépend du but, et ce but devrait être de faire une certaine forme de récupération.
la source