Qu'est-ce que la «déduplication»?

8

Je veux dire, je peux rechercher la définition du dictionnaire, mais pourquoi tout le monde en parle-t-il soudainement en référence aux bibliothèques de bandes virtuelles? Qu'y a-t-il de "nouveau" ici pour que ce soit tellement d'actualité ces derniers temps?

lavinio
la source

Réponses:

14

La déduplication est l'endroit où vous regardez le contenu d'un ensemble de données, notez tous les bits en double qui sont présents et stockez les données une seule fois, en remplaçant toutes ces copies de données autrement par un pointeur sur la copie. Cela est particulièrement utile avec les sauvegardes car lorsque vous sauvegardez des choses comme les serveurs, une grande partie des données est la même. Imaginez, par exemple, que vous sauvegardez 1 000 serveurs Windows - une grande partie du contenu de ces boîtes sera identique.

La déduplication est si populaire aujourd'hui pour 3 raisons:

  1. Dernièrement, tout le monde est obsédé par la création de solutions de récupération après sinistre qui utilisent des serveurs hors site. Pour ce faire, vous devez répliquer de nombreuses données de production sur le site distant et la bande passante est un énorme problème. Toute réduction de la quantité de données que vous devez répliquer aide beaucoup.

  2. La quantité de données que les entreprises conservent explose - grâce à un stockage moins cher et à des exigences multi-industrielles pour la conservation des enregistrements.

  3. La technologie a relativement récemment atteint le point idéal. Nous avons eu des choses comme la déduplication depuis longtemps (stockage à instance unique, etc.), ce qui a aidé, mais seulement au cours de la dernière année environ, nous avons constaté une véritable déduplication qui peut réduire considérablement la quantité de stockage dans le courant dominant.

icky3000
la source
2
J'ajouterais également que le coût des solutions de déduplication diminue, de sorte que les vendeurs ont plus de facilité à vendre ses avantages - et si c'est plus facile à vendre, les vendeurs en parleront plus ... Je n'ai pas remarqué de discussion portant spécifiquement sur la bande virtuelle bibliothèques sur d'autres méthodes de sauvegarde, mais je suppose que c'est une opportunité de commercialiser les avantages des deux ensemble.
William
1
@William: Oui, exactement, je voulais en quelque sorte faire référence à la partie coût quand j'ai dit "sweet spot" mais je n'ai pas précisé cela, donc merci de l'avoir signalé. Certes, le coût est devenu suffisamment bas pour que beaucoup d'entre nous puissent trouver une solution de déduplication que nous puissions réellement nous permettre.
icky3000
0

L'une des choses que nous avons découvert dans mon entreprise en travaillant avec Netapp est que la déduplication ne fonctionne vraiment bien dans un environnement de machine virtuelle que si vos disques sont alignés. Ce qui est un problème pour nous car nous avons beaucoup de machines Windows Server 2003 et aucun des disques n'est aligné. Ce qui signifie que vous récupérez à peine environ un quart de l'espace possible si les disques sont correctement alignés.

On nous dit cependant qu'une fois que les disques sont correctement alignés, nous devrions être en mesure de récupérer 40 à 60% de notre espace avec la déduplication.

Webs
la source
C'est un problème de l'implémentation concrète de NetApp qui utilise (pour d'autres raisons tout à fait compréhensibles) des tailles de bloc statiques de 4 Ko. L'alternative serait des morceaux définis par le contenu de taille variable qui ne nécessitent pas un bon alignement.
dmeister