Archivage économique et à long terme des données vidéo et image? ~ 50 To

16

Mon laboratoire est en train de mettre en place un petit serveur qui contient des données (principalement des données vidéo et image, ainsi que quelques documents) pour le projet sur lequel notre groupe travaille à un moment donné. Historiquement, après la fin d'un projet de recherche, les données finissent par être archivées au hasard sur un seul disque dur, ou une grande pile de DVD (ou CD dans le passé), et / ou une partie de la vidéo s'est retrouvée dans des cassettes DV Sony ou même Cassettes VHS (ce laboratoire est actif depuis le début des années 90), OU un mélange de tout ce qui précède ...

Question: Quelle est la meilleure façon de (1) les consolider TOUS dans le même format ET le même support de stockage, et (2) quel est le meilleur moyen pour l'archivage à long terme de ces données pour un accès très occasionnel (disons, plus de 30 ans?)? Malheureusement, nous n'avons pas de budget au niveau de l'entreprise (nous ne sommes qu'un laboratoire de 10 personnes), nous ne pouvons donc pas faire des choses qui coûtent des centaines de milliers de dollars.

Merci!

PS Étant donné que nos anciennes vidéos et images sont de plus petite résolution, mais les récentes sont énormes, je pense que nous parlons de 30 ~ 40 To pour les données vraiment anciennes, 10 à 20 To supplémentaires pour les données récentes, puis des ajouts annuels d'environ 5 To .

hpy
la source

Réponses:

22

Malheureusement, il n'y a pas de meilleur moyen pour vous. L'archivage de 30 ans des médias numériques est un problème très difficile et nécessite des investissements de routine. Les seuls formats garantis lisibles dans 30 ans sont ASCII et UTF8, qui ne sont pas des formats vidéo. Les formats de stockage changent, les bandes 8 pistes bobine à bobine que nous utilisions il y a 30 ans sont presque impossibles à lire de nos jours même si les données sont toujours sur la bande (il y a une histoire intéressante à propos de la NASA reconstruisant un lecteur de bande vieux de 40 ans pour accéder à des bandes de données Apollo récemment récupérées / découvertes). Votre meilleur pari est de vous engager dans des évaluations périodiques, je dirais tous les 5 ans, de votre environnement d'archivage avec un budget suffisant pour convertir les anciens formats en de nouveaux formats.

Vous le savez probablement mieux que moi, mais le paysage vidéo évolue rapidement. L'édition en ligne en temps réel est désormais possible, alors qu'elle n'était réalisable que sur un très bon kit il y a 10 ans. Qui sait à quoi ressembleront les choses dans 30 ans.

  • Définissez votre fenêtre d'archivage pour 5 ans.
    • Dans l'immédiat, une baie de stockage plus large devrait suffire (
      • un disque gros et lent de 50 To peut être acheté pour moins de 70 000 $, peut-être bien en dessous.
      • Un lecteur de bande LTO5 et 50 bandes (bien plus de 50 To) peuvent être achetés pour moins de 15 000 $.
  • Le format dans lequel vous stockez votre vidéo dépend de vous.
  • Commencez à rechercher et à convertir toutes vos anciennes données dans ce nouveau stockage.
  • Au bout de 5 ans, faites une autre évaluation complète de votre environnement d'archivage.
    • Quels formats utilisez-vous?
    • Quels sont les nouveaux formats?
    • Quels codecs semblent être des impasses et quels supports avez-vous stockés codés de cette façon?
    • Décidez comment vous allez migrer vers des méthodes de stockage plus récentes (formats de données, disque / bande / autre) et dépensez de manière appropriée.
  • Répétez 6 fois.

Cela devrait vous amener à 30 ans.

sysadmin1138
la source
+1, Si vous essayez vraiment d'être bon marché, vous pouvez probablement vous en sortir tous les 10 ans. Il y a dix ans, les disques ATA-66 et 100 étaient les disques durs préférés, et il existe encore des technologies pour les connecter. Mais il y a déjà des ordinateurs qui manquent d'en-têtes IDE, une technologie vieille de dix ans devient incertaine.
Chris S
6
+1 pour les bons points sur la copie, mais -1 pour affirmer que les formats deviendront illisibles. Une fois que les données sont disponibles sur un support copiable, ces fichiers ne risquent pas de devenir illisibles à moins qu'ils ne soient dans un format TRÈS étrange. L'archivage sur quelque chose de très courant comme MPEG2 est extrêmement susceptible d'être un format durable. Le transcodage de vidéo avec perte est un processus avec perte. Cela ne devrait pas être fait. Garder un codec vidéo grand public ne nous coûte pas grand-chose ...
Paul McMillan
@Paul Merci pour les conseils. La dernière fois que je fréquentais régulièrement des vidéos, il y a 7 ans, je suis rouillé.
sysadmin1138
Merci beaucoup pour l'évaluation détaillée et les conseils! Nous ferons de notre mieux avec notre budget informatique malheureusement limité. Je suis ravi que vous tous et serverfault.com soyez là pour vous aider.
hpy
oui, nous avons parcouru un chemin. Pourtant, je n'ai aucun problème à lire des fichiers AVI de 17 ans à partir de Windows 3.1 jours. L'astuce consiste à choisir des formats déjà largement utilisés.
Paul McMillan
11

Je suis totalement d'accord avec le post de sysadmin1138 à tous égards, sauf une mise en garde - je ne pense pas que vous aurez le budget pour vraiment réaliser ce que vous voulez.

Il y a 5 fonctions principales que vous devez créer;

  • une politique de contenu et de catalogue standardisée - je sais que vous voulez tout stocker dans un seul format mais vous devriez vraiment en considérer deux - PDF pour les images et H.264 pour la vidéo - les deux sont des formats de support à long terme avec du code multiplateforme qui seront presque certainement être soutenu par une partie ou une autre pendant 25-50 ans dans leur forme actuelle simplement en raison de l'utilisation existante dans le monde entier.
  • un catalogue ou CMS pour indexer et publier le contenu.
  • un système «d'ingestion de contenu» - cela prendra tous vos médias, emballera, encodera, stockera et mettra à jour le catalogue pour chaque nouveau contenu. Vous aurez également besoin d'un contrôle manuel ou automatisé de la qualité du contenu.
  • un magasin de contenu principal - celui-ci aura deux blocs de stockage principaux; un petit pour contenir le contenu d'origine pendant qu'il est transcodé / vérifié et un bloc beaucoup plus grand pour contenir le contenu «près». C'est l'une des seules utilisations valides de RAID 6 que j'ai rencontrées, mais essayez ici d'utiliser des disques de qualité d'entreprise qui ont un «cycle de service» 24x365.
  • système de sauvegarde à long terme - c'est là que l'argent réel sera dépensé, vous devrez sélectionner un fournisseur qui offre une capacité de sauvegarde véritablement à long terme. Si je faisais cela maintenant, j'irais toujours avec une bande sur disque uniquement pour des raisons de longévité des données, peut-être par IBM car ils ont beaucoup d'expérience dans ce domaine. Vous devez également tenir compte du fait que vous devez également effectuer des restaurations de bande et des vérifications de données régulières, ce qui signifie que vous aurez besoin d'un troisième bloc de stockage au moins aussi grand que la plus grande bande que vous avez - et les systèmes à vérifier aussi bien sûr. En plus de cela, vous devrez vous assurer que le logiciel de sauvegarde que vous utilisez existera également pendant longtemps, quelque chose comme TAR sur * nix est susceptible d'exister pendant un certain temps, mais il peut ne pas vous donner ce que vous voulez. assurez-vous que cela n'est pas ignoré par votre fournisseur de bandes.

Donc, ce que vous voulez faire peut être fait, je l'ai fait moi-même plusieurs fois au cours des deux dernières décennies, mais aucune n'était bon marché, je le crains.

Bonne chance.

Chopper3
la source
Le PDF pour les images semble être une façon assez horrible de le faire. Oui, absolument PDF pour les documents, mais gardez les images au format TIFF ou JPEG selon votre format de sortie. Il est peu probable que la capacité de les lire disparaisse.
Paul McMillan
Merci pour les conseils! Si je pouvais signaler deux réponses acceptées, je le ferais. :)
hpy
1
c'est ok penyuan, 1138 et sont des bourgeons;)
Chopper3
2
Honnêtement, la difficulté avec tout type de système CMS est qu'il est susceptible d'être la première partie la plus obsolète d'un système. Vous feriez presque mieux de demander à tout le monde d'écrire un fichier texte ASCII avec quelques descriptions de base et de le stocker avec vos données brutes. Tout CMS ou système automatisé va vieillir sur une échelle de quelques années.
Paul McMillan
3

Les autres ont donné de bons conseils sur la façon de sauvegarder vos médias. Je vous suggère de passer du temps de qualité à consulter la bibliothèque des directives du congrès:

http://www.digitalpreservation.gov/formats/index.shtml

Vous pouvez également envisager de créer un tableau ZFS à bas prix. Vous pourriez probablement faire quelque chose pour répondre à vos besoins pour moins de 10 000 $. Au fur et à mesure que les disques meurent, remplacez-les par des plus grands, et ainsi votre capacité de stockage augmente à mesure que vous générez des données. Cela vous permettrait probablement de continuer pendant un certain temps, et vous pouvez le remplacer par un appareil de plus grande capacité lorsqu'il vieillit. L'avantage est que vos données sont en ligne (et donc accessibles si nécessaire), et sont relativement bien protégées contre le bitrot, un problème sérieux lorsque vous avez autant de données.

Une option de construction décente a été mise en place ici:

http://www.zfsbuild.com/

Paul McMillan
la source
2

Aussi difficile que cela soit pour les technologues, je recommanderais d'arrêter immédiatement de penser aux disques et à la technologie. Décomposez votre problème commercial en éléments sur lesquels vous devez prendre des décisions.

Exemple:

  • Comment allez-vous gérer la conversion de formats de bandes numériques analogiques / divers en supports numériques pouvant être stockés sur une sorte de stockage numérique?
  • Comment allez-vous gérer le contenu et les métadonnées associées? Le stockage est facile - vous pourriez tout mettre sur une bande LTO et le stocker dans une ancienne mine de sel, mais vous n'auriez pas accès aux données.
  • Êtes-vous en train de réinventer la roue? Si vous êtes dans une université, existe-t-il déjà des solutions de gestion de contenu disponibles de manière centralisée? Ou si vous devez acheter / créer votre propre gestion de contenu, existe-t-il une infrastructure centralisée dont vous pouvez acheter un morceau? (Bande, stockage d'objets, SAN)
  • Quelles sont les vraies exigences commerciales? Que voulez-vous vraiment garder et pourquoi? Souvent, lorsque vous creusez vraiment dans le vif du sujet, les véritables exigences de conservation à long terme ne s'appliquent en fait qu'à un petit sous-ensemble de données.
duffbeer703
la source
1

Sachez que si vous stockez des données dans un format avec perte, puis les convertissez en un autre format avec perte, puis en un autre, votre qualité vidéo se dégradera à chaque transition.

Ce qui suit parle d'audio, mais la même chose s'applique généralement:

Vous pouvez convertir n'importe quel format audio en Ogg Vorbis. Cependant, la conversion d'un format avec perte, comme MP3, vers un autre format avec perte, comme Vorbis, est généralement une mauvaise idée. Les encodeurs MP3 et Vorbis atteignent des taux de compression élevés en jetant des parties de la forme d'onde audio que vous n'entendrez probablement pas. Cependant, les codecs MP3 et Vorbis sont très différents, donc ils jetteront chacun différentes parties de l'audio, bien qu'il y ait certainement un certain chevauchement. La conversion d'un MP3 en Vorbis implique de décoder le fichier MP3 dans un format non compressé, comme WAV, et de le recompresser à l'aide de l'encodeur Ogg Vorbis. Le MP3 décodé ne contiendra pas les parties de l'audio d'origine que l'encodeur MP3 a choisi de supprimer. L'encodeur Ogg Vorbis supprimera ensuite les autres composants audio lors de la compression des données. Au mieux, le résultat sera un fichier Ogg qui sonne comme votre MP3 d'origine, mais il est très probable que le fichier résultant sonnera moins bien que votre MP3 d'origine. En aucun cas, vous n'obtiendrez un fichier qui sonne mieux que le MP3 d'origine.

Étant donné que de nombreux lecteurs de musique peuvent lire des fichiers MP3 et Ogg, il n'y a aucune raison pour que vous deviez basculer tous vos fichiers dans un format ou dans l'autre. Si vous aimez Ogg Vorbis, nous vous encourageons à l'utiliser lorsque vous encodez à partir de sources audio originales sans perte (comme les CD). Lors de l'encodage à partir d'originaux, vous constaterez que vous pouvez créer des fichiers Ogg plus petits ou de meilleure qualité (ou les deux) que vos MP3.

(Si vous devez absolument convertir de MP3 en Ogg, plusieurs scripts de conversion sont disponibles sur Freshmeat.)

http://www.vorbis.com/faq/#transcode

Il est donc préférable de choisir un format sans perte, car une fois que vous avez choisi un format avec perte, vous êtes coincé avec celui-ci.

Trigonométrie
la source
3
La vidéo sans perte n'est actuellement pas pratique à stocker. Il est tout simplement trop coûteux d'archiver des concerts par minute de métrage. Choisissez un codec avec perte dont vous êtes satisfait et qui est largement utilisé, et laissez vos médias dedans.
Paul McMillan
Merci pour le bon point sur la perte sans perte, nous allons certainement y réfléchir sérieusement.
hpy
1

Peut-être que quelque chose me manque, ne pourriez-vous pas tout encoder en utilisant un format ouvert où le code source des codecs est disponible, puis coller le tout sur Amazon S3?

De cette façon, Amazon doit se soucier du stockage réel des données et, à moins qu'aucun ordinateur ne puisse compiler C / C ++ dans 30 ans, vous pourrez obtenir les informations ...

Riches
la source