Conservation numérique : la recommandation de la CST, les technologies et types de stockage (partie 1)

Comment préserver les œuvres cinématographiques et audiovisuelles en numérique ? La réponse vient de la CST et de la Ficam qui ont organisé une rencontre sur ce thème afin de dresser un inventaire des solutions actuelles de conservation numérique. Elles s’appuient toutes sur la recommandation technique CST-RT043 qui est une sorte de code de bonne conduite venant en support des nouvelles obligations d’exploitation suivie des œuvres. Nous abordons ici les grandes familles technologiques et les divers types de stockage ; les offres des entreprises faisant l’objet d’une deuxième partie.
1_AdobeStock_50102974.jpg

 

Faut-il numériser ? Pour tenter de répondre à cette question, on peut évoquer les déboires de la société Gaumont qui a vu disparaître les métadonnées de certaines bobines d’un film à succès, à cause d’un prestataire défaillant. Par précaution, Gaumont avait fait un report sur pellicule 35 mm avant numérisation. Ainsi, cette copie 35 mm de secours a permis au film d’être exploité dans le monde entier. D’où la question : faut-il conserver sur un support film ou bien numériser ? Réponse avec la CST-RT043.

 

 

La recommandation CST-RT043, les bonnes pratiques pour une exploitation suivie

Élaborée en 2017 par un groupe de travail composé de professionnels de l’archivage et de la conservation audiovisuelle, la recommandation CST-RT043 a été publiée en 2018. Elle indique la nécessité de conclure avec le prestataire choisi pour la conservation, un contrat explicite, définissant sans ambiguïté la politique de conservation mise en œuvre : choix des éléments numériques à conserver, contraintes sur les formats à utiliser, précautions à respecter pour assurer la conservation et la réversibilité pour sortir d’un contrat dans de bonnes conditions.

En fin de postproduction, de restauration, ou après inventaire, l’ayant droit doit choisir la nature des éléments numériques de l’œuvre qu’il veut conserver et la qualité des fichiers master dans la perspective de l’exploitation suivie sur une longue durée. Notez que la CST-RT043 ne concerne ni les rushes, ni les fichiers d’exploitation.

Le premier enjeu concerne la préservation de la qualité. Le deuxième enjeu consiste à privilégier l’encodage des éléments média en choisissant des formats standardisés, non propriétaires et documentés, de façon à pouvoir les relire à long terme. L’encodage des éléments média et le format du conteneur doivent être spécifiés par le contrat.

Pour protéger les données, il faut faire au minimum deux copies, dont une dans un format standardisé pour assurer un retour vers un format exploitable dans le futur. Elles doivent être conservées dans des lieux géographiquement différents.

Par ailleurs, pour se prémunir de la perte de données dans le temps, il faut utiliser des codes de contrôle garantissant l’intégrité des données, et définir des stratégies de migration (bande vers disque, par exemple) et de conversion (changement de format). Pour cette dernière opération, il faut évaluer les risques de modifications de l’œuvre recodée (couleur, résolution…) avec l’ayant droit, pour rester conforme à la créativité de l’auteur.

 

Donc, le contrat doit indiquer les éléments méthodologiques concernant :

• la duplication des copies, les conditions physiques de conservation et les contraintes de localisation (en France ou à l’étranger),

• le contrôle d’intégrité,

• l’indexation (nom des fichiers, description du contenu, poids des fichiers) et les algorithmes de contrôle pour l’intégrité,

• l’immatriculation ISAN ou toute autre immatriculation (étiquette, nom des fichiers, description des fichiers, leur poids…),

• les stratégies de migration et de conversion.

 

Entre le prestataire et l’ayant droit, il faut convenir d’un schéma de métadonnées standardisé, lisible dans le futur. Le contrat doit prévoir également les droits d’accès aux données, intégrant les mécanismes de nantissement pour les coproducteurs, les responsabilités du prestataire technique et de ses sous-traitants, et les protections mises en œuvre pour se protéger de la perte, de la détérioration ou des accès malveillants.

Il existe plusieurs manières d’assurer la sécurité d’accès au réseau ; soit par la non-possibilité d’atteindre le réseau, soit par la mise en place de sécurités logicielles ou matérielles. Pour autant, il doit y avoir une gestion des accès aux données, notamment pour les coproducteurs. Les prestataires qui font appel à des sous-traitants doivent offrir des solutions qui garantissent bien cette sécurité, avec un contrôle périodique des contenus.

Pour assurer l’exploitation suivie, il faut prévoir la durée de conservation et les conditions de restitution, révision et prolongation, définir les conditions permettant de cesser, conserver ou effacer. Le plan de réversibilité doit contenir les supports et/ou les méthodes utilisés pour la restitution, le délai de restitution, le périmètre des données et des métadonnées restituées. Enfin, il faut définir le moment où la responsabilité du prestataire n’est plus engagée et où il peut détruire les données.

La recommandation est complétée par des annexes concernant le film de long-métrage, la série animée, l’œuvre audiovisuelle, puis par un glossaire et une liste de références sur les certifications. Les éléments proposés en annexe sont susceptibles d’être révisés sur une période plus courte que la recommandation elle-même, ce qui donne plus de souplesse à ses mises à jour.

 

 

Les grandes familles technologiques

La meilleure technologie utilisée autrefois pour conserver dans le temps, depuis plus de 4 000 ans, c’est la tablette d’argile ! Elle permet la lecture de l’information sans aucun outil particulier. Seule son interprétation reste parfois un problème. D’où la nécessité de choisir des formats non propriétaires ouverts et documentés pour traduire les contenus. De plus, la tablette d’argile ne nécessite pas d’écosystème de lecture (ordinateur, logiciel pour comprendre les données, alimentation électrique…). Qu’en est-il aujourd’hui ?

On utilise des familles technologiques basées sur des supports magnétiques comme la bande LTO (Linear Tape Open) qui fonctionne par génération, avec doublement des capacités de stockage à chaque nouvelle génération (12 To non compressés en génération 8). Elle offre un coût très bas par To.

Quant au disque dur, il commence à arriver en fin de vie, car, d’une part il est limité en capacité (14 To aujourd’hui) et d’autre part, à long terme, il n’est pas très fiable (premières pannes en moyenne au bout de 5 ans).

Son remplaçant, le SSD (Solid-State Drive), n’a aucun problème de capacité (100 To aujourd’hui). Il a une faible consommation électrique, étant dépourvu de partie mécanique tournante, donc plus fiable mais, en revanche, plus cher ! Par ailleurs, les supports magnétiques sont très sensibles aux environnements électromagnétiques, à l’eau, à la poussière, à la chaleur.

Il existe une autre grande famille technologique basée sur des solutions optiques. L’ODA (Optical Digital Archive) de Sony est une solution fiable sur le long terme, mais totalement propriétaire car un disque ODA ne se lit que sur un lecteur Sony. Aujourd’hui, il offre 3,3 To de capacité par cartouche.

Moins connu, le M-disc a l’avantage d’être inscrit sur des galettes inorganiques qui vieillissent beaucoup mieux. Notons que ces deux solutions sont beaucoup moins utilisées que les solutions magnétiques. Certes le film est une alternative, mais il requiert des conditions de stockage exigeantes.

Autres technologies : le système Dots (Digital Optical Technology System) du Groupe 47 qui a l’avantage d’utiliser l’infrastructure LTO, notamment ses robots. Il est capable d’archiver au moins pendant 100 ans, voire plus ! Consulter le site group47.com/what-is-dots/ pour plus d’informations. Et enfin, le PiqlFilm (www.piql.com). Quant au stockage holographique, il n’offre pas un niveau de fiabilité convenable aujourd’hui.

 

 

Deux types de stockage numérique

On distingue le stockage à froid qui consiste à archiver les données peu utilisées, dont on ne pense plus avoir besoin au cours des prochaines années, voire décennies à venir. Le temps d’accès aux données est long (une ou plusieurs semaines). À l’opposé, le stockage à chaud concerne les données activement utilisées ou censées être fréquemment utilisées et les données conservées pour traitement et migration éventuelle vers le stockage à froid. Le coût du stockage à chaud est plus élevé que celui du stockage à froid, mais les coûts d’accès sont plus faibles. Notons que certains prestataires comme Google, Amazon, Microsoft ont ajouté le stockage tiède (Microsoft) avec accès aux données par le cloud.

 

 

Le cloud

Derrière le cloud, il y a des data centers qui constituent les ressources. Le cloud est un ensemble de couches de services qui permettent d’accéder à des ressources machine qui ont été découpées : IaaS (Infrastructure as a Service), PaaS (Platform as a Service) et SaaS (Software as a Service). Plus on est en IaaS et plus on a accès au bas niveau qu’offre un data center, donc accès à la ressource même de la machine. Plus on est en haut niveau (SaaS) et plus on est à un niveau applicatif, sans savoir ce qu’il y a derrière (le type de plate-forme et de serveur, l’OS, etc.).

En 2018, on a recensé 195 data centers neutres (agnostiques au niveau des prestataires et des technologies utilisées) en France, dont 51 en Ile-de-France. Un data center est surdécoupé et on peut avoir plusieurs prestataires qui travaillent sur des clouds privés (applications non accessibles au grand public), publics ou hybrides. Le data center est adapté à tous les besoins. Aujourd’hui, la plupart des données bancaires, militaires ou médicales sont stockées sur data center, ce qui est un gage de fiabilité et de résilience du système. La conservation des données sur plusieurs data centers s’appelle la réplication.

 

 

La certification Up Time

L’Up Time Institut est un consortium spécialisé dans les services de certification. À ce jour, il est le seul organisme à pouvoir certifier un data center. La certification est claire, avec plusieurs niveaux appelés tiers I, tiers II, tiers III et tiers IV. Le tiers I est le minimum que peut offrir un data center. Plus on monte en gamme et plus le data center est difficile à mettre en œuvre.

Notez bien que l’absence de certification ne veut pas dire que le data center est de mauvaise qualité. Amazon c’est 44 % des offres IaaS au niveau mondial ; il n’est pas certifié, mais fournit un équivalent. Le niveau choisi impose des valeurs d’indisponibilité par an (1h06 d’arrêt du data center par an en tiers III et un arrêt autorisé sur 5 ans en tiers IV). Le seul tiers IV en France, c’est le Crédit agricole.

 

 

L’OAIS (Open Archival Information System)

La Nasa a mis en place des recommandations avec le système OAIS qui devrait devenir un standard. Il reprend les principes de la CST-RT043. Il est utilisé à la BNF en France, à la Librairie du Congrès et au MOMA aux États-Unis.

 

 

A suivre demain, une présentation de quelques entreprises présentes sur le secteur de la préservation et du stockage physique et numérique avec ECLAIR PRÉSERVATION // NOIR LUMIÈRE // CAPITAL VISION // KILL THE TAPE // ORFEO // NOMALAB // HIVENTY

Extrait de l’article paru pour la première fois dans Mediakwest #31, p.58/61. Abonnez-vous à Mediakwest (5 numéros/an + 1 Hors-Série « Guide du tournage ») pour accéder, dès leur sortie, à nos articles dans leur intégralité.