Dossier : Stockage – Archivage – Écologie

Le thème de l’archivage des données concerne toutes les entreprises. Des stratégies doivent être réfléchies selon l’importance de la sécurisation des données, leur accessibilité et les coûts. Entretien avec Julien Demeulenaere, spécialiste du stockage et de la bande magnétique.

Publié le 13/07/2023

 

Dans nos univers de l’audiovisuel et du cinéma, la quantité de médias en constante augmentation avec l’évolution des formats rend le sujet encore plus critique. Une autre préoccupation brûlante est le déclin écologique de notre monde. Nous avons voulu profiter de la qualité de vulgarisation de Julien Demeulenaere, spécialiste de la bande et du stockage chez IBM, pour faire le point sur les technologies actuelles, les pratiques d’archivage et les solutions les plus écologiques ou les moins impactantes.

 

Julien Demeulenaere, spécialiste de la bande et du stockage chez IBM © IBM

Quelles sont les solutions de stockage les plus écologiques ?

Julien Demeulenaere : Aujourd’hui, il y a trois systèmes de stockage. Le plus récent et le plus rapide est la mémoire flash. Le disque dur capacitif est un média magnétique beaucoup plus ancien. Il a été inventé par IBM. La bande magnétique (tape) est l’ancêtre du stockage informatique, c’est aujourd’hui la technologie la moins chère et la plus écologique. Toutes les technologies de stockage ont deux coûts : le Capex (coût d’acquisition) et l’Opex (coût d’opération). Une technologie économique en termes d’Opex est très rentable sur de longues durées d’utilisation. La bande étant l’unique technologie n’utilisant aucune énergie quand elle ne fonctionne pas, elle est plus écologique que les autres. Aucune technologie actuelle ou en développement dans les laboratoires ne peut la concurrencer. Des recherches intensives sont menées pour stocker des données sur ADN, mais les premières applications pratiques seront disponibles sur le marché dans, au minimum, deux décennies.

 

Qu’est-ce que le stockage sur ADN ?

L’ADN est le composant clé de la vie en général. Il y a quatre types de symbole d’ADN, les lettres A-T-C-G représentant chacune une molécule très précise. Le principe consiste à écrire un ADN « from scratch » pour encoder l’information. C’est un stockage biologique que l’on peut transcrire en informatique et relire avec des machines. Cela fait déjà plus de quinze ans que l’on sait séquencer l’ADN. L’information serait écrite d’une autre manière, en A-T-C-G plutôt qu’en O et 1.

 

L’ADN est peut-être l’avenir du stockage et de l’archivage de données. © DR

 

Comment l’information sera-t-elle stockée ?

Notre ADN est stocké dans nos cellules. Le stockage d’informations exploiterait un milieu biologique neutre dans des petites capsules ressemblant à de gros suppositoires. Ce volume représente un potentiel de données record à des échelles de comparaison très éloignée de toutes les technologies actuelles.

 

Structure d’ADN et les quatre types de bases nucléiques – A-T-C-G – © Zephyris, CC BY-SA 3.0 via Wikimedia Commons

Cette technologie est-elle envisageable à terme ?

La technologie fonctionne déjà en prototype. Le challenge consiste à la rendre industriellement fiable et économiquement intéressante. Aujourd’hui, on peut réécrire de l’ADN sur des brins neutres. Il faut ensuite les stocker et les relire. La police scientifique utilise le séquençage très facilement à partir d’échantillons d’ADN récupérés sur les scènes de crime. Le stockage et la lecture sont maîtrisés. Le problème est l’écriture réalisée bit par bit. Les débits sont très faibles et la technologie extrêmement coûteuse. À très long terme cela pourra être une solution écologique car ne consommant aucune énergie (hors lecture) et avec un média (l’ADN) d’extrême qualité. C’est absolument génial !

 

Structure d’une bande magnétique. © IBM

Concernant les coûts de Capex et d’Opex, y a-t-il une quantité de stockage à partir de laquelle il devient avantageux de passer sur de la bande magnétique ?

Les limites sont liées à l’utilisation plus qu’à des contraintes physiques. Tout le monde peut utiliser la technologie « bande magnétique ». Un particulier ou une petite entreprise traitant très peu de données n’auront cependant pas forcément envie de multiplier les types de supports de médias et de complexifier la gestion de leur stockage. Il est essentiel de dupliquer les données pour les sécuriser, mais le support peut être le même. Même un particulier possédant de nombreux films sur mémoire flash peut les archiver sur disques durs capacitifs, sensiblement plus abordables pour stocker des données dites « froides ».

En passant à l’échelle supérieure du pétaoctet (1 000 téraoctets), on commence à envisager la solution de la « tape ». De telles quantités de stockage ne concernent jamais des données « chaudes » qui doivent être disponibles dans la seconde. Le chiffre du pétaoctet est symbolique, car on change d’échelle de grandeur. En 2023, la limite réellement constatée pour commencer à archiver sur bande magnétique est de 3 à 4 Po en conservant 25 à 30 % de données sur disques flash.

 

Réduction des émissions de CO2 en comparant la bande au HDD. © IBM

Les utilisateurs conservent plus d’un quart de leurs données en stockage « chaud » ?

Plus la volumétrie de stockage est importante, plus grand est le pourcentage de données stockées sur bande. Il existe également un marché de niche d’utilisateurs qui exploitent la bande pour des enveloppes volumétriques beaucoup plus petites en connaissant parfaitement les contraintes. Mais dans le monde de l’entreprise, les certitudes sont rarement tranchées sur les besoins d’accès. Par défaut les données sont donc stockées sur des médias chaud (flash ou disques capacitifs) pour être sûr de pouvoir y accéder facilement.

Il serait possible d’avoir un seuil de stockage sur bande beaucoup plus bas, mais il faudrait que les utilisateurs soient plus attentifs et éduqués. C’est une question d’hygiène informatique. Par défaut le comportement humain nous incite à vouloir tout, tout de suite, et c’est très naturel. Concernant l’indexation et l’accès aux médias, une avancée fondamentale a été permise grâce au formatage de la bande en LTFS disponible depuis plus de quinze ans. Il permet à la bande d’intégrer son propre index pour connaître le contenu du support sans dépendre d’un logiciel propriétaire.

 

La technologie « tape » devient certainement intéressante avec des systèmes automatisés ?

De ce point de vue, l’audiovisuel est en avance, grâce à l’exploitation de logiciels de MAM (Media Asset Management) et de CSM (Content Software Management). Le marché est extrêmement riche avec des dizaines d’offres disponibles, et des sociétés qui proposent des solutions ingénieuses pour gérer les médias efficacement.

 

Existe-t-il des outils abordables dédiés au monde de l’audiovisuel, par exemple pour l’archivage de petites sociétés de production ?

IBM, leader de la « tape » depuis de nombreuses années, a mis en place une solution facile d’accès pour tous ses utilisateurs. Le logiciel Spectrum Archive permet de lire n’importe quelle bande écrite au format LTFS. Il s’installe sur tout type d’ordinateur et est disponible gratuitement. Aujourd’hui, et c’est un point fondamental, il n’y a pas besoin de payer un logiciel pour pouvoir utiliser la tape de manière basique.

 

Tu précises que la bande magnétique est le seul support qui ne consomme pas d’électricité hors utilisation. N’est-ce pas également le cas si on déconnecte les disques durs ?

C’est effectivement vrai pour les disques durs externes en USB qui ne consomment rien lorsqu’ils sont débranchés. Ce sont de très bons systèmes pour les particuliers. Dans le monde de l’entreprise, les disques sont connectés en grappe pour des questions de redondance avec des systèmes en Raid. Ils sont donc en veille et consomment en permanence quelques watts.

 

Ne serait-il pas envisageable de débrancher le Raid pour le reconnecter au moment opportun et ainsi ne plus rien consommer ?

C’est possible pour une PME, mais cela n’a jamais été mis en œuvre à grande échelle, parce que l’automatisation des accès serait perdue et cela nécessiterait des manipulations humaines impensables dans un data center. Dans le monde de l’entreprise, les bandes magnétiques sont manipulées par des robots, mais il n’existe pas aujourd’hui de robotique dédiée aux disques durs.

Sony, en collaboration avec Facebook, avait fabriqué des robots pour manipuler des disques optiques Blu-ray. Ils ont beaucoup travaillé sur cette technologie il y a cinq ou dix ans, mais l’intégralité du projet a été abandonnée en 2019. Les calculs ont démontré que cette technologie ne concurrencerait jamais la bande.

En fonction des cas d’usage, on exploite des combinaisons de technologies pour des stockages froids, tièdes ou chauds, dits encore online ou offline. Dans les data centers, le terme offline n’existe pas. Même les données froides sur bande doivent rester accessibles. Ces dernières disposent d’un buffer en flash qui permet grâce à un index de simuler une connexion permanente de la bande, même si elle doit être rapatriée dans le lecteur par un robot. Ce concept est maîtrisé depuis plus de vingt ans.

 

Peux-tu préciser les chiffres de vitesse, durée et fiabilité entre les différentes technologies de stockage ?

Le débit d’un lecteur à bande magnétique actuel est de 400 MB/sec, par contre le temps d’accès à la donnée est en moyenne d’une minute. Le temps d’accès est dû au chargement de la bande et au déroulement de la cassette pour atteindre les données. Il y a plus d’un kilomètre de bande dans une cassette. Si les données sont au début de la bande, l’accès se fait en dix secondes et jusqu’à deux minutes en fin de bande, soit une moyenne d’une minute.

La dernière génération LTO 9 propose 18 To par bande, le format propriétaire Jaguar 20 To. La nouvelle génération de Jaguar est attendue cette année avec une augmentation de capacité record par cartouche. Comme habituellement, IBM exploitera cette technologie propriétaire entre trois et cinq ans, avant qu’elle soit disponible sur LTO. Les derniers médias Jaguar et LTO 9 de nos partenaires du consortium LTO affichent une durée de vie de cinquante ans (trente ans en LTO 8). C’est une énorme durée que personne n’exploitera. Au bout de dix ans seulement, la durée d’exploitation moyenne des supports de stockage, les médias deviennent trop petits et trop lents.

Au-delà des performances, il y a des questions de place au sol. Aujourd’hui, un exaoctet soit 1 000 pétaoctets de données sont stockées sur une surface totale de 325 m2. Si demain cette quantité de médias peut être stockée sur 32 m2, même si le précédent matériel est viable, la transition est très avantageuse. Pour l’anecdote, un de nos partenaires norvégien a fait à la demande d’un de ses clients une restauration de données à partir de bandes de 1984 : il a pu restaurer 94 % des données, sachant qu’à l’époque la durée de vie annoncée par les fabricants était d’une vingtaine d’années.

Aujourd’hui, la fiabilité a été très sensiblement améliorée. Les disques durs capacitifs affichent un débit moyen de 250 MB seconde, un peu plus lent que la bande magnétique. Souvent plusieurs disques fonctionnent en parallèle, les débits sont alors améliorés. Le temps moyen d’accès à la donnée est d’un dixième de seconde, et les capacités actuelles atteignent 22 To.

 

Existe-t-il de nouvelles technologies permettant d’augmenter leurs capacités ?

Les disques durs capacitifs exploitent une technologie magnétique comme la bande. La pièce maîtresse responsable de l’essentiel de la performance et de la densité est la tête de lecture et d’écriture : une tête aimantée qui oriente des particules, soit sur le disque, soit sur la bande. Les disques durs actuels utilisent la technologie PMR (Perpendicular Magnetic Recording) qui atteint le maximum de sa densité. La tête de lecture sera incapable de lire ou écrire des bits plus petits physiquement sur la surface du disque. L’industrie va devoir changer de tête.

 

Disque SSD NVMe de Western Dgital. © Western Digital

 

Deux technologies sont développées par Seagate, Western Digital et Toshiba, les trois fabricants de disques durs capacitifs. Le HAMR (Heat Assisted Magnetic Recording) rend les particules plus volatiles en les chauffant à l’aide d’un laser. Le MAMR (Microwave Assisted Magnetic Recording) dirige une petite micro-onde à la surface du disque pour la rendre plus malléable et plus facilement inscriptible. Ces technologies sont entre le prototype et la production. Seagate propose ses premiers disques HAMR 26 To mais avec un prix au téraoctet plus élevé que les disques PMR. La technologie deviendra rentable pour des disques de 30 à 50 To. La fiabilité de ces disques restera à priori équivalente aux modèles actuels, avec des durées d’utilisation de quatre à cinq années pour les grands comptes tels que les GAFA. Leurs besoins en lecture et écriture sont intensifs, loin de ceux des particuliers ou des petites sociétés.

 

Disque dur capacitif. © William Warby

Quels chiffres sont annoncés pour les durées de vie des disques ?

Les chiffres sont annoncés en nombre de lectures et d’écritures. Ce sont ces opérations qui vont user la couche magnétique et provoquer le refus de certaines parties de se réorienter. Les disques vont perdre leur capacité magnétique. La bande a également une limite physique en termes de lecture et écriture, mais elle est très rarement atteinte, parce que ce média est adapté à l’archivage. Un particulier ne rencontrera pas de problème de durée de vie « physique » de ses disques durs, mais généralement au bout de dix ans il le changera parce que les nouveaux modèles équivalent seront dix fois plus gros.

Parfois des personnes tentent de lire d’anciens disques durs et sont surprises de ne pas pouvoir récupérer les données.

 

Quelle en est la raison ?

Au bout d’un certain temps (environ cinq ans), les secteurs d’un disque dur magnétique non connecté perdent leurs magnétisations. Cela dépend grandement de la qualité des disques, mais les données sont alors corrompues.

 

Intérieur d’une cartouche LTO2. © Austinmurphy at English Wikipedia

Quelles sont les caractéristiques des disques flash ?

Le stockage sur disque flash exploite un différentiel de charge électrique. En y injectant du courant, des petits condensateurs conservent une certaine charge. Lorsqu’on lit la charge en y envoyant un courant, si celui-ci sort du condensateur avec le même voltage, un zéro est lu, si la tension est augmentée, c’est un 1. L’exploit technologique consiste à écrire et lire des milliards de cellules. La durée de vie est également exprimée en nombre de lecture/écriture, qui peut potentiellement s’étaler sur des durées assez longues.

Les valeurs sont fortement liées aux technologies, dans un rapport de 1 à 50. Quatre technologies sont actuellement exploitées : SLC, MLC, TLC et QLC. La SLC, Single Level Cell, ne stocke qu’un niveau (O ou 1) : il y a du courant ou il n’y en a pas. La MLC permet de stocker quatre niveaux de courant par cellule, soit 2 bits, la TLC (Triple Level Cell) 3 bits et la QLC 4 bits. Le prototype de PLC permet d’écrire 5 bits. En codant beaucoup plus d’informations sur un même condensateur, on augmente la densité des disques flash qui proposeront des tailles beaucoup plus grandes que les HDD à très court terme. En parallèle, la durée de vie des disques est diminuée. Pour le particulier, cela pose peu de problèmes. Les disques flash durent quatre à cinq ans pour une utilisation modérée, mais en utilisation « entreprise » (comprendre intensif) la durée des disques flash les plus capacitifs peut se limiter à deux ans. Cette technologie est alors certes la plus performante mais aussi la plus onéreuse.

Certaines organisations mixent et optimisent l’utilisation de technologies flash avec des disques résilient à grandes durées de vie et onéreux en « front » pour des données chaudes et des disques moins résilients pour les données « tièdes ». Étant moins sollicités, ils dureront plus longtemps.

Un autre facteur joue sur la vitesse d’exploitation des disques : la connectique. Elle passe de SAS à NVMe. C’est une autre révolution qui commence même à arriver dans les ordinateurs portables. Le gain en vitesse est permis par la parallélisation des accès. En accès séquentiel sur les autres technologies, on arrive rapidement aux limites des « files » de lecture des données. En NVMe, on peut créer jusqu’à 64 000 files de transfert en parallèle. La taille des disques flash va dépendre du nombre de puces utilisées, depuis 128 Go dans les smartphones jusqu’à des valeurs actuelles de 30 To.

 

Y a-t-il des entreprises spécialisées dans l’archivage, sur site ou dans le cloud ? Quels sont les impacts écologiques de ces choix ?

Parmi les sociétés qui proposent une offre d’archivage physique, c’est-à-dire qui prennent en charge vos médias et les sécurisent dans leurs propres data centers, dans des bunkers, le leader du marché est Iron Mountain. Ils proposent notamment une offre optionnelle pour sécuriser les médias en offline et en les rendant disponible en online pour une consultation à distance. Ils ont des entrepôts dans tous les grands pays occidentaux, notamment en France.

Lecteur enregistreur de bande magnétique IBM TS1160. © IBM

Les « cloud providers » proposent également des offres concurrentes. Aujourd’hui, le leader français du cloud est OVH. Ils ont lancé en mars 2023 leur nouvelle offre d’archivage sur bande IBM, qui permet de stocker des données dans leurs propres data centers situés en France. Le tarif avoisinant 1,3 euro par téraoctet et par mois est très concurrentiel. Le leader du marché est AWS. Ils ont inventé cette offre avec leur solution Glacier qui est mature et propose plusieurs options.

 

À quoi correspond la notion d’Egress ?

Dans les stockages cloud sur bande type Glacier, les données peuvent être déversées gratuitement, le coût mensuel dépend de la volumétrie de stockage. Des frais supplémentaires (par gigaoctet) sont facturés pour la récupération des données. Le stockage est cinq fois moins cher, mais n’est pas prévu pour une utilisation en stockage chaud. La barrière d’entrée économique permet de dissuader les gens de récupérer des médias trop souvent.

 

Bibliothèque de bandes StorageTek Powderhorn. © Austin Mills

Est-ce que le cloud peut être une solution « plus écologique » pour l’archivage ?

Le problème est le même pour tout le monde : comment consommer le moins possible ? Le bilan écologique complet doit inclure les consommations et l’empreinte écologique en tonnes de CO2. Nous sommes au début d’une ère de transparence et de communication sur ces sujets. Il était auparavant impossible de calculer ces données faute de chiffres disponibles. IBM a été une des premières sociétés à faire un grand pas en termes de transparence en proposant sur son site Internet l’empreinte carbone de tous ses produits « tape ». Ce travail se poursuit pour d’autres produits. En complément du très bon impact écologique grâce à la consommation électrique nulle hors fonctionnement, les utilisateurs peuvent connaître l’impact de la fabrication des produits (lecteurs, armoires et robotiques) et la consommation en fonctionnement pour calculer un bilan écologique complet.

 

Y a-t-il une réflexion des utilisateurs sur leurs politique d’archivage ? Il serait peut-être plus simple de moins conserver de médias pour devenir plus écologique ?

De plus en plus de médias sont générés, c’est un fait. Dans l’univers des médias la qualité de la vidéo et de l’audio augmentant sans arrêt, la consommation de stockage va augmenter. Y aura-t-il des contraintes législatives pour changer les habitudes plus compatibles avec les enjeux environnementaux ? Les utilisateurs auront-ils une démarche proactive ? Une éducation doit être faite. Que doit-on conserver ? De quelles données peut-on se passer ? Certains clients mettent déjà en place des politiques pour passer plus rapidement leurs données sur des stockages froids, avec de vrais gains. Depuis 2022, toutes les sociétés cotées en bourse doivent communiquer leur empreinte carbone. Elles seront rejointes par toutes les entreprises en 2030. On pourrait souhaiter que cela aille plus vite, mais cela va représenter une très grosse contrainte économique pour des sociétés alors que d’autres régions du monde ne seront pas régulées. C’est une perte de compétitivité directe qui nous rapporte à l’éternel débat entre écologie et économie. La formule magique n’existe pas.

 

Pour un particulier qui souhaite stocker des données sur un disque dur ou dans le cloud, quelle option est la plus écologique ?

Il faut alerter les particuliers qui conservent leurs données sur des disques : il faut les dupliquer. Il y a trop souvent des larmes à cause de perte de données sentimentales ou précieuses. Il ne faut pas se dire qu’une défaillance est possible, mais s’interroger sur quand elle va arriver. Placer les données dans le cloud, c’est une option de facilité opérationnelle parce que ces dernières sont alors facilement récupérables depuis n’importe où, mais l’empreinte écologique est supérieure. Le « cloud provider » effectue plusieurs copies des données. En plus de la fabrication des matériels de stockage qui vous seront dédiés dans le cloud, la partie communication réseau a un grand impact alors qu’elle est inexistante chez vous. Le constat est le même pour les entreprises qui auront une meilleure empreinte si elles stockent leurs médias sur bande et sur site. Dans les entreprises, pour sécuriser les médias, il faut qu’ils soient sur deux sites en cas d’avarie. Pour une meilleure empreinte écologique, il faut éviter de passer par les réseaux Internet très consommateurs et privilégier un transfert via une fibre noire entre deux sites.

En 2022, un de mes clients a effectué la plus grosse migration à ma connaissance avec 350 pétaoctets. Elle a été effectuée avec deux semi-remorques qui ont parcouru 2 000 kilomètres vers le nouveau site. Même si un camion pollue, c’était plus économique et bien plus écologique. La pollution a été largement inférieure à celle qui aurait été générée en utilisant un réseau informatique. Ce client est l’Institut européen de météorologie, l’European Center for Medium-Range Weather Forecast. Il fallait éviter que le camion ait un accident !

 

Article paru pour la première fois dans Mediakwest #51, p. 54-60

Articles connexes

NAB 2025 – Au cœur des innovations du Hall Nord (4/4)

La nouvelle organisation de ce hall a mis en valeur une tendance : l’intégration croissante des technologies IP (notamment ST2110)...

Le pôle fictions de France Télévisions amorce sa révolution à Montpellier

Six ans après leur création, les studios de Vendargues de France Télévisions s’étendent. Avec le soutien de la Grande Fabrique...

SATIS 2024 -CRÉATION et INNOVATION (4/4)

Le succès avéré du Satis 2024 - 8960 visiteurs sur deux jours - est collectif. Ses organisateurs le doivent à...

Entre souveraineté culturelle, streaming offensif et IA : les médias européens cherchent l’équilibre

Lors du Séries Mania Forum, les dirigeants des grands groupes audiovisuels – TF1, M6, France Télévisions, Arte, Disney France –...

Dernier numéro

Découvrez toutes les nouveautés

Dernières Vidéos

Mediakwest, est le premier magazine « multiscreen » destiné aux professionnels de l’audiovisuel, de la télévision, du broadcast, du cinéma, des nouveaux médias et de l’entertainment.

Accès rapide