Voilà déjà plus de cinq ans que le HDR et son cortège de sigles barbares font parler d’eux (HLG, PQ, EOTF, BT2100…), laissant encore perplexes bon nombre de vidéastes mais pas de panique, cela n’a rien d’irréversible…
La dynamique en vidéo et dans le monde réel
En vidéo, on appelle « dynamique » le rapport entre le niveau de luminance le plus élevé et le niveau le plus bas. La mesure de la luminance est le cd/m2 (candela par m2) aussi appelé « nit ». Dans le monde réel, la plus grande luminance connue est celle de la lumière directe du soleil soit environ 1 500 000 cd/m2. Dans les luminances extrêmement faibles, on pourrait citer, par exemple, la luminance d’un ciel de nuit étoilé, sans lune à 0,0001 cd/m2. Le rapport de ces deux valeurs, donc la dynamique dans le monde réel, est absolument gigantesque. Bien entendu, aucune caméra ni même l’œil humain n’est capable de l’encaisser. À titre de comparaison, le pic de luminance d’un écran de cinéma est de 48 cd/m2, celui d’un PC, tablette ou smartphone est 100-200 cd/m2. Une TV moderne est à 300-400 cd/m2 et une TV HDR actuelle de 800-1500 cd/m2.
Dans le monde réel, l’iris de notre œil (à la manière du diaphragme d’une optique) s’ajuste automatiquement et inconsciemment, pour exposer la rétine avec une luminance moyenne constante. Ainsi, nous pouvons voir une scène de très haute luminance (extérieur jour) ou une scène de plus faible luminance (intérieur jour), en conservant la même sensation de luminance moyenne (après ajustement de l’iris). Même si le système de vision humain permet de voir des luminosités entre 10-6 et 108 en s’adaptant, la mesure de la dynamique de notre œil doit se faire à « iris constant ». Cette dynamique est d’environ 100 000. Par exemple en journée, nous verrons correctement entre 1 et 100 000 cd/m2. Dans un contexte plus sombre, et après adaptation de l’iris, nous verrons correctement entre 0,01 cd/m2 et 1 000 cd/m2. Dans les deux cas, c’est la même dynamique de 100 000. C’est cette « haute dynamique » que la technologie HDR va tenter de reproduire.
Genèse et enjeux de la TV-HDR
Les formats d’images HD et UHD (définis par les recommandations BT709 et BT2020) sont, malgré leurs qualités, très limités quant à la plage dynamique d’image qu’ils peuvent offrir. En effet ils reposent sur des caractéristiques héritées des vieux téléviseurs à tube cathodique (CRT) dans lesquels la brillance de l’image et le niveau de détail dans les zones sombres sont limités. Ces formats d’image sont spécifiés pour des écrans dont la luminance est comprise entre 0,1 et 100 cd/m2 (donc une dynamique de 1 000 environ).
La TV-HDR (télévision à grande plage de dynamique) a pour but d’offrir une expérience visuelle améliorée en exploitant les performances des nouveaux écrans (notamment Oled et Qled), qui peuvent afficher des zones lumineuses beaucoup plus intenses (jusqu’à 1 500 cd/m2 pour l’instant) et des zones sombres plus détaillées (jusqu’à 0,0001 cd/m2).
L’enjeu de la TV-HDR est d’afficher des images de grande dynamique « correctement », c’est-à-dire de ne pas incommoder le spectateur par un niveau de luminance moyenne trop élevé ou des valeurs de luminance incohérentes par rapport à la narration. Par exemple, une scène de nuit avec des visages à 800 cd/m2 sur le téléviseur, serait incohérente et incommodante. Si en matière artistique tout est permis, certains téléviseurs HDR ne peuvent de toute façon pas afficher tous leurs pixels au maximum de leur luminance pour des raisons de consommation et d’ergonomie.
Il est à noter que la grande luminosité des écrans HDR présente aussi l’avantage de rendre un moniteur de terrain plus exploitable en plein jour. Ici, il s’agit de pousser la luminosité, c’est-à-dire la valeur moyenne de luminance, mais en aucun cas de faire de la TV-HDR, car cette dernière conserve la luminosité moyenne. Son apport est d’offrir plus de nuances dans les hautes et les basses lumières.
Ceux qui ont testé le HDR ont remarqué une sensation de définition accrue. En effet, il y a un lien étroit entre définition et dynamique. La définition perçue augmente lorsque deux pixels voisins affichent un écart de luminance suffisamment grand pour que l’œil puisse les distinguer.
Lorsque la dynamique de l’image augmente, ces écarts de luminance entre pixels sont étirés et par conséquent, l’œil distingue plus de pixels. D’où la sensation de résolution augmentée, de réalisme, de profondeur, voire de relief. En fait, il est avéré que le HDR bien maîtrisé offre une expérience bien plus améliorée qu’une augmentation de la résolution de HD à 4K. De plus, cette dernière implique une augmentation de la bande passante de 400 % (ou de 250 % environ après compression), tandis que le passage de SDR à HDR a un impact très faible sur la bande passante (seulement l’ajout de métadonnées).
Un deuxième enjeu est la rétrocompatibilité avec les écrans SDR. Comme pour le passage du noir et blanc à la couleur, il faut trouver une combine pour que l’image transmise s’affiche aussi bien sur des téléviseurs SDR que HDR. Pour la couleur, la combine a consisté à séparer le signal en deux composantes (luminance et chrominance). Pour le HDR, la combine s’appelle le HLG (voir plus loin).
Le monde d’avant et le monde d’après (un peu de technique)
La variété et les performances des nouveaux écrans HDR impliquent de suivre certaines recommandations pour la production et l’échange de programmes à l’international. En l’occurrence, les paramètres de l’image TV-HDR sont spécifiés dans la recommandation BT2100 de l’ITU, dans laquelle deux méthodes sont décrites : le PQ et le HLG.
Dans le « monde d’avant », les écrans SDR affichent une luminance qui suit la valeur du signal vidéo de manière exponentielle. C’est le fameux gamma de 2,2 (ou 2,4), fonction caractéristique des tubes cathodiques (et aussi intégrée aux écrans plus récents). Pour des raisons économiques, ce sont les caméras qui, en amont, corrigent ce défaut en appliquant une courbe inverse : la fameuse correction de gamma de 0,45. Ainsi, la caméra convertit la lumière en signal vidéo suivant cette courbe en 0,45 puis l’écran affiche ce signal suivant la courbe inverse en 2,2. Comme 0,45 x 2,2 = 1, la luminance affichée est bien cohérente (linéaire) par rapport à la luminance captée.
Il s’agit là du concept des trois fonctions : •
EOTF OETF et OOTF, que nous allons utiliser en HDR.
- OETF : Opto-Electronic Transfer Function. Fonction qui convertit la luminance de la scène en signal vidéo (en SDR, c’est la courbe de gamma ou Log de la caméra).
- EOTF : Electro-Optical Transfer Function. Fonction qui convertit le signal vidéo en luminance sur le système d’affichage (en SDR, c’est le gamma de 2,2 des téléviseurs).
- OOTF : Opto-Optical Transfer Function. Fonction qui établit l’« intention de rendu » c’est-à-dire la correspondance entre la luminance de la scène réelle et la luminance affichée sur l’écran. OOTF = OETF + traitement + EOTF.
Dans le monde d’après, celui de la TV-HDR, la courbe de gamma « 709 » n’est plus acceptable car elle n’est pas capable de convertir plus de six ou sept diaphs de dynamique (même après l’adjonction de la fonction « knee »). Pour la TV-HDR, minimum dix diaphs de dynamique sont nécessaires. Il faut donc utiliser la courbe log de la caméra comme nouvelle OETF.
L’EOTF de l’écran HDR est soit une courbe PQ soit une courbe HLG (les deux faisant partie de la recommandation BT2100). La courbe PQ (standard SMPTE ST.2084) est une EOTF prévue pour afficher un signal vidéo dans une plage de luminance allant de 0,0005 à 10 000 cd/m2 (c’est large !). Cette courbe est basée sur les caractéristiques de la perception de l’œil humain. À chaque valeur du signal vidéo est associée en valeur de luminance absolue. Cette courbe PQ est définie pour transmettre des images sous forme de Blu-ray, diffusion TV, streaming, cinéma, vers des supports allant de la tablette à l’écran de cinéma, en passant par le mur à Led d’extérieur. Il est donc indispensable d’acheminer, en plus du signal vidéo, des métadonnées pour s’adapter à la plage de luminance des écrans.
Deux métadonnées sont utilisées : MaxCLL (Maximum Content Light Level) indique la luminance maximum de chaque pixel, et MaxFALL (Maximum Frame Average Light Level) indique la luminance moyenne maximum de l’image en cd/m2. Attention aux films piratés qui auraient perdu leurs métadonnées : le résultat peut être catastrophique.
La courbe HLG (Hybrid Log Gamma, standard ARIB STD-B67) proposée par la NHK et la BBC est une OETF (côté caméra) prévue pour des luminances maximum de 1 000 cd/m2. Elle présente une qualité indispensable : la rétrocompatibilité avec les écrans SDR. C’est donc un format idéal pour des captations live (avec projection ou affichage HDR en direct) et retransmission en direct, ou bien pour la diffusion TV en général.
Le HLG est la juxtaposition d’un gamma de type Rec. 709, qui convertit les lumières jusqu’à 100 cd/m2 et d’une courbe log qui convertit les hautes lumières entre 100 et 1 000 cd/m2. D’où le nom : Hybrid Log Gamma. Cette courbe a l’avantage de s’étirer en fonction des caractéristiques de l’écran, mais en revanche le rendu sera différent selon l’écran.
De quoi ai-je besoin pour ma production HDR ?
Dans le cas d’une production classique (non live), la fabrication du HDR se fait en postproduction, sans nécessairement penser en HDR au moment de la captation. Ce qui veut dire que bon nombre de vos productions existantes en SDR peuvent être converties en HDR.
Pour un travail rigoureux, il peut être intéressant d’avoir sur le terrain un moniteur HDR, chargé avec la bonne LUT, afin de contrôler l’image en HDR et de travailler l’exposition et la lumière en amont pour un rendu final HDR optimal.
La seule chose demandée à la caméra est d’avoir une dynamique de dix diaphs minimum (caractéristique de l’ensemble du capteur + courbe Log), et un enregistrement sur 10 bits minimum. Aujourd’hui, la majorité des caméscopes pros et semi-pros (y compris les appareils photos hybrides) sont donc adaptés.
Dans le cas d’une captation live en multi-caméras, il sera préférable que chaque caméra envoie vers la régie un signal HDR déjà prêt à être visionné en HDR comme en SDR, pour les téléspectateurs non équipés de TV HDR, mais aussi pour éventuels écrans et projecteurs utilisés pour le show. Le HLG est justement fait pour ça. Les téléviseurs SDR (gamma 709) afficheront une image correcte, à l’exception du haut du signal vidéo (les hautes lumières) qui ne sera pas détaillé. Les téléviseurs HDR devront être réglés sur HLG dans les menus et afficheront la même image qu’en SDR, mais avec plus de détails dans les hautes lumières, donc une image HDR. Aujourd’hui un grand nombre de caméras de studio et de caméscopes pros sont capables d’envoyer un signal au format HLG sur une sortie vidéo.
Les différents formats et labels HDR
Le label Ultra HD Premium est une certification délivrée par l’Ultra HD Alliance aux TV garantissant, entre autres, une compatibilité du format HDR PQ, avec des niveaux de luminance compris entre 0,05 et 1000 cd/m2 pour les Led et 0,0005 – 540 cd/m2 pour les Oled.
Le format HDR10 utilise la courbe PQ (ST.2084), un encodage 4:2:0, 10 bits, l’espace couleur (Rec 2020) et les métadonnées (ST.2086) MaxCLL et MaxFALL. En HDR10, les métadonnées seront enregistrées pour l’ensemble du film.
En HDR10+, les métadonnées peuvent être enregistrées plan par plan, voire image par image. Ce format est adopté par Panasonic Samsung et la 20th Century Fox.
Le Dolby Vision développé par Dolby utilise la courbe PQ avec en quantification 12 bits, mais surtout avec des spécifications de workflow rigoureuses assurant une grande fidélité par rapport à l’intention du réalisateur. Le récent Dolby Vision IQ, développé avec Panasonic et LG, propose une gestion intelligente de la luminosité s’appuyant les capteurs de luminosité ambiante des téléviseurs.
Technicolor HDR (LG et Phillips) est un système HDR qui vise l’universalité avec notamment l’avantage de pouvoir afficher du HDR à partir de n’importe quelle source SDR.
Eclair Color propose un workflow et une technologie basés sur des projecteurs Sony et Barco Laser 4K permettant de projeter un film en HDR avec une dynamique de 0,01 à 103 cd/m2.
Imax Laser propose des systèmes de captation (70 mm, 15 perfos !) et projection HDR (laser 4K HDR 3D) d’images de très grande taille (Imax = Image Maximum) dans un environnement contrôlé (salle, son, vidéo).
Article paru pour la première fois dans Moovee #4, p.18/22. Abonnez-vous à Moovee (6 numéros/an) pour accéder, dès leur sortie, à nos articles dans leur intégralité.