Mediakwest - Le son multicanal dans tous ses états : les techniques de spatialisation (2e partie)

mercredi 16 août 2017
Par Gérard Kremer

Les techniques de spatialisation peuvent se classer en quatre groupes spécifiques : la stéréophonie à deux ou à plusieurs canaux, la WFS (Wave Field Synthesis), les systèmes ambisoniques et les techniques binaurales, d’où la naissance de nouveaux formats audio. À la fin de cette seconde partie de notre article*, figure un répertoire des sigles utilisés. Le son multicanal englobe une certaine quantité de formats qui se définissent par le nombre de pistes et le nombre de canaux ou voies de reproduction (HP ou famille de HP) et leur position. Le format multicanal se définit par le procédé de codage utilisé pour un type d’installation sonore spatialisée. On distingue le son surround et le son 3D.

Le son surround, la spatialisation horizontale

Le son dit « surround » englobe un éventail de techniques d’enregistrement, de mixage et de reproduction, appelé « surround » (cerner, encercler, entourer, environner), c’est-à-dire, tout système de reproduction multi-enceintes judicieusement positionnées horizontalement (en avant, en arrière, sur les côtés) dans une salle d’écoute.

Les dispositions sont désignées par un premier nombre correspondant au nombre de canaux large bande passante (20 Hz-20 kHz) et un second à celui des canaux à bande réduite (20 Hz-200 Hz). L’espace est décomposé en canaux discrets dans lesquels chacun d’eux est diffusé vers un ou une couronne de haut-parleurs, comme dans les salles de cinéma, par exemple.

Dans cette famille, on trouve les formats de diffusion suivants : 4.1 (Dolby Pro Logic), 5.1 (Dolby Pro Logic II, Dolby Digital, DTS Digital Surround, DTS HD, DTS HD Master), 6.1 (Dolby Pro Logic IIx, Neo 6, Dolby Digital Ex), 7.1 (Dolby Digital Plus, Dolby True HD, DTS HD Audio), 9.1 (Dolby Surround IIz),10.2 (T. Holman), 11.1 (DTS Neo X) et 22.2. Ce dernier, composé de trois couches : horizontale (5/2/3), supérieure (3/2/3/1) et inférieure (3+2sub), est utilisé avec le procédé vidéo japonais en 8K, exploité par la NHK au Japon, pour le son 3D.

Outre ce dernier, les systèmes de spatialisation horizontale n’offrent pas de dimension verticale du son, comme ceux que l’on peut regrouper sous l’appellation de « son 3D ».

Le son 3D

Avec les projections en relief, le son 3D est vite apparu dans les films à gros budget. Il prend en compte la verticalité du son en utilisant, en plus des haut-parleurs surround, des haut-parleurs de plafond. Deux approches sont proposées aujourd’hui pour la restitution de l’espace audio : l’approche orientée canal avec l’Auro-3D en 11.1, 12.1 et 13.1 pour le cinéma et le Dolby Atmos.

La technologie de l’Auro-3D a été développée par Barco et le belge Wilfried Van Baelen des studios Galaxy ; elle ajoute une couche, en hauteur, d’une demi-douzaine d’enceintes. D’ailleurs, Barco prévoit une nouvelle version de ce procédé par une approche objet, cette fois avec l’Auromax, qui sera basée sur un format ouvert d’encodage et décodage des métadonnées accompagnant les objets.

Le concurrent Dolby crée, lui, en avril 2012, le Dolby Atmos (pour Atmosphère). Il améliore la spatialisation dans les salles, notamment en décorrélant les sources sur les côtés et à l’arrière. Il combine le mixage objets et le mixage multicanal traditionnel. Il se décline en cinq configurations pour assurer la gestion de la verticalité du son et offrir jusqu’à 64 canaux de diffusion dans une salle spécifiquement équipée. Son principe d’objets sonores permet de « placer » les sons à un endroit précis dans la salle, ou de les déplacer d’un haut-parleur à un autre.

Il offre cinq configurations différentes :

• 5.1.2 canaux (L, C, R, SL, SR, CSL, CSR, LFE),

• 5.1.4 canaux (L, C, R, SL, SR, CSL, CSR, CL, CR, LFE),

• 7.1.2 canaux (L, C, R, SL, SR, SBL, SBR, CSL, CSR, LFE),

• 7.1.4 canaux (L, C, R, SL, SR, SBL, SBR, CSL, CSR, CL, CR, LFE),

• 9.1.2 canaux (L, C, R, SL, SIDE-L, SIDE-R, SR, SBL, SBR, CSL, CSR, LFE).

Pour répondre à l’offre de Dolby, DTS propose le DTS-X, avec cinq configurations quasi similaires à celles de Dolby :

• 5.1.2 canaux (L, C, R, SL, SR, CSL, CSR, LFE),

• 5.1.4 canaux (L, C, R, SL, SR, CSL, CSR, CL, CR, LFE),

• 7.1.2 canaux (L, C, R, SL, SR, SBL, SBR, CSL, CSR, LFE),

• 7.1.4 canaux (L, C, R, SL, SR, SBL, SBR, CSL, CSR, CL, CR, LFE),

• 9.1.2 canaux (L, C, R, SL, SIDE-L, SIDE-R, SR, SBL, SBR, CSL, CSR, LFE).

Le MDA, le consensus !

Comme on vient de le voir, Atmos, DTSX et Auro-3D se développent en offrant une compatibilité. Auromax intègre aussi la technologie des objets, comme pour Atmos. Afin de favoriser la standardisation, le DTSX se fonde sur la solution logicielle appelée MDA (Multi Dimensional Audio) libre de droits. MDA est conçu pour lire les formats des concurrents et inversement (fichiers Atmos ou Auro-3D). Ils sont importés avant d’être convertis au format MDA, lequel s’adapte à toutes les configurations sonores, y compris le 5.1. MDA a tous les attributs d’un standard !

Aussi, on peut penser que la SMPTE devrait s’appuyer sur l’une de ces trois solutions, Atmos, Auro-3D ou MDA, pour définir un standard. Notons qu’aujourd’hui, ce sont les UHD Blu-Ray qui bénéficient d’un son Atmos, DTSX ou Auro-3D selon les titres.

Le WFS (Wave Field Synthesis)

Le procédé WFS (Wave Field Synthesis) utilise une approche objet. Elle consiste à décomposer le champ sonore en une multitude de sources ponctuelles. Chaque source est définie par une piste assortie de son information spatiale pour être positionnée dans l’espace.

Le principe du WFS (synthèse de front d’onde) résulte des recherches menées en laboratoire (à l’Ircam) et à l’université de Delft aux Pays-Bas vers 1980. Le principe de base est de recréer le front d’onde d’origine à partir de sources sonores fictives, selon le principe de Huygens. Ce dernier montre que les vibrations qui se propagent à l’extérieur d’une surface fermée contenant la source sont identiques à celles obtenues en supprimant cette source et en la remplaçant par des sources convenablement réparties sur cette surface.

On sort ainsi du dispositif classique d’une source par canal de restitution, car avec la WFS on s’appuie sur un réseau de transducteurs régulièrement espacés et on gère le nombre de sources sonores virtuelles correspondant à autant de positions de sources spatialement localisées que souhaité. Le champ sonore se déploie alors sur toute la zone de public en fonction des positions des sources virtuelles comme s’il s’agissait de sources réelles. Ce système est géré par un ordinateur contrôlant chaque haut-parleur séparément, avec autant de voies d’amplification. Cette technologie trouve son application dans les salles de spectacle, de concert, de théâtre, de cinéma et dans les musées. La simple diffusion d’un concert en WFS permet de suivre un récit d’une manière saisissante, détectable par le positionnement du son dans l’espace.

Il existe la WFS (Wave Field Synthesis) de nouvelle génération développée par Sonic Emotion. Elle s’articule autour du processeur Wave I. Le Sonic Wave I permet d’agrandir la zone d’écoute pour les mixages surround traditionnels. Avec les systèmes conventionnels, seuls les auditeurs placés au point focal d’écoute (sweet spot) bénéficient d’une image sonore satisfaisante.

Avec le Sonic Wave I, la restitution spatiale est parfaite pour l’ensemble de l’auditoire. Il utilise le mixage objet qui suppose l’emploi d’un processeur. Chaque source est une source virtuelle dont la position spatiale peut être manipulée en temps réel pour adresser plusieurs haut-parleurs. La description de la scène sonore repose ainsi sur un format objet, indépendant du système de reproduction physique utilisé. L’objet est une source audio accompagnée de l’information de spatialisation. Il est spatialisé à la diffusion selon la configuration du dispositif. Le processeur s’adapte à toutes les configurations et les rend compatibles avec les formats multicanaux usuels (stéréo, 5.1, 7.1…).

L’ambisonie

L’ambisonie est basée sur une décomposition mathématique de l’espace en harmoniques sphériques. Cette technique encode le son en composantes spatiales. De ce format codé, on peut extraire du 5.1, 6.1, 7,1, etc. Ce procédé a été développé par la British National Research Development Corporation et avec l’appui de nombreux chercheurs, dont l’incontournable Michael Gerzon.

L’ambisonie est une technique de capture, de synthèse et de reproduction d’environnement sonore. Les technologies ambisoniques ont la faculté de reproduire ou de créer des environnements sonores en trois dimensions. L’auditeur est immergé dans cet environnement grâce à des haut-parleurs. Ce procédé se décline en deux versions 2D et 3D. Dans la version 2D, les haut-parleurs sont alignés sur un plan horizontal autour de la tête de l’auditeur, alors que dans la version 3D, ils sont disposés sur une sphère centrée sur la tête de l’auditeur.

L’Ambisonic utilise le codage de l’image spatiale perçue en un point donné, celle-ci pouvant être reconstruite ensuite par un ensemble de projecteurs sonores placés sur une sphère. Un système ambisonique est potentiellement beaucoup plus performant qu’un système 5.1 sur le plan de la restitution.

La spatialisation ambisonique se fait en temps réel et nécessite un ordinateur dédié aux traitements des algorithmes de spatialisation. Ce procédé semble redevenir d’actualité à cause, notamment, de l’engouement actuel pour les images 360 ° et les programmes en VR (Virtual Reality). Des constructeurs proposent des systèmes de microphones compatibles avec ce procédé, notamment Sennheiser avec un microphone Ambio VR proposé comme un outil idéal pour le Rig GoPro 360 VR à six caméras.

Le son binaural

La diffusion binaurale au casque est un procédé permettant une écoute spatialisée individuelle via un téléphone intelligent, une tablette, un ordinateur ou par transmission hertzienne (TV et radio). Le son binaural est une technique permettant de reproduire au casque des sons en trois dimensions en respectant les principales caractéristiques physiologiques du positionnement d’un son dans l’espace. Il se distingue de la stéréophonie au casque traditionnelle en donnant une perception extracrânienne par reproduction des fonctions de transfert HRTF (Head-Related Transfer Function) de notre tête.

C’est une fonction de transfert mathématique qui caractérise les transformations apportées aux ondes sonores par le corps d’un auditeur, principalement la tête, le pavillon de l’oreille et le conduit auditif. Les fonctions de transfert relatives à la tête décrivent la propagation acoustique entre la source sonore et les oreilles de l’auditeur. Elles sont la conséquence de la diffraction due à la tête, des réflexions sur les épaules, sur le torse, et des réflexions et diffractions issues des pavillons de l’oreille. Elles se traduisent par des profils spectraux spécifiques en fonction de l’angle de provenance de la source.

Ce type de reproduction sonore tient compte de la morphologie de la tête humaine, pour permettre de restituer le son dans sa dimension spatiale, y compris quand on tourne la tête. Le binaural utilise en particulier trois indices que notre cerveau repère avec acuité.

Deux de ces indices sont binauraux et exploitent la différence entre les deux oreilles. L’indice d’intensité permet de déduire d’un son qu’il vient d’une oreille suivant son niveau d’intensité et l’indice temporel permet, quant à lui, de déduire la distance d’un son, suivant qu’il arrive plus ou moins vite à l’une ou à l’autre des deux oreilles. Ce dernier indice est perçu de manière très précise avec seulement 5 à 6 ° d’écart selon les individus et leur largeur de tête, soit 50 microsecondes entre les deux oreilles.

Enfin, le troisième indice, monaural celui-là, tient à la perception des valeurs spectrales du son, c’est-à-dire de la manière dont le cerveau interprète la position d’une source sonore suivant la déformation que celui-ci a subie, notamment la couleur sonore, du fait des diffractions et résonances engendrées par la physionomie de nos oreilles.

À noter que les morphologies humaines étant différentes, la plupart des encodeurs binauraux ont dû définir sept grandes familles de profils d’encodage correspondant à des morphologies types. Donc, une prise de son binaurale est un système de prise de son capable de restituer un rendu spatial au casque, avec une sensation d’externalisation. Elle reproduit les fonctions de transfert HRTF de notre tête. Un nouveau collectif français BiLi (Binaural Listening) composé de dix membres a été lancé en 2013. Parmi eux, Radio France. En effet, Radio France expérimente le son binaural couplé à la vidéo 360 °.

Le son binaural accessible à tous

Soulignons le travail de Radio France, sous la conduite d’Hervé Dejardin, sur le son binaural qui s’est concrétisé par un portail http:/nouvoson.radiofrance.fr en mars 2015. Il est alimenté régulièrement par de nouvelles expériences immersives accessibles avec un simple casque stéréophonique connecté à son ordinateur. Essayez, c’est bluffant et spectaculaire !

Les sigles

L Left, canal avant gauche

C Center, canal central

R Right, canal avant droit

S Surround, canal arrière monophonique

SL Surround Left, canal gauche

SR Surround Right, canal arrière droit

SBL Surround Back Left, canal arrière gauche

SBR Surround Back Right, canal arrière droit

CSL Ceiling Speaker Left, haut-parleur de plafond gauche

CSR Ceiling Speaker Right, haut-parleur de plafond droit

CL Ceiling Left / CR : Ceiling Right

FR Front Right, devant droit

FL Front Left, devant gauche

SB Surround Back, canal arrière central

SL Surround Left, canal arrière gauche

LFE Low Frequency Effect, canal d’extrêmes graves

* Extrait de notre article paru pour la première fois dans Mediakwest #22, p. 54-56. Abonnez-vous à Mediakwest (5 nos/an + 1 Hors série « Guide du tournage) pour accéder, dès leur sortie, à nos articles dans leur intégralité.

La première partie de cet article est accessible ici.