Radio France expérimente le son binaural couplé à la vidéo 360

Après un premier test au printemps 2016 à Laval dans le fief de la Réalité Virtuelle autour de la captation d’une pièce de théâtre, les équipes de Radio France se sont mobilisées en septembre dernier autour de la prise de son binaural d’un concert de jazz, couplée avec une captation d’images vidéo 360°. Revue de détails de cette expérimentation riche d’enseignements qui en appelle d’autres.*
1_CamChanteurOK.jpg

 

Fruit d’une mobilisation des équipes techniques de France Bleu Loire-Océan à Nantes et de la cellule R&D parisienne du son binaural et de son Deus Ex Machina, Hervé Déjardin, il s’agit du premier essai grandeur nature d’une production complète de sons et vidéos parfaitement libres dans les trois dimensions. La captation s’est déroulée à l’occasion du concert d’Alexis Evans, une valeur montante du jazz français et en s’appuyant sur les moyens techniques de France Bleu. Pour les images, Radio France s’était allié les services d’un spécialiste du tournage 360, Cédric Barbier (Une jolie idée) qui apporta un rig GoPro 6 caméras et géra la postproduction des images 360.

Comme l’expliquait Stéphane Martin, le directeur technique de France Bleu Loire-Océan, « la vocation de Radio France n’est pas de produire des images d’une qualité broadcast. Nous sommes avant tout des preneurs de son et donc impatients d’explorer les nouvelles formes sonores permises par le mariage de la captation 360 et du son binaural ».

Autour des trois morceaux de jazz captés, l’objectif était d’immerger le spectateur dans une expérience 360 complète au centre de la scène, mieux encore que durant le Live où une sonorisation ne permet pas toujours d’avoir une perception très qualitative des voix et des instruments. « Quand on est dans le public de tels concerts, il est souvent difficile de localiser les instruments car la sonorisation est forte, sans compter, dans le cas présent, les immeubles réverbérants à quelques dizaines de mètres seulement de la scène », souligne Hervé Déjardin.

Ainsi, Hervé Déjardin a effectué un remixage complet de chaque instrument à partir du multipiste de la régie son et ajouté des sons d’ambiance pris à des endroits stratégiques, tout en intégrant la touche supplémentaire du positionnement 3D des sons des différents éléments, qu’il est possible in fine de distinguer parfaitement.

 

La corrélation parfaite entre son et image au cœur de l’expérience

Pour réaliser son mixage binaural, Hervé Déjardin disposait de deux types de sources : toutes les pistes séparées des instruments et douze microphones d’ambiance qu’il avait lui-même positionnés près du rig de caméras, sur les côtés en avant-scène et à l’arrière du public. Le principe d’un tel dispositif, déjà largement utilisé depuis trois ans que le son binaural existe à Radio France, consiste à mélanger différentes couleurs et directivités de microphones, afin de disposer d’une enveloppe sonore riche et variée.

Toutefois, bien que ce dispositif fonctionne superbement bien lorsqu’il s’agit de réaliser une ambiance sonore enveloppante en 5.1 entre scène et public et de privilégier des effets de présence sonore, Hervé Déjardin s’est vite rendu compte qu’il devenait peu adapté dès lors qu’il faut corréler en temps réel avec exactitude sons et images dans les trois dimensions.

« Je suis parvenu en bidouillant longuement au mixage à donner une sensation de réalisme des ambiances, mais dans un schéma classique de production, hors expérimentation, je pense qu’il est préférable de s’appuyer sur une prise de son à l’aide d’un microphone ambisonique placé directement à l’endroit de la caméra (au-dessus ou en dessous). Cela donnera la cohérence angulaire des sons provenant de tous les premiers plans visuels (scène et avant-scène), tandis que quelques microphones d’ambiance supplémentaires aux quatre coins de la zone de prise de son offriront une cohérence des énergies sonores », explique-t-il.

Afin d’avoir un rendu sonore virtuel cohérent quel que soit l’endroit où le spectateur pose son regard dans la scène 360, Hervé Déjardin a dû aussi faire preuve d’ingéniosité en installant un repère matériel au centre de son écran de monitoring vidéo et en calculant à tout instant l’angle qui sépare les sources sonores provenant de l’endroit où l’on fixe le regard de celles se situant en d’autres points de la scène 360°. La sensation de réalisme sonore pour le téléspectateur final est au prix de telles manipulations.

 

Vive les plug-in ambisonics !

In fine, Hervé Déjardin a réalisé à la fois un mixage et un encodage selon son procédé binaural habituel qui travaille sur huit canaux discrets (8.0) et suivant un encodage ambisonic adapté à YouTube qui n’accepte que quatre canaux discrets au format B.

« Ce format B n’est pas l’encodage le plus précis, mais c’est l’interaction avec les images qui permet de donner la sensation de réalisme. Pour notre cerveau, c’est la vision qui dit la vérité ». En outre, le traitement binaural proposé par YouTube lancé en mai 2016 n’en est qu’à ses débuts et va s’affiner au fur et à mesure du temps.

Sur le plan purement technique, cette transposition était une source de difficulté supplémentaire, car dans ce format B le mixeur dispose de peu d’harmoniques spatiales pour positionner les sons sur les axes X, Y, Z.

« Aujourd’hui, il y a des obstacles sur le web à décoder plus de six canaux distincts de manière fiable. C’est pourquoi un encodage ambisonique est nécessaire autour de quatre composantes qui transportent le son spatial. Ces composantes prennent en compte le son omnidirectionnel et trois composantes spatiales X, Y, Z avec une précision de l’ordre de 20 degrés, ce qui est suffisant pour une expérience sur le web », explique Hervé Déjardin.

Ensuite, Hervé Déjardin a utilisé les plug-in édités par la société rennaise Noisemakers (Ambipan et Ambihead) adaptés à Nuendo, mais aussi à ProTools ou Reaper pour reproduire la fonction de filtrage de la tête humaine, de sorte que le player YouTube puisse distiller un son spatialisé dont les sources bougent avec les mouvements de la tête du spectateur. Une fois synchronisé avec la vidéo, ce mixage 4.0 encodé « ambisonic » est posé sur les serveurs de YouTube et l’illusion du son 3D au casque peut s’engager.

À l’écoute, le résultat à partir de la trentaine de moniteurs Genelec installés dans le studio expérimental de Radio France est juste bluffant en termes de réalisme sonore quels que soient les mouvements de tête qu’on effectue. Après le passage à la moulinette des plug-in Ambisonics compatibles avec le web, on constate toutefois une légère perte de précision du placement des sons.

Fort de cette première expérience riche d’enseignements d’une captation VR couplée avec du son binaural, Hervé Déjardin regarde déjà plus loin et s’oriente du côté d’artistes d’avant-garde, comme Christine Webster, qui marient déjà avec beaucoup de créativité ces deux médias audiovisuels pour produire des expériences immersives à 360 ° totales à l’aide d’un masque VR et d’un simple casque stéréo.

 

* Extrait de notre article paru en intégralité, pour la première fois, dans Mediakwest #19, p.28-29. Abonnez-vous à Mediakwest (5 nos/an + 1 Hors série « Guide du tournage) pour accéder, dès leur sortie, à nos articles dans leur totalité.