La pandémie, limitant l’accès aux studios, a sans doute poussé les professionnels à examiner de plus près ces technologies, mais c’est plutôt la recherche d’un outil de monitoring supplémentaire revitalisé par les dernières technologies de virtualisation qui semble émerger désormais.
Longtemps limité, en univers pro, à du monitoring de terrain ou en auditorium pendant l’enregistrement, l’usage du casque semble être redéfini, voire élargi, dopé par le binaural et les technologies de virtualisation qui en font un outil différent. Bien connu dans le monde de la Hi-fi haut de gamme et adopté par certains professionnels, le processeur Smyth Realiser aujourd’hui disponible en version A16 existe depuis quelques temps déjà et l’on peut considérer Stephen Smyth, fondateur de Smyth-Research et inventeur du SVS (Smyth Virtual Surround) comme l’un des pionniers.
Mais aujourd’hui, tout semble s’accélérer et la virtualisation permettant une reproduction au casque d’un système d’écoute dans un environnement donné, généralement un studio ou un auditorium, intéresse des acteurs de l’industrie aux profils variés. Tout récemment, Genelec a ainsi annoncé la sortie de son logiciel de calibrage de casque Aural ID et d’une App développée pour iOS et Android (voir encadré). Le fabricant d’enceintes laisse même entendre sur son site qu’un casque de bonne qualité peut être considéré comme un « un outil de monitoring supplémentaire ».

D’autre part, des solutions logicielles, disponibles sous forme de plug-ins comme le Binauralizer Studio de Noise Makers, les dearVR Mix et VR Monitor de Sennheiser, le Spatial Sound Card Pro de New Audio Technology ou encore le NX de Waves font partie de l’offre actuelle. De son côté, Cyril Holtz, mixeur film nous fait part de ses expériences en la matière : « Dans l’ordre chronologique, j’ai testé brièvement le plug-in NX de Waves, le Smyth Realiser A8, Spatial Sound Card Pro de New Audio Technology pour des écoutes à domicile non personnalisées et Binauralizer Studio de Noise Makers qui est la solution que j’utilise actuellement. »
TOUR D’HORIZON EN CINQ QUESTIONS
1_Comment fonctionne votre solution de simulation d’espace pour le casque ? Quelles technologies sont mises en œuvre ? Comment ça marche ?

Gilles Gérin, AV-in, importateur des processeurs Smyth Realiser : Le Smyth Realiser A16 utilise la technologie SVS (Smyth Virtual Surround), qui s’appuie sur trois axiomes : une capture acoustique de salle personnalisée PRIR (Personal Room Impulse Response) effectuée simplement au moyen de micros binauraux fournis avec l’appareil (sur au minimum trois orientations de tête comme droit devant, gauche 30°, droite 30°), un suivi de la rotation de la tête sans latence au casque, et enfin une compensation personnalisée de la signature EQ du casque sur ses oreilles. Cette courbe baptisée HPEQ est effectuée après mesure automatisée avec les micros binauraux. Le processeur Smyth Realiser A16 accepte ensuite n’importe quel type de signal audio analogique ou numérique jusqu’à seize canaux, et les convertit en temps réel en stéréo binaural de casque. Il se place en sortie de la console de mixage avec un choix de format qui varie en fonction du modèle choisi : Analog, Tascam, AES ou Dante.

Kai Detlefsen, marketing manager Dear Reality : Les plug-ins Dear Reality (VR Mix et dearVR Monitor) effectuent un rendu en binaural 3D. Grâce à un traitement audio, le signal fourni au casque est perçu par notre cerveau comme venant d’une source réelle placée dans une certaine position, dans notre cas, une enceinte dans un studio. Ce traitement doit prendre en compte plusieurs phénomènes : les multiples interactions que l’onde sonore subit au cours du temps en se propageant dans le lieu, mais aussi celles induites par notre tête et nos oreilles, ou encore la façon dont notre cerveau interprète les sons. Plutôt que de reproduire le rendu de cabines ou de studio de monitoring légendaires, nous avons décidé de recréer la chaîne de monitoring la plus neutre et la plus analytique possible, car nous pensons qu’un plug-in de monitoring virtuel est un outil de travail et non un traitement…

Charles Verron, créateur de Noise Makers : Binauralizer Studio permet de virtualiser un système multicanal pour une écoute au casque en binaural. Chaque canal d’entrée est filtré par une fonction de transfert binaurale (HRTF pour Head Related Transfer Function) qui le transforme en haut-parleur virtuel. Les HRTF utilisées sont celles de la tête Neumann KU100. Des HRTF personnalisées peuvent également être chargées au format Sofa. La version 1.1 de Binauralizer Studio introduit le suivi des mouvements de tête (head-tracking). Elle ajoute également la simulation de l’effet de salle, apportant « de l’air » au mix binaural et une meilleure externalisation. Trois acoustiques peuvent être sélectionnées (petite, moyenne, grande). Elles s’appuient sur des réponses impulsionnelles mesurées dans des studios.
2_Quelles étapes sont nécessaires pour commencer à utiliser votre solution dans les meilleures conditions ?
Gilles Gérin : Il faut d’abord procéder à la capture acoustique d’un auditorium in situ pour créer un fichier PRIR. On peut d’ailleurs stocker ses fichiers sur carte SD et les transférer d’une machine à une autre. Ensuite, vient la mesure d’un casque stéréo sur ses oreilles pour créer un fichier HPEQ. Ces deux fichiers qui peuvent avoir été créés séparément doivent ensuite être combinés dans un preset d’écoute personnalisé dans le A16.
Kai Detlefsen : Nos deux plug-ins s’insèrent au standard AAX/VST3/AU sur la voie de sortie Master ou Control Room de la station audio utilisée et sont utilisables sans hardware additionnels avec des casques standards. Pour plus de fiabilité, nous avons d’ailleurs ajouté notre nouvelle technologie Spatial Headphone Compensation qui prend en compte les caractéristiques des principaux casques utilisés en studio afin d’optimiser leur rendu en termes de spatialisation binaurale. Nous proposons ainsi des courbes de compensation pour quarante-quatre modèles de casques choisis parmi les plus couramment utilisés. Ces profils vont bien au-delà des courbes classiques type Harmann, car ils prennent également en compte le filtrage additionnel induit par la binauralisation optimisées…
Charles Verron : Le plug-in est livré clé en main, aucune configuration préalable n’est requise. Il permet de simuler toutes les configurations standard de haut-parleurs, depuis le 5.1 jusqu’au 22.2, en passant par les formats type Atmos avec des canaux en élévation (7.1.2, 7.1.4, 9.1.6).
L’import de fichiers Sofa permet d’aller plus loin dans la personnalisation de l’écoute. Pour reproduire des salles de mixage spécifiques, nous avons mis au point des outils de mesure de réponses impulsionnelles de salles binaurales (appelées BRIR pour Binaural Room Impulse Responses). Ces outils permettent de traiter les BRIR et de les exporter au format Sofa. L’idée est de donner la possibilité à des ingénieurs du son de mesurer leur propre studio ou auditorium, puis de l’importer par glisser/déposer dans Binauralizer Studio. La mise à disposition de ces outils est un service additionnel au plug-in, disponible sur demande.

Cyril Holtz, mixeur cinéma : Dans le cadre d’une écoute personnalisée qui est, pour une configuration « cinéma », la solution la plus évoluée, l’étape la plus importante est l’enregistrement de la réponse du système que l’on veut simuler, c’est-à-dire le rendu des haut-parleurs dans l’acoustique du studio que l’on veut « répliquer ». Pour produire ces fameuses BRIR pour Binaural Room Impulse Responses, l’utilisateur place alors des micros dans ses propres oreilles et un sweep est diffusé dans chaque canal du système d’écoute pour en mesurer la réponse. Un soin extrême doit être apporté à cette étape afin de reproduire le plus fidèlement possible les conditions d’écoutes de l’utilisateur. Ainsi, on doit veiller tout particulièrement au placement des micros dans les oreilles et à la qualité de reproduction des signaux tests.
Éventuellement, la réponse du casque est également mesurée à l’aide du même procédé afin d’en compenser la réponse.
Il faut ensuite comparer les IR issues de ces mesures avec le vrai système pour s’assurer que la simulation est fidèle. C’est l’étape la plus étonnante car on s’y tromperait parfois !
3_En quoi votre produit change-t-il le rapport que les professionnels de l’audio ont avec le casque ? En d’autres mots, que peux-ton faire avec ?
Gilles Gérin : C’est la première fois qu’une solution de convolution binaurale apporte dans un appareil autonome et complet, tous les éléments indispensables (capture personnelle, tracking, correction du casque) pour que la convolution binaurale fonctionne sur une sphère à 360°, y compris à l’avant. Ce dernier point est le plus compliqué à restituer de manière crédible pour l’externalisation audio. Le A16 fait suite au A8 (sur huit canaux) sorti en 2009, et il est utilisé et validé aujourd’hui comme outil fiable par des ingénieurs du son de cinéma. Il peut être utilisé en vérification, en prémix ou en mixage déporté, et aussi pour vérifier le rendu d’un mix dans un audi plus grand ou plus petit que celui utilisé…
Kai Detlefsen : Nos deux plug-ins, qui partagent le même moteur dearVR Core, peuvent être utilisés dans de nombreux environnements. La solution de monitoring immersif dearVR Monitor est principalement utilisée par les professionnels en postproduction, musique, broadcast pour simuler des systèmes allant de la stéréo au 9.1.6 en passant par le 7.1.2. Elle permet aux ingénieurs du son de compenser l’accès parfois limité aux studios en leur fournissant un outil fiable intégré dans leur station audio. Le studio en flight-case où les conditions acoustiques sont très variables est un autre exemple de situation où dearVR Monitor réduit les temps d’installation et permet à l’ingénieur du son de rester concentré sur le contenu sans être déconcentré par les bruits ambiants. C’est aussi un bon point de départ pour tout professionnel souhaitant passer de la stéréo à l’audio immersif, la solution ne demandant qu’un casque professionnel de studio, une station audio et un plug-in. De son côté, dearVR Mix se concentre uniquement sur la production stéréo, proposant ainsi un outil facile à mettre en œuvre pour les producteurs, musiciens et créateurs de contenus avec la même qualité que dearVR Monitor.
Charles Verron : Les usages évoluent et nous collaborons étroitement avec des experts de la création audio 3D et du mixage (Radio France, RFI Labo, HAL/Polyson) pour faire avancer nos outils. Aujourd’hui Binauralizer Studio a deux usages principaux : le pré-mixage et la conversion de formats audio 3D. En pré-mixage (ou co-mixage), Binauralizer Studio vient en complément de l’écoute principale sur enceintes. Il permet de travailler au casque lorsque le système d’enceintes n’est pas disponible ou accessible. Les personnes travaillant sur des projets multicanaux avec élévation (type 7.1.2 ou 9.1.6) peuvent ainsi pré-mixer leurs contenus au casque, depuis n’importe où, avant de finaliser le mix au studio ou à l’auditorium.
Pour la conversion de formats audio 3D, Binauralizer Studio permet de traduire des projets multicanaux au format binaural, pour un archivage, une diffusion radio ou sur le Web. Écoutée au casque, la version binaurale sera spatialement fidèle au mix original, que celui-ci ait été réalisé en 5.1, en 7.1.4 ou tout autre format multicanal standard.
Cyril Holtz : La première utilisation possible est la préparation du mixage et notamment des dialogues. À ce stade, il ne s’agit pas encore d’un prémix des éléments de mixage au sens strict du terme mais on peut par exemple ventiler les clips sur les pistes disponibles afin de parfaire le rangement par familles, effectuer les premières corrections de couleurs (EQ) et même commencer un premier travail de balance. En revanche, il serait abusif de dire que l’on peut d’ores et déjà mixer sans prendre de gros risques, notamment sur les paramètres de dynamique et de spatialisation.
Une autre utilisation pertinente du système est celle d’un mixage à deux mixeurs dans le même studio. Avant de passer au mixage de chaque séquence, l’un des opérateurs peut alors écouter les sons dont il se charge sur le système de monitoring principal, tandis que l’autre opérateur peut faire la même chose en tout indépendance en utilisant un casque fermé qui simule le système d’écoute du studio, et ce, sans déranger son collègue.
Cette étape de préparation simultanée des éléments permet de gagner beaucoup de temps et évite de laborieuses écoutes successives. Les deux opérateurs peuvent ensuite se lancer dans les passes de mixage durant laquelle tous les sons sont évidemment diffusés sur le système d’écoute de l’auditorium. Les co-mixeurs avec lesquels je travaille ont aujourd’hui couramment recours à cette pratique. Ce fut notamment le cas sur En Corps de Cédric Klapisch, Eiffel de Martin Bourboulon et Tralala d’Arnaud et Jean-Marie Larrieu.

4_Casque vs système de monitoring en auditorium, studio, régie : quelles différences dans le ressenti, la perception ?
Gilles Gérin : Le ressenti spatial est le même. L’illusion d’entendre les enceintes capturées est très forte. Il manque juste le ressenti physique des basses, qui peut être compensée en connectant physiquement un vrai caisson au A16. À noter que certaines personnes sont totalement réfractaires au binaural et n’adhèrent pas, même avec une capture personnelle. Ces cas sont rares, mais existent. Ils ne sont heureusement pas la majorité.
Kai Detlefsen : Lorsque que l’on utilise un casque (sans plug-in ndlr), la façon dont nos oreilles reçoivent le son et dont notre cerveau analyse l’ensemble et le traite est radicalement différente de ce qui se passe lorsque l’on utilise des enceintes dans une vraie pièce. Clairement, lorsque l’on porte un casque, chaque oreille ne va écouter que le signal de gauche ou le signal de droite, alors que dans une pièce, nos deux oreilles vont entendre le signal produit par les enceintes gauche et droite. C’est sur ce principe de « crosstalk » que repose l’effet stéréo et la perception de sources fantômes. Alors qu’un casque de bonne qualité va se montrer très utile pour travailler dans la précision en révélant des détails type clics ou plosives qui passeraient inaperçus même sur des systèmes de monitoring haut de gamme, le casque distord l’image stéréo.
Avec le casque, l’image stéréo devient non linéaire et manque de définition parce qu’il manque les informations de décalage temporel entre les deux côtés et ce quel que soit le type ou la marque de casque utilisé. C’est pourquoi il est si difficile d’évaluer un espace stéréo ou de paner des sources mono au casque.
L’égalisation peut également se montrer difficile à apprécier, spécialement dans les basses fréquences car souvent, les casques ont du mal à reproduire la dernière octave et certains modèles compensent en ajoutant une préaccentuation sur l’octave la plus haute des basses fréquences. À l’autre extrémité du spectre, les aigus apparaissent souvent plus forts qu’ils ne le sont vraiment, les membranes étant tellement proche des oreilles. D’une manière générale la réponse en fréquence d’un casque est loin d’être plate.
En revanche, le monitoring virtuel peut recréer la perception du mixage passant par les enceintes dans une salle parfaitement traitée acoustiquement. Même si vous utilisez un casque, vous percevez le son hors de votre tête, juste là devant vous ou même autour de vous si vous utilisez une configuration de haut-parleurs multicanaux immersifs. Vous obtenez la même profondeur tridimensionnelle et la même image stéréo panoramique que celles que vous entendriez avec des haut-parleurs dans une pièce traitée acoustiquement. Et en utilisant un bon casque de studio, vous disposez d’un système de monitoring détaillé et de haute précision qui vous permet de vous concentrer sans être dérangé sur votre mixage, partout et à tout moment.
Charles Verron : Binauralizer Studio vise à reproduire autant que possible le confort et les caractéristiques d’un mixage sur enceintes. La personnalisation des HRTF, la simulation de l’effet de salle et le head-tracking sont autant d’aspects qui participent au réalisme de la simulation. Lorsqu’il s’agit d’une BRIR individualisée mesurée dans un studio, le résultat peut être très proche de l’écoute réelle.
Cyril Holtz : Le facteur principal de vraisemblance de la simulation au casque est probablement d’ordre psychoacoustique. En effet, techniquement, l’écoute binaurale virtualisée est confondante de ressemblance lorsqu’elle a lieu dans le studio même qu’elle est censée simuler et la comparaison directe est vraiment troublante. Tout juste peut-on parfois observer une sensation un peu plus diffuse que dans la réalité ainsi qu’une image de l’enceinte centrale un peu flottante ou parfois légèrement décalée, mais en termes de couleur (ce qui est le plus important) et lorsque les mesures ont été soigneusement effectuées, l’impression de véracité est redoutable. Par contre, les choses se corsent lorsque l’on cherche à simuler la sensation d’un auditorium de grande taille avec l’image projetée sur un grand écran qui va avec, mais dans une petite salle équipée d’un petit écran. Dans ce cas, le cerveau a beaucoup plus de mal à associer le son traité au contexte de l’environnement réel. On a en gros l’impression qu’un mixeur peu perspicace a rajouté intempestivement une « reverb » trop longue et mal choisie sur tous les sons ! Cela dit, en se forçant un peu à jouer le jeu, on finit par s’adapter à cette perception qui nous force quand même à effectuer les bonnes corrections.

5_Est-ce que la simulation va encore progresser ?
Cyril Holtz : C’est sûr ! Je travaille actuellement étroitement avec Charles Verron de Noise Makers et Polyson (le prestataire qui a conçu et exploite les auditoriums dans lesquels je travaille fréquemment) afin d’établir des protocoles d’enregistrement des IR les plus adéquats possibles et de fournir à Noise Makers des retours d’expériences utiles en vue d’optimiser les résultats.
Charles Verron : Si les mécanismes sous-jacents à la simulation binaurale sont maintenant bien maîtrisés, plusieurs axes offrent des perspectives d’amélioration. Tout d’abord concernant la restitution individualisée. La mesure personnalisée d’un auditorium est une pratique encore délicate, particulièrement si la restitution tient compte des rotations de tête de l’auditeur (restitution dite 3DoF, pour 3 Degrees of Freedom). Il n’est pas non plus possible pour tous de se rendre dans différents auditoriums de mixage pour y mesurer ses BRIR. Pour ces deux raisons nous étudions la possibilité de découpler la mesure de HRTF de celle de l’effet de salle. Le but à terme serait de permettre à chacun d’écouter avec ses propres HRTF, dans différents espaces, sans avoir à s’y rendre en personne pour la mesure comme c’est le cas aujourd’hui. Par ailleurs, l’audio à six degrés de liberté (6DoF) prenant en compte les rotations de tête de l’auditeur et également sa position dans la pièce, pose encore un ensemble de questions de recherche, tant pour la captation que pour la restitution.
Gilles Gérin : Nous avons en projet de passer la résolution de calcul sur le hardware actuel de 48 à 96 kHz. D’après nos essais effectués en labo, cette montée en fréquence augmente encore le ressenti spatial et enlève encore la dernière « couche » qui sépare du mimétisme total. Pour en profiter, les utilisateurs devront juste refaire leur fichiers PRIR en résolution 96 kHz.
Il existe sinon un graal du fichier de convolution universel non personnalisé qui suscite beaucoup de recherche, mais la martingale n’a pas encore été trouvée. C’est comme des lunettes universelles, c’est compliqué. Mais la VR, qui doit obligatoirement faire appel à de la convolution binaurale pour accompagner l’immersion visuelle, devrait mettre les moyens qu’il faut sur la table pour trouver une solution moyenne acceptable par le plus grand nombre.
Kai Detlefsen : Si l’on observe le monde de l’audio aujourd’hui, on constate que la technologie immersive définira à l’avenir l’expérience d’écoute de l’utilisateur. Ce processus est motivé par les efforts constants déployés dans le domaine de la conception sonore pour obtenir la meilleure immersion possible et une impression sonore réaliste. L’audio 3D donne une nouvelle dimension à tous les types de production audio, qu’il s’agisse de musique, de podcasts, de films, d’audio pour le jeu, de VR ou d’AR. L’audio immersif est toujours nécessaire lorsqu’il s’agit de relier la perception visuelle à la couche audio, comme c’est le cas pour par exemple pour les vidéos à 360°. D’ailleurs, les technologies immersives interactives comme la réalité virtuelle et la réalité augmentée ne fonctionnent tout simplement pas sans audio 3D.
Extrait de l’article paru pour la première fois dans Mediakwest #46, p. 88-94
