Le son 3D en question

Dans le cadre d’un test perceptif autour du son 3D, le département R&D de France Télévisions a mis son auditorium 22.2 à la disposition de Isostem. Au programme, l’écoute et la comparaison de sons traités par la TetraVerb, une nouvelle réverbération 3D à convolution en cours de développement. Antoine Hurtado, créateur du procédé, et Amine Mansour, stagiaire responsable du développement MatLab, répondent à nos questions à propos de cet ambitieux projet.*
IsostemTetraVerb_OK.jpg

 

Les mixeurs qui ont pu se confronter aux formats audio 3D immersifs le savent bien, les solutions qui permettent actuellement de simuler un espace audio avec un aperçu haut/bas dans toute sa complexité sont encore rares. Dans ce contexte, Antoine Hurtado, inventeur notamment de la technologie Isostem qui permet la création d’Upmix et Downmix conformes à l’œuvre originale, se lance aujourd’hui dans une nouvelle quête : la création d’un procédé de réverbération à convolution 3D.

 

Implémenter le son 3D

Antoine Hurtado précise d’emblée l’orientation de ses recherches sur le son 3D : « Je suis resté éloigné des techniques comme HOA (Higher Order Ambisonics) ou la WFS (Wave Field Synthesis) qui restent pour moi des procédés difficiles à utiliser hors des laboratoires, car ils demandent un nombre de canaux vraiment important pour être performants et je ne les vois pas se généraliser dans des workflows cinéma par exemple… ».

En essayant de comprendre ce qui manque aux procédés actuels pour faire en sorte qu’une source sonore paraisse réelle, la recherche se précise : « Nous souhaitions trouver un système de modélisation qui prenne en compte les caractéristiques de directivité de la source ainsi que leurs interactions avec l’acoustique du lieu modélisé. »

L’étude se tourne alors vers les techniques de convolution banalisées grâce à des produits comme l’AltiVerb du hollandais AudioEase. Afin de produire des réponses impulsionnelles avec toute la finesse nécessaire à la sensation 3D, le dispositif d’émission comprend un total de huit haut-parleurs pointant vers les huit coins d’un cube unitaire. Pour des raisons pratiques, la production de ces IR est effectuée en deux passes, grâce à un système de quatre haut-parleurs dont le positionnement est inscrit dans un tétraèdre que l’on tourne de 90 ° pour obtenir au final un découpage de l’espace « en huit quartiers ».

La captation est, quant à elle, assurée par une grille constituée de huit à douze microphones. Cette matrice de 8 vers N microphones qui représente un ensemble de 64 à 96 convolutions en temps réel est ensuite stockée grâce au nouveau standard AES 69. Largement plus gourmand que pour une réverbération à convolution 2D, le calcul temps réel repose actuellement sur la puissance d’une plate-forme multicœur dédiée.

 

Que vaut le son 3D ?

Amine Mansour, stagiaire chez Isostem poursuivant actuellement un cursus international « Masters in Electroacoustics » à l’université du Maine au Mans, explique l’objet de ces tests perceptifs : « Le but est d’évaluer la valeur ajoutée de la TetraVerb, en termes de restitution de l’espace sonore 3D et d’immersion. Le premier test vise à vérifier si les sujets sont capables de discriminer les différents formats d’écoutes mono, stéréo, plan, 3D, 3D+. Nous essayons ensuite de comprendre et de quantifier la valeur ajoutée de la 3D audio en faisant écouter un extrait sonore restitué dans cinq formats différents, en incluant un format référence. »

Les testeurs sont ensuite invités à comparer mono et stéréo puis 3D et format plan afin de comparer l’écart ressenti entre mono et stéréo Vs format plan et 3D. Les deux derniers tests cherchent à déterminer l’influence du système de captation. Plusieurs espacements et directivités de microphones sont alors comparés.

 

La 3D justifiée

Sans doute, cette enquête menée sur une population restreinte, pas forcément représentative, demanderait à être élargie, mais il en ressort malgré tout des tendances significatives : « La totalité des sujets ont bien discriminé les différents formats, et les résultats des tests mettent en évidence une importante valeur ajoutée apportée par la 3D par rapport au format plan », explique l’étudiant qui conclut : « Ces deux premières constatations justifient donc la continuité du travail sur la 3D. »

Concernant l’espacement entre les microphones, « la plupart des sujets n’avait pas de préférences dominantes, mais ils arrivaient à détecter une différence au niveau du timbre et de la spatialisation. » Enfin, l’influence de la directivité des microphones utilisés pour capter les réponses (omnidirectionnel ou figure de huit) s’est montrée, au final, assez subtile : « La différence se présentait dans le bas du spectre. Les réponses capturées avec les omni étaient riches en basses fréquences comparées à celles des figures de huit. »

Forts de ces informations, on espère maintenant le développement rapide d’un produit commercial utilisant le fruit de ces recherches made in France…

 

* Article paru pour la première fois dans Mediakwest #19, p.88-89. Abonnez-vous à Mediakwest (5 nos/an + 1 Hors série « Guide du tournage) pour accéder, dès leur sortie, à nos articles dans leur totalité.