La guerre des codecs aura-t-elle lieu ?

Le monde de la compression vidéo est en pleine effervescence. L’Alliance for Open Media finalise les spécifications de son nouveau codec AV1, dans la lignée des codecs libres VP8 et VP9. Soutenue par les Gafa et les services de VOD, elle affronte directement Mpeg avec son codec HEVC, empêtré dans l’imbroglio des royalties à payer pour les brevets. L’une des multiples facettes de l’affrontement entre les broadcasters traditionnels et les services de streaming pour alimenter en images nos écrans.
CodecMain.jpeg

 

 

La fonction d’un codec de compression vidéo est de réduire le débit numérique issu d’une caméra pour pouvoir emprunter les réseaux hertziens ou se propager sur Internet. Les technologies et les méthodes pour y parvenir sont multiples et agencés dans une architecture complexe. Il est indispensable de standardiser les encodeurs et les décodeurs pour garantir leur interopérabilité. C’est ainsi qu’est apparue une série de sigles et de standards permettant de désigner le mode de compression employé.

Les systèmes de compression vidéo sont extrêmement nombreux, certains étant adaptés aux outils de production et d’autres destinés à la diffusion. C’est dans ce second domaine qu’une lutte s’est engagée entre les systèmes conçus par le Mpeg (Motion Picture Expert Group) et ceux centrés sur le streaming et Internet sous forme d’outils libres ou « open » et regroupés au sein de l’Alliance for Open Media (AOM).

 

La famille des standards Mpeg

Le groupe Mpeg, créé il y a 30 ans sous l’égide de deux organismes de normalisation, l’ISO et l’IEC, a normalisé un premier codec le Mpeg-1, dont l’objectif était de faire entrer un signal vidéo SD dans un tuyau de 1,5 Mb/s, correspondant à l’époque au débit permis par le Vidéo CD et le CD-I. Le groupe de travail a ensuite fait évoluer cette première norme vers la diffusion TV au format SD avec le Mpeg- 2 et poursuivre l’évolution vers la HD et enfin l’UHD. Chaque organisme père du Mpeg a voulu conserver son principe de numérotation des normes, en l’associant à une dénomination plus commerciale.

Chaque génération de codage Mpeg est associée à trois ou quatre appellations, ce qui est parfois source de confusion ou de complications au niveau de l’interopérabilité des matériels. Sans parler des sous-parties (Mpeg-4 en comporte 31), des profils, des niveaux et des extensions ajoutées au fil des études des groupes de travail. La diffusion TV en HD est assurée grâce à une compression Mpeg-4 Part 10, appelée également AVC (Advanced Video Coding), ISO/IEC 14496-10 pour son nom offciel à l’ISO, et H.264 pour l’ITU-T. Les appellations utilisées pour les autres familles Mpeg sont détaillées dans le tableau en annexe.

Chaque génération de codecs Mpeg s’enrichit de nouveaux outils de traitement et démultiplie les modes de répartition des pixels en macroblocs et bientôt en super-blocs afin de réduire le débit vidéo, divisé en gros par deux à chaque génération du standard. Cette sophistication exige des calculs de plus en plus complexes qui rallongent le temps de traitement. Mais celui-ci est compensé par l’augmentation incessante de la puissance de calcul des unités centrales sur lesquelles tournent les encodeurs soft ou les puces intégrées dans les encodeurs hardware. Mais les grands principes de l’architecture d’un encodeur vidéo restent similaires.

 

Des architectures similaires

De multiples modes de traitements et d’algorithmes ont été testés avec par exemple les fractales ou le codage par ondelettes, mais au bout du compte c’est la transformée de Fourier en cosinus discrète (DCT) qui s’est révélée la plus efficace et qui reste encore à ce jour au cœur des dernières évolutions des codecs vidéo. Cette méthode est associée à toute une série d’outils destinés à détecter les redondances spatiales et temporelles du signal vidéo. Dans le codec Mpeg-2, l’image est découpée en macroblocs de taille fixe de 16 x 16 pixels. Dans les versions plus récentes des codecs, l’image est découpée en superblocs de tailles beaucoup plus grandes (64 x 64, 128 x 128 et même 256 x 256 pixels) pour tenir compte de l’évolution des résolutions.

S’ils contiennent beaucoup de détails, ils peuvent être découpés en sous-blocs plus petits (jusqu’à 4 x 4 pixels) grâce à une procédure pyramidale de type quadtree. Ces sous-blocs peuvent être aussi de forme rectangulaire 4 x 8, 8 x 4, 16 x 8, etc. Un système d’analyse et de prédiction va repérer les blocs au contenu identique ou similaire, soit dans l’image elle-même, prédiction intra-image, ou dans les images précédentes, prédiction inter-image. Au lieu de transmettre à nouveau ces blocs, on indique au récepteur « affiche ce bloc déjà transmis ». Les images étant mouvantes, il y a peu de chances, à part dans un plan fixe, que le contenu soit strictement identique. On transmet donc la différence entre les deux, appelée résidu, beaucoup plus légère que le poids du bloc lui-même.

Après avoir mis à profit les redondances spatiales et temporelles détectées dans les images, la seconde étape consiste à réduire le volume des données en les réorganisant de manière fréquentielle grâce à la DCT. Ensuite une quantification est mise à profit pour éliminer les informations de valeurs faibles. Ce réglage de pas de quantification est donc le moment crucial qui permet de réduire encore le débit vidéo, mais au risque d’une dégradation de l’image. 
Dernière étape de tout ce long processus, une dernière réduction du débit en mettant à profit des codages de type VLC (Variable Length Coding) remplacés par des codages arithmétiques de type CABAC dans les versions les plus récentes.

Nous reviendrons dans un prochain article sur une description plus détaillée de ces architectures et de leurs performances.

 

HEVC peine à se déployer

La norme Mpeg HEVC ou H.265 a été publiée en 2013 pour encoder des images avec la résolution UHD et un gain de 50 % d’efficacité par rapport au Mpeg-4 Part 10 ou H.264. Contrairement à cette dernière, extrêmement répandue et utilisée à la fois en diffusion, mais aussi en production, la norme HEVC reste beaucoup moins utilisée, car peu d’émissions TV sont transmises en UHD pour l’instant. Les ventes de Blu-ray UHD restent limitées. Néanmoins Apple, en intégrant les codecs HEVC dans la dernière génération d’iPhones et d’Apple TV ainsi que dans son architecture de streaming HLS, donne un coup de pouce au déploiement de cette norme. Mais la raison principale de cet usage limité n’est pas due à des raisons techniques, mais avant tout à des complications liées au paiement des royalties des brevets auxquelles elle est confrontée.

De multiples traitements numériques intégrés aux codecs sont protégés par des brevets industriels. Leurs détenteurs souhaitent légitimement être rémunérés par les utilisateurs de ces codecs. Pour éviter que chaque client ne soit obligé de rémunérer séparément chaque détenteur, il a été mis en place, lors du lancement de Mpeg-2, un organisme gestionnaire de brevets, Mpeg LA (sans lien structurel avec le groupe Mpeg), chargé de fixer les royalties à payer et de les récolter. Cette procédure a été étendue à la gestion des droits de brevets pour Mpeg-4. Pour ce standard, le montant des brevets est calculé sur la base des équipements fabriqués ou utilisés (codeurs et décodeurs) et concerne uniquement le broadcast et l’audiovisuel, à l’exclusion d’Internet. Pour chaque constructeur, les redevances de brevets sont limitées à un montant maximal par an. Lors du lancement du standard HEVC, le développement annoncé de la diffusion vidéo sur Internet et la multiplication des modes de visionnage sur terminaux mobiles ont aiguisé les appétits. Certains détenteurs de brevets (ils sont plus de 40) ont fait sécession pour créer un second organisme de gestion de droits, HEVC Advance, et ensuite un troisième, Velos Media, pendant qu’une quinzaine d’industriels, et pas des moindres, préféraient gérer ce dossier en direct avec les constructeurs, les opérateurs de télécoms et surtout les diffuseurs de contenus. Les montants ont également été revus à la hausse, y compris les seuils maximaux. Velos Media lui n’a toujours pas publié de grille tarifaire. Tout cela a rendu la situation inextricable. Cinq ans après son lancement, le montant des droits à régler pour HEVC, qui se chiffrent parfois en millions de dollars pour chaque acteur, n’est toujours pas éclairci. Ceux qui diffusent en UHD ne peuvent pas faire autrement, mais pour les autres, la situation étant trop incertaine, ils préfèrent garder le H.264 plutôt que de franchir le pas vers le H.265.

 

L’Alliance for Open Media
 et son codec AV1


Face à ces incertitudes concernant le montant des royalties à payer pour utiliser HEVC, et aussi pour les contourner, plusieurs acteurs majeurs d’Internet, Google, Mozilla, Intel, Microsoft, Cisco, associés à des diffuseurs vidéo centrés sur l’OTT, Amazon et Netflix se sont réunis pour lancer le 1er septembre 2015 une fondation à but non lucratif dénommée Alliance for an Open Media (AOM) ayant pour objectif la création d’un format vidéo ouvert et gratuit. Quelques années auparavant, Google avait déjà lancé son propre format vidéo ouvert en rachetant en 2010 la société ON2 Technologies. Celle-ci avait à son actif la création d’une longue série de codecs vidéo libres, depuis le VP3 jusqu’au VP8, connus aussi sous le nom de Truemotion. Google souhaitait créer un format vidéo libre de droit, le WebM pour associer la diffusion vidéo à l’architecture HTML5. Il a fait évoluer VP8 vers VP9 en espérant que sa large diffusion via les usages d’Internet viendrait concurrencer sérieusement la suprématie de H.264. Malgré une implantation dans la plupart des navigateurs web (sauf Safari d’Apple), le succès de VP9 est resté mitigé. Actuellement le plus gros vecteur du VP9 reste YouTube, ce qui représente quand même un large volume de trafic.

Pour éviter de retomber dans les mêmes erreurs, les initiateurs de l’AOM ont ouvert leur consortium à une large palette d’acteurs présents sur l’ensemble de l’écosystème du numérique et de la diffusion vidéo. Depuis son lancement, l’alliance s’est ouverte à d’autres poids lourds de l’informatique et d’Internet en accueillant IBM et Facebook, à des fabricants de puces électroniques comme Broadcom, AMD, Nvidia, Xilinx ou Realtek, et aussi des spécialistes de la compression vidéo comme Ateme, Videolan ou Ittiam, et très récemment, le service de diffusion Hulu et Apple.

L’objectif d’AOM est de créer un codec libre de droits, ouvert et interopérable, optimisé pour les services d’OTT, offrant des performances améliorées d’au moins 25 % par rapport aux meilleurs codecs actuels et couvrant les besoins pour toutes les tailles d’écrans, depuis les mobiles jusqu’à l’UHD, avec les images de qualité, en y incluant le HDR et le WCG.

Tous les participants à AOM ont mis en commun leurs technologies et les outils intégrés dans les versions précédentes de VP9 et de VP10 que Google avait commencé à étudier dans le prolongement de VP9, Daala pour la fondation Mozilla et Thor pour Cisco. Il s’agit de concevoir un nouveau codec dénommé AV1 (AOMedia Video 1), mais sans compatibilité ascendante avec VP9 ou 10.

Le codec reprend l’architecture globale des autres codecs récents et dans un premier temps les participants ont évalué les performances et la faisabilité de plus de 100 outils. Une soixantaine ont été retenus, en veillant qu’ils n’alourdissent pas le temps de traitement. En parallèle, AOM confie à un groupe spécialisé et à des prestataires externes la tâche de vérifier que les éléments retenus ne soient pas basés sur des brevets pour lesquels les détenteurs, non membres d’AOM, pourraient exiger des royalties. Le codec AV1 peut contenir des outils protégés par des brevets détenus par ses membres, mais ceux-ci s’engagent à les laisser libres de droit. Un troisième groupe de travail est chargé d’étudier l’implantation hardware des outils de traitement et algorithmes retenus. Certains process efficaces dans la version software se révèlent moins performants une fois gravés dans le silicium ou induisent des contraintes trop sévères, en particulier au niveau consommation.

Les concepteurs d’AV1 souhaitent que leur codec soit le plus universel possible et reste performant quel que soit le terminal employé. Ils visent à éviter la multiplication des formats et infrastructures de diffusion, comme c’est le cas actuellement avec le fractionnement des modes de consultation. Ils souhaitent couvrir un large panel d’applications en optimisant les outils pour chaque cas de figure, la VOD mais aussi le live, le streaming des jeux vidéo, l’implantation dans les caméras et aussi le screencast pour la transmission des slides graphiques de la PréAO. Rappelons que Polycom et Cisco sont membres d’AOM et fondent de grands espoirs sur ce nouveau codage pour un usage dans le cadre des communications unifiées et le travail collaboratif avec les réseaux WebRTC.

Les principaux paramètres du codec sont détaillés dans le tableau comparatif en annexe. Le choix et la validation des derniers outils ont été effectués à la fin de l’année 2017. Le flux définitif devrait être fixé au printemps 2018, avec sans doute des démonstrations en mode software au cours du NAB 2018. Ensuite, il reste un travail important d’optimisation et de validation d’interopérabilité entre les encodeurs et les décodeurs avec les multiples options disponibles. Les développeurs souhaitent valider le maximum de bitstream dans tous les cas de figures pour éviter des déconvenues lors du déploiement du codec. Il reste également à fixer les choix au niveau de l’audio (sans doute le codec ouvert Opus) et le format du conteneur et des flux de streaming. La compatibilité d’AV1 avec le format WebM de VP8 et VP9 (proche du Matroska MKV) est confirmée ainsi qu’avec le MP4 ISO BMFF, le DASH et le RTP.

Les premiers tests ont montré un gain de 25 à 30 % sur le débit et par rapport à VP9. Certaines valeurs de performances par rapport à HEVC étaient parfois un peu optimistes et ne détaillaient pas clairement les conditions exactes de la confrontation. Bitmovin a déjà mis en ligne des outils d’encodage et de décodage AV1 sur son site. Un exemple de vidéo 720p encodée en AV1 à 800 kb/s est consultable avec la version Nightly de Firefox. YouTube proposera bientôt des fichiers encodés en AV1 et Netflix devrait rapidement exploiter ce codec. Les encodeurs soft opérationnels et optimisés devraient apparaître au plus tôt à l’automne 2018. Les versions hardware toujours longues à développer et à mettre au point sont annoncées pour 12 à 18 mois plus tard, donc fin 2019 ou début 2020. Ce transfert de la version soft vers le silicium devrait être assez rapide car plusieurs spécialistes de puces de compression sont déjà présents dans l’Alliance et anticipent ainsi les difficultés de conception.

 

La réponse de Mpeg face à AV1

De son côté, le groupe Mpeg ne reste pas inactif et a démarré les travaux pour élaborer un nouveau codec qui prendrait la suite du H.265/HEVC. Dans ce but, le groupe Mpeg s’est associé avec le VCEG (Video Coding Experts Group) rattaché à l’ITU-T pour former le JVET (Joint Video Exploration Team). Pour l’instant, la dénomination de ce nouveau codec n’est pas encore fixée et on le désigne provisoirement par le nom du JVET, mais également par le nom du jeu de logiciels de référence, JEM (Joint Exploration Model) qui sert à définir son architecture et aux premiers tests. Fort logiquement, même si aucune décision n’est prise, il est parfois appelé H.266 pour suivre la logique de nommage de l’ITU. L’objectif principal, comme pour les éditions précédentes, est de rassembler des outils de traitement et de prédiction plus performants avec un jeu de paramètres encore plus large. Tous ces algorithmes exigent des temps de calculs plus longs, mais compensés par la montée en puissance des processeurs. Le second objectif est de tenir compte des nouveaux réseaux comme la 5G, du développement exponentiel des services basés sur Internet et enfin de l’évolution des sources vidéo avec le HDR et le Wide Color Gamut, la VR et la vidéo 360.

Une des premières activités du groupe JVET a été de lancer un « call for evidence » auprès de ses membres pour valider les premières hypothèses de travail et vérifier si elles étaient réalisables. Une première architecture de JEM a permis de confirmer que le gain de la compression était d’environ 30 % en configuration Random Access et de 20 % en séquences I-frame par rapport au software de référence HM16 de HEVC. Le groupe de travail poursuit ses travaux et a lancé à l’automne 2017 un « call for proposal » pour que chaque membre soumette ses propres outils et innovations de traitement. Les réponses seront évaluées et sélectionnées au cours du printemps 2018. Ensuite, il s’agira de les intégrer dans un premier modèle de test à l’automne et d’entreprendre ensuite le travail d’optimisation et de validation pour aboutir, en principe, à la version définitive en octobre 2020, les premières plates-formes hardware devant sortir au milieu de 2021, avec l’espoir d’un gain de performances de plus de 50 % par rapport à HEVC.

 

La simple comparaison des calendriers de développement des codecs de la famille Mpeg et ceux de l’alliance AOM montre que les deux modes de diffusion vidéo, le broadcast avec ses émetteurs TV d’un côté, et les services d’OTT et le streaming sur Internet de l’autre, se déploient sur des rythmes fort dissemblables. Un nouveau codage Mpeg sort tous les dix ans (1994, 2003, 2013 et sans doute 2021 pour le prochain), durée à rapprocher de la fréquence de renouvellement des téléviseurs qui est également d’une dizaine d’années. Du côté d’Internet, l’évolution des PC, des terminaux mobiles, des navigateurs web et des systèmes d’exploitation suit un rythme beaucoup plus rapide. AOM sort son premier codec AV1 au milieu du cycle de développement de Mpeg et a déjà entrepris les premiers travaux autour de la seconde génération AV2. L’imbroglio autour des royalties de HEVC et la lenteur de son déploiement renforcent les acteurs de l’OTT dans leur idée de privilégier une solution alternative à la filiation Mpeg. Mais le monde de la TV traditionnelle sait trop bien que son avenir passe par la VOD, le replay et aussi des services d’OTT. Gérer deux systèmes de diffusion avec des normes et des codecs différents risque d’alourdir leurs finances. D’autant que dans la diffusion classique ce sont les opérateurs TV qui gèrent le parc des décodeurs, souvent en millions d’unités. De nombreux acteurs impliqués dans la diffusion Internet de la vidéo considèrent que la partie est déjà jouée et que AV1 va devenir le codec unique de diffusion vidéo. Surtout quand on sait qu’il est promu par Google, propriétaire de YouTube et que Netflix et Amazon n’attendent que sa sortie pour démarrer leurs diffusions en AV1 et éliminer les charges financières liées à HEVC.

 

Le ralliement soudain d’Apple au consortium AOM ne fait que renforcer cette tendance. Pourtant le créateur du Macintosh et de l’iPhone a toujours été un fervent soutien du H.264, au point de refuser l’intégration de Flash dans ses produits par le passé. Certains acteurs du secteur voient dans ce revirement inattendu un simple moyen de pression sur Mpeg et les organismes gestionnaires des royalties, d’autres un simple poste d’observation au sein d’AOM ou alors le signe d’un véritable revirement avec l’abandon complet de Mpeg à terme.

Léonardo Chiariglione, président du Mpeg, a bien compris que l’avenir du groupe qu’il a fondé est bien sombre. Il craint que l’engouement autour d’AV1 signifie à terme la disparition de la famille des encodeurs Mpeg et soit les prémices de la baisse inéluctable de l’écosystème centré sur la télévision. Sur son blog, il a publié à titre personnel plusieurs chroniques où il appelle à une évolution majeure de la stratégie du Mpeg. Il propose que dans le futur les normes Mpeg soient organisées avec deux niveaux : le premier centré sur des technologies libres de droits et un second plus complet et sans doute plus performant, pour lequel les utilisateurs rémunéreraient les titulaires des brevets intégrés à la norme.

Les positions sont en train de bouger, car il se murmure que des membres du DVB ne verraient pas d’un mauvais œil l’adoption d’AV1 pour la diffusion TV, à la condition que ce standard soit validé par les organismes de normalisation intervenant sur ce secteur et fonctionnent en mode Mpeg-2 TS. L’actualité autour des codecs de compression vidéo sera sans nul doute encore fort chargée dans les prochains mois et illustre parfaitement le choc des deux univers, la TV broadcast traditionnelle face au tsunami engendré par la synergie de l’OTT, de la VOD et des technologies d’Internet.

 

Article paru pour la première fois dans Mediakwest #26, p. 74-78Abonnez-vous à Mediakwest (5 numéros/an + 1 Hors-Série « Guide du tournage ») pour accéder, dès leur sortie, à nos articles dans leur intégralité.