L’entreprise Mediawen, créée à la fin de l’année 2014 par Philippe Anel et Erwan de Kerautem, illustre parfaitement les possibilités d’ouverture de la technologie du cloud aux services. L’entreprise propose une solution intelligente de localisation de vidéos, de transcription, de sous-titrage et de diffusion multilingue.
Quel est votre parcours avant la création de Mediawen ?
Erwan de Kerautem : J’ai entamé avec Mediawen la troisième période de ma carrière professionnelle qui avait débuté à l’international, notamment au service culturel du consulat à Los Angeles. Au début des années 2000, j’ai exercé en tant que réalisateur. Avec Philippe, nous avons construit une première version un peu artisanale de notre outil, pour des besoins propres de diffusion multilingue. C’est à l’occasion de la visite du NAB 2014, à Las Vegas, que j’ai pris conscience de l’avance de nos solutions, qui collaient à une réelle demande. Nous avons créé Mediawen fin 2014 ; j’en suis le CEO.
Philippe Anel : Je suis CTO et cofondateur de Mediawen, en charge du développement et de la direction technique. Issu de la sécurité informatique, j’ai travaillé pour des sociétés israéliennes, françaises et américaines dans la virtualisation d’applications et les antivirus. J’ai préalablement développé des applications pour l’aérospatiale.
Vous annoncez votre indépendance par rapport aux groupes tels que IBM, Google ou Amazon. De quelle indépendance parlez-vous ?
Nous sommes indépendants financièrement, juridiquement et technologiquement : nous n’avons actuellement pas d’investisseurs extérieurs, c’est important en termes de sécurité. Nos solutions logicielles sont codées en interne sous la supervision de Philippe. On assure la sécurité « du code », de la totalité de la plate-forme, ainsi que la sécurité juridique, des accès et des pratiques.
Le Cloud Act est à notre avis un sujet d’une grande importance. À l’image du Patriot Act, né après les attentats du World Trade Center, le Cloud Act autorise l’accès aux données hébergées aux États-Unis, mais également sous certaines conditions sur le territoire européen. Nous apportons à nos clients un environnement hautement sécurisé.
Au début de la société, nous étions assez proches d’IBM, nous apparaissons d’ailleurs dans des publications IBM en tant que société de l’écosystème de la marque. Notre indépendance nous permet de proposer la meilleure reconnaissance vocale du marché, nous n’avons aucun intérêt à privilégier une technologie en dehors de sa qualité. Nous avons mis en place des outils de benchmarking, dont un intéressant POC de solutions de Speech-To-Text, Machine Translation et de Text-To-Speech, en partenariat avec Ubisoft (voir : ubisoft.mediawen.com). Nous n’avons pas d’intérêt non plus à consommer des ressources ou de la bande passante inutiles. Depuis la création de Mediawen, nous sommes à la pointe du développement en « green coding ».
Pouvez-vous nous présenter concrètement votre offre ?
Nous sommes éditeur de logiciels à la jonction du cloud et des traitements de la vidéo et du langage. Nous mettons à disposition des professionnels de l’accessibilité et du sous-titrage des outils pour travailler en ligne. Nous avons d’abord construit une plate-forme SaaS (logiciel en tant que service) pour des humains.
À réception d’une vidéo, pour assurer les deux phases les plus chronophages de gestion de la qualité du texte (transcription la plus proche de la vidéo) et de placement des timecodes, on propose un outil de reconnaissance vocale pour obtenir un texte plus ou moins précis selon la qualité de la bande-son et de la présence d’éléments perturbateurs (musique, personnes qui se coupent la parole). Au minimum 60 % du travail va être effectué à cette étape avant les étapes de traduction et d’export de fichiers de sous-titres ou de fichiers vidéo avec sous-titres incrustés.
Nous proposons également une offre de streaming. Au cours de l’évolution de notre solution nous avons ajouté des fonctionnalités comme la reconnaissance vocale, puis la génération de voix de synthèse.
Utilisez-vous des infrastructures d’hébergement européennes par rapport aux questions de Cloud Act ?
Nous faisons de la pédagogie auprès de nos clients. Selon leurs besoins, nous pouvons exploiter une chaîne de traitement entièrement assurée par des sociétés de droit européen. Certains clients sont peu sensibles au stockage de leurs données chez Amazon, Microsoft ou Google ; pour d’autres, dans les industries sensibles comme le nucléaire, c’est une préoccupation prioritaire. Nous sommes d’ailleurs en discussion avec la nouvelle structure Oreno et nous travaillons avec Safran. La souveraineté et la sécurité des données sont prioritaires pour nous.
Comment organisez-vous votre développement entre l’utilisation de « briques » externes et votre propre code ?
Pour la transcription, nous avons sélectionné les meilleurs outils du marché selon la langue ou le type de contenu et nous avons développé en interne les solutions de césures. Une fois le texte brut obtenu, il faut en effet le découper en fonction d’un nombre de caractères spécifié selon les recommandations du client et selon la vitesse de lecture (caractères par seconde) agréable pour un être humain. D’autres règles imposent qu’un bloc de texte n’apparaisse pas sur deux clips, et qu’il disparaisse trois images avant un changement de plan. Notre algorithme maison est entièrement automatisé pour toutes les langues européennes et nous l’affinons pour d’autres langues (asiatiques notamment).
Philippe suit les avancées universitaires, via plusieurs milliers de comptes Twitter à travers la planète, pour être à l’avant-garde de l’optimisation de l’automatisation. Quand l’intelligence artificielle a été annoncée comme « la solution » ultime permettant de se passer d’humains, nous affirmions de notre côté que cela permettait d’accélérer les process, mais que cela ne faisait pas tout. Aujourd’hui les clients s’en souviennent et reviennent vers nous.
À quelle phase du travail y a-t-il intervention humaine ?
Après le transcript, et les étapes de césures automatiques, les vidéos sont prises en charge par une équipe humaine sur l’éditeur en ligne. Plusieurs éditeurs vont corriger et valider la matrice avant la traduction automatisée qui suit le même process : vérification, modification, reformulation et validation. Un voice over peut alors être généré dans plusieurs langues, avec une ou plusieurs voix de synthèse proches de la voix humaine.
Dans ce domaine, les progrès sont impressionnants. On présente actuellement une nouvelle solution pour étendre les capacités de doublage lorsque les solutions habituellement déployées en studio sont indisponibles, en période de confinement par exemple. Un comédien équipé à domicile d’un bon micro et d’un ordinateur enregistrera ses parties en interagissant en direct avec le directeur artistique.
Au début de Mediawen, nous avons travaillé avec une petite équipe de sous-titreurs pour faire de la transcription de tutoriels ; ces retours d’expériences nous ont permis d’améliorer la plate-forme. Nous créons un écosystème d’agences de traduction de très bonne qualité avec des spécificités linguistiques ou sectorielles. Nous collaborons avec des agences de traduction en France, aux États-Unis, au Canada et en Inde. On peut ainsi répondre à des besoins clients. Notre métier, chez Mediawen, reste l’interface logicielle qui permet d’accélérer le processus et de travailler en collaboratif, en toute sécurité à distance.
Comment commercialisez-vous vos solutions ?
Notre facturation est établie suivant une double métrique : la durée des vidéos et le nombre de langues. Le prix dépend également des options supplémentaires à la transcription : activation de la reconnaissance vocale, aide à la traduction, exports avec sous-titres incrustés, streaming sécurisé. Notre plate-forme est modulaire depuis le dépôt de la vidéo jusqu’au player de diffusion multilingue. Nos prix sont dégressifs, entre 50 centimes et 2,50 € par minute.
Pouvez-vous nous préciser ce que représente concrètement le green coding ?
L’idée simple est d’exploiter un code économe en ressources. Plutôt que de développer le site autour d’un framework PHP qui nécessite de nombreux serveurs de cache, nous avons développé des applications avec des langages de programmation bas niveau. Nous n’utilisons pas de machine virtuelle pour des raisons de sécurité essentiellement. Nos serveurs de cache et de sauvegardes sont répartis un peu partout pour garantir la sécurité de l’information. Une version de travail en basse résolution de la vidéo est créée pour être le plus économe en moyens possible.
Aujourd’hui, nous exploitons des serveurs de streaming ne nécessitant pas de cache et qui fonctionnent pourtant uniquement à 10 % de leurs capacités. Nos serveurs sont principalement hébergés chez OVH, mais nous disposons de comptes chez Google, Amazon et IBM. Tous les serveurs sensibles sont chez OVH.
Quelles solutions de transcription utilisez-vous ?
Notre plate-forme s’adapte à toutes les API d’Amazon, IBM et Google. Pour certaines fonctionnalités, une transcription en malais par exemple, la demande étant trop spécifique pour les grands acteurs, on utilise des outils plus confidentiels, développés par des universités locales par exemple.
Quelles évolutions envisagez-vous pour votre solution ?
Depuis l’année dernière, nous proposons l’accès de quasiment l’intégralité des fonctionnalités de notre plate-forme via une API ; certains de nos clients travaillent ainsi en marque blanche. Pour faire valider le texte à leurs propres clients, ils intègrent les éditeurs sur leurs propres sites. On propose également une solution d’habillage textuel et graphique simple. Certains clients nous demandent des solutions de streaming live sécurisé à des tarifs compétitifs qui ne soient pas des solutions mainstream du marché, souvent d’origines chinoise ou américaine. Cette année nous avançons également dans le développement d’une solution de transcription en direct.
Article paru dans Mediakwest #37, p. 112-114. Abonnez-vous à Mediakwest (5 numéros/an + 1 Hors série « Guide du tournage) pour accéder, dès leur sortie, à nos articles dans leur intégralité.