L'IA au service du manga et de l'animation : eldorado ou illusion ? (2/5)

L'IA au service du manga et de l'animation : eldorado ou illusion ? (2/5) Utile, amusant, futile ou catastrophique... Le "machine learning" excite la curiosité et la créativité des éditeurs de mangas et des producteurs d'animation. Dans le deuxième volet de notre enquête, nous nous sommes intéressés à un domaine dans lequel l'IA est déjà à l'œuvre pour le meilleur comme pour le pire: la traduction.

Episode #2: Des robots maîtres des mots ?

Si les robots créateurs ne sont pas prêts à vous faire rêver avec les mangas de demain, certaines IA sont déjà à l'œuvre dans le domaine de la traduction Des rumeurs prêtent à plusieurs services de SVOD le fait de localiser les sous-titres via des logiciels automatisés entraînés via "machine learning". Des chercheurs de Virginia Tech accompagnés d'ingénieurs Netflix ont même publié en 2020 les résultats de recherche autour d'un système de pré-traduction automatique. Après tout, Amazon n'a-t-il pas développé son propre réseau neuronal de traduction instantané ? Ce dernier peut même générer les sous-titres à partir de l'audio. Un gain de temps et donc d'argent non négligeable pour le géant de l'informatique. Même si des sous-traitants humains repassent derrière pour améliorer les résultats, ils n'ont souvent pas la vidéo ou l'audio avec. Difficile, dès lors, de s'assurer du contexte et les faux amis sont légion comme on peut le voir avec ces exemples associés à Netflix sous le hashtag #TraduisCommeNetflix

Dans le contexte de la bande dessinée, la traduction automatique est hautement plus complexe. Le texte est découpé en bulles ou même directement posé au sein de l'image. Chaque planche peut être découpée de manière non linéaire. En 2016, des chercheurs avaient essayé d'entraîner une IA à lire et comprendre un comics. Mais impossible pour cette dernière d'interpréter les non-dits entre chaque case, voire même de comprendre chaque séquence. Si l'on ajoute à la difficulté liée à la richesse du découpage de case des mangas et celle du Japonais où identifier le sujet d'une phrase est la clé primaire afin de la traduire, nul doute que l'automatisation de la traduction de mangas par IA s'avère une tâche ardue. Et pourtant, plusieurs sociétés se sont lancées dans la création d'outil pour assister la localisation de mangas en langue étrangères. Mantra, dont le nom est une contraction de "Manga Translation", est le leader du marché japonais. Shonosuke Ishiwatari, son CEO, a répondu aux questions de L'Internaute.

"Mantra est né du constat qu'il existait de nombreuses traductions illégales des mangas dans de nombreuses langues. Ces traductions ne génèrent aucun revenu pour les mangakas ni leur éditeurs. Notre volonté était de développer un outil qui faciliterait la localisation d'un manga afin que tout l'écosystème puisse en bénéficier, explique Shonosuke Ishiwatari. Parmi les autres motivations initiales du projet Mantra, il y a le défi que représentait le développement d'un outil capable de lire un manga dans le bon ordre puis de le traduire. Comme nous - les fondateurs de Mantra - sommes des chercheurs spécialisés dans les sciences informatiques, relever ce défi était palpitant."

Enfin, permettre aux mangakas d'avoir les moyens de s'auto-publier sur de nouveaux marchés est l'un des derniers facteurs pris en compte lors de la création de Mantra: "Si les mangakas célèbres voient leur oeuvres publiées à l'étranger, les petits auteurs, eux, ne voient pas forcément leur manga sortir du Japon. C'est d'autant plus important que, depuis quelques années, l'auto-édition explose au Japon et est plus simple que jamais", conclut Shonosuke Ishiwatari.

Entre une traduction précise et fidèle et un texte plaisant à lire [...] il y a un gap incroyable

Mantra est une suite complète qui propose un outil de traduction entraîné via "machine learning", couplé à un dictionnaire et un système où des traducteurs humains peuvent facilement mettre à jour les textes générés par l'outil. Le logiciel offre aussi une solution de lettrage de base compatible avec les zones de textes qui se trouvent dans des bulles.

© Tsubabasa Yamaguchi / Kodansha Ltd. and ©︎ 2022 Mantra Inc. All Rights Reserved.

Le chercheur distingue différents niveaux de traduction automatisée : le premier produit une traduction "lisible", le second rend cette dernière précise et fidèle et enfin le troisième aboutit à un texte plaisant à lire. "Pour atteindre le troisième niveau, il y a un gap incroyable. La traduction est trop créative pour être purement et simplement remplacée par un outil automatisé", estime Shonosuke Ishiwatari. Amis traducteurs, soyez rassurés, votre job n'est pas - encore - en danger.

Il en est de même pour le lettrage. Le "machine learning" est capable de reconnaître les zones de textes, de les traiter dans le bon ordre et, si les textes sont dans des bulles, de les remplacer par la traduction. "Nous évitons au maximum de redessiner l'image, algorithmiquement c'est trop complexe aujourd'hui à automatiser, explique Shonosuke Ishiwatari. Il faut l'intervention d'un spécialiste du lettrage pour les textes qui sont par-dessus l'image. De même quand les caractères - que ce soit des kanji ou des kana - sont écrits manuellement: le "machine learning", même bien entraîné, ne sera pas capable de les reconnaître. Nous avons travaillé avec la majorité des polices de caractères disponibles en japonais, mais les écritures manuscrites restent une limite majeure. Lorsque le texte est par dessus une image, nous le détectons et mettons une ancre pour le lettreur humain. Tous nos textes sont générés dans des couches séparées de l'image et il est possible de télécharger les fichiers au format Photoshop pour les manipuler plus facilement puis de les réimporter dans l'outil." Ce type d'outil permet aussi d'uniformiser les échanges entre les différents intervenants lors de la localisation d'un manga. En effet, la grande majorité des traducteurs, lettreurs et relecteurs sont freelance et cela peut impliquer pour l'éditeur de jongler avec un grand nombre de logiciels et méthodologies.

Enfin, un logiciel comme Mantra, où les traductions sont centralisées et directement positionnées, permet d'éviter les erreurs d'inversion de bulles de textes. Par exemple, pour indiquer au lettreur où placer le texte, les traducteurs annotent une version souvent physique d'un manga. Les lettres (de A à Z) sur chaque page symbolisent les bulles de textes, les chiffres correspondent quant à eux aux onomatopées et aux textes hors bulles. Depuis la pandémie, de nombreux traducteurs sont passés au format numérique, mais le risque d'inversion de bulle de texte n'est pas nul. Sara Linsley, l'une des lettreuses de mangas les plus connues et appréciée aux USA, expliquait aussi ne pas croire en la possibilité d'un remplacement des lettreurs par un outil automatisé.

La jeune start-up Mantra possède déjà un large panel de clients au Japon (plus d'une dizaine) et propose différents modèles économiques : un abonnement mensuel, un coût à la page (de l'ordre d'un dollar par page au-delà de 1000 pages par mois). Les plateformes webs Pixiv (la plus grosse plateforme d'auto-publication du Japon) et DLSite, deux sites dédiés à l'auto-publication et aux dōjinshi (sorte de fanzines ; au Japon il y a une certaine tolérance pour que ces auteurs indépendants puisses parodier des licences connues, NDLR), sont les premières à avoir signé un contrat avec l'éditeur Mantra. "Les créateurs peuvent décider de traduire ou non leurs mangas. Sur DLSite, qui est une plateforme qui permet aussi l'achat numérique, un lecteur étranger peut acheter un titre et déclencher sa traduction. Si vous êtes un traducteur, vous pouvez améliorer le résultat, auquel cas vous recevrez aussi une commission à chaque vente de la version que vous aurez localisée, l'auteur récupérant bien entendu la majorité des revenus", confie Shonosuke Ishiwatari. Les dōjinshi japonais vont enfin avoir une existence officielle dans des langues étrangères. À noter qu'avec cette plateforme il n'y a pas d'unicité des versions, ainsi plusieurs versions anglaises ou françaises peuvent coexister, les fans choisiront celle qui leur convient le plus.

Si l'IA n'est pas capable de lire un manga, alors il lui sera impossible de le traduire convenablement

Enfin, le principal client institutionnel de Mantra est la Shogakukan, l'éditeur historique qui célèbre cette année ses 100 ans. Shonosuke Ishiwatari détaille la nature de ce partenariat : "Nous ne fournissons pas un accès à Mantra Engine aux équipes de Shogakukan mais des versions traduites en anglais de leurs mangas. Nous avons engagé des traducteurs et lettreurs professionnels, en privilégiant ceux qui nous semblaient déjà être des fans de mangas ou des licences concernées et leur fournissons un accès à Mantra Engine, ce qui leur fait gagner du temps. La majorité des traducteurs et lettreurs sont des freelances, c'était compliqué pour la Shogakukan de faire des contrats avec chacun d'eux, de leur donner en avance du matériel sensible. En passant par notre intermédiaire, les fichiers sont sécurisés, les contrats sont sous-traités. C'est plus simple pour tout le monde."

© Tsubasa Yamaguchi / Kodansha Ltd.

Si la solution Mantra Engine est suffisamment viable aujourd'hui pour permettre à ses créateurs de contractualiser avec des nombreux acteurs, ce qui n'était pas évident au départ. Shonosuke Ishiwatari explique les étapes clés du projet : "Quand on travaille sur du "machine learning", comme le nom l'indique, on doit entraîner l'IA. Or dans le monde du manga il n'y avait aucun set de données, il n'existe aucune base de données qui reprend tous les textes de tous les mangas. Nous avons donc dû en premier lieu mettre au point un système de lecture des mangas qui permettait de reconnaître et d'extraire les textes. Ensuite, nous nous sommes attaqués à la seconde difficulté: dans un manga, contrairement à un livre d'images, le texte accompagne les images un peu partout. Parfois dans des bulles, parfois au-dessus d'un décor… Il a fallu mettre au point un algorithme capable de reconnaître le contexte global au niveau d'une page, d'un chapitre. Si l'IA n'est pas capable de lire un manga, alors il lui sera impossible de le traduire convenablement".

Le chercheur en profite pour annoncer que l'outil est capable de lire et de traduire des webtoons: "Lire un webtoon est plus linéaire et donc beaucoup plus facile pour une IA. 90% de notre algorithme pour les mangas ont pu être utilisés pour le webtoon. Nous avons dî faire évoluer surtout la partie de la reconnaissance de texte (OCR) car les pages de webtoon sont en couleurs et il fallait un système ad hoc pour reconnaitre ces textes."

© Tsubasa Yamaguchi / Kodansha Ltd.

Aujourd'hui, Mantra Engine propose des traductions en anglais et en chinois. L'importance du marché francophone n'a pas échappé aux chercheurs, mais le minimum pour entraîner l'IA est de posséder un million de phrases traduites du japonais au français, soit environ 4000 tomes de mangas. Pour ce faire, une convention avec un ou plusieurs éditeurs majeurs en France est nécessaire. Mais la problématique du droit d'auteur entre en jeu et, pour l'instant, les équipes ne peuvent aller plus loin sur le sujet de la langue de Molière.

Tous les acteurs interrogés s'accordent pour dire que la traduction automatique ne saurait remplacer la sensibilité d'un humain. D'autant plus dans les cas particuliers des références: "Un traducteur humain pourra décider d'ajouter une note pour expliquer un contexte ou une référence selon le degré d'adoption de la culture japonaise dans le pays cible", explique Shonosuke Ishiwatari. Il en est de même pour les jeux de mots, les conversions de monnaie, où sur la gestion des onomatopées : quand les traduires ? Quand les éditer ? Quand les annoter ?  "Pour les onomatopées, il est plus rapide de mettre une note en pied de page ou de case. Mais il est plus qualitatif de l'éditer et d'utiliser Photoshop pour redessiner une partie de l'image. Plus on tend vers le qualitatif, plus c'est long et coûteux. C'est une question d'équilibre décidé par les éditeurs", ajoute Shonosuke Ishiwatari.

Pour Toshiro Miura, le rédacteur en chef du magazine Morning, "tant que la technologie ne sera pas plus avancée, il ne sera pas possible de défricher des marchés émergents de manière indépendante". Les éditeurs locaux peuvent souffler, leur travail de sourcing, d'adaptation des titres et de marketing local n'est pas prêt de disparaître au profit d'un robot.

© Tsubasa Yamaguchi / Kodansha Ltd.

Julien Bouvard, maître de conférences à l'université Lyon 3 et jury du prix Konishi (prix de la meilleure traduction-adaptation de manga du japonais vers le français), a accepté de partager son regard d'expert sur la traduction générée par Mantra Engine des pages du manga Blue Period. Il connaît très bien ce dernier car il a été initialement traduit par Nathalie Lejeune, récipiendaire du prix Konishi 2021.

"On voit que l'IA a encore du mal à identifier le locuteur, ne comprend pas certaines expressions et sort quelques phrases qui sont complètement à côté de la plaque. Néanmoins, il y en a certaines, les plus simples et les plus courtes, qui sont correctement traduites", estime Julien Bouvard.

Avant d'ajouter : "Le travail du lettreur reste quasi complètement à faire (par exemple effectuer des césures sur certains mots, ajouter des espaces entre les caractères et les limites des bulles, et surtout gérer les textes hors bulles). Je pense que l'outil peut donc être utilisé par des traducteurs, mais cela signifierait que toute la chaîne de l'édition travaille avec ce nouvel outil, en faisant bien attention à ne pas trop se laisser faire par la traduction automatique. Vu la multiplicité des manières de faire de chacun aujourd'hui, ça me semble un peu compliqué puisque tout le monde a ses petites habitudes, mais ce n'est pas impossible que dans quelques années, tous les éditeurs travaillent là-dessus."

"En revanche, je crois que si ça peut intéresser des gens, ce serait des éditeurs qui ne maîtrisent pas le japonais et qui ont besoin rapidement de lire un manga pour s'en faire une idée. Je sais que la plupart des maisons d'édition ont des japonophones dans leurs équipes, mais cela pourrait permettre à une équipe entière de découvrir "en gros" le manga dans une version compréhensible", conclut Julien Bouvard.

Lire aussi : La communication, le nouveau nerf de la guerre des mangas ! 

Inspirées par la méthode d'apprentissage du japonais Minna no nihongo Honyaku, les équipes du labo de recherche à l'origine du moteur Mantra travaillent sur une application pour smartphone appelée Langaku. Cette dernière propose d'apprendre l'anglais en lisant des mangas. L'application permettra aux textes d'être lus à voix haute (Text2Speech) via une IA localisée. Ceci offre la possibilité d'apprendre non seulement le vocabulaire mais aussi les différentes règles de prononciation et de grammaire. Si les droits le permettent, il n'est pas impossible que cette application propose à terme d'apprendre le japonais en lisant des mangas. Et si le "machine learning" était plus utile en tant qu'outil d'assistance qu'en tant que force de production même ? Les éditeurs nippons et les chercheurs se sont posé la question et ont identifié de nombreux points de friction liés à leurs métiers qui pourraient gagner en efficacité si des algorithmes pouvaient apporter leurs aides. Dans le prochain volet de notre enquête, nous verrons où le "machine learning" est déjà utilisé pour aider les forces de production du manga, et où l'IA pourrait tirer son épingle du jeu.