Ce jeudi marque une étape importante pour Google Traduction… et pour la langue bretonne. En effet, le géant américain ajoute 110 nouvelles langues aux 133 déjà disponibles. Parmi ces nouvelles langues figurent le breton et l’occitan, ainsi que l’afar, le cantonais, le panjabi (shahmukhi), le tamazight, l’assyrien, le romani, le wolof, le limbourgeois, le swati, le patois jamaïcain, le Kalaallisut et le Q’eqchi’.
Ces nouvelles langues viennent s’ajouter aux 133 déjà disponibles, représentant plus de 660 millions de locuteurs à travers le monde, selon la firme américaine. « Le projet a duré quatre ans », confie Isaac Caswell, ingénieur logiciel travaillant sur l’outil Google Traduction ». Cette mise à jour est la plus importante de l’histoire de Google Translate et inclut de nombreuses langues, dont certaines sont marginalisées. Elle comprend également plus de langues créoles que jamais auparavant, y compris le créole seychellois dérivé du français et le créole mauricien. A l’heure où nous écrivons cet article, le breton n’est pas encore dans la liste proposée par Google traduction, mais les traductions breton-français fonctionnent déjà, avec cependant quelques petites erreurs, comme le souligne le site languebretonne.fr. et comme nous venons nous-mêmes de constater en faisant quelques tests.
Comment les nouveaux idiomes ont-ils été choisis ?
« Les langues ont été sélectionnées en fonction d’une combinaison de critères incluant les demandes reçues, le nombre de locuteurs et la quantité de données disponibles pour les modèles d’entraînement », explique Isaac Caswell. Google a utilisé l’intelligence artificielle et son modèle de langage PaLM 2, similaire à Gemini, l’outil du géant américain.
Il y a beaucoup de choses à prendre en compte lors de l’ajout de nouvelles langues à Translate – des variétés qui sont proposée aux orthographes spécifiques qui sont utilisées.
Les langues ont une immense variété, précise le spécialiste de Google : variétés régionales, dialectes, normes orthographiques différentes. En fait, de nombreuses langues n’ont pas de forme standard, il est donc impossible de choisir une « bonne » variété. Notre approche a été de donner la priorité aux variétés les plus couramment utilisées de chaque langue. Par exemple, le romani est une langue qui compte de nombreux dialectes dans toute l’Europe. Nos modèles produisent un texte qui se rapproche le plus du romani du Vlax du Sud, une variété couramment utilisée en ligne. Mais il mélange également des éléments d’autres pays, comme le Vlax du Nord et le Rom des Balkans.
» Google Translate fait tomber les barrières linguistiques pour aider les gens à se connecter et à mieux comprendre le monde qui les entoure. Nous appliquons toujours les dernières technologies pour que davantage de personnes puissent accéder à cet outil : En 2022, nous avons ajouté 24 nouvelles langues à l’aide de la traduction automatique Zero-Shot, où un modèle d’apprentissage automatique apprend à traduire dans une autre langue sans jamais voir d’exemple. Et nous avons annoncé l’Initiative 1 000 langues, un engagement à créer des modèles d’IA qui prendront en charge les 1 000 langues les plus parlées dans le monde.
Aujourd’hui, nous utilisons l’IA pour élargir la variété des langues que nous prenons en charge. Grâce à notre grand modèle de langue PaLM 2, nous déployons 110 nouvelles langues dans Google Translate, notre plus grande expansion à ce jour ».
PaLM 2 a été une pièce clé du puzzle, aidant Translate à apprendre plus efficacement des langues étroitement liées les unes aux autres, y compris des langues proches de l’hindi, comme l’awadhi et le marwadi, et des créoles français comme le créole seychellois et le créole mauricien. Au fur et à mesure que la technologie progresse et que Google Translate continue à s’associer à des linguistes experts et à des locuteurs natifs, Google Translate prendra en charge encore plus de variétés de langues et de conventions orthographiques au fil du temps.
L’importance des communautés
« Certaines langues, comme le manois, le sami ou le breton (environ 200 000 locuteurs, N.D.L.R.), n’ont pas beaucoup de locuteurs, mais elles possèdent des communautés très dévouées qui ont publié beaucoup de contenus. Nous avons consulté des linguistes, des experts, des traducteurs et des locuteurs natifs. Ils ont évalué la qualité du modèle et fourni des traductions » ajoute Isaac Caswell.
Des initiatives locales pour le breton
En février, un collectif avait appelé en urgence à l’intégration du breton dans Google Traduction et avait organisé un Datathon à Quimper. «C’est essentiel pour que le breton et la Bretagne comptent dans le monde, à l’heure où la consommation culturelle est dématérialisée », avait alors dit David Lesvenan, le président du fonds de dotation Bretagne numérique, créé par l’association .bzh.
Une autre initiative : avec un dictionnaire historique, une base de données toponymiques et un traducteur automatique, l’Office public de la langue bretonne a mis en ligne en novembre 2023 des outils visant à renforcer la présence du breton dans l’espace numérique. 60 000 mots y sont notamment traduits. Le traducteur automatique actuel de l’OPLB permet de traduire des phrases du breton vers le français et du français vers le breton, le tout basé sur l’Intelligence Artificielle et offrant un outil d’une qualité qui a bluffé un bon nombre d’experts malgré les imperfections qui seront lissées avec le temps.
L’ajout de ces nouvelles langues à Google Traduction est une avancée significative pour la diversité linguistique et culturelle, pour la sauvegarde et la transmission des langues. Grâce à l’intelligence artificielle et aux efforts des communautés locales, des langues comme le breton peuvent désormais bénéficier d’une visibilité accrue et d’une meilleure accessibilité dans le monde numérique. Même si tout n’est pas encore parfait et ne peut remplacer l’humain, il va sans dire.