Saints bretons à découvrir

Ur porched niverel evit ar brezhoneg / Un portail numérique pour la langue bretonne

Amzer-lenn / Temps de lecture : 8 min
Pennad e brezhonegArticle en français

Porched niverel ar brezhoneg a oa bet kinniget d’ar gazetennerien e-kerzh un emvod-kelaouiñ d’an 30 a viz Here 2023 e Roazhon. Dalc’het eo bet an emvod-kelaouiñ-mañ e Klub ar gazetennerien e Roazhon, dirak an ao. Paul Molac, prezidant an OPAB hag an ao. Christian Troadeg, besprezidant karget eus Yezhoù Breizh ha Bretoned ar Bed e Kuzul-rannvro Breizh.

Emañ an OPAB o paouez sevel ur porched a-ratozh hag a vod roadennoù niverel publik ha binvioù a bep seurt. Ur gwir araokadenn evit ar brezhoneg eo. Digoust eo ar servij-se ha digor eo d’an holl dre ar chomlec’h niverel.brezhoneg.bzh.

Diwar vremañ e c’haller kavout al loazioù-mañ war ar porched :

> Er geriadur istorel Meurgorf ez eus ouzhpenn 60 000 pennger, bouetaet a zeiz da zeiz. Ouzhpenn 150 000 skouer istorel tennet eus korpus geriadurel ar brezhoneg zo asambles gant o c’hendestenn, kinniget en un doare sklaer ha kronologel. Gant e zoare nevez e c’haller lenn fonetik ur ger ha selaou e zistagadur dre gomz, hag ivez adkavout aes ar gerioù kar pe o stummoù pleget da skouer. Gant al lusker enklask enframmet e vez aesoc’h kavout gerioù dre rummad yezhadurel pe dre ma vezont kavet en un oberenn vrezhonek bennak.

> En diaz roadennoù lec’hanvadurezh KerOfis ez eus ouzhpenn 52 000 fichenn hag a vez hizivaet bemdez gant servij Glad yezhel ha panellerezh an OPAB. Evel-se e c’haller kaout, da gentañ-penn, stumm reizh an anvioù-lec’h brezhonek. War ar gartenn OpenStreetMap e brezhoneg e kaver anezho diwar vremañ. Stummoù kozh an anvioù hag ar stummoù brezhonek testeniekaet a vez kinniget ivez, e-kichen titouroù all evel an orin istorel pe ar ster. An diaz termenadurezh TermOfis, eus TermBret, kreizenn dermenadurezh an OPAB, zo ouzhpenn 86 000 termen rummet dre zomani ennañ.

Web gwelet en he brasañAn troer nevez> E 2022 en doa roet an OPAB lañs d’un troer emgefre nevez efedusoc’h, goude un troer kentañ lañset e 2009 diwar ar reizhiad Open Source Apertium. An troer emgefre diazezet war an naouegezh artifisiel zo gouest da dreiñ war an tu brezhoneg-galleg ha war an tu galleg-brezhoneg war un dro. Krouet eo bet gant Alan Entem, ijinour war an naouegezh artifisiel anezhañ. Gant araokadennoù teknikel hiziv an deiz e c’haller diorren troerioù emgefre diwar rouedadoù neuronel lakaet da vont en-dro gant korpusoù divyezhek bihan a-walc’h o ment (war-dro 100 000 daouad frazennoù evit ar brezhoneg). Natureloc’h ha resisoc’h eo an testennoù a vez kinniget ha gwellaat a ra ar c’halite dre ma vez pinvidikaet ar c’horpus.

> Raktres sintezenn ar gomz e brezhoneg, lañset gant an OPAB e 2020 gant sikour Rannvro Breizh ha Penndileurierezh evit ar galleg ha yezhoù Frañs (DGLFLF) zo bet savet gant skipailh Ezteurel labourva an IRISA, war an dachenn deknikel, gant ur budjed a 200 000€. Taolet ez eus bet pled mat gant an OPAB ouzh kalite an distagañ hag ouzh an taol-mouezh, evit ma c’hallo ar benveg-mañ bezañ implijet evel benveg dave evit deskiñ ar yezh. Gant ar reizhiad-se, diazezet war an naouegezh artifisiel, e c’hallo ivez bezañ diorroet binvioù all evit ma c’hallfe bezañ klevet muioc’h a vrezhoneg er vuhez pemdeziek (GPSoù, kemennadennoù dre gomz en treuzdougen boutin, pignerezioù, responterioù…). Peder mouezh a c’haller klevet bremañ : div vouezh plac’h ha div vouezh paotr.

> Ar c’horpusoù skrivet ha klevet a ya d’ober unan eus al loazioù diazez war dachenn tretañ emgefre ar yezhoù naturel. 64 000 frazenn zo e korpus divyezhek galleg-brezhoneg an OPAB a implijer hiziv an deiz, ul lodenn eus memorioù treiñ an OPAB int. War-dro 50 eurvezh enrolladennoù brezhonek zo er c’horpus klevet savet e kenlabour gant an IRISA evit raktres sintezenn ar vouezh. Korpusoù all frank a wirioù a gaver ivez war ar porched (testennoù, enrolladennoù klevet, h.a.)
Labourat war kalite al loazioù, en o zouez korpusoù unyezhek ha divyezhek dave, a roio an tu da wellaat kalite ar reizhiad treiñ emgefre (stadegoù, neuron, hiron) ha da labourat war teknologiezhioù nevez an naouegezh artifisiel (digejañ ar gomz, graer kaozeadennoù evel ChatCPT…).

Binvioù all a c’haller kavout war ar porched : ur fonetikelaer evit treuzskrivañ frazennoù brezhonek hervez lizherenneg etrebroadel ar fonetik, ur skoueriekaer evit lakaat aes da lenn e brezhoneg elfennoù evel sifroù pe arouezennoù arbennik, un silabifier a droc’h ur frazenn e silabennoù hag evit gouzout en a-raok e pelec’h e vo an taol-mouezh.

Kenderc’hel a raio ar porched niverel da emdreiñ en ur wellaat efedusted an ostilhoù a zo ennañ dija hag ivez gant diorren ostilhoù nevez ha loazioù nevez a-feur ma yelo ar stlenneg war-raok.

Le portail numérique de la langue bretonne a été présenté lors d’une conférence de presse tenue le 30 octobre dernier au Club de la presse de Bretagne à Rennes, en présence de M. Paul Molac, président de l’OPLB et M. Christian Troadec, vice-président en charge des Langues de Bretagne et Bretons du Monde au Conseil régional de Bretagne.

L’OPLB vient de mettre en place un portail dédié regroupant des données numériques publiques et différents outils qui représentent une véritable avancée pour la langue bretonne. Ce service est gratuit et accessible à tous via l’adresse niverel.brezhoneg.bzh.

Les ressources suivantes sont dès à présent accessibles sur le portail :

> Le dictionnaire historique Meurgorf contient plus de 60 000 entrées. Il est enrichi en continu. Plus de 150 000 exemples historiques issus du corpus lexical breton sont placés dans leur contexte, présentés d’une manière claire et chronologique. Sa nouvelle version permet de lire la phonétique d’un mot et d’écouter sa prononciation, mais aussi de retrouver facilement les mots parents ou leurs formes fléchies par exemple. Le moteur de recherche intégré facilite la recherche de mots par catégorie grammaticale ou par leur présence dans telle ou telle œuvre en langue bretonne.

> La base de données toponymiques KerOfis comprend plus de 52 000 fiches, mises à jour quotidiennement par le service Patrimoine linguistique et signalisation de l’OPLB. Elle permet de disposer en premier lieu de la forme correcte des toponymes bretons. Ceux-ci sont désormais localisés sur la carte OpenStreetMap en breton. Les formes anciennes et les formes bretonnes attestées sont également présentées, aux côtés d’autres informations telles que l’origine historique ou la signification. La base terminologique TermOfis du centre terminologique TermBret de l’OPLB contient plus de 86 000 termes classés par domaine.

Voir l'image en grandLe nouveau traducteur> En 2022, l’OPLB lance le chantier d’un nouveau traducteur automatique plus performant, après un premier projet lancé en 2009 à partir du système Open Source « Apertium ». Le traducteur automatique basé sur l’intelligence artificielle est désormais capable de traduire à la fois dans les sens breton-français et français-breton. Il a été réalisé par Alan Entem, ingénieur IA. Les avancées techniques permettent aujourd’hui de développer des traducteurs automatiques à base de réseaux de neurones entraîné sur des corpus bilingue de taille relativement restreinte (environ 100 000 paires de phrases pour le breton). Les textes produits sont plus naturels et plus précis, et la qualité s’améliore à mesure que le corpus s’enrichit.

> Le projet de synthèse de la parole du breton, lancé par l’OPLB en 2020 avec l’aide de la Région Bretagne et de la DGLFLF (Délégation générale à la langue française et aux langues de France) a été réalisé par l’équipe Expression du laboratoire de l’IRISA pour la réalisation technique, avec un budget de 200 000€. L’OPLB a prêté une attention particulière à la qualité de la prononciation et au respect de l’accent tonique afin que cet outil puisse être utilisé comme référence pour l’apprentissage de la langue. Ce système de synthèse vocale, basé sur l’intelligence artificielle, permettra également de développer d’autres outils afin que l’on puisse entendre plus de breton dans la vie quotidienne (GPS, messages vocaux dans les transports en commun, ascenseurs, répondeurs…). Quatre voix sont actuellement disponibles : deux voix de femmes et deux voix d’hommes.

> Les corpus écrits et oraux constituent l’une des ressources de base dans le domaine du traitement automatique du langage naturel. Le corpus bilingue français-breton de l’OPLB utilisé actuellement contient 64 000 phrases, constitué d’une partie des mémoires de traduction de l’OPLB. Le corpus audio issu du projet de synthèse vocale en partenariat avec l’IRISA contient environ 50 heures d’enregistrement en breton. D’autres corpus libres de droits sont également présents sur le portail (textes, enregistrements audios, etc.).
Travailler sur la qualité des ressources, notamment des corpus monolingues et bilingues de référence, permettra d’améliorer la qualité du système de traducteur automatique (statistique, neuronal, hybride) et de travailler sur les nouvelles technologies de l’intelligence artificielle (reconnaissance vocale, agent conversationnel comme ChatGPT).

D’autres outils sont accessibles sur le portail : un phonétiseur afin de transcrire des phrases en breton dans l’alphabet phonétique international, un normaliseur qui permet de transposer des éléments comme des chiffres ou des symboles spéciaux en mots lisibles en breton, un syllabifieur qui découpe une phrase en syllabes et prévoit la position de l’accent tonique.

Le portail numérique va continuer d’évoluer en améliorant la performance des outils actuels et en développant de nouveaux outils et de nouvelles ressources au fur et à mesure des développements informatiques.

Source : Site OPLB / Lec’hienn OPAB

À propos du rédacteur Erwan Kermorvant

Erwan Kermorvant est père de famille. D'une plume acérée, il publie occasionnellement des articles sur Ar Gedour sur divers thèmes. Il assure aussi la veille rédactionnelle du blog et assure la mission de Community Manager du site.

Articles du même auteur

[RIANTEC] Dimanche prochain, pardon de Locjean

Amzer-lenn / Temps de lecture : 2 minDisul ma za – er sul 23 a …

Téléchargez KELEIER BREIZ SANTEL de juin 2024

Amzer-lenn / Temps de lecture : 1 minComme tous les mois sur Ar Gedour, retrouvez …

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *