Étude des langues Sara du Tchad – Kalam-na

Sara-Baguirmi est une famille composée de 16 langues tchadiennes et qui sont : Bebote, Bebiondo (Nangnda), Bagirmi[bmi], Daba[dgk], Gor[gqr], Gulay[gvl], KabaNa, Kaba[ksp], Laga[lap], Kulfa, Mango[mge], Nar, Ngambay[sba], Ngam[nmc], Mbay[myb] et Sar[bjv] parlées au Tchad et certaines dans le Nord de la République Centrafricaine (RCA) qui est un pays limitrophe du Tchad. Elles sont de la famille Nilo-saharienne.

Dans la région de Doba, les variétés comme Bebote, Gor et Mango sont parlées.

L’objectif de cette journée est d’obtenir une vue d’ensemble 1- des difficultés à collecter, traiter et gérer des données vocales à faibles ressources, 2- de la manière dont les architectures existantes sont robustes aux langues à faibles ressources 3- et du protocole d’évaluation lorsque les locuteurs natifs sont rares.

Note

Toutes ces variétés linguistiques commencent par le préfixe sara et sont très proches les unes des autres entermes de phonologie et de syntaxe.

Dans cet article, nous abordons les points suivants :

Les dialectes Sara du Tchad
Les caractéristiques de ces langues
La collecte, le traitement, l’analyse et la création de corpus
Les défis liés à cette analyse et rencontrés pendant la collecte

Les dialectes Sara du Tchad

Les dialectes Sara sont parlés principalement dans le sud du Tchad. Ils constituent un groupe linguistique riche avec des variations significatives selon les régions.

Les caractéristiques de ces langues

L’étude des dialectes Sara passe par l’analyse de plusieurs niveaux linguistiques.

Phonologie

La prononciation des mots dans ces 16 langues Sara varie légèrement dans certains cas et de manière significative dans d’autres. Les linguistes distinguent deux types de sons :

Sons invariants : Ces sons conservent la même signification pour un mot donné et parfois, il n’y a pas de distinction entre ces sons dans certains de ces dialectes. Cela peut rendre la compréhension plus homogène, mais ce n’est pas universel à toutes les langues Sara.
Sons distinctifs : Ces sons, souvent représentés entre crochets [ ], jouent un rôle crucial dans la différenciation des mots. Ils sont spécifiques à chaque langue et constituent des phonèmes essentiels. Par exemple, dans certains dialectes Sara, les mots käg et k‡µ peuvent s’écrire de manière similaire, mais leurs sons sont très différents, ce qui change complètement leur signification.

Ces distinctions phonologiques sont fondamentales pour comprendre la richesse et la complexité des langues Sara. Cependant, nous n’avons pas une une étude (une documentation) de ces données sur les répresentations distinctives de sons.

La phonologie des dialectes Sara présente une diversité de sons et de tons qui influencent la signification des mots. Prenons un exemple d’audio de la langue Bebote, Ngambay et Sar et leur transcription pour bien comprendre.

Exemple : un échantillon de la langue Bebote, Ngambay et Sar

Texte	Audio
Kànd¸ käg¸ k‡µ nÆ£ ndÏ.
ùnd-á njîd-njîd.
à rèē bíᶉí.

Morphologie

Ces dialectes possèdent des structures morphologiques variées avec des affixes pour indiquer le temps, l’aspect et la modalité.

Syntaxe

La syntaxte est l’étude de la manière dont les langues expriment les relations (ordre cohérent et le morphème) entre les mots.

Exemple : Dans la phrase “Mìnjì àndɨ̄ yā̰ wàlá nò̰”, la syntaxe permet d’examiner sa la structure et identifie “Mìnjì” comme sujet, “àndɨ̄” comme verbe et “yā̰ wàlá nò̰” comme complément circonstanciel de lieu.

La syntaxe des dialectes Sara suit ces structures spécifiques avec des règles grammaticales distinctes dont parfois on ne peut pas trouver sujet + verbe + complément dans toutes les phrases de Ngambay; l’ordre peut être inversé (voir figure ci-dessus). Nous avons le même principe pour les autres langues Sara.

Alphabet de Ngambay et Sar:

L’alphabet de Ngambay contient 32 caractères, dont des lettres latines standard et plusieurs lettres avec des signes diacritiques et certaines avec des caractères spéciaux.

Alphabet Ngambay
Alphabet Sar

a, a̰, b, ɓ, d, e, ḛ, ə, g, h, i, ḭ, ɨ, j, k, l, m, mb, n, nd, ng, nj, o, o̰, ↄ, p, r, ɗ, s, t, u, ṵ, w, y

a, a̰, b, ɓ, d, e, ḛ, g, h, i, ḭ, ɨ, j, k, l, m, mb, n, nd, ng, nj, o, o̰, ↄ, p, r, ᶉ, ɗ, s, t, u, ṵ, w, y

Dans ces deux types d’alphabet, trois idées centrales se dégagent :

Nous constatons que dans ces deux alphabets, il y’a des caractères latins et des caractères spécifiques, modifiés
Il existe des digrammes (mb, nd, ng, nj) qui sont traités comme des unités distinctes dans le système alphabétique
Les diartiques représentent différents sons et se trouvent tous dans les deux cas

Pour pouvoir avoir ces caractères dans ces langues, on utilise une police unicode Charis SIL (Doulos SIL) qui sont spécialement conçues pour la linguistique.

Sémantique

La sémantique de ces dialectes met en lumière des significations contextuelles variant selon l’intonation et le contexte d’utilisation.

La collecte, le traitement, l’analyse et la création de corpus

L’élaboration d’un corpus pour les langues Sara-Baguirmi est primordiale pour développer des modèles ASR (Automatic Speech Recognition - Reconnaissance automatique de la parole) et TTS (Text-to-Speech ou Texte en parole). Cependant, à ce jour, il existe très peu de données disponibles sur ces langues. Les sources existantes proviennent souvent de travaux académiques réalisés par des étudiants dans le cadre de leurs mémoires de fin d’études ou d’études menées par des organisations missionnaires (principalement à travers des missions réligieuses catholique). Il est souvent difficile de trouver des publications ou des références fiables sur ces travaux. Pour pallier ce manque de données, nous avons constituer un corpus textuel (paire - dialectes Sara vs francais) et audio (la transcription) sur ces 12 langues.

Analyse des données audio

Les données audio collectées pour les 11 langues
Langue	Nombre d’audios	Durée totale (minutes)
Bebote	2153	67.82
Daba	2053	67.44
Gor	2622	92.95
Gulay	3446	117.05
Kaba	1817	70.99
KabaNa	5692	146.11
Laka	3164	86.98
Mango	3417	118.82
Nar	3302	96.51
Ngambay	5628	143.57
Ngam	610	24.18
Sar	3488	109.98
Total	37392	1142.4

Nous avons au total 37 392 audio soit 1 142.4 min soit 19h 2min 24sec d’audios enregistrées sur ces 12 langues. Ces derniers ont été convertis de format mp3 à wav et équilibré tous sur une taille d’échantillonnage de 16 bits et un seul cannal (mono).

A travers ces 19h, nous pourrons d’ores et déjà, affiner (fine-tuning) les modèles pré entrainés Wav2vec et Whisper. Nous testons ces données sur ces deux modèles et d’en choisir, après évaluation, le meilleur pour un déploiement et ouverture à la communauté. Donc, nous nous sommes engagés dans le développement d’un seul système de reconnaissance automatique de la parole (ASR) et d’un autre de transcription de la parole (TTS). Il est évident de combiner ces langues de la même famille, où il existe des legères variations phonétiques et syntaxiques, dans un seul gros système. Pour faire, tout le travail de ce projet, dans ces cas d’applications, se base sur le pipeline suivant :

Pipeline d’applications d’ASR et TTS créé par l’auteur

La différence entre ASR et TTS :

Caractéristique	Wav2Vec 2	Whisper
Type d’apprentissage	Auto-supervisé	Supervisé
Besoin de labels	Non (pré-entraînement), Oui (fine-tuning)	Oui
Architecture	CNN + Transformer	CNN + Transformer encodeur-décodeur
Masquage du signal	Oui	Non
Tâches	Reconnaissance vocale (ASR)	ASR, traduction, détection de langue
Multilingue	Possible avec fine-tuning	Oui (natif)

Tip

Nous sommes persuadés que ceci permettra à la communauté de développer des solutions éducatives et répondre aux défis que notre pays fait face à travers notre modèle que nous envisageons d’ouvrir certains de ses caractéristiques en open source.

Nous comptons sur vous pour une meilleure contribution et amélioration.

Onde d’un audio Bebote

Nous utilisons le pipeline suivant dans toutes nos applications de modèles ASR et TTS dans ce projet Kalam-na.

Taux d’erreur de mots (WER)

Le WER est une mesure permettant d’évaluer les performances des modèles ASR. Il permet de mesurer la proximité d’une prédiction textuelle avec une référence textuelle. Sa formule de mesure est la suivante : \[ \text{WER} = \frac{S + D + I}{N} \]

où :

( S ) : nombre d’erreurs de substitution
( D ) : nombre d’erreurs de suppression
( I ) : nombre d’erreurs d’insertion
( N ) : nombre total de mots dans la référence

Il enregistre trois types d’erreurs :

Substitutions (S) : une erreur de substitution est enregistrée lorsque la prédiction contient un mot différent du mot analogue de la référence. Par exemple, cela se produit lorsque la prédiction orthographie mal un mot de la référence
Suppressions (D) : une erreur de suppression est enregistrée lorsque la prédiction contient un mot qui n’est pas présent dans la référence
Insertions (I) : une erreur d’insertion est enregistrée lorsque la prédiction ne contient pas un mot présent dans la référence.

Les défis liés à cette analyse et rencontrés pendant la collecte

Les défis liés à cette étude des dialectes Sara sont le manque de ressources linguistiques (dictionnaires, bases de données existantes); la difficulté d’accès aux locuteurs natifs pour une collecte représentative; la variabilité des dialectes qui rend l’analyse plus complexe et la limitations techniques pour l’enregistrement et l’entraimement des modèles.

Complexité de collecte

Cette phase est la plus complexe dans cette étude : comment peut-on collecter des données au moment où on a des linguistes agueris, ni une accessibilité aux personnes ressources et une bonne référence des articles publiés dans la linguistique. Plusieurs interrogations se sont surgis lorsqu’on a débuté avec ce projet.

AUTEUR :

Abdel-aziz Harane Abounounou

Ingénieur en IA
Fondateur et Coordonnateur général, Chad AI Network

Partager avec votre communauté