Sara-Baguirmi est une famille composée de 16 langues tchadiennes et qui sont : Bebote, Bebiondo (Nangnda), Bagirmi[bmi], Daba[dgk], Gor[gqr], Gulay[gvl], KabaNa, Kaba[ksp], Laga[lap], Kulfa, Mango[mge], Nar, Ngambay[sba], Ngam[nmc], Mbay[myb] et Sar[bjv] parlées au Tchad et certaines dans le Nord de la République Centrafricaine (RCA) qui est un pays limitrophe du Tchad. Elles sont de la famille Nilo-saharienne.
Dans la région de Doba, les variétés comme Bebote, Gor et Mango sont parlées.
L’objectif de cette journée est d’obtenir une vue d’ensemble 1- des difficultés à collecter, traiter et gérer des données vocales à faibles ressources, 2- de la manière dont les architectures existantes sont robustes aux langues à faibles ressources 3- et du protocole d’évaluation lorsque les locuteurs natifs sont rares.
Dans cet article, nous abordons les points suivants :
- Les dialectes Sara du Tchad
- Les caractéristiques de ces langues
- La collecte, le traitement, l’analyse et la création de corpus
- Les défis liés à cette analyse et rencontrés pendant la collecte
Les dialectes Sara du Tchad
Les dialectes Sara sont parlés principalement dans le sud du Tchad. Ils constituent un groupe linguistique riche avec des variations significatives selon les régions.
Les caractéristiques de ces langues
L’étude des dialectes Sara passe par l’analyse de plusieurs niveaux linguistiques.
Phonologie
La prononciation des mots dans ces 16 langues Sara varie légèrement dans certains cas et de manière significative dans d’autres. Les linguistes distinguent deux types de sons :
Sons invariants : Ces sons conservent la même signification pour un mot donné et parfois, il n’y a pas de distinction entre ces sons dans certains de ces dialectes. Cela peut rendre la compréhension plus homogène, mais ce n’est pas universel à toutes les langues Sara.
Sons distinctifs : Ces sons, souvent représentés entre crochets [ ], jouent un rôle crucial dans la différenciation des mots. Ils sont spécifiques à chaque langue et constituent des phonèmes essentiels. Par exemple, dans certains dialectes Sara, les mots käg et k‡µ peuvent s’écrire de manière similaire, mais leurs sons sont très différents, ce qui change complètement leur signification.
Ces distinctions phonologiques sont fondamentales pour comprendre la richesse et la complexité des langues Sara. Cependant, nous n’avons pas une une étude (une documentation) de ces données sur les répresentations distinctives de sons.
La phonologie des dialectes Sara présente une diversité de sons et de tons qui influencent la signification des mots. Prenons un exemple d’audio de la langue Bebote, Ngambay et Sar et leur transcription pour bien comprendre.
Exemple : un échantillon de la langue Bebote, Ngambay et Sar
| Texte | Audio |
|---|---|
| Kànd¸ käg¸ k‡µ nÆ£ ndÏ. | |
| ùnd-á njîd-njîd. | |
| à rèē bíᶉí. |
Morphologie
Ces dialectes possèdent des structures morphologiques variées avec des affixes pour indiquer le temps, l’aspect et la modalité.
Syntaxe
La syntaxte est l’étude de la manière dont les langues expriment les relations (ordre cohérent et le morphème) entre les mots.
Exemple : Dans la phrase “Mìnjì àndɨ̄ yā̰ wàlá nò̰”, la syntaxe permet d’examiner sa la structure et identifie “Mìnjì” comme sujet, “àndɨ̄” comme verbe et “yā̰ wàlá nò̰” comme complément circonstanciel de lieu.

La syntaxe des dialectes Sara suit ces structures spécifiques avec des règles grammaticales distinctes dont parfois on ne peut pas trouver sujet + verbe + complément dans toutes les phrases de Ngambay; l’ordre peut être inversé (voir figure ci-dessus). Nous avons le même principe pour les autres langues Sara.
Alphabet de Ngambay et Sar:
L’alphabet de Ngambay contient 32 caractères, dont des lettres latines standard et plusieurs lettres avec des signes diacritiques et certaines avec des caractères spéciaux.
a, a̰, b, ɓ, d, e, ḛ, ə, g, h, i, ḭ, ɨ, j, k, l, m, mb, n, nd, ng, nj, o, o̰, ↄ, p, r, ɗ, s, t, u, ṵ, w, y
a, a̰, b, ɓ, d, e, ḛ, g, h, i, ḭ, ɨ, j, k, l, m, mb, n, nd, ng, nj, o, o̰, ↄ, p, r, ᶉ, ɗ, s, t, u, ṵ, w, y
Dans ces deux types d’alphabet, trois idées centrales se dégagent :
Nous constatons que dans ces deux alphabets, il y’a des caractères latins et des caractères spécifiques, modifiés
Il existe des digrammes (mb, nd, ng, nj) qui sont traités comme des unités distinctes dans le système alphabétique
Les diartiques représentent différents sons et se trouvent tous dans les deux cas
Pour pouvoir avoir ces caractères dans ces langues, on utilise une police unicode Charis SIL (Doulos SIL) qui sont spécialement conçues pour la linguistique.
Sémantique
La sémantique de ces dialectes met en lumière des significations contextuelles variant selon l’intonation et le contexte d’utilisation.
La collecte, le traitement, l’analyse et la création de corpus
L’élaboration d’un corpus pour les langues Sara-Baguirmi est primordiale pour développer des modèles ASR (Automatic Speech Recognition - Reconnaissance automatique de la parole) et TTS (Text-to-Speech ou Texte en parole). Cependant, à ce jour, il existe très peu de données disponibles sur ces langues. Les sources existantes proviennent souvent de travaux académiques réalisés par des étudiants dans le cadre de leurs mémoires de fin d’études ou d’études menées par des organisations missionnaires (principalement à travers des missions réligieuses catholique). Il est souvent difficile de trouver des publications ou des références fiables sur ces travaux. Pour pallier ce manque de données, nous avons constituer un corpus textuel (paire - dialectes Sara vs francais) et audio (la transcription) sur ces 12 langues.
Analyse des données audio
| Langue | Nombre d’audios | Durée totale (minutes) |
|---|---|---|
| Bebote | 2153 | 67.82 |
| Daba | 2053 | 67.44 |
| Gor | 2622 | 92.95 |
| Gulay | 3446 | 117.05 |
| Kaba | 1817 | 70.99 |
| KabaNa | 5692 | 146.11 |
| Laka | 3164 | 86.98 |
| Mango | 3417 | 118.82 |
| Nar | 3302 | 96.51 |
| Ngambay | 5628 | 143.57 |
| Ngam | 610 | 24.18 |
| Sar | 3488 | 109.98 |
| Total | 37392 | 1142.4 |
Nous avons au total 37 392 audio soit 1 142.4 min soit 19h 2min 24sec d’audios enregistrées sur ces 12 langues. Ces derniers ont été convertis de format mp3 à wav et équilibré tous sur une taille d’échantillonnage de 16 bits et un seul cannal (mono).
A travers ces 19h, nous pourrons d’ores et déjà, affiner (fine-tuning) les modèles pré entrainés Wav2vec et Whisper. Nous testons ces données sur ces deux modèles et d’en choisir, après évaluation, le meilleur pour un déploiement et ouverture à la communauté. Donc, nous nous sommes engagés dans le développement d’un seul système de reconnaissance automatique de la parole (ASR) et d’un autre de transcription de la parole (TTS). Il est évident de combiner ces langues de la même famille, où il existe des legères variations phonétiques et syntaxiques, dans un seul gros système. Pour faire, tout le travail de ce projet, dans ces cas d’applications, se base sur le pipeline suivant :

La différence entre ASR et TTS :
| Caractéristique | Wav2Vec 2 | Whisper |
|---|---|---|
| Type d’apprentissage | Auto-supervisé | Supervisé |
| Besoin de labels | Non (pré-entraînement), Oui (fine-tuning) | Oui |
| Architecture | CNN + Transformer | CNN + Transformer encodeur-décodeur |
| Masquage du signal | Oui | Non |
| Tâches | Reconnaissance vocale (ASR) | ASR, traduction, détection de langue |
| Multilingue | Possible avec fine-tuning | Oui (natif) |
Nous sommes persuadés que ceci permettra à la communauté de développer des solutions éducatives et répondre aux défis que notre pays fait face à travers notre modèle que nous envisageons d’ouvrir certains de ses caractéristiques en open source.
Nous comptons sur vous pour une meilleure contribution et amélioration.
Onde d’un audio Bebote

Nous utilisons le pipeline suivant dans toutes nos applications de modèles ASR et TTS dans ce projet Kalam-na.
Taux d’erreur de mots (WER)
Le WER est une mesure permettant d’évaluer les performances des modèles ASR. Il permet de mesurer la proximité d’une prédiction textuelle avec une référence textuelle. Sa formule de mesure est la suivante : \[ \text{WER} = \frac{S + D + I}{N} \]
où :
- ( S ) : nombre d’erreurs de substitution
- ( D ) : nombre d’erreurs de suppression
- ( I ) : nombre d’erreurs d’insertion
- ( N ) : nombre total de mots dans la référence
Il enregistre trois types d’erreurs :
- Substitutions (S) : une erreur de substitution est enregistrée lorsque la prédiction contient un mot différent du mot analogue de la référence. Par exemple, cela se produit lorsque la prédiction orthographie mal un mot de la référence
- Suppressions (D) : une erreur de suppression est enregistrée lorsque la prédiction contient un mot qui n’est pas présent dans la référence
- Insertions (I) : une erreur d’insertion est enregistrée lorsque la prédiction ne contient pas un mot présent dans la référence.
Les défis liés à cette analyse et rencontrés pendant la collecte
Les défis liés à cette étude des dialectes Sara sont le manque de ressources linguistiques (dictionnaires, bases de données existantes); la difficulté d’accès aux locuteurs natifs pour une collecte représentative; la variabilité des dialectes qui rend l’analyse plus complexe et la limitations techniques pour l’enregistrement et l’entraimement des modèles.
Complexité de collecte
Cette phase est la plus complexe dans cette étude : comment peut-on collecter des données au moment où on a des linguistes agueris, ni une accessibilité aux personnes ressources et une bonne référence des articles publiés dans la linguistique. Plusieurs interrogations se sont surgis lorsqu’on a débuté avec ce projet.
AUTEUR :
Abdel-aziz Harane Abounounou
Ingénieur en IA
Fondateur et Coordonnateur général, Chad AI Network
Partager avec votre communauté