A propos

Projet Kalam-Na

NumĂ©risation et intĂ©gration des langues locales du Tchad aux nouvelles technologies d’Intelligence artificielle (IA)

Le Tchad est un pays de richesse linguistique avec 123 langues1 parlĂ©es localement (31 en voie de disparition et 4 ont disparu), appartenant Ă  trois grandes familles linguistiques: nilo-saharienne, afro-asiatique et niger-congo. MalgrĂ© cette diversitĂ© remarquable, la plupart de ces langues restent absentes des technologies numĂ©riques et risquent de disparaĂźtre face Ă  la mondialisation. Notre projet vise Ă  revitaliser, documenter et intĂ©grer toutes les langues locales dans l’écosystĂšme des technologies NLP et d’intelligence artificielle (IA). Face Ă  la menace de disparition qui pĂšse sur de nombreuses langues locales et Ă  leur sous-reprĂ©sentation dans l’espace numĂ©rique, ce projet propose une approche multidisciplinaire alliant linguistique computationnelle, dĂ©veloppement informatique et participation communautaire.

Contexte et justification

Les langues tchadiennes, sont confrontées à plusieurs défis majeurs et pourtant, elles ne sont pas bien protégées et trÚs peu valorisées :

  1. Sous-reprĂ©sentation numĂ©rique : Absence quasi-totale dans les technologies de l’information et les applications d’IA
  2. Manque de ressources linguistiques structurĂ©es : Peu de corpus numĂ©riques, de dictionnaires Ă©lectroniques ou d’outils d’analyse
  3. Risque d’extinction : Diminution des locuteurs natifs et absence de transmission intergĂ©nĂ©rationnelle
  4. Exclusion technologique : Les populations monolingues dans ces langues sont exclues des avancées technologiques et des débats locaux; tout simplement de la contribution active au développement du Tchad.

Les objectifs de ce projet

  1. CrĂ©ation et Ă©largissement du corpus linguistique : DĂ©velopper une mĂ©thodologie d’acquisition de donnĂ©es comprenant une liste thĂ©matique de vocabulaire essentiel (au moins 1000 termes par langue) Ă  travers aussi la mise en place des “marathons linguistiques” dans les diffĂ©rentes rĂ©gions du Tchad, oĂč les locuteurs natifs contribuent directement Ă  l’enrichissement des bases de donnĂ©es. Recueillir pour chaque entrĂ©e lexicale un minimum de deux (2) phrases contextuelles illustrant l’usage authentique. Enfin, nous documentons les variations dialectales et rĂ©gionales au sein de chaque langue tout en formant des “ambassadeurs linguistiques” dans chaque communautĂ©, responsables de la qualitĂ© des donnĂ©es recueillies

  2. Consolidation des ressources linguistiques : Centraliser l’ensemble des ressources linguistiques disponibles et collecetĂ©es (dictionnaires, livres de grammaires et vocabulaires et articles scientifiques, corpus de textes, 
) dans une base de donnĂ©es unifiĂ©e et structurĂ©e. Par la suite, indexer les sources existantes selon des critĂšres linguistiques (phonologie, morphologie, syntaxe) pour faciliter les recherches ultĂ©rieures

  3. Documentation sonore : Constituer une base de donnĂ©es audio de haute qualitĂ© d’au moins 10h avec des locuteurs natifs (hommes/femmes); enregistrer systĂ©matiquement le lexique, les phrases types et des Ă©chantillons de discours naturel (rĂ©cits, conversations) Ă  travers le protocole d’enregistrement normalisĂ© (format audio WAV, 1600hz, pas de bruit de fond, 
) pour garantir la qualitĂ© et la cohĂ©rence des donnĂ©es

  4. AccessibilitĂ© numĂ©rique : CrĂ©er une plateforme en ligne permettant la consultation de ressources lexicographiques interactives (Ă  partir de nos collectes antĂ©rieurs de donnĂ©es) Produire et publier des dictionnaires Ă©lectroniques et visuels en formats PDF et HTML. DĂ©velopper une API permettant l’interrogation programmatique des ressources linguistiques

  5. DĂ©veloppement d’outils NLP et grand models du langage (LLMs): CrĂ©er des modĂšles de tokenisation adaptĂ©s aux particularitĂ©s morphologiques de nos langues et dĂ©velopper des modĂšles de traitement du langage naturel (ASR, TTT, TTS, 
) et des modĂšles de reconnaissance vocale d’au moins 5 langues tchadiennes majeures et des systĂšmes de traduction automatique entre ces langues et les langues Ă©trangĂšres (anglais, français et arabe). Et puis, dĂ©velopper une API permettant l’interrogation programmatique des ressources linguistiques

  6. Cartographie linguistique numérique du Tchad : Etablir une carte interactive des langues tchadiennes identifiant les zones géographiques, le nombre approximatif de locuteurs et leur statut de vitalité

  7. Formation des linguistiques et Ă©tudiants tchadiens en technologies linguistiques : Établir un programme de formation de jeunes informaticiens tchadiens aux techniques du NLP; organiser des ateliers pratiques sur le dĂ©veloppement d’applications linguistiques. CrĂ©er un laboratoire (A-tougoui->Chad) permanent de recherche en technologies linguistiques Ă  N’Djamena

  8. Mise en place d’un modĂšle Ă©conomique pĂ©renne pour assurer la continuitĂ© du projet au-delĂ  du financement initial

  9. Rendre les modĂšles dĂ©veloppĂ©s open source : Les modĂšles que nous dĂ©veloppons seront ouverts et accessibles Ă  toute la communautĂ© tchadienne et scientifique pour qu’elle puisse amĂ©liorer, proposer des solutions et tant d’autres applications dans le respect stricte de la licence de ce projet.

Méthologie de ce projet

1. Collecte participative de données

  • Mise en place d’une plateforme de crowdsourcing denommĂ©e “Kalam-Na” pour la collecte de donnĂ©es linguistiques
  • Ateliers d’enregistrement audio avec des locuteurs natifs de diffĂ©rentes gĂ©nĂ©rations
  • Documentation des variations dialectales et sociolectales
  • Mise en place d’une plateforme de crowdsourcing [Kalam-Na-Nahadjou] pour une collecte interactive des donnĂ©es textuelles et audio de ces langues.

2. Traitement et annotation des données

  • DĂ©veloppement de schĂ©mas d’annotation spĂ©cifiques aux langues tonales
  • Utilisation de techniques de transfer learning pour maximiser l’exploitation des donnĂ©es limitĂ©es
  • Mise en place d’un pipeline de validation linguistique impliquant experts et communautĂ©s

3. Modélisation adaptée

  • Conception d’architectures neuronales et fine-tuning des modĂšles existants et open source (BERT, Lllama, DeepSeek, etc.) prenant en compte les spĂ©cificitĂ©s morphosyntaxiques et tonales
  • DĂ©veloppement de techniques de data augmentation pour les langues Ă  ressources limitĂ©es
  • Exploration d’approches multimodales (texte, audio, visuel) pour renforcer les modĂšles

4. Déploiement communautaire

  • CrĂ©ation d’interfaces utilisateurs adaptĂ©es aux contextes locaux (accessibilitĂ©, faible connectivitĂ©)
  • Formation de relais locaux pour l’appropriation et la diffusion des outils
  • Évaluation continue et itĂ©rative avec les communautĂ©s de locuteurs et de scientifiques

Impact et résultats attendus

Ce projet transformera non seulement la place des langues tchadiennes dans l’écosystĂšme numĂ©rique, mais renforcera Ă©galement l’identitĂ© culturelle des communautĂ©s tout en facilitant leur accĂšs aux technologies de l’information. En prĂ©servant la richesse linguistique du Tchad tout en l’ancrant dans la modernitĂ©, nous contribuerons Ă  un dĂ©veloppement technologique vĂ©ritablement inclusif et culturellement pertinent.

Impacts scientifique, socioculturel et technologique

  • Avancement des connaissances en NLP pour langues peu dotĂ©es
  • Publications de nouvelles mĂ©thodologies et ressources
  • CrĂ©ation d’un rĂ©fĂ©rentiel scientifique sur les langues tchadiennes
  • Revalorisation des langues locales auprĂšs des jeunes gĂ©nĂ©rations
  • PrĂ©servation numĂ©rique du patrimoine linguistique
  • RĂ©duction de la fracture numĂ©rique linguistique
  • CrĂ©ation d’un Ă©cosystĂšme d’outils open-source rĂ©utilisables (nous mettons les modĂšles en pen source sous la licence MIT & Apache 2.0)
  • IntĂ©gration des langues locales dans les technologies mainstream
  • DĂ©veloppement d’applications (centrĂ©es) centrĂ©es sur les besoins locaux

Perspectives Ă  long terme

Le projet Kalam-Na ambitionne de crĂ©er un modĂšle reproductible pour d’autres langues africaines peu dotĂ©es de corpus et peut contribuer Ă  un Ă©cosystĂšme numĂ©rique multilingue plus inclusif. La mĂ©thodologie dĂ©veloppĂ©e pourra ĂȘtre adaptĂ©e Ă  d’autres rĂ©gions du monde confrontĂ©es Ă  des dĂ©fis similaires de prĂ©servation linguistique.

Nous visons Ă  positionner les langues tchadinnes et plus largement africaines non pas comme simples objets d’étude ethnolinguistique, mais comme langues pleinement fonctionnelles dans l’écosystĂšme numĂ©rique du 21Ăšme siĂšcle.Cependant, nous vous invitons Ă  explorer ces ressources et si vous voulez contribuer Ă  ce projet d’intĂ©rĂȘt gĂ©nĂ©ral; veuillez nous Ă©crire Ă  travers cet email.

La documentation, la préservation et la promotion des langues tchadiennes est notre priorité absolue à travers ce projet.