Projet Kalam-Na
NumĂ©risation et intĂ©gration des langues locales du Tchad aux nouvelles technologies dâIntelligence artificielle (IA)
Le Tchad est un pays de richesse linguistique avec 123 langues1 parlĂ©es localement (31 en voie de disparition et 4 ont disparu), appartenant Ă trois grandes familles linguistiques: nilo-saharienne, afro-asiatique et niger-congo. MalgrĂ© cette diversitĂ© remarquable, la plupart de ces langues restent absentes des technologies numĂ©riques et risquent de disparaĂźtre face Ă la mondialisation. Notre projet vise Ă revitaliser, documenter et intĂ©grer toutes les langues locales dans lâĂ©cosystĂšme des technologies NLP et dâintelligence artificielle (IA). Face Ă la menace de disparition qui pĂšse sur de nombreuses langues locales et Ă leur sous-reprĂ©sentation dans lâespace numĂ©rique, ce projet propose une approche multidisciplinaire alliant linguistique computationnelle, dĂ©veloppement informatique et participation communautaire.
Contexte et justification
Les langues tchadiennes, sont confrontées à plusieurs défis majeurs et pourtant, elles ne sont pas bien protégées et trÚs peu valorisées :
- Sous-reprĂ©sentation numĂ©rique : Absence quasi-totale dans les technologies de lâinformation et les applications dâIA
- Manque de ressources linguistiques structurĂ©es : Peu de corpus numĂ©riques, de dictionnaires Ă©lectroniques ou dâoutils dâanalyse
- Risque dâextinction : Diminution des locuteurs natifs et absence de transmission intergĂ©nĂ©rationnelle
- Exclusion technologique : Les populations monolingues dans ces langues sont exclues des avancées technologiques et des débats locaux; tout simplement de la contribution active au développement du Tchad.
Les objectifs de ce projet
CrĂ©ation et Ă©largissement du corpus linguistique : DĂ©velopper une mĂ©thodologie dâacquisition de donnĂ©es comprenant une liste thĂ©matique de vocabulaire essentiel (au moins 1000 termes par langue) Ă travers aussi la mise en place des âmarathons linguistiquesâ dans les diffĂ©rentes rĂ©gions du Tchad, oĂč les locuteurs natifs contribuent directement Ă lâenrichissement des bases de donnĂ©es. Recueillir pour chaque entrĂ©e lexicale un minimum de deux (2) phrases contextuelles illustrant lâusage authentique. Enfin, nous documentons les variations dialectales et rĂ©gionales au sein de chaque langue tout en formant des âambassadeurs linguistiquesâ dans chaque communautĂ©, responsables de la qualitĂ© des donnĂ©es recueillies
Consolidation des ressources linguistiques : Centraliser lâensemble des ressources linguistiques disponibles et collecetĂ©es (dictionnaires, livres de grammaires et vocabulaires et articles scientifiques, corpus de textes, âŠ) dans une base de donnĂ©es unifiĂ©e et structurĂ©e. Par la suite, indexer les sources existantes selon des critĂšres linguistiques (phonologie, morphologie, syntaxe) pour faciliter les recherches ultĂ©rieures
Documentation sonore : Constituer une base de donnĂ©es audio de haute qualitĂ© dâau moins 10h avec des locuteurs natifs (hommes/femmes); enregistrer systĂ©matiquement le lexique, les phrases types et des Ă©chantillons de discours naturel (rĂ©cits, conversations) Ă travers le protocole dâenregistrement normalisĂ© (format audio WAV, 1600hz, pas de bruit de fond, âŠ) pour garantir la qualitĂ© et la cohĂ©rence des donnĂ©es
AccessibilitĂ© numĂ©rique : CrĂ©er une plateforme en ligne permettant la consultation de ressources lexicographiques interactives (Ă partir de nos collectes antĂ©rieurs de donnĂ©es) Produire et publier des dictionnaires Ă©lectroniques et visuels en formats PDF et HTML. DĂ©velopper une API permettant lâinterrogation programmatique des ressources linguistiques
DĂ©veloppement dâoutils NLP et grand models du langage (LLMs): CrĂ©er des modĂšles de tokenisation adaptĂ©s aux particularitĂ©s morphologiques de nos langues et dĂ©velopper des modĂšles de traitement du langage naturel (ASR, TTT, TTS, âŠ) et des modĂšles de reconnaissance vocale dâau moins 5 langues tchadiennes majeures et des systĂšmes de traduction automatique entre ces langues et les langues Ă©trangĂšres (anglais, français et arabe). Et puis, dĂ©velopper une API permettant lâinterrogation programmatique des ressources linguistiques
Cartographie linguistique numérique du Tchad : Etablir une carte interactive des langues tchadiennes identifiant les zones géographiques, le nombre approximatif de locuteurs et leur statut de vitalité
Formation des linguistiques et Ă©tudiants tchadiens en technologies linguistiques : Ătablir un programme de formation de jeunes informaticiens tchadiens aux techniques du NLP; organiser des ateliers pratiques sur le dĂ©veloppement dâapplications linguistiques. CrĂ©er un laboratoire (A-tougoui->Chad) permanent de recherche en technologies linguistiques Ă NâDjamena
Mise en place dâun modĂšle Ă©conomique pĂ©renne pour assurer la continuitĂ© du projet au-delĂ du financement initial
Rendre les modĂšles dĂ©veloppĂ©s open source : Les modĂšles que nous dĂ©veloppons seront ouverts et accessibles Ă toute la communautĂ© tchadienne et scientifique pour quâelle puisse amĂ©liorer, proposer des solutions et tant dâautres applications dans le respect stricte de la licence de ce projet.
Impact et résultats attendus
Ce projet transformera non seulement la place des langues tchadiennes dans lâĂ©cosystĂšme numĂ©rique, mais renforcera Ă©galement lâidentitĂ© culturelle des communautĂ©s tout en facilitant leur accĂšs aux technologies de lâinformation. En prĂ©servant la richesse linguistique du Tchad tout en lâancrant dans la modernitĂ©, nous contribuerons Ă un dĂ©veloppement technologique vĂ©ritablement inclusif et culturellement pertinent.
Impacts scientifique, socioculturel et technologique
- Avancement des connaissances en NLP pour langues peu dotées
- Publications de nouvelles méthodologies et ressources
- CrĂ©ation dâun rĂ©fĂ©rentiel scientifique sur les langues tchadiennes
- Revalorisation des langues locales auprÚs des jeunes générations
- Préservation numérique du patrimoine linguistique
- Réduction de la fracture numérique linguistique
- CrĂ©ation dâun Ă©cosystĂšme dâoutils open-source rĂ©utilisables (nous mettons les modĂšles en pen source sous la licence MIT & Apache 2.0)
- Intégration des langues locales dans les technologies mainstream
- DĂ©veloppement dâapplications (centrĂ©es) centrĂ©es sur les besoins locaux
Perspectives Ă long terme
Le projet Kalam-Na ambitionne de crĂ©er un modĂšle reproductible pour dâautres langues africaines peu dotĂ©es de corpus et peut contribuer Ă un Ă©cosystĂšme numĂ©rique multilingue plus inclusif. La mĂ©thodologie dĂ©veloppĂ©e pourra ĂȘtre adaptĂ©e Ă dâautres rĂ©gions du monde confrontĂ©es Ă des dĂ©fis similaires de prĂ©servation linguistique.
Nous visons Ă positionner les langues tchadinnes et plus largement africaines non pas comme simples objets dâĂ©tude ethnolinguistique, mais comme langues pleinement fonctionnelles dans lâĂ©cosystĂšme numĂ©rique du 21Ăšme siĂšcle.Cependant, nous vous invitons Ă explorer ces ressources et si vous voulez contribuer Ă ce projet dâintĂ©rĂȘt gĂ©nĂ©ral; veuillez nous Ă©crire Ă travers cet email.
La documentation, la préservation et la promotion des langues tchadiennes est notre priorité absolue à travers ce projet.