đ Acceuil
Bienvenue - Welcome - Ù Ű±Űۚۧ - dans la documentation NLP des langue tchadiennes
Toute la documentation des données est disponible sur le repository Corpus chadian languages.
Projet NLP Kalam-Na des langues tchadiennes
Vous pouvez apprendre davantage à travers ces slides sur les langues du Tchad. Nous le mettrons à jour en incluant les informations nécessaires sur la diversité linguistique du Tchad.

Le Tchad est un pays avec une large diversitĂ© linguistique et culturelle et compte 123 langues autochtones1. DâoĂč lâurgence et la nĂ©cessitĂ© pour nous de dĂ©velopper des outils dâIA pour documenter, revitaliser et valoriser nos langues.
Toutes ces langues tchadiennes sont aujourdâhui invisibles dans lâunivers numĂ©rique. Imaginez un instant quâune personne souhaitant interagir en Zaghawa ou en Toupuri tente de converser avec un chatbot en ligne. Ă ce jour, une telle possibilitĂ© nâexiste pas. Cette absence prive des millions de locuteurs dâun accĂšs aux outils technologiques et freine lâinclusion linguistique dans lâintelligence artificielle (IA). Ce projet entend changer cette rĂ©alitĂ©.

Lâambition est de concevoir des modĂšles avancĂ©s de traitement automatique du langage naturel (TALN/NLP â Natural Language Processing) capables de comprendre, gĂ©nĂ©rer et interagir en langues tchadiennes. En dotant ces langues de reprĂ©sentations numĂ©riques robustes, il devient possible de rĂ©duire la fracture technologique et de valoriser un patrimoine linguistique inestimable.
Le dĂ©veloppement de Kalam-Na commence avec lâarabe tchadien (shu), avant dâĂȘtre progressivement Ă©tendu Ă dâautres langues locales. Mais lâinitiative ne sâarrĂȘte pas lĂ . Lâobjectif Ă long terme est dâexplorer des solutions multimodales (LLM) intĂ©grant la reconnaissance vocale, la traduction automatique et dâautres applications de lâintelligence artificielle, afin dâoffrir des outils vĂ©ritablement adaptĂ©s aux besoins des communautĂ©s.
Anecdote d'une grand-mĂšre :
« Mon petit-fils est allĂ© Ă lâĂ©cole et a appris Ă utiliser un ordinateur. Mais quand je lui ai demandĂ© de me montrer comment discuter avec ces machines, il mâa dit que tout Ă©tait en français ou en anglais. Alors Elle a rĂ©pondu : Donc lâordinateur ne parle pas ma langue ? »
Ce projet est non seulement une rĂ©ponse Ă cette rĂ©alitĂ© mais nous voulons donner une voix numĂ©rique aux langues tchadiennes et permettre Ă tous dâinteragir avec la technologie sans barriĂšre linguistique.
Aujourdâhui, les langues tchadiennes souffrent dâun manque criant de donnĂ©es audio exploitables (voir la section Ă propos). Dans la phase de collecte des donnĂ©es audio et textuelles, ce projet vise Ă enregistrer et Ă annoter des heures de conversations â au moins 10 heures par langue â en capturant des histoires et poĂšmes traditionnels et des discours. Ces donnĂ©es serviront Ă dĂ©velopper des modĂšles avancĂ©s de synthĂšse vocale (Text-To-Speech, TTS) et de reconnaissance automatique de la parole (Automatic Speech Recognition, ASR).
Il est essentiel de ne plus se limiter au rĂŽle de simples consommateurs des technologies dâIA. Rendre ces outils universels et inclusifs passe par lâintĂ©gration de nos langues, de nos voix et de notre patrimoine culturel dans lâĂ©cosystĂšme numĂ©rique mondial.