Kalam-na - Chadian languages
  • 🏠 Acceuil
  • A propos
  • Articles đŸ—ƒïž
  • Corpus

On this page

  • Projet NLP Kalam-Na des langues tchadiennes

🏠 Acceuil

Bienvenue - Welcome - Ù…Ű±Ű­ŰšŰ§ - dans la documentation NLP des langue tchadiennes

Toute la documentation des données est disponible sur le repository Corpus chadian languages.

Projet NLP Kalam-Na des langues tchadiennes

Vous pouvez apprendre davantage à travers ces slides sur les langues du Tchad. Nous le mettrons à jour en incluant les informations nécessaires sur la diversité linguistique du Tchad.

Le Tchad est un pays avec une large diversitĂ© linguistique et culturelle et compte 123 langues autochtones1. D’oĂč l’urgence et la nĂ©cessitĂ© pour nous de dĂ©velopper des outils d’IA pour documenter, revitaliser et valoriser nos langues.

Langues tchadiennes (123)

Adamawa Fulfulde [fub], Amdang [amj], Assangori [sjg], Bagirmi [bmi], Bagirmi Fulfulde [fui], Barein [bva], Bedjond [bjv], Berakou [bxv], Besme [bes], Bidiyo [bid], Birgit [btf], Bolgo [bvo], Bon Gula [glc], Boor [bvf], Bua [bub], Buduma [bdm], Buso [bso], Chadian Arabic [shu], Chadian Sign Language [cds], Dangaléat [daa], Dar Daju Daju [djc], Dar Sila Daju [dau], Day [dai], Dazaga [dzg], Disa [dsi], Fania [fni], Fongoro [fgr], Fur [fvr], Gabri [gab], Gadang [gdk], Gidar [gid], Gor [gqr], Goundo [goy], Gula [glu], Gula Iro [glj], Gulay [gvl], Herdé [hed], Horo [hor], Jaya [jyy], Jonkor Bourmataguil [jeu], Kaba [ksp], Kabalai [kvf], Kajakse [ckq], Kanembu [kbl], Karang [kzr], Karanga [kth], Kendeje [klf], Kenga [kyq], Kera [ker], Kibet [kie], Kim [kia], Kimré [kqp], Koke [kou], Kujarge [vkj], Kulfa [kxj], Kuo [xuo], Kwang [kvi], Laal [gdm], Lagwan [kot], Laka [lap], Lele [lln], Luto [ndy], Maba [mde], Mabire [muj], Majera [xmj], Malgbe [mxf], Mambai [mcs], Mango [mge], Mararit [mgb], Marba [mpg], Marfa [mvu], Masalit [mls], Masana [mcn], Maslam [msv], Masmaje [mes], Massalat [mdg], Mawa [mcw], Mbara [mpk], Mbay [myb], Mesme [zim], Migaama [mmy], Miltu [mlj], Mogum [mou], Morom [bdo], Mpade [mpi], Mser [kqx], Mubi [mub], Mukulu [moz], Mulgi [mvh], Mundang [mua], Musey [mse], Musgu [mug], Muskum [mje], Naba [mne], Nancere [nnc], Ndam [ndm], Ngam [nmc], Ngambay [sba], Ngete [nnn], Niellim [nie], Noy [noy], Nzakambay [nzy], Pana [pnz], Pévé [lme], Runga [rou], Saba [saa], Sar [mwm], Sara Kaba Démé [kwg], Sara Kaba Naa [kwv], Sarua [swy], Sinyar [sys], Sokoro [sok], Soumraye [sor], Surbakhal [sbj], Tama [tma], Tamki [tax], Tedaga [tuq], Tobanga [tng], Toram [trj], Tumak [tmc], Tunia [tug], Tupuri [tui], Ubi [ubi], Yerwa Kanuri [knc], Zaghawa [zag], Zan Gula [zna]

Toutes ces langues tchadiennes sont aujourd’hui invisibles dans l’univers numĂ©rique. Imaginez un instant qu’une personne souhaitant interagir en Zaghawa ou en Toupuri tente de converser avec un chatbot en ligne. À ce jour, une telle possibilitĂ© n’existe pas. Cette absence prive des millions de locuteurs d’un accĂšs aux outils technologiques et freine l’inclusion linguistique dans l’intelligence artificielle (IA). Ce projet entend changer cette rĂ©alitĂ©.

Fig : Le cycle de disparition et revitalisation d’une langue

L’ambition est de concevoir des modĂšles avancĂ©s de traitement automatique du langage naturel (TALN/NLP – Natural Language Processing) capables de comprendre, gĂ©nĂ©rer et interagir en langues tchadiennes. En dotant ces langues de reprĂ©sentations numĂ©riques robustes, il devient possible de rĂ©duire la fracture technologique et de valoriser un patrimoine linguistique inestimable.

Le dĂ©veloppement de Kalam-Na commence avec l’arabe tchadien (shu), avant d’ĂȘtre progressivement Ă©tendu Ă  d’autres langues locales. Mais l’initiative ne s’arrĂȘte pas lĂ . L’objectif Ă  long terme est d’explorer des solutions multimodales (LLM) intĂ©grant la reconnaissance vocale, la traduction automatique et d’autres applications de l’intelligence artificielle, afin d’offrir des outils vĂ©ritablement adaptĂ©s aux besoins des communautĂ©s.

Pourquoi est-ce important

Anecdote d'une grand-mĂšre :

« Mon petit-fils est allĂ© Ă  l’école et a appris Ă  utiliser un ordinateur. Mais quand je lui ai demandĂ© de me montrer comment discuter avec ces machines, il m’a dit que tout Ă©tait en français ou en anglais. Alors Elle a rĂ©pondu : Donc l’ordinateur ne parle pas ma langue ? »

Ce projet est non seulement une rĂ©ponse Ă  cette rĂ©alitĂ© mais nous voulons donner une voix numĂ©rique aux langues tchadiennes et permettre Ă  tous d’interagir avec la technologie sans barriĂšre linguistique.

Aujourd’hui, les langues tchadiennes souffrent d’un manque criant de donnĂ©es audio exploitables (voir la section Ă  propos). Dans la phase de collecte des donnĂ©es audio et textuelles, ce projet vise Ă  enregistrer et Ă  annoter des heures de conversations – au moins 10 heures par langue – en capturant des histoires et poĂšmes traditionnels et des discours. Ces donnĂ©es serviront Ă  dĂ©velopper des modĂšles avancĂ©s de synthĂšse vocale (Text-To-Speech, TTS) et de reconnaissance automatique de la parole (Automatic Speech Recognition, ASR).

Il est essentiel de ne plus se limiter au rĂŽle de simples consommateurs des technologies d’IA. Rendre ces outils universels et inclusifs passe par l’intĂ©gration de nos langues, de nos voix et de notre patrimoine culturel dans l’écosystĂšme numĂ©rique mondial.

Footnotes

  1. Site Ethnologue↩