<i class='fa fa-lock' aria-hidden='true'></i> Habibi : l’IA chinoise qui parle arabe dans tous ses accents

3 mars 2026

Temps de lecture : 2 minutes

Photo : Chadian Arab men livestock traders shelter under a sunshade. (AP Photo/Sunday Alamba)/XSA105/21115565015119/STAND ALONE PHOTOS/2104251754

Abonnement Conflits

Habibi : l’IA chinoise qui parle arabe dans tous ses accents

par

Des chercheurs de Shanghai ont mis au point le premier modèle d’intelligence artificielle capable de synthétiser la voix dans plus de vingt dialectes arabes. Baptisé Habibi, cet outil open source entend combler un vide béant dans la recherche mondiale sur le traitement du langage — et, ce faisant, renforcer le poids technologique de la Chine au Moyen-Orient.

Des chercheurs du laboratoire X-LANCE de l’université Jiao Tong de Shanghai viennent de publier Habibi, « mon cher » en arabe, le premier modèle open source de synthèse vocale capable d’unifier plus de vingt dialectes arabes au sein d’un même système d’IA. Une première mondiale, publiée sur la plateforme arXiv, qui pourrait redéfinir le rapport entre intelligence artificielle et monde arabophone.

Le défi est colossal. L’arabe standard moderne, langue écrite et officielle, est quasi absent des conversations quotidiennes. Chaque région lui substitue son propre dialecte : marocain, égyptien, émirati, algérien, levantin, en constante évolution, truffé d’emprunts étrangers et rarement transcrit. À cela s’ajoute le problème dit « un-à-plusieurs » : un même texte écrit peut se prononcer de multiples façons selon le locuteur et sa région d’origine. Sans oublier l’« Arabizi », ce mélange hybride de lettres latines et de chiffres utilisé par les jeunes sur les réseaux sociaux, qui brouille encore davantage les pistes. Les données d’entraînement de qualité sont rarissimes. « Même les données d’apprentissage de l’arabe général sont déjà rares », reconnaît le chercheur principal Chen Yushen, qui donne lui-même « cinq sur dix » à son modèle, lequel surpasse pourtant l’américain ElevenLabs sur plusieurs dialectes clés, dont ceux des Émirats, du Maroc, d’Égypte et d’Algérie.

Maîtriser l’arabe

Atout décisif : Habibi maîtrise le « zero-shot », c’est-à-dire la capacité à cloner une voix à partir d’un simple court extrait audio, sans entraînement préalable approfondi. Un avantage majeur pour des applications en temps réel : podcasts, vidéos TikTok, micro-séries, service client, dans une région MENA où la pénétration des réseaux sociaux flirte avec les 100 % aux Émirats arabes unis, et où les utilisateurs passent en moyenne plus de trois heures par jour sur leurs plateformes préférées, bien au-dessus de la moyenne mondiale. Un marché que les géants technologiques chinois, de TikTok au commerce électronique, ont déjà largement investi et qu’Habibi pourrait contribuer à consolider.

Sur le plan académique, le chercheur postdoctoral de l’université Mohamed bin Zayed d’intelligence artificielle d’Abou Dhabi, qui a requis l’anonymat, salue un projet « extrêmement innovant », soulignant que son caractère open source, à l’instar du modèle Qwen d’Alibaba, est une condition sine qua non pour séduire la communauté universitaire internationale, laquelle exige un accès structurel profond aux modèles qu’elle étudie.

En rendant Habibi librement accessible, l’équipe de Shanghai espère fédérer chercheurs, locuteurs natifs et développeurs du monde entier pour enrichir les données, affiner les accents et corriger les zones de flou aux frontières entre dialectes. « Nous n’en sommes qu’au début », concède Chen, avec, en filigrane, l’ambition d’ancrer durablement l’influence technologique chinoise au cœur du monde arabe.

Voir aussi

Corée du Nord : le bouclier de l’isolement

Plus de 70 ans après sa création, la Corée du Nord est le seul pays communiste qui n'a pas été absorbé par le capitalisme ou, comme ses voisins chinois et vietnamien, qui ne se soit pas ouvert à l'économie de marché. Secrète, tenue d'une main de fer par les travailleurs acharnés et...

Usines de puces électroniques : menaces à Taïwan

La suspension du trafic maritime dans le détroit d'Ormuz menace directement l'industrie taïwanaise des semi-conducteurs, qui dépend du Qatar pour un tiers de ses importations de GNL et une large part de son hélium. TSMC, qui produit 90 % des puces les plus avancées au monde, consomme...

À propos de l’auteur
John Mackenzie

John Mackenzie

Géopolitologue et grand reporter, John Mackenzie parcourt de nombreuses zones de guerre.