Des chercheurs de Shanghai ont mis au point le premier modèle d’intelligence artificielle capable de synthétiser la voix dans plus de vingt dialectes arabes. Baptisé Habibi, cet outil open source entend combler un vide béant dans la recherche mondiale sur le traitement du langage — et, ce faisant, renforcer le poids technologique de la Chine au Moyen-Orient.

Des chercheurs du laboratoire X-LANCE de l’université Jiao Tong de Shanghai viennent de publier Habibi, « mon cher » en arabe, le premier modèle open source de synthèse vocale capable d’unifier plus de vingt dialectes arabes au sein d’un même système d’IA. Une première mondiale, publiée sur la plateforme arXiv, qui pourrait redéfinir le rapport entre intelligence artificielle et monde arabophone.

Le défi est colossal. L’arabe standard moderne, langue écrite et officielle, est quasi absent des conversations quotidiennes. Chaque région lui substitue son propre dialecte : marocain, égyptien, émirati, algérien, levantin, en constante évolution, truffé d’emprunts étrangers et rarement transcrit. À cela s’ajoute le problème dit « un-à-plusieurs » : un même texte écrit peut se prononcer de multiples façons selon le locuteur et sa région d’origine. Sans oublier l’« Arabizi », ce mélange hybride de lettres latines et de chiffres utilisé par les jeunes sur les réseaux sociaux, qui brouille encore davantage les pistes. Les données d’entraînement de qualité sont rarissimes. « Même les données d’apprentissage de l’arabe général sont déjà rares », reconnaît le chercheur principal Chen Yushen, qui donne lui-même « cinq sur dix » à son modèle, lequel surpasse pourtant l’américain ElevenLabs sur plusieurs dialectes clés, dont ceux des Émirats, du Maroc, d’Égypte et d’Algérie.

Maîtriser l’arabe

Atout décisif : Habibi maîtrise le « zero-shot », c’est-à-dire la capacité à cloner une voix à partir d’un simple court extrait audio, sans entraînement préalable approfondi. Un avantage majeur pour des applications en temps réel : podcasts, vidéos TikTok, micro-séries, service client, dans une région MENA où la pénétration des réseaux sociaux flirte avec les 100 % aux Émirats arabes unis, et où les utilisateurs passent en moyenne plus de trois heures par jour sur leurs plateformes préférées, bien au-dessus de la moyenne mondiale. Un marché que les géants technologiques chinois, de TikTok au commerce électronique, ont déjà largement investi et qu’Habibi pourrait contribuer à consolider.

Sur le plan académique, le chercheur postdoctoral de l’université Mohamed bin Zayed d’intelligence artificielle d’Abou Dhabi, qui a requis l’anonymat, salue un projet « extrêmement innovant », soulignant que son caractère open source, à l’instar du modèle Qwen d’Alibaba, est une condition sine qua non pour séduire la communauté universitaire internationale, laquelle exige un accès structurel profond aux modèles qu’elle étudie.

En rendant Habibi librement accessible, l’équipe de Shanghai espère fédérer chercheurs, locuteurs natifs et développeurs du monde entier pour enrichir les données, affiner les accents et corriger les zones de flou aux frontières entre dialectes. « Nous n’en sommes qu’au début », concède Chen, avec, en filigrane, l’ambition d’ancrer durablement l’influence technologique chinoise au cœur du monde arabe.