<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>61 &#8211; LesEchosCI</title>
	<atom:link href="https://lesechosci.net/tag/61/feed/" rel="self" type="application/rss+xml" />
	<link>https://lesechosci.net</link>
	<description>L&#039;information sans frontières</description>
	<lastBuildDate>Wed, 29 Apr 2026 20:13:11 +0000</lastBuildDate>
	<language>fr-FR</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://lesechosci.net/wp-content/uploads/2024/10/cropped-512x512-1-32x32.jpg</url>
	<title>61 &#8211; LesEchosCI</title>
	<link>https://lesechosci.net</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>LINGUSITIQUE : PLEIAS ET GSMA LANCENT « COMMONLINGUA » PRENANT EN CHARGE 61 LANGUES AFRICAINES</title>
		<link>https://lesechosci.net/2026/04/29/lingusitique-pleias-et-gsma-lancent-commonlingua-prenant-en-charge-61-langues-africaines/</link>
		
		<dc:creator><![CDATA[admin]]></dc:creator>
		<pubDate>Wed, 29 Apr 2026 20:13:11 +0000</pubDate>
				<category><![CDATA[Actualite]]></category>
		<category><![CDATA[Afrique]]></category>
		<category><![CDATA[Culture]]></category>
		<category><![CDATA[61]]></category>
		<category><![CDATA[AFRICAINES]]></category>
		<category><![CDATA[COMMONLINGUA]]></category>
		<category><![CDATA[GSMA]]></category>
		<category><![CDATA[LANCEMENT]]></category>
		<category><![CDATA[LANGUES]]></category>
		<category><![CDATA[PLEIAS]]></category>
		<guid isPermaLink="false">https://lesechosci.net/?p=3103</guid>

					<description><![CDATA[<div style="margin-bottom:20px;"><img width="839" height="538" src="https://lesechosci.net/wp-content/uploads/2026/04/photo-Langlais-2.jpg" class="attachment-post-thumbnail size-post-thumbnail wp-post-image" alt="" decoding="async" fetchpriority="high" srcset="https://lesechosci.net/wp-content/uploads/2026/04/photo-Langlais-2.jpg 839w, https://lesechosci.net/wp-content/uploads/2026/04/photo-Langlais-2-300x192.jpg 300w, https://lesechosci.net/wp-content/uploads/2026/04/photo-Langlais-2-768x492.jpg 768w, https://lesechosci.net/wp-content/uploads/2026/04/photo-Langlais-2-210x136.jpg 210w" sizes="(max-width: 839px) 100vw, 839px" /></div>28 avril 2026, Londres-Pleias et le GSMA ont annoncé la sortie de CommonLingua, un modèle d&#8217;identification linguistique (LID) open source conçue spécialement pour débloquer à grande échelle les données linguistiques africaines. Il est délivré dans le cadre des GSMA Modèles de langage IA en Afrique, par Afrique, pour l&#8217;Afrique une coalition dédiée à combler le [&#8230;]]]></description>
										<content:encoded><![CDATA[<div style="margin-bottom:20px;"><img width="839" height="538" src="https://lesechosci.net/wp-content/uploads/2026/04/photo-Langlais-2.jpg" class="attachment-post-thumbnail size-post-thumbnail wp-post-image" alt="" decoding="async" srcset="https://lesechosci.net/wp-content/uploads/2026/04/photo-Langlais-2.jpg 839w, https://lesechosci.net/wp-content/uploads/2026/04/photo-Langlais-2-300x192.jpg 300w, https://lesechosci.net/wp-content/uploads/2026/04/photo-Langlais-2-768x492.jpg 768w, https://lesechosci.net/wp-content/uploads/2026/04/photo-Langlais-2-210x136.jpg 210w" sizes="(max-width: 839px) 100vw, 839px" /></div><p>28 avril 2026, Londres-Pleias et le GSMA ont annoncé la sortie de CommonLingua, un modèle d&rsquo;identification linguistique (LID) open source conçue spécialement pour débloquer à grande échelle les données linguistiques africaines.</p>
<p>Il est délivré dans le cadre des GSMA <em>Modèles de langage IA en Afrique, par Afrique, pour l&rsquo;Afrique </em>une coalition dédiée à combler le fossé des langues africaines dans l&rsquo;IA.</p>
<p>L&rsquo;Afrique abrite plus de 2 000 langues vivantes, dont beaucoup restent sous-représentées dans les données d&rsquo;entraînement de l&rsquo;IA. En conséquence, les systèmes d&rsquo;identification linguistique fonctionnent souvent moins de manière fiable sur le contenu en langues africaines, notamment lorsqu&rsquo;il s&rsquo;agit de distinguer entre un texte étroitement lié ou un texte mixte en code.</p>
<p>Avant de pouvoir construire un modèle de langue swahili, yoruba ou wolof, le texte sous-jacent doit d&rsquo;abord être correctement identifié par la langue – une étape où les outils existants échouent souvent sur le contenu africain.</p>
<p>Cela s&rsquo;explique par le fait que les principaux systèmes LID tels que fastText, Glotlid et OpenLID ont été construits autour de langues européennes et asiatiques à haute ressource et ont souvent mal étiqueté un texte en langues africaines comme anglais ou français. Même les modèles frontières de pointe perdent environ 30 points de précision sur les langues africaines par rapport aux grandes langues mondiales.</p>
<p>CommonLingua est conçu pour corriger cette première étape du pipeline. Sur le nouveau CommonLID benchmark, CommonLingua atteint une précision de 83 % et un score macro F1 de 0,79, surpassant les principaux modèles LID de plus de 10 points de pourcentage dans des conditions d&rsquo;évaluation comparables, tout en utilisant environ un trois centièmes des paramètres. Le modèle est léger avec 2 millions de paramètres et livré en point de contrôle de 8 Mo, et est conçu pour un déploiement efficace, exécutant environ 20 textos par seconde sur CPU et jusqu&rsquo;à 3 000 textos par seconde sur un seul GPU.</p>
<p>CommonLingua couvre 334 langues au total, dont 61 langues africaines réparties dans huit familles linguistiques : bantoues (21), nigéro-congolaises / ouest-africaines (18), afro-asiatiques et sémitiques (7), coushites et tchadiques (4), berbères (3), nilo-sahariens (3), pidgins, créoles et autres (5).</p>
<p>Le modèle fonctionne directement sur des séquences d&rsquo;octets UTF-8 plutôt que de s&rsquo;appuyer sur un tokeniseur spécifique à chaque langue, permettant une gestion cohérente entre scripts tels que latin, arabe, éthiopien, n&rsquo;ko et tifinagh.</p>
<p><em>« Les langues africaines ne sont pas un cas particulier. Ce sont les langages de travail de centaines de millions de personnes, et ils méritent une infrastructure d&rsquo;IA conçue avec le même soin que n&rsquo;importe quel autre langage. CommonLingua est délibérément la première brique que nous posons : on ne peut pas sélectionner ce qu&rsquo;on ne peut pas identifier »,</em> a déclaré <strong>Pierre-Carl Langlais, cofondateur et directeur technique de Pleias.</strong></p>
<p>Le modèle est entraîné exclusivement sur du contenu sous licence ouverte et du domaine public agrégé via le projet Common Corpus, incluant Wikipédia, des publications scientifiques dans OpenAlex, VOA Africa, WaxalNLP, Cultural Heritage et Pralekha. Tous les ensembles de données sont publiés sous des licences permissives.</p>
<p><strong>Louis Powell, directeur des initiatives en IA chez GSMA</strong>, a ajouté : « <em>Réduire l&rsquo;écart dans l&rsquo;IA en langue africaine est fondamental pour l&rsquo;inclusion numérique et la libération des opportunités économiques. Le progrès a longtemps été freiné par le manque d&rsquo;infrastructures fondamentales, à commencer par quelque chose d&rsquo;aussi essentiel que l&rsquo;identification linguistique. CommonLingua comble cette lacune critique, permettant le développement à grande échelle de jeux de données plus riches et de systèmes d&rsquo;IA plus représentatifs. Grâce à notre initiative, la GSMA rassemble des partenaires pour aller au-delà des efforts fragmentés vers une infrastructure partagée capable de propulser l&rsquo;écosystème numérique africain. «</em></p>
<p>Cette conversation se poursuivra au MWC26 Kigali, où la GSMA et ses partenaires réuniront des leaders du secteur pour accélérer les progrès de l&rsquo;IA en langues africaines.</p>
<p><strong>SA</strong></p>
<p><strong>INFO : SERCOM</strong></p>
<p><strong> </strong></p>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
