0024-MAG24 Dec - Flipbook - Page 16
ENTRETIEN
Michel-Marie MAUDET
DG de Linagora
LUCIE,
UN LLM OPEN SOURCE
ET FRANÇAIS
Lancé en 2023, après la vague d’intelligence artificielle générative, l'OpenLLM de Linagora
termine ses derniers entraînements sur le supercalculateur Jean Zay pour proposer
une alternative open source et souveraine aux LLM commerciaux du marché.
Le modèle Lucie 7B s'annonce comme particulièrement adapté au traitement de données
de requêtes en français.
Propos recueillis par Serge Leblal
Pourquoi proposez-vous un LLM de plus
sur le marché ?
Michel-Marie Maudet : Pourquoi ? Parce que d’une
part, la plupart des modèles que vous pratiquez aujourd’hui ne sont ni français ni européens. Donc, nous
n’avons que très peu de maîtrise. Aleph Alpha est en train
de fermer et à part cet allemand, il n’y en a pas d’autres
modèles en Europe. Globalement, les trois qui sont utilisés vous les connaissez, ils sont fermés. C’est Anthropic
Claude, Perplexity, OpenAI... Ce sont les grandes plateformes qui sont utilisées.
tion des données d’apprentissage montre que le français et l’allemand comptabilisent moins de 1%, car ces
langues représentent respectivement 0,16% et 0,17% des
données d’entraînement. Là, c’est un peu normal parce
que, à l’origine, c’est un modèle qui est anglo-saxon, il
n’a pas été développé par des Français ou des Allemands.
Ce que je veux dire par là, c’est qu’en fait une langue ce
n’est pas qu’une langue, ce sont des valeurs, c’est notre
culture, c’est 昀椀nalement la représentativité de ce que ce
qu’on est. Nous sommes sur une base où l’on entraîne un
LLM avec énormément de données.
Quel type de données avez-vous utilisé ?
Vous avez aussi un modèle français avec
Mistral ?
M-M. M. : Il y a Mistral e昀昀ectivement, qui produit aussi
des modèles, mais dans une stratégie, qui vous oblige
à utiliser des plateformes extraterritoriales. Comme
quand vous utilisez ChatGPT ou Copilot, vous êtes hors
de France... Donc, ces modèles ne sont pas de provenance européenne et, par ailleurs, vu qu’ils nécessitent
des infrastructures qui ne sont pas non plus localisées en
Europe, vous êtes dans une situation où vous êtes complètement dépendant. Il y a donc ce premier lien de dépendance, alors que le second lien de dépendance, c’est
la langue pour l’entraînement des modèles. La réparti-
16 / décembre 2024 / janvier / février 2025
M-M. M. : Le training est assez large, mais quand on
prend les autres LLM, ils n’expliquent pas où ils sont allés chercher les données parce qu’il y a des problèmes de
droit d’auteur, de copyright... Il y a des discussions avec
des arbitrages car des données ont été utilisées sans l’accord des ayants droit. Et aujourd’hui ça peut avoir une
importance, car une IA générative ne sait construire des
contenus qu’à partir des données qu’elle connaît suite à
cet entraînement. On crée une base vectorielle, et on met
toutes les données dedans : journaux, livres , données non
structurées... Il y a un peu de tout, c’est vraiment un bricà-brac énorme. Alors comment pouvez-vous dire que vous
respectez une langue, des valeurs à partir de ces données ?