0024-MAG24 Dec - Flipbook - Page 17
© Linagora
Il y a une expérience que je fais généralement dans les
conférences que j’anime. Je demande aux utilisateurs
de demander à ChatGPT 4 de dessiner une maison qui
ressemble à celle qu’on trouve en France. Vous pouvez
lui demander de générer une maison de type Alsacienne
ou une maison qui ressemblerait à celles d’Arras par
exemple dans le nord de la France ? En fait, c’est strictement impossible puisque le modèle n’a pas ces types
de maisons dans sa base de connaissances.
Vous faites donc l’entraînement sur des
données locales uniquement ?
M-M. M. : Nous avons un modèle avec 7 milliards de
paramètres avec 33% pour l'anglais, 32,4% pour le français, 15% pour le code et les mathématiques, et en昀椀n
19,6% pour l'italien, l'espagnol, l'allemand et les données
alignées.
Avec votre LLM, vous ciblez plutôt le marché
francophone où il y a une volonté d’étendre
à d’autres marchés en Europe ?
M-M. M. : Alors avant d’entraîner des modèles sur
24 langues, il nous semblait important de déjà se faire la
main sur deux langues. Avant d’arriver à 24 langues, il y
a trois ou quatre langues principales en Europe où nous
pouvons travailler.
Avec 7 milliards de paramètres, l’entraînement
a pris combien de temps ?
M-M. M. : Près de 4 ou 5 mois, nous sommes d’ailleurs en train de terminer l’entraînement. Nous aurons
consommé à peu près 700 000 heures de GPU. Donc à
la suite de ce grand challenge, nous aurons consommé en fait 1 000 000 d’heures pour faire les préparations de notre dataset et notre entraînement, ce qui fait
3 000 milliards de token. Nous avons démarré en août
2024 et terminé 昀椀n octobre. La partie la plus longue,
comme vous vous en doutez, a été de collecter les données. Une fois qu’on a eu les datas, il a fallu que la machine soit disponible et qu’on lance l’entraînement, que
nous venons de terminer.
Vous avez réalisé ce programme dans le cadre
de la communauté OpenLLM et en bénéficiant
notamment de votre partenariat stratégique
avec le CNRS ?
M-M. M. : Oui, au sein de cette communauté, vous
avez plusieurs membres : Linagora, Genci, Inria, Thales,
l’Ecole polytechnique, Loria, CNRS Idris, CEA, l’université Panthéon-Sorbonne... Nous nous sommes par ailleurs
aussi regroupés autour d’un consortium pour répondre
à l’appel à projets du gouvernement sur les communs
PROFIL LINKEDIN
tinyurl.com/linkedin-Maudet
Cofondateur et directeur général de Linagora,
Michel-Marie Maudet a piloté le lancement du LLM Lucie
avec des subventions de Bpifrance.
numériques dans le domaine de l’IA générative. Vous
avez un mix entre des académiques et quelques industriels avec en chef de 昀椀le Linagora et deux autres startups qui Talkr.ai pour la partie voix et Opsci sur la partie
data. Concrètement, une majorité des e昀昀orts sont portés
par les équipes de Linagora où 30 personnes travaillent
sur les sujets IA. Huit personnes sont spéci昀椀quement
dédiées au pré-entraînement. Au sein de la communauté
de ce consortium, nous allons au-delà des huit personnels de Linagora, en gros cela représente une vingtaine
de personnes pour la partie externe, qui sont issues des
labos que je citais et puis des start-ups avec lesquelles
nous travaillons. [Lire l’intégralité de l’entretien sur
lemondeinformatique.fr]
APPROFONDIR
ÉCOUTER EN LIGNE
Entretien/Podcast
tinyurl.com/podcast-Linagora
LIRE EN LIGNE
Entretien
tinyurl.com/article-Linagora
17