LMi-MAG28 Dec - Flipbook - Page 52
FOCUS
Intelligence arti昀椀cielle
COMMENT
LES LLM GAGNENT
EN PERFORMANCE
Une étude de l’université de l’Illinois à Urbana-Champaign suggère que la perte
de compétences souvent observée lors du réglage fin de grands modèles d’IA
n’est peut-être pas un véritable oubli, mais plutôt un biais temporaire dans leurs résultats.
Cette approche pourrait transformer le développement de l’IA en entreprise en introduisant
un réentraînement spécifique à chaque couche, ce qui permettrait de gagner du temps
et de réduire les coûts.
Prasanth Aby Thomas, IDG NS (adapté par Serge Leblal)
n ne réentraînant que certaines
couches spécifiques, telles que les
composants d’auto-attention et les
composants MLP supérieurs, les
chercheurs ont découvert que les
modèles pouvaient acquérir de nouvelles capacités tout en conservant les
anciennes, ce qui réduit les coûts de
réentraînement et améliore la stabilité.
E
Les chercheurs ont testé leur approche sur des modèles
multimodaux tels que LLaVA et Qwen2.5-VL, en affinant
uniquement certaines couches afin de mesurer les gains
d’apprentissage, la stabilité et le degré de rétention des
connaissances dans plusieurs tâches.
Les résultats mettent en évidence une approche potentiellement plus efficace pour les entreprises et les
développeurs qui cherchent à mettre à jour de grands
modèles linguistiques et multimodaux sans compromettre les performances existantes. Cette distinction
pourrait être très importante pour les équipes d’IA dans
les entreprises, qui doivent souvent tenir compte de la
question de la formation sans dégradation.
La formation d’un modèle multimodal de grande taille
peut coûter des millions de dollars et prendre plusieurs
52 / décembre 2025 / janvier / février 2026
semaines. A mesure que les modèles et les ensembles de
données prennent de l’ampleur, il devient de plus en plus
difficile de les réentraîner à partir de zéro.
« Une option consiste simplement à affiner le modèle sur
la nouvelle tâche », ont déclaré les chercheurs. « Cependant, au moins pour les modèles plus simples, on sait que
l’ajustement fin entraîne un oubli catastrophique, de sorte
qu’un modèle auparavant compétent dans de nombreuses
tâches devient un expert limité dans la nouvelle tâche. »
Deux découvertes clés
Pour vérifier si ce problème se pose pour les grands
modèles multimodaux actuels, l’équipe a mené une
évaluation contrôlée. Elle a formé les modèles sélectionnés à cinq tâches cibles, notamment la classification
fine des oiseaux, le comptage, la réponse à des questions visuelles médicales, la lecture OCR et la lecture de
l’heure. Elle a ensuite mesuré la baisse de performance
sur huit benchmarks standard qui ne faisaient pas partie
de l’ensemble de réglage fin.
Selon l’article, ces expériences ont conduit à deux découvertes clés. Le réglage des seules couches de projection
d’auto-attention (SA Proj), la partie du modèle qui l’aide à
décider sur quels éléments d’entrée se concentrer, a per-