LMi-MAG28 Dec - Flipbook - Page 53
© DR
les coûts grâce à la mise en place d’un réentraînement
spécifique à chaque couche », explique Faisal Kawoosa,
fondateur et analyste en chef chez Techarc. « Elle aborde
également un problème très courant, celui de l’« oubli
catastrophique ». Le réglage des couches de projection
d’auto-attention (SA Proj) a permis d’obtenir des résultats
d’apprentissage sans aucune baisse de performance. »
Une étude révèle que le réentraînement sélectif aide l’IA
à acquérir de nouvelles compétences sans oublier
les anciennes.
mis aux modèles d’apprendre de nouvelles tâches avec
peu ou pas d’oubli mesurable. De plus, ce qui semblait
initialement être des connaissances oubliées refaisait
souvent surface lorsque le modèle était ensuite entraîné
sur une autre tâche spécialisée.
« Nous émettons donc l’hypothèse que ce qui ressemble
à un oubli ou à une interférence après le réglage fin sur
une tâche cible étroite est en fait un biais dans la distribution des résultats dû au changement de distribution
des tâches », ont ajouté les chercheurs. « Grâce à une
analyse approfondie lors du réglage de la tâche de comptage, nous confirmons cette hypothèse : le réglage du MLP
augmente la précision de la cible, mais augmente également la probabilité de produire des jetons numériques et
une baisse fortement corrélée de la précision de la tâche
retenue, tandis que le réglage de l’auto-attention permet
d’atteindre l’apprentissage cible sans trop de biais vers les
jetons numériques et sans perdre la précision retenue. »
Les résultats montrent que la perte apparente sur les
tâches retenues après un réglage fin est souvent temporaire : les performances qui baissent à un certain stade
peuvent se rétablir par la suite, ont déclaré les chercheurs
dans l’article. « Nous attribuons ce comportement à un
changement mesurable dans la distribution des jetons
suivants plutôt qu’à une perte de concepts. Une simple
sonde de biais de comptage rend cette dérive visible, et
une analyse résiduelle-logit par couche montre que la
plupart des changements sont écrits par les blocs MLP
tardifs, et non par l’auto-attention. »
Implications et préparation des entreprises
M. Kawoosa a noté que, bien que ces résultats soient prometteurs, une validation supplémentaire sera essentielle.
D’autres tests dans plusieurs scénarios et environnements
seront nécessaires pour confirmer l’efficacité et la robustesse de cette approche dans le contexte des entreprises.
Sanchit Vir Gogia, analyste en chef et CEO de Greyhound
Research, a déclaré que l’approche mentionnée par les
chercheurs pourrait rendre la maintenance de l’IA moins
perturbante pour les équipes technologiques.
« Au lieu de projets de réentraînement gigantesques qui
engloutissent des trimestres et des capitaux, les mises à
jour peuvent désormais se faire discrètement et fréquemment, un peu comme l’entretien d’une voiture plutôt que
la reconstruction d’un moteur », a déclaré M. Gogia.
Cependant, l’adoption d’un réentraînement partiel à
grande échelle nécessitera des processus de développement et une gouvernance plus solides. « La reconversion
partielle ne fonctionne que lorsque le processus est à la
hauteur des promesses », a ajouté M. Gogia. « Les entreprises auront besoin d’un cadre approprié autour de ce
flux de travail, notamment en matière de contrôle des
versions, de surveillance et de reproductibilité, afin de le
rendre durable à grande échelle. »
APPROFONDIR
ÉCOUTER EN LIGNE
Podcast
tinyurl.com/podcast-llm-perf
Les analystes du secteur affirment que ces résultats pourraient influencer la manière dont les entreprises abordent
la maintenance et l’optimisation des modèles d’IA.
« Cette recherche propose une approche innovante qui
pourrait redéfinir les pratiques des développeurs en entreprise, ce qui permettrait de gagner du temps et de réduire
LIRE EN LIGNE
Article
tinyurl.com/article-llm-perf
53