LMi-MAG27 Sept - Flipbook - Page 61
© DR
Cependant, selon M. Agrawal, s’il est relativement facile
d’évaluer des modèles pour des tâches de mathématiques
ou de codage, « il est beaucoup plus difficile d’évaluer des
modèles dans des domaines subjectifs tels que le raisonnement ». Les modèles de raisonnement peuvent être appliqués dans une grande variété de contextes, et ils peuvent
se spécialiser dans des domaines particuliers. « Dans de
tels cas, la subjectivité nécessaire est difficile à saisir avec
n’importe quel benchmark », a-t-il estimé. « De plus, cette
approche nécessite des mises à jour fréquentes et l’intervention d’experts, ce qui peut être difficile à maintenir et à
mettre à l’échelle. » Il ajoute encore que « des biais peuvent
se glisser dans l’évaluation, en fonction du domaine et de
l’origine géographique des experts ». « Dans l’ensemble,
Xbench constitue une première étape importante et, avec
le temps, il pourrait devenir une référence pour évaluer
l’impact pratique et la maturité commerciale des agents
d’intelligence artificielle. »
Hyoun Park, CEO et chief analyst chez Amalgam Insights,
émet cependant quelques réserves à ce sujet. « On ne
peut que saluer l’effort visant à actualiser et à améliorer
les benchmarks de l’IA, car les benchmarks dynamiques
sont nécessaires sur un marché où les modèles changent
tous les mois, voire toutes les semaines », a-t-il reconnu.
« Mais là où j’exprime une certaine réserve, c’est que les
critères d’évaluation de l’IA doivent à la fois être mis à jour
au fil du temps et changer réellement au fil du temps. »
plus complexes qui peuvent être directement résolues
par les LLM plutôt que de déterminer si ces tâches complexes sont nécessaires, sur la base d’un questionnement
plus ouvert et plus généralisé », a-t-il ajouté
Par ailleurs, selon M. Park : « Pour 99 % des utilisateurs, il
est probablement plus important de savoir qu’ils doivent
conceptuellement être conscients de la complexité de
Vapnik-Chervonenkis [une mesure de la complexité
d’un modèle] pour comprendre la robustesse d’un défi
qu’un modèle d’IA tente de résoudre. Du point de vue
de la valeur, il est plus utile de fournir un contexte pour
savoir si la dimension VC d’un défi peut être considérée
comme faible ou élevée, parce qu’il y a des ramifications pratiques sur l’utilisation d’un petit ou d’un grand
modèle d’IA pour résoudre le problème, qui peuvent se
traduire par des différences de coût de plusieurs ordres
de grandeur. » M. Park rappelle que « le benchmarking
des modèles a été un véritable défi, car l’exercice est à la
fois extrêmement important dans les guerres de l’IA, qui
se chiffrent en milliards de dollars, et mal défini ». Selon
lui, « un tas de raisons peuvent inciter les entreprises
d’IA à tricher et à suradapter leurs modèles à des tests
et à des benchmarks spécifiques ».
APPROFONDIR
Des derniers cas d’usage à évaluer
« Les efforts comme ceux entrepris par Databricks
avec ses Agent Bricks montrent qu’il est important de
construire des benchmarks indépendants pour les
nouveaux cas d’usages et les cas d’usages émergents.
Salesforce Research a récemment publié un document
montrant que les LLM ne réussissent pas à faire certaines tâches pratiques, même lorsqu’ils sont capables
de mener à bien les capacités techniques associées à
la tâche », a aussi fait remarquer M. Park. « Souvent, la
valeur d’un LLM ne réside pas dans la capacité à résoudre
un problème spécifique, mais à identifier quand une
approche nouvelle ou difficile peut s’avérer nécessaire.
Et cela va constituer un défi, même pour ce benchmark
évolutif, car l’objectif actuel est de trouver des questions
ÉCOUTER EN LIGNE
Podcast
tinyurl.com/podcast-Xbench
LIRE EN LIGNE
Article
tinyurl.com/article-Xbench
61