LMi-MAG27 Sept - Flipbook - Page 60

FOCUS
Intelligence arti昀椀cielle
XBENCH POUSSE
SES COMPARATIFS
DE PERFORMANCES IA
Désormais open source, Xbench utilise un mécanisme d’évaluation qui examine la capacité
d’un modèle d’IA à exécuter des tâches dans le monde réel et complique l’entraînement
des concepteurs de modèles.
Jason Cross, IDG NS (adapté par Jean Elyan)
es benchmarks de performance IA sont
nombreux sur le marché (MLperf, perfbench, benchmperf...). Cette fois, c’est
au tour de la société chinoise de capital-risque HongShan Capital Group
(HSG) de rentrer dans l’arène avec
Xbench, disponible en open source.
« Nous pensons que l’esprit de l’open
source peut faire évoluer Xbench et peut créer une plus
grande valeur pour la communauté de l’IA », affirme HSG.
Le 17 juin, l’entreprise a annoncé qu’elle avait officiellement livré ses deux premiers benchmarks Xbench, à savoir
Xbench-Science QA et Xbench-DeepSearch promettant
que, à l’avenir, elle mettrait « continuellement et dynamiquement à jour ces benchmarks au rythme du développement des grands modèles de langage et des agents d’IA… ».
Depuis deux autres ont été lancés : Xbench-Professionrecruiting et Xbench-Profession-marketing.
L
Le développement de Xbench a commencé en 2022 dans la
roue du succès de ChatGPT. Initialement conçu comme un
outil d’évaluation interne pour guider les décisions d’investissement de HSG, le projet s’est depuis étendu sous la
direction de son partenaire Gong Yuan. Des chercheurs
externes et des experts du domaine ont contribué à affiner le benchmark au fur et à mesure qu’il évoluait vers une
initiative publique. Xbench utilise une double approche de
l’évaluation. Une partie fonctionne comme les tests académiques traditionnels, mesurant les connaissances générales
et le raisonnement dans toutes les disciplines. L’autre partie
simule des entretiens d’embauche techniques, évaluant la
60 / septembre / octobre / novembre 2025
capacité des modèles à traiter des tâches réelles et économiquement pertinentes. L’un des tests demande à une IA
d’identifier cinq ingénieurs qualifiés et d’expliquer chaque
choix. Un autre test consiste à mettre en relation des annonceurs avec des influenceurs vidéo à partir d’une base de données de plus de 800 candidats. D’autres catégories, telles que
la finance, le droit, la comptabilité et le design, sont en cours
de développement, bien que leurs séries de questions n’aient
pas encore été publiées. Pour le recrutement, o3 d’OpenAI,
Perplexity Search et Claude 3.7 Sonnet arrivent en tête. Dans
le domaine du marketing, Claude, Grok et Gemini réalisent
également d’excellentes performances.
Un objectif de pertinence dans le monde réel
Selon Mohit Agrawal, directeur de recherche sur l’IA et
l’IoT chez CounterPoint Research, « les modèles d’IA ont
dépassé les benchmarks traditionnels, en particulier dans
les domaines subjectifs tels que le raisonnement. Xbench
cherche à combler ce fossé par sa pertinence et son adaptabilité au monde réel. Il n’est pas parfait, mais il propose
une nouvelle manière de suivre l’impact pratique de l’IA ».
Il ajoute que « les modèles eux-mêmes ayant progressé
de manière significative au cours des deux ou trois dernières années, les critères d’évaluation doivent évoluer en
tenant compte de leurs capacités changeantes ». Pour M.
Agrawal, « Xbench vise à combler les lacunes des méthodes
d’évaluation traditionnelles, ce qui constitue un premier
pas bienvenu vers des benchmarks plus pertinents et plus
modernes. Xbench tente d’apporter une pertinence dans
le monde réel tout en restant dynamique et adaptable. »

Paperturn flip book