LMi-MAG25 avril - Flipbook - Page 53
© Andranik Hakobyan - iStock
HÉBERGEMENT – HOSTING
Cahier des charges
tinyurl.com/heberg-hosting
de 671 milliards de paramètres et le distiller dans des
modèles de 7 à 3 milliards de paramètres plus performants que les SLM créent à partir de zéro ».
DeepSeek a présenté ses deux premiers SLM distillés :
l’un basé sur le LM Qwen développé par Alibaba Cloud et
l’autre sur Llama de Meta. Les chercheurs précisent qu’ils
n’ont pas appliqué « d’affinage supervisé » ou « d’apprentissage par renforcement ». Les résultats poussés par les
experts montrent des gains d’efficacité sur l’ensemble
des tests face à la concurrence. « Cela signifie que le
modèle de raisonnement est réplicable sur des plus petits
modèles et que cela fonctionne mieux pour certaines
tâches », dit Alexei Grinbaum. Il constate une effervescence de la communauté open source sur Hugging Face
depuis la sortie de R1, « des groupes travaillent justement
sur cette réplication sur leur propre modèle. »
équipés d’un nombre important de puces Nvidia dont
l’achat était légal au moment où DeepSeek les a utilisés
pour apprendre à devenir plus efficace.
Alexander Wang, CEO de Scale AI (spécialisé dans le
développement d’applications à base d’IA) est plus suspicieux, « les laboratoires chinois ont plus de H100 qu’on
ne le pense », souligne-t-il dans une interview à CNBC. Il
ajoute : « Je crois savoir que DeepSeek possède environ
50 000 H100, dont ils ne peuvent évidemment pas parler,
car cela va à l’encontre des contrôles à l’exportation mis
en place par les Etats-Unis. »
D’autres interrogations portent sur le coût du modèle R1,
estimé selon DeepSeek à 5,7 M$. Or la société n’a pas
donné de détails sur la ventilation des coûts, laissant plusieurs observateurs penser que le montant total ne comprend pas certains éléments comme le nombre de GPU
mobilisés pour la formation du modèle. Chez les concurrents OpenAI et Anthropic, les montants dépensés pour
l’entraînement des modèles atteignent des sommes astronomiques, respectivement de 7 Md$ et de 2,7 Md$. Une
chose est sûre cependant : « Avec le travail en amont sur
le dataset, le besoin en calcul est moindre », admet Alexei
Grinbaum. Une efficience qui pourrait ainsi permettre à
l’éditeur chinois de ne pas avoir à investir autant que ses
concurrents dans l’entraînement et le développement
de LLM. Notre confrère d’IDG indique que DeepSeek a
amélioré l’efficacité de la bande passante de la mémoire
grâce à deux innovations clés: l’utilisation d’un algorithme optimisé (compression du cache clé-valeur) et le
passage de FP32 (32 bits) à FP8 (8 bits) pour l’entraînement
à la précision du modèle. [Lire l’intégralité de l’article sur
lemondeinformatique.fr]
APPROFONDIR
Une infrastructure IA qui questionne
Outre les aspects algorithmiques, l’intérêt pour DeepSeek
porte sur l’utilisation d’une infrastructure IA « minimaliste » et un développement à moindre coût. D’après la
start-up, elle se sert d’un cluster de 2 048 GPU H800 de
Nvidia. Ces puces ont été développées à la fin 2023 par
le fournisseur pour répondre à la limitation américaine
des exportations des puces avancées vers la Chine. Une
infrastructure qui interroge plusieurs spécialistes. Jimmy
Goodrich, conseiller auprès de Rand Corp (société de
conseil américaine auprès du ministère de la Défense)
questionné par Reuters, indique qu’il « existe au moins
une douzaine de supercalculateurs majeurs en Chine
ÉCOUTER EN LIGNE
Podcast
tinyurl.com/podcast-deepseek
LIRE EN LIGNE
Article
tinyurl.com/article-deepseek
53