0024-MAG24 Dec - Flipbook - Page 50
DOSSIER
Innovation
9
Les alternatives aux GPU pour l’IA
A
© DR
ujourd’hui, le traitement des workloads
IA repose très largement sur des GPU de
Nvidia, c’est par exemple le cas de ChatGPT
qui s’accaparerait les ressources de plus de
30 000 GPU (source : Trendforce). Google, Microsoft,
AWS et la majorité des fournisseurs cloud sont aussi
des grands consommateurs de GPU Nvidia, et à environ
30 000$ en moyenne le GPU H100 et près de 70 000$ le
B200, l’addition est salée. Selon le rapport du cabinet
Jon Peddie Research, Nvidia pesait 88 % des GPU livrés
dans le monde au premier trimestre 2024. De plus, la
force de Nvidia est de proposer, via son kit de développement Cuda (Compute Unified Device Architecture)
lancé en 2007, un écosystème logiciel dédié autour de
ses GPU. Face à cette dépendance, la volonté de certains
en 5 nm par TSMC : la conception de Maia permettant
de fournir des niveaux élevés de performances pour
des tâches telles que l’exécution de modèles OpenAI,
ChatGPT, Bing, GitHub Copilot et autres. De son côté,
Meta a officialisé, il y a peu de temps, la dernière version
de sa puce maison MTIA (Meta Training and Inference
Accelerator) qui propose une intégration avec PyTorch
2.0 ainsi qu’un compilateur appelé Triton-MTIA. Chez
AWS, l’historique autour des accélérateurs IA est déjà
plus conséquent, cela fait quelques années que l’hyperscaler conçoit ses propres puces notamment les
Inferentia et les Trainium. Anthropic utilisera d’ailleurs ces dernières pour construire, former et déployer
ses futurs modèles. Pour Google, l’évolution de ses
TPU (Tensor Processing Unit) dédiés à l’IA passera par
Trillium, dont les performances de calcul seraient multipliées par 4,7 par rapport à la génération précédente.
Face à ces quatre hyperscalers, IBM souhaite aussi s’imposer sur l’accélération des workloads IA avec AI Spyre
embarquant 32 unités de traitement et 25,6 milliards de
transistors.
Fondation UXL, une coalition anti-Nvidia
acteurs est d’avoir des alternatives en développant des
processeurs IA dédiés. Déjà, il existe chez Intel et AMD
des offres concurrentes avec respectivement les accélérateurs IA Gaudi 3 et Instinct MI325X. A noter que ce
dernier offre une bande passante mémoire supérieure à
celles de l’Instinct MI300X, soit 5,3 To/s contre 3,9 To/s.
Toujours du côté des challengers, Ampere Computing
travaille sur une puce baptisée Aurora qui embarquera
un accélérateur dédié pour l’IA et un réseau d’interconnexion die to die dédié. En parallèle, les quatre
grands hyperscalers Microsoft, Meta, AWS et Google
conçoivent des puces alternatives qu’ils utilisent dans
leurs propres datacenters. A l’occasion de la conférence Ignite, Microsoft avait dévoilé Maia 100 gravée
50 / décembre 2024 / janvier / février 2025
Quant à Open AI, il envisagera aussi de lancer ses puces
maison. Bien d’autres acteurs se lancent dans la course
à l’image de Cerebras Systems et de sa puce WSE-3 dont
la taille atteint celle d’un gros wafer, environ 12 pouces.
Du côté logiciel cette fois-ci, une coalition de fournisseurs (Arm, Google, Imagination Technologies, Intel,
Qualcomm ou encore Samsung) regroupés au sein
de la UXL Foundation (une émanation de la puissante
Linux Foundation) entend, là aussi, remettre en cause
la domination de Nvidia en s’attaquant au kit de développement Cuda qui maintient les développeurs dans
son écosystème. A partir de oneAPI, une technologie
développée par Intel, la Fondation UXL prévoit de créer
une suite de logiciels et d’outils capables d’alimenter
plusieurs types d’accélérateurs. Enfin, Groq est bien
décidé à surfer sur la vague IA (générative ou autre)
avec sa plateforme de calcul LPU taillée pour l’inférence
et l’accélération des traitements LLM.