LMi-MAG28 Dec - Flipbook - Page 59
novation. Créé en 2023 par AMD, Arista, Broadcom,
Cisco, Eviden, HPE, Intel, Meta et Microsoft, dans le
but de réunir les leaders du secteur afin de construire
une architecture de pile de communication complète
basée sur Ethernet pour les réseaux haute performance,
l’UEC compte aujourd’hui plus de 75 membres. Un
autre groupe de développement multifournisseurs, le
consortium Ultra Accelerator Link (UALink), a récemment publié sa première spécification visant à fournir
une interconnexion standard ouverte pour les clusters
d’IA concurrente du NVLink de Nvidia. La spécification UALink 200G 1.0 a été élaborée par plusieurs des
75 membres du groupe, parmi lesquels AMD, Broadcom,
Cisco, Google, HPE, Intel, Meta, Microsoft et Synopsys.
« L’UALink définit la technologie nécessaire pour prendre
en charge un débit maximal de 200 gigatransfers par
seconde (GT/s) par canal ou voie entre les accélérateurs
et les commutateurs entre un maximum de 1 024 pods
informatiques d’IA », a rappelé le consortium. « ESUN
s’appuiera autant que possible sur les travaux de l’IEEE
et de l’UEC pour Ethernet », ont déclaré Jayshree Ullal,
CEO d’Arista, et Hugh Holbrook, directeur du développement, dans un article de blog consacré à ESUN. A
cette fin, Mme Ullal et M. Holbrook ont décrit un cadre
modulaire pour la mise à l’échelle d’Ethernet reposant
sur trois éléments clés :
1. des en-têtes Ethernet communs pour l’interopérabilité : ESUN s’appuiera sur Ethernet pour permettre la
plus large gamme de protocoles et de cas d’utilisation
de couche supérieure ;
2. une couche de liaison de données Ethernet ouverte :
elle fournit la base pour les collectifs d’IA avec des
performances élevées à l’échelle du cluster XPU. En
sélectionnant des mécanismes basés sur des normes,
tels que Link-Layer Retry (LLR), Priority-based Flow
Control (PFC) et Credit-based Flow Control (CBFC),
ESUN offre rentabilité, flexibilité et performances à
ces réseaux. Même des retards mineurs peuvent bloquer des milliers d’opérations simultanées ;
3. une couche physique Ethernet : en s’appuyant sur la
couche physique Ethernet présente partout, l’interopérabilité entre plusieurs fournisseurs et une large
gamme d’options d’interconnexion optique et cuivre
est assurée.
« ESUN peut prendre en charge tout transport de couche
supérieure, y compris celui basé sur SUE-T (Scale-Up
Ethernet Transport), un projet OCP lancé grâce à la
contribution SUE (Scale-Up Ethernet) de Broadcom à
l’OCP. SUE-T cherche à définir des fonctionnalités pouvant être facilement intégrées dans un XPU basé sur
ESUN pour la planification de la fiabilité, l’équilibrage
de charge et le regroupement des transactions, qui
sont des facteurs essentiels d’amélioration des performances pour certaines charges de travail IA », ont ajouté
Mme Ullal et M. Holbrook.
« En substance, le framework ESUN permet à un ensemble
d’accélérateurs individuels de se transformer en superordinateur IA unique et puissant, où les performances du
réseau sont directement liées à la vitesse et à l’efficacité
du développement et de l’exécution des modèles IA »,
ont encore écrit Mme Ullal et M. Holbrook. « L’approche
par couches de ESUN et de SUE-T over Ethernet favorise l’innovation sans fragmentation. Les développeurs
d’accélérateurs XPU conservent une flexibilité dans leurs
choix côté hôte, tels que les modèles d’accès (push vs
pull, et mémoire vs sémantique de streaming), la fiabilité
du transport (hop-by-hop vs end-to-end), les règles de
classement et les stratégies de contrôle de la congestion,
tout en conservant leurs choix de conception du système.
L’initiative ESUN adopte une approche pratique pour des
améliorations itératives. »
Des gains dans les fabrics réseau IA
prévus par Gartner
Selon Gartner, les fabrics d’IA scale-up (Scale-up AI
fabrics, SAIF) ont récemment suscité beaucoup d’intérêt dans le secteur. Le cabinet d’études prévoit une
croissance massive des SAIF pour soutenir les initiatives
d’infrastructure d’IA jusqu’en 2029. [Lire l’intégralité de
l’article sur lemondeinformatique.fr]
APPROFONDIR
ÉCOUTER EN LIGNE
Podcast
tinyurl.com/podcast-ia-scale
LIRE EN LIGNE
Article
tinyurl.com/article-ia-scale
59