Datacenters IA sans GPU : la révolution Almartis en 2026

Les datacenters dédiés à l'intelligence artificielle ont été conçus autour d'une vérité incontestable : les GPU sont indispensables. Pendant des années, l'industrie a investi des milliards dans des infrastructures réseau ultra-sophistiquées pour maximiser l'utilisation de ces accélérateurs. Mais que se passerait-il si nous retirions complètement les GPU de l'équation ? C'est précisément la question que pose Almartis avec son architecture révolutionnaire basée sur la mémoire associative.

L'ancien modèle de datacenter : une infrastructure prévisible

Pendant plusieurs décennies, la construction d'un datacenter suivait un schéma bien établi. Les entreprises provisionnaient des serveurs de calcul, connectaient des baies de stockage et déployaient un réseau pour relier l'ensemble. L'objectif restait simple : maximiser l'utilisation tout en minimisant les coûts.

Le trafic réseau était principalement nord-sud : les clients envoyaient des requêtes aux serveurs, qui répondaient avec des requêtes de bases de données. Un peu de trafic est-ouest existait entre serveurs et stockage, mais restait marginal. Les réseaux étaient conçus pour gérer des pics de trafic intermittents.

Si un paquet était perdu, le protocole TCP/IP standard le retransmettait automatiquement. Dans les services d'hébergement web ou cloud, un léger retard signifiait qu'une image se chargeait quelques millisecondes plus lentement. C'était tolérable. Cette approche traditionnelle contraste fortement avec les architectures modernes pour l'IA qui nécessitent une approche radicalement différente.

L'entraînement IA bouleverse tout

L'entraînement de modèles d'intelligence artificielle a complètement transformé ce paradigme. Le réseau n'est plus une simple infrastructure sous-jacente : il détermine directement l'utilisation des accélérateurs. Lorsqu'on entraîne de grands modèles selon le paradigme du deep learning, on ne gère plus des serveurs indépendants mais un supercalculateur distribué massif où des milliers de GPU doivent constamment échanger des paramètres.

Le passage au trafic est-ouest

Le schéma de trafic dominant bascule complètement vers la communication est-ouest : serveur à serveur, GPU à GPU, rack à rack, à l'intérieur du cluster. Contrairement aux pics localisés et intermittents, les charges de travail IA exécutent des modèles de communication comme all-to-all et all-reduce.

Au lieu de millions de petits flux indépendants, le réseau doit transporter un petit nombre de flux éléphants extrêmement volumineux. Pendant les phases de synchronisation des gradients, des milliers de GPU peuvent simultanément échanger des données à travers le fabric, créant une congestion réseau sévère et saturant rapidement les buffers des commutateurs.

La métrique critique : le temps de complétion

Ce changement a brisé de nombreuses hypothèses sur lesquelles reposait le réseau standard. Lorsqu'un accélérateur moderne peut consommer et générer des données à 800 Gb/s, la métrique critique passe de la latence moyenne au temps de complétion du travail (JCT) et à la latence de queue.

Dans l'entraînement en deep learning, les charges de travail s'exécutent en étapes étroitement synchronisées. L'ensemble du processus avance à la vitesse du participant le plus lent. Un seul paquet retardé peut bloquer des milliers de GPU. Ces défis techniques s'ajoutent aux problèmes environnementaux croissants liés à la consommation énergétique massive des infrastructures IA.

RDMA et le piège du contrôle de flux prioritaire

La sensibilité aux retards de paquets est amplifiée par la couche transport dont dépendent les clusters IA. L'entraînement distribué moderne utilise massivement RDMA via RoCEv2 (RDMA over Converged Ethernet), permettant aux GPU de contourner complètement le CPU et le système d'exploitation pour un accès direct à la mémoire à faible latence entre GPU.

Mais si RoCEv2 réduit drastiquement les surcharges, il est également extrêmement sensible à la perte de paquets. Un seul paquet perdu peut déclencher des retransmissions, des cascades de timeout et des retards de synchronisation à travers tout le cluster.

PFC : résoudre un problème en créant un autre

Pour atteindre la tolérance aux pertes, les réseaux RoCEv2 standard s'appuient sur le Priority Flow Control (PFC). Conceptuellement, PFC agit comme un mécanisme de pause : lorsque les buffers des commutateurs commencent à se remplir, le commutateur ordonne aux dispositifs en amont d'arrêter temporairement de transmettre du trafic.

Cela crée un nouveau problème : le blocage en tête de ligne. PFC résout la perte de paquets en propageant la congestion en arrière à travers le réseau. Sous charge soutenue, cela génère un blocage où du trafic non lié se retrouve piégé derrière des flux congestionnés.

La congestion se propage à travers le fabric, les profondeurs de file d'attente augmentent, et des sections entières du réseau peuvent devenir effectivement synchronisées autour du chemin de trafic le plus lent. Dans les environnements d'entraînement distribué, c'est coûteux : le cluster de calcul ne peut pas avancer tant que chaque opération de synchronisation n'est pas terminée. Les GPU restent inactifs en attendant que les paquets retransmis ou les flux congestionnés se libèrent.

Illustration 1 sur datacenter IA

InfiniBand et l'optimisation par rails

Pour maximiser l'utilisation des GPU, la réponse immédiate de l'industrie a été d'investir massivement dans le matériel. NVIDIA a capitalisé sur cette situation en dominant le paysage des datacenters IA avec InfiniBand : un fabric sans perte natif conçu spécifiquement pour le clustering à haut débit et faible latence.

Contrairement aux déploiements Ethernet conventionnels, InfiniBand a été construit autour d'un comportement de transport déterministe, d'une gestion matérielle de la congestion, d'un routage adaptatif et de caractéristiques de latence étroitement contrôlées.

Les trois vecteurs réseau

Pour mettre à l'échelle ces clusters, les équipes d'ingénierie doivent naviguer entre trois vecteurs réseau distincts :

  • Scale Up : Maximiser l'interconnectivité haute vitesse au sein d'un seul châssis ou nœud (par exemple, relier 8 GPU ensemble via NVLink)
  • Scale Out : Expansion horizontale en connectant ces nœuds multi-GPU à travers un hall de données entier via un fabric réseau backend dédié
  • Scale Across / DCI : Relier des clusters entiers lorsque les limites physiques d'alimentation et de refroidissement empêchent l'expansion d'un seul site

Nous entrons dans la fin du scale-up car NVIDIA livre désormais des racks complets où chaque GPU accède à la mémoire de tous les autres GPU via NVLink (sur le même châssis) et NVSwitch (dans le même rack). Les prochaines années consisteront à se concentrer sur l'utilisation des NIC Connect-X pour connecter différents racks.

Topologies optimisées par rails

Pour gérer le fabric de scale-out massif, les topologies modernes sont rigoureusement conçues pour être optimisées par rails. Dans une configuration de nœud à 8 GPU, chacun des 8 GPU est mappé à une carte d'interface réseau (NIC) dédiée et indépendante.

Le fabric réseau est divisé en 8 plans de commutation physiques parallèles et isolés. La position GPU 1 sur chaque serveur communique exclusivement via le rail 1, la position GPU 2 via le rail 2, et ainsi de suite. Cette isolation réduit les interactions de congestion et améliore le confinement des pannes.

Si un plan réseau subit une dégradation, le cluster perd seulement une fraction de la bande passante agrégée plutôt que de bloquer toute la charge de travail distribuée. Cette complexité croissante soulève des questions sur l'alignement des systèmes IA avec nos objectifs réels.

ECMP et les flux éléphants : un mariage impossible

Le routage statique a été conçu pour les souris, pas pour les éléphants. Les architectures optimisées par rails ont exposé une autre faiblesse du réseau conventionnel. Les protocoles de routage traditionnels ne peuvent pas gérer cette architecture efficacement.

Les limites du hachage statique

Les réseaux IP standard s'appuient sur ECMP (Equal-Cost Multi-Path) pour distribuer le trafic sur plusieurs chemins. ECMP fonctionne en hachant l'en-tête du paquet (5-tuple statique) pour assigner un flux à un chemin spécifique.

Dans les applications web, cela fonctionne extrêmement bien car le trafic consiste en un grand nombre de flux indépendants relativement petits. Le trafic IA se comporte différemment : l'entraînement distribué crée un petit nombre de flux éléphants massifs.

Le hachage ECMP crée inévitablement des collisions où plusieurs grands flux se retrouvent épinglés sur les mêmes liens physiques tandis que des chemins alternatifs restent sous-utilisés. Le résultat : pression sur les buffers, plus de congestion, pertes de paquets et pics de latence de queue.

L'équilibrage dynamique de charge

Pour contrer cela, les commutateurs IA modernes utilisent DLB (Dynamic Load Balancing) et des mécanismes de pulvérisation de paquets. Au lieu de router par flux, le matériel fragmente les flux éléphants et planifie le trafic dynamiquement en fonction de la congestion des ports en temps réel.

C'est cet environnement qui a conduit à l'émergence du consortium Ultra Ethernet, une initiative qui pourrait transformer radicalement le paysage, au même titre que certaines alliances stratégiques dans l'industrie.

Illustration 2 sur datacenter IA

Le consortium Ultra Ethernet : réinventer Ethernet pour l'IA

InfiniBand fonctionne, mais il est coûteux, fermé et impose un verrouillage fournisseur. La réponse de l'écosystème élargi est le consortium Ultra Ethernet (UEC) : une réarchitecture complète d'Ethernet conçue spécifiquement pour défier InfiniBand sur les charges de travail IA, sans abandonner le vaste écosystème et les économies d'échelle d'Ethernet.

Intelligence au niveau transport

Au lieu de s'appuyer sur des mécanismes de pause grossiers au niveau flux comme PFC, Ultra Ethernet déplace l'intelligence vers la couche transport. Il introduit nativement la pulvérisation de paquets : plutôt que de forcer un flux éléphant entier sur un seul chemin haché via ECMP, les commutateurs UEC découpent le flux en paquets individuels et les dispersent simultanément sur tous les liens disponibles dans le fabric.

Cela introduit naturellement une livraison de paquets hors ordre, donc Ultra Ethernet incorpore un réordonnancement de paquets au niveau matériel dans la couche NIC. Il pousse également vers des mécanismes comme Virtual Output Queueing (VOQ), où les paquets sont mis en tampon selon leur destination finale plutôt que de rivaliser globalement pour des files de sortie partagées.

Comparaison InfiniBand vs Ultra Ethernet

Caractéristique InfiniBand Ultra Ethernet
Architecture Fabric natif sans perte Écosystème Ethernet ouvert
Verrouillage Propriétaire, un seul fournisseur Interopérabilité multi-fournisseurs
Gestion congestion Matérielle intégrée Intelligence couche transport
Contrôle de flux Natif Basé sur PFC amélioré
Coût Élevé, écosystème fermé Économies d'échelle Ethernet
Équilibrage charge Routage adaptatif Pulvérisation paquets + VOQ

L'objectif est de minimiser le blocage en tête de ligne, réduire la propagation de la congestion, améliorer l'équilibrage de charge et stabiliser la latence de queue sous trafic est-ouest synchronisé. Ces innovations techniques s'accompagnent de défis environnementaux majeurs, notamment en termes de déchets électroniques générés par le renouvellement constant des infrastructures.

Almartis : repenser l'architecture IA sans GPU

À bien des égards, InfiniBand et Ultra Ethernet tentent de résoudre le même problème fondamental : la surcharge de communication imposée par l'entraînement distribué en deep learning à grande échelle. Les systèmes IA modernes distribuent d'énormes espaces de paramètres sur des milliers d'accélérateurs indépendants.

Maintenir ces systèmes synchronisés nécessite des architectures réseau sophistiquées, un comportement de transport spécialisé et des budgets énergétiques importants dédiés uniquement à la surcharge de coordination. La complexité de l'infrastructure IA moderne n'est pas accidentelle : elle découle des hypothèses computationnelles qu'imposent les modèles eux-mêmes.

La mémoire associative comme alternative

C'est là qu'une direction architecturale différente devient intéressante. Chez Almartis, notre travail explore des systèmes de mémoire associative construits autour de structures de mémoire explicites, adressables et déterministes plutôt que d'optimisation tensorielle distribuée à grande échelle.

Au lieu de s'appuyer principalement sur l'approximation statistique à travers des milliards de paramètres continuellement synchronisés, l'architecture met l'accent sur la récupération structurée et les opérations de mémoire compositionnelle. Cela change significativement le profil d'infrastructure.

Un datacenter aplati et sans GPU

Plutôt que d'optimiser autour de domaines all-reduce géants et de clusters GPU lourds en synchronisation, le système peut optimiser autour de la localité mémoire, de la récupération déterministe, de la communication est-ouest à faible surcharge et des fabrics de stockage-calcul intégrés opérant directement sur Ethernet.

Cela nous permet d'aplatir le datacenter physique en une architecture maillée complète à 1 niveau, sans GPU et non bloquante, construite autour de nœuds CPU haute densité et d'un fabric de commutation silicium 51,2 Tb. Le stockage et le calcul opèrent dans le même domaine physique plutôt que d'exister comme systèmes backend et frontend séparés.

Les principes Ultra Ethernet comme la pulvérisation de paquets et l'équilibrage de charge dynamique restent précieux, mais l'objectif change fondamentalement. Cette approche pourrait également répondre aux préoccupations croissantes concernant la sécurité des systèmes IA en simplifiant drastiquement l'architecture.

Architecture GPU vs architecture sans GPU : comparaison

Dans un monde idéal, les clusters GPU devraient être à 1 niveau. De plus, pour un meilleur scale-out, certains chercheurs ont découvert que le trafic GPU est principalement déterministe : le GPU 1 du serveur X communique principalement avec le GPU 1 des autres serveurs.

On pourrait alors supprimer l'épine dorsale dans les topologies optimisées par rails. Lorsque le GPU 1 du serveur A veut envoyer des données au GPU 2 du serveur B, il copie simplement les données vers le GPU 2 du serveur A qui les transmettra. Le scale-up commence directement au niveau du châssis jusqu'au rack entier.

Illustration 3 sur datacenter IA

Les limites du modèle GPU actuel

En considérant un cluster rail-only à 1 niveau et les dernières générations de GPU NVIDIA, la limite du niveau est de 216 GPU Blackwell Ultra. Tout en consommant plus du double de notre cluster sans GPU, ce cluster GPU reste insignifiant pour entraîner des modèles LLM capables : les laboratoires utilisent des centaines de milliers de GPU pour entraîner des modèles pendant des mois.

Cette consommation énergétique massive soulève des questions cruciales sur la viabilité à long terme du modèle actuel, d'autant plus que certaines études récentes remettent en question l'efficacité réelle de ces approches.

Avantages de l'architecture Almartis

  • Consommation énergétique réduite : Absence de GPU gourmands en énergie
  • Architecture simplifiée : Topologie à 1 niveau non bloquante
  • Localité mémoire optimisée : Récupération déterministe plutôt que synchronisation massive
  • Coûts d'infrastructure réduits : Pas de fabric InfiniBand coûteux
  • Évolutivité différente : Scale-out basé sur la mémoire plutôt que sur la puissance de calcul brute
  • Interopérabilité : Fonctionnement direct sur Ethernet standard

Implications pour l'avenir de l'IA

La proposition d'Almartis représente plus qu'une simple optimisation incrémentale de l'infrastructure existante. Elle remet en question les hypothèses fondamentales sur lesquelles repose l'industrie de l'IA depuis une décennie : que la puissance de calcul brute distribuée sur des milliers de GPU est la seule voie vers des systèmes intelligents plus capables.

Repenser le paradigme computationnel

Si les systèmes de mémoire associative peuvent atteindre des performances comparables ou supérieures sans la surcharge de synchronisation massive, cela ouvre la voie à des datacenters radicalement différents : plus efficaces énergétiquement, moins coûteux à construire et à opérer, et potentiellement plus accessibles à un éventail plus large d'organisations.

Cela pourrait également démocratiser l'accès à l'IA de pointe, actuellement réservé aux géants technologiques capables d'investir des milliards dans des infrastructures GPU. Cette démocratisation est essentielle pour éviter une concentration excessive du pouvoir, comme le soulignent certains débats juridiques récents dans l'industrie.

Défis et questions ouvertes

Bien sûr, de nombreuses questions demeurent. Les systèmes de mémoire associative peuvent-ils vraiment rivaliser avec les modèles de langage massifs entraînés sur des clusters GPU géants ? Quelles sont les tâches pour lesquelles chaque approche est optimale ? Comment les deux paradigmes coexisteront-ils dans l'écosystème IA plus large ?

Ces questions ne trouveront de réponses que dans les années à venir, à mesure que des systèmes comme celui d'Almartis passeront de la recherche à la production. Mais une chose est certaine : l'hypothèse selon laquelle les GPU sont indispensables à l'IA avancée est désormais ouvertement contestée.

L'industrie pourrait être à l'aube d'une bifurcation architecturale majeure, où différentes approches computationnelles coexistent et se spécialisent pour différents types de charges de travail IA. Dans ce contexte, comprendre les différents modèles disponibles devient crucial pour choisir l'infrastructure adaptée.

Conclusion : vers une nouvelle ère de l'infrastructure IA

Les datacenters IA ont été construits pour les GPU parce que le paradigme dominant du deep learning l'exigeait. Mais ce paradigme n'est peut-être pas la destination finale de l'intelligence artificielle. Les systèmes de mémoire associative comme ceux développés par Almartis suggèrent qu'une approche radicalement différente est possible : une approche qui échange la force brute computationnelle contre l'élégance architecturale.

Si cette vision se concrétise, nous pourrions assister à l'émergence de datacenters IA de nouvelle génération : sans GPU, plus efficaces énergétiquement, moins coûteux et potentiellement plus performants pour certaines classes de problèmes. L'infrastructure que nous construisons aujourd'hui façonne l'IA que nous aurons demain.

La question n'est plus seulement technique : elle est stratégique, économique et environnementale. Dans un contexte où la consommation énergétique de l'IA devient un enjeu majeur, les approches alternatives comme celle d'Almartis méritent toute notre attention. L'avenir de l'IA ne sera peut-être pas celui que nous imaginions, et c'est précisément ce qui le rend passionnant.

Pour aller plus loin dans votre exploration de l'intelligence artificielle et découvrir comment créer du contenu optimisé avec les dernières technologies IA, créez votre compte gratuit sur Roboto et accédez à nos outils de génération de textes, images et vidéos.



Ce site utilise des cookies afin d’améliorer votre expérience de navigation.