Les clés du déploiement de l'IA à grande échelle : la synchronisation des serveurs, du stockage et des réseaux

Points clés à retenir
Comment concevoir une architecture d'IA d'entreprise
Pourquoi le déploiement de l'IA à grande échelle ne se résume pas à l'ajout de GPU
Comment les serveurs, le stockage et les réseaux fonctionnent ensemble dans une infrastructure d'IA
Qu'est-ce qu'une usine d'IA ?
Quelles sont les causes des goulots d'étranglement dans une infrastructure d'IA d'entreprise ?
Conception d'infrastructures pour des charges de travail d'IA évolutives
Exigences en matière d'infrastructure pour l'entraînement et l'inférence de l'IA, ainsi que la RAG
Élaboration d'une stratégie d'infrastructure native de l'IA
Comment les entreprises évitent les goulots d'étranglement dans une infrastructure d'IA à grande échelle
FAQ

Points clés à retenir

Une infrastructure d'IA évolutive repose sur une combinaison équilibrée entre la puissance de calcul, le stockage, les réseaux et les logiciels de gestion.
Les GPU sont essentiels, mais le débit du stockage, la bande passante du réseau et l'accès aux données peuvent également limiter les performances de l'IA.
L'entraînement de l'IA, l'inférence de l'IA et la génération augmentée par récupération créent chacun des exigences d'infrastructure différentes.
Des goulots d'étranglement apparaissent souvent lorsqu'une couche d'infrastructure se développe plus rapidement que les autres.

Une IA évolutive n'implique pas un simple ajout de GPU. À mesure que les organisations déploient l'IA en la faisant passer de la phase de projet pilote à celle de la production, beaucoup en profitent pour repenser également l'environnement dans lequel elle doit s'exécuter. Pour les entreprises, les gouvernements et les secteurs réglementés, cela signifie de plus en plus construire sur site pour soutenir une IA souveraine permettant de conserver les modèles, les données et les inférences à l'intérieur de leurs propres frontières, réseaux et plans de contrôle, afin de renforcer la résidence des données, la protection de la propriété intellectuelle, le contrôle réglementaire et la résilience opérationnelle.

Le défi consiste à transformer ce contrôle en environnement évolutif et prêt pour la production. Dell Technologies rapporte que 93 % des organisations sont confrontées à des défis lorsqu'elles intègrent l'IA ou l'IA générative dans leurs stratégies commerciales, ce qui signifie que l'alignement des infrastructures devient la nouvelle étape cruciale. Pour effectuer une mise à l'échelle efficace, les organisations ont besoin de serveurs, d'un stockage, de réseaux, d'un accès aux données et d'outils de gestion qui fonctionnent ensemble pour l'entraînement, l'inférence et la génération augmentée par récupération. Elles ont également besoin d'architectures qui rapprochent les données d'entreprise gouvernées du calcul accéléré afin que les GPU ne soient pas ralentis par des pipelines de données distants ou fragmentés.

Comment concevoir une architecture d'IA d'entreprise

L'architecture d'IA d'entreprise doit être conçue pour absorber les différentes exigences de l'entraînement, de l'inférence, de l'ajustement et de la génération augmentée par récupération, sans pour autant imposer une refonte à chaque nouveau cas d'utilisation. Chaque charge de travail exerce une pression différente sur les ressources de calcul, de stockage, de réseau, de sécurité et de gestion. C'est pourquoi l'architecture doit tenir compte de l'emplacement des données, de leur mode de déplacement et du niveau de bande passante réellement requis par l'infrastructure GPU.

Une architecture d'IA d'entreprise évolutive rassemble des serveurs accélérés, un stockage haute performance, des réseaux adaptés, un accès sécurisé aux données, des outils d'orchestration et des modèles de déploiement validés dans une conception reproductible. Ce socle permet aux équipes d'ajouter de la capacité pour la charge de travail suivante, sans avoir à repenser l'architecture de la précédente.

Pourquoi le déploiement de l'IA à grande échelle ne se résume pas à l'ajout de GPU

Le déploiement de l'IA à grande échelle ne se résume pas à l'ajout de GPU, car les performances dépendent de la façon dont le calcul, les réseaux, le stockage et les logiciels fonctionnent ensemble. Les GPU peuvent accélérer l'entraînement et l'inférence, mais ils peuvent également devenir des ressources de silicium inutilisées et coûteuses lorsque des pipelines de données lents, des réseaux congestionnés ou des écritures de points de contrôle empêchent le reste de l'infrastructure de suivre le rythme.

Cela se traduit par une utilisation moindre, des tâches d'entraînement plus longues, une latence d'inférence plus élevée et un coût par jeton ou par requête en hausse. Le fait d'ajouter davantage d'accélérateurs à une architecture déséquilibrée ne fait qu'amplifier le problème. Pour effectuer une mise à l'échelle efficace, les organisations ont besoin que le débit du stockage, la bande passante du réseau, la circulation des données et l'orchestration évoluent au même rythme que la capacité des GPU.

NVIDIA codifie ces principes de conception dans ses architectures de référence pour les entreprises (Enterprise Reference Architectures, ERA) : des plans validés pour les clusters de calcul accéléré qui spécifient les ratios de la puissance de calcul, du stockage et des réseaux nécessaires afin d'éviter les goulots d'étranglement et de soutenir l'utilisation des GPU. Les ERA couvrent à la fois les conceptions à extension verticale, notamment les GPU connectés par NVLink à l'intérieur d'un nœud ou d'un rack, et les conceptions à extension horizontale, dont les infrastructures Ethernet ou InfiniBand à large bande passante et faible latence entre les nœuds.

Dans le cadre d'une infrastructure d'IA évolutive, l'ajout de capacité GPU n'est utile que si l'architecture environnante peut suivre le rythme. Les serveurs, le stockage, les réseaux et l'orchestration doivent être planifiés comme un seul système afin que les données puissent circuler efficacement, que les GPU restent utilisés et que les nouvelles capacités améliorent les performances au lieu de mettre au jour un nouveau goulot d'étranglement.

Comment les serveurs, le stockage et les réseaux fonctionnent ensemble dans une infrastructure d'IA

Les serveurs, le stockage et les réseaux influencent les performances de l'IA en contrôlant la vitesse à laquelle les données circulent dans l'environnement. Les serveurs fournissent la puissance de calcul accélérée nécessaire à l'entraînement, à l'ajustement et à l'inférence, tandis que le stockage fournit les ensembles de données, les points de contrôle, les plongements vectoriels et les résultats dont dépendent ces charges de travail.

Les réseaux connectent les couches d'infrastructure, mais il faut garder à l'esprit que les clusters d'IA reposent sur deux modèles de trafic différents. Le trafic nord-sud transfère les données entre les utilisateurs, les applications, les systèmes de stockage et le cluster, tandis que le trafic est-ouest transfère les données entre les GPU et les nœuds à l'intérieur du cluster. À mesure que les charges de travail augmentent, la communication est-ouest entre les GPU devient souvent le principal goulot d'étranglement.

C'est pourquoi les interconnexions à large bande passante et à faible latence sont essentielles. Si l'infrastructure GPU est sous-dimensionnée ou surchargée, les accélérateurs peuvent rester inactifs en attente de communication pendant l'entraînement ou l'inférence de modèles de grande taille. L'ajout de GPU supplémentaires ne peut pas corriger ce déséquilibre si le réseau ne parvient pas à les faire fonctionner conjointement de manière efficace.

Le tableau ci-dessous illustre comment chaque couche d'infrastructure évolue à mesure que les organisations passent de charges de travail d'entreprise standard à l'entraînement, à l'inférence et à la RAG de l'IA.

Domaine d'infrastructure	Infrastructure d'entreprise traditionnelle	Infrastructure d'IA évolutive
Serveurs	Systèmes centrés sur les processeurs pour les applications d'entreprise	Serveurs accélérés pour l'entraînement, l'inférence et l'ajustement de l'IA
Stockage	Stockage axé sur la capacité pour les enregistrements et les applications	Stockage haute performance pour les ensembles de données, les plongements vectoriels, les points de contrôle et les résultats
Réseaux	Connectivité à usage général	Réseaux à large bande passante et faible latence pour les charges de travail d'IA distribuées
Opérations	Gestion d'infrastructures cloisonnées	Gestion coordonnée des ressources de calcul, du stockage, des réseaux et des logiciels d'IA

Qu'est-ce qu'une usine d'IA ?

Dell AI Factory with NVIDIA est un environnement complet qui a été conçu conjointement pour transformer les données d'entreprise en résultats d'IA à grande échelle. Il prend en charge l'intégralité du cycle de vie de l'IA, y compris la préparation des données, l'entraînement des modèles, l'ajustement, l'inférence, la récupération, la surveillance et l'amélioration continue.

Contrairement à un centre de données traditionnel, généralement optimisé pour la disponibilité des applications et le calcul à usage général, Dell AI Factory with NVIDIA a été conçu pour répondre aux exigences d'intensité des charges de travail de l'IA. Cet environnement réunit calcul accéléré, stockage haut débit, infrastructures GPU à faible latence, accès aux données contrôlé et gestion coordonnée sur l'ensemble des modules validés, au lieu de laisser aux équipes le soin de construire un projet d'intégration personnalisé.

Cette approche validée s'appuie sur les ERA de NVIDIA. Dell AI Factory with NVIDIA combine les serveurs Dell PowerEdge, le stockage PowerScale, les réseaux PowerSwitch et la plateforme de données d'IA de Dell avec NVIDIA AI Enterprise, les microservices NVIDIA NIM et la plateforme Ethernet haut débit NVIDIA Spectrum-X. En validant conjointement la pile technologique, Dell et NVIDIA offrent aux entreprises une architecture reproductible qu'elles peuvent faire évoluer pour l'entraînement, l'inférence, la RAG et les futures charges de travail d'IA sans avoir à repenser l'environnement pour chaque nouveau cas d'utilisation.

Quelles sont les causes des goulots d'étranglement dans une infrastructure d'IA d'entreprise ?

Dans une infrastructure d'IA d'entreprise, les goulots d'étranglement surviennent lorsque les capacités de calcul, le stockage, les réseaux ou les pipelines de données évoluent de manière inégale. Chacun des éléments suivants peut ralentir les performances : un débit de stockage insuffisant pour les GPU supplémentaires, des réseaux inadéquats pour des charges de travail d'IA distribuées ou un accès lent aux données d'entreprise dans le cadre de la génération augmentée par récupération.

Les sources de tension courantes comprennent :

Des GPU qui attendent des données en provenance de pipelines lents
Des systèmes de stockage qui ne peuvent pas prendre en charge les charges de travail d'entraînement ou de récupération
Une latence du réseau entre les nœuds de calcul distribués
Une mauvaise répartition des charges de travail sur l'infrastructure disponible
Des systèmes RAG qui ne peuvent pas récupérer les données d'entreprise assez rapidement

Les problèmes de performance apparaissent généralement lorsque les données ne peuvent pas circuler suffisamment rapidement entre les couches de calcul, de stockage et de réseau. Dans les clusters d'IA, un trafic est-ouest mal géré peut ralentir l'entraînement et réduire l'efficacité des pipelines à mesure que les charges de travail augmentent sur les GPU, les processeurs et les systèmes de stockage.

Conception d'infrastructures pour des charges de travail d'IA évolutives

Les entreprises doivent concevoir une infrastructure d'IA évolutive en fonction des exigences des charges de travail, et non en fonction d'une liste de matériel prédéfinie. Avant de procéder à une mise à l'échelle, elles doivent associer chaque charge de travail à ses besoins en matière de calcul, de stockage, de réseaux, de latence, d'accès aux données, de sécurité et de croissance.

Une tâche d'entraînement importante, une application d'inférence en contact avec les clients et un outil RAG interne ne solliciteront pas l'infrastructure de la même manière. Chaque cas nécessite son propre équilibre entre performance, accès aux données, latence et évolutivité.

Les principaux critères sont les suivants :

Taille du modèle : les modèles plus volumineux nécessitent généralement davantage de puissance de calcul accéléré et de mémoire.
Volume de données : un nombre accru de données augmente les besoins en stockage et en capacité de transfert.
Besoins en latence : l'inférence de production et la RAG nécessitent souvent des temps de réponse plus rapides.
Concurrence : un plus grand nombre d'utilisateurs ou de requêtes peut accroître la demande en matière de puissance de calcul et de capacité des réseaux.
Perspectives de croissance : l'infrastructure doit permettre une expansion au-delà du premier cas d'utilisation.

Conception d'une usine d'IA sur site pour l'inférence d'entreprise

Dans le cadre de l'inférence à l'échelle de l'entreprise, une usine d'IA sur site doit garantir une faible latence prévisible en cas de pics de demande, une haute disponibilité des réplicas servant les modèles et une récupération rapide des sources de données et des vecteurs pour la RAG. L'objectif n'est pas seulement d'héberger un modèle, mais également de s'assurer que les applications d'IA en production restent réactives, résilientes et gouvernées à mesure que leur utilisation augmente.

Concrètement, cela signifie qu'il faut dimensionner correctement la mémoire dédiée aux GPU, la puissance et la capacité des serveurs en fonction des tailles des modèles et des schémas de demande. Les serveurs d'inférence doivent également être associés à un stockage capable de supporter le trafic de récupération et à des réseaux capables de prendre en charge à la fois les requêtes des applications en contact avec les utilisateurs et la communication GPU est-ouest. Si le stockage, l'accès aux données ou l'architecture GPU ne peuvent pas suivre le rythme, les temps de réponse peuvent devenir hétérogènes même si la capacité des accélérateurs semble suffisante sur le papier.

Une architecture modulaire est importante, car les empreintes des inférences augmentent généralement avec chaque nouveau cas d'utilisation. Chaque nouveau modèle, assistant ou application RAG doit s'intégrer à la plateforme existante au lieu de créer un environnement parallèle avec sa propre infrastructure, son propre modèle de gouvernance et ses propres frais opérationnels.

Exigences en matière d'infrastructure pour l'entraînement et l'inférence de l'IA, ainsi que la RAG

L'entraînement et l'inférence de l'IA à grande échelle nécessitent une architecture équilibrée : calcul accéléré, stockage haut débit, réseaux à large bande passante et faible latence, logiciels d'orchestration et accès sécurisé aux données. L'entraînement dépend de performances GPU soutenues et d'un transfert rapide des données, tandis que l'inférence privilégie une faible latence, la fiabilité et un placement efficace des charges de travail.

La RAG exige également un accès rapide et gouverné aux données d'entreprise avant que le modèle ne génère une réponse. Dell Technologies indique que 95 % des organisations rencontrent des difficultés pour identifier, préparer ou utiliser les données destinées à des cas d'utilisation d'IA ou d'IA générative. Dans les environnements RAG, les problèmes de préparation des données peuvent également affecter la planification des infrastructures, tout particulièrement lorsque les systèmes doivent récupérer et fournir rapidement des informations pertinentes.

Le tableau ci-dessous illustre comment les priorités en matière d'infrastructure diffèrent selon les charges de travail liées à l'entraînement de l'IA, à l'inférence d'IA et à la RAG.

Charge de travail d'IA	Besoins en infrastructure primaires	Pourquoi c'est important
Entraînement de l'IA	Calcul accéléré, stockage haut débit, réseaux à large bande passante	Les tâches d'entraînement traitent de grands ensembles de données et nécessitent des performances soutenues
Inférence d'IA	Calcul à faible latence, réseaux fiables, placement efficace des charges de travail	Les applications d'IA en production nécessitent des temps de réponse homogènes
Génération augmentée par récupération	Accès rapide aux données, prise en charge des bases de données vectorielles, stockage et réseaux à faible latence	Les systèmes RAG doivent récupérer les données d'entreprise pertinentes avant de pouvoir générer une réponse

Exigences en matière d'infrastructure pour les assistants de connaissances d'entreprise avec la RAG

Avec la RAG, un assistant de connaissances d'entreprise sécurisé nécessite plus qu'une simple interface de modèle. L'infrastructure doit permettre un accès rapide et gouverné aux données d'entreprise avant que le modèle puisse générer une réponse.

Les exigences fondamentales comprennent un accès gouverné aux documents et aux applications, un stockage pour les données sources et les plongements vectoriels, une recherche vectorielle, des réseaux à faible latence, des contrôles de sécurité imposant des autorisations aux utilisateurs, ainsi qu'une surveillance de la latence de récupération et de l'utilisation de l'infrastructure.

Dans le cadre des déploiements privés ou sur site, les entreprises doivent également planifier l'emplacement du stockage des données, leur indexation, la fréquence de leur actualisation et la manière dont les politiques d'accès sont appliquées.

Élaboration d'une stratégie d'infrastructure native de l'IA

Une stratégie d'infrastructure native de l'IA harmonise les ressources de calcul, le stockage, les réseaux, les logiciels, la sécurité et les services en fonction des charges de travail qu'une entreprise a besoin de mettre à l'échelle. Dell AI Factory with NVIDIA s'appuie sur la validation ERA de NVIDIA, réunissant une infrastructure accélérée, des logiciels d'IA, des conceptions validées, des services de données, une sécurité et une expertise en matière de déploiement pour aider les organisations à faire passer l'IA de la phase de projet pilote à celle de la production.

Cette approche offre aux équipes un chemin coordonné, de la planification des cas d'utilisation au déploiement en production, au lieu de les obliger à assembler et à valider chaque couche d'infrastructure séparément. En s'appuyant sur des modèles validés, les organisations peuvent réduire les écarts d'intégration, standardiser des déploiements reproductibles et mettre à l'échelle de nouvelles charges de travail d'IA sans avoir à repenser l'architecture de l'environnement à chaque fois.

Comment les entreprises évitent les goulots d'étranglement dans une infrastructure d'IA à grande échelle

Les entreprises évitent les goulots d'étranglement dans une infrastructure d'IA en concevant le calcul, le stockage, les réseaux et les opérations comme un seul et unique système coordonné. Elles doivent tester les charges de travail avant un déploiement à grande échelle, surveiller l'utilisation sur l'ensemble de la pile et étendre l'infrastructure en fonction des exigences d'entraînement, d'inférence et de RAG.

Une approche pratique consiste à adapter l'infrastructure au type de charge de travail, à équilibrer la capacité des GPU en fonction du débit du stockage et de la bande passante du réseau, à surveiller la latence et la circulation des données, à utiliser des architectures validées et à standardiser des modèles de déploiement reproductibles.

Ces mêmes pratiques permettent également de réduire les frais opérationnels. Lorsque les équipes réutilisent des modèles de déploiement communs et surveillent l'infrastructure de manière homogène, elles peuvent éviter de créer des environnements d'IA ponctuels qui génèrent deux fois plus de travail, des configurations hétérogènes et des responsabilités mal définies.

FAQ

Pourquoi le déploiement de l'IA à grande échelle ne se résume-t-il pas à un simple ajout de GPU ?

Le déploiement de l'IA à grande échelle ne se limite pas à l'ajout de GPU, car les charges de travail d'IA dépendent également des performances du stockage, de la bande passante réseau, de l'accès aux données et de l'orchestration des charges de travail.

Quelles sont les causes des goulots d'étranglement dans une infrastructure d'IA ?

Des goulots d'étranglement surviennent lorsqu'une couche de l'infrastructure ne peut pas suivre le rythme des autres, par exemple lorsque le stockage ne peut pas fournir des données assez rapidement ou lorsque les réseaux ralentissent les charges de travail distribuées.

De quelle infrastructure a-t-on besoin pour l'IA d'entreprise ?

L'infrastructure d'IA d'entreprise comprend généralement des serveurs accélérés, un stockage haute performance, des réseaux à large bande passante, des logiciels d'IA, des outils d'orchestration, des contrôles de sécurité et des services.

Quelle infrastructure permet de prendre en charge la génération augmentée par récupération ?

La génération augmentée par récupération nécessite un accès rapide aux données d'entreprise, des bases de données vectorielles, des systèmes de stockage et des réseaux à faible latence.

Un assistant de connaissances d'entreprise peut-il fonctionner sans envoyer de données vers le cloud public ?

Oui. Un assistant de connaissances peut fonctionner dans un environnement privé ou sur site lorsqu'une organisation dispose d'une infrastructure réunissant accès sécurisé aux données, recherche vectorielle, stockage, réseaux, service de modèles et gouvernance.