Was für die KI-Skalierung erforderlich ist: Server, Speicher und Netzwerke im Einklang

Wichtigste Erkenntnisse
Konzipieren einer Enterprise-KI-Architektur
Warum die Skalierung von KI mehr erfordert als nur das Hinzufügen von GPUs
Wie Server, Speicher und Netzwerke in der KI-Infrastruktur zusammenarbeiten
Was ist eine KI-Fabrik?
Was verursacht Engpässe in der Enterprise-KI-Infrastruktur?
Konzipieren einer Infrastruktur für skalierbare KI-Workloads
Infrastrukturanforderungen für KI-Training, KI-Inferenz und RAG
Entwickeln einer KI-nativen Infrastrukturstrategie
Wie Unternehmen KI-Infrastrukturengpässe im großen Maßstab vermeiden können
Häufig gestellte Fragen

Wichtigste Erkenntnisse

Eine skalierbare KI-Infrastruktur basiert auf einer ausgewogenen Mischung aus Rechenleistung, Speicher, Netzwerktechnologie und Managementsoftware.
GPUs sind unerlässlich, aber auch der Speicherdurchsatz, die Netzwerkbandbreite und der Datenzugriff können die KI-Performance einschränken.
KI-Training, KI-Inferenz und Retrieval-Augmented Generation (RAG) bringen jeweils unterschiedliche Infrastrukturanforderungen mit sich.
Engpässe entstehen oft dann, wenn eine Infrastrukturebene schneller skaliert wird als die anderen.

Skalierbare KI erfordert mehr als nur das Hinzufügen von GPUs. Wenn Unternehmen KI-Systeme von Pilotprojekten in den produktiven Einsatz überführen, überdenken viele auch, wo die KI ausgeführt werden soll. Für Unternehmen, Behörden und regulierte Branchen bedeutet dies zunehmend den Aufbau eigener On-Premise-Infrastrukturen, um souveräne KI zu unterstützen: Dabei werden Modelle, Daten und Inferenz innerhalb der eigenen Grenzen, Netzwerke und Steuerungsebenen gehalten, um die Datenresidenz, den Schutz des geistigen Eigentums, die behördliche Kontrolle und die operative Resilienz zu stärken.

Die Herausforderung besteht darin, diese Kontrolle in eine skalierbare, produktionsreife Umgebung zu verwandeln. Dell Technologies berichtet, dass 93 % der Unternehmen vor Herausforderungen stehen, wenn sie KI oder generative KI in ihre Geschäftsstrategien integrieren, weshalb die Abstimmung der Infrastruktur ein entscheidender nächster Schritt ist. Um effektiv skalieren zu können, benötigen Unternehmen Server, Speicher, Netzwerke, Datenzugriff und Managementtools, die bei Training, Inferenz und Retrieval-Augmented Generation nahtlos zusammenarbeiten – einschließlich Architekturen, die kontrollierte Unternehmensdaten näher an beschleunigte Rechenleistung heranführen, sodass GPUs nicht auf entfernte oder fragmentierte Datenpipelines warten müssen.

Konzipieren einer Enterprise-KI-Architektur

Eine Enterprise-KI-Architektur sollte so konzipiert sein, dass sie die unterschiedlichen Anforderungen von Training, Inferenz, Feinabstimmung und Retrieval-Augmented Generation abdeckt, ohne dass für jeden neuen Anwendungsfall eine Neugestaltung erforderlich ist. Jede Workload stellt unterschiedliche Anforderungen an Rechenleistung, Speicher, Netzwerke, Sicherheit und Management. Daher muss die Architektur berücksichtigen, wo sich die Daten befinden, wie sie übertragen werden und welche Bandbreite die GPU-Fabric tatsächlich benötigt.

Eine skalierbare Enterprise-KI-Architektur vereint beschleunigte Server, leistungsstarken Speicher, die richtige Netzwerkinfrastruktur, sicheren Datenzugriff, Orchestrierungstools und validierte Bereitstellungsmuster in einem wiederholbaren Design. Diese Grundlage ermöglicht es Teams, Kapazitäten für die nächste Workload hinzuzufügen, ohne die Architektur der vorherigen Workload neu gestalten zu müssen.

Warum die Skalierung von KI mehr erfordert als nur das Hinzufügen von GPUs

Die Skalierung von KI umfasst mehr als nur das Hinzufügen von GPUs, da die Leistung davon abhängt, wie gut Rechenleistung, Netzwerke, Speicher und Software zusammenarbeiten. GPUs können das Training und die Inferenz beschleunigen, können aber auch zu teurer, ungenutzter Technologie werden, wenn langsame Datenpipelines, überlastete Netzwerk-Fabrics oder Schreibvorgänge an Prüfpunkten den Rest der Infrastruktur daran hindern, Schritt zu halten.

Dies führt zu einer geringeren Auslastung, längeren Trainingsvorgängen, einer höheren Latenz im Inferenzbereich und steigenden Kosten pro Token oder Abfrage. Das Hinzufügen weiterer Beschleuniger zu einer unausgewogenen Architektur verschärft das Problem nur noch weiter. Für eine effiziente Skalierung müssen Speicherdurchsatz, Netzwerkbandbreite, Datenverschiebung und Orchestrierung im Unternehmen im gleichen Maße steigen wie die GPU-Kapazität.

NVIDIA fasst diese Designprinzipien in den Enterprise Reference Architectures (ERAs) zusammen: validierte Blueprints für beschleunigte Rechencluster, die die erforderlichen Verhältnisse von Rechenleistung, Speicher und Netzwerken festlegen, um Engpässe zu vermeiden und eine konstante GPU-Auslastung zu gewährleisten. ERAs decken sowohl Scale-up-Designs ab – darunter über NVLink verbundene GPUs in einem Node oder Rack – als auch Scale-out-Designs, einschließlich Ethernet- oder InfiniBand-Fabrics mit hoher Bandbreite und niedriger Latenz auf mehreren Nodes.

Für eine skalierbare KI-Infrastruktur ist das Hinzufügen von GPU-Kapazität nur dann sinnvoll, wenn die umgebende Architektur damit Schritt halten kann. Server, Speicher, Netzwerke und Orchestrierung müssen als ein einheitliches System geplant werden, damit Daten effizient übertragen werden können, die GPUs ausgelastet bleiben und neue Kapazität die Leistung verbessert, anstatt den nächsten Engpass zu verursachen.

Wie Server, Speicher und Netzwerke in der KI-Infrastruktur zusammenarbeiten

Server, Speicher und Netzwerke beeinflussen die KI-Leistung, da sie steuern, wie schnell Daten in der Umgebung übertragen werden. Server sorgen für die erforderliche Rechenleistung beim Training, bei der Feinabstimmung und bei der Inferenz, während Speicher die Datensätze, Prüfpunkte, Einbettungen und Ergebnisse bereitstellt, auf die diese Workloads angewiesen sind.

Netzwerke verbinden die Infrastrukturebenen miteinander, doch KI-Cluster sind von zwei unterschiedlichen Datenverkehrsmustern abhängig. Der Nord-Süd-Verkehr transportiert Daten zwischen Benutzenden, Anwendungen, Speichersystemen und dem Cluster, während der Ost-West-Verkehr Daten zwischen GPUs und Nodes innerhalb des Clusters überträgt. Mit zunehmender Skalierung der Workloads wird die Ost-West-Kommunikation zwischen GPUs häufig zum größeren Engpass.

Daher sind Verbindungen mit hoher Bandbreite und niedriger Latenz von entscheidender Bedeutung. Ist die GPU-Struktur zu klein dimensioniert oder zu stark ausgelastet, können Beschleuniger während des Trainings oder der Inferenz mit großen Modellen untätig bleiben und auf die Kommunikation warten. Durch weitere GPUs wird dieses Ungleichgewicht nicht behoben, wenn das Netzwerk nicht in der Lage ist, deren effiziente Zusammenarbeit sicherzustellen.

Die nachstehende Tabelle veranschaulicht, wie sich die einzelnen Infrastrukturebenen verändern, wenn Unternehmen von standardmäßigen Enterprise-Workloads auf KI-Training, Inferenz und RAG umsteigen.

Infrastrukturbereich	Herkömmliche Unternehmensinfrastruktur	Skalierbare KI-Infrastruktur
Server	CPU-zentrierte Systeme für Unternehmensanwendungen	Beschleunigte Server für KI-Training, Inferenz und Feinabstimmung
Speicher	Kapazitätsorientierter Speicher für Datensätze und Anwendungen	Leistungsstarker Speicher für Datensätze, Einbettungen, Prüfpunkte und Ausgaben
Netzwerke	Allgemeine Konnektivität	Netzwerke mit hoher Bandbreite und niedriger Latenz für verteilte KI-Workloads
Betrieb	Isoliertes Infrastrukturmanagement	Koordiniertes Management über Rechner, Speicher, Netzwerke und KI-Software hinweg

Was ist eine KI-Fabrik?

Dell AI Factory with NVIDIA ist eine gemeinsam entwickelte Full-Stack-Umgebung, die darauf ausgelegt ist, Unternehmensdaten in großem Umfang in KI-Ergebnisse umzuwandeln. Die Lösung unterstützt den gesamten KI-Lebenszyklus, einschließlich Datenaufbereitung, Modelltraining, Feinabstimmung, Inferenz, Datenabruf, Überwachung und kontinuierlicher Verbesserung.

Im Gegensatz zu einem herkömmlichen Rechenzentrum, das in der Regel für die Anwendungsverfügbarkeit und allgemeine Rechenaufgaben optimiert ist, wurde Dell AI Factory with NVIDIA speziell für die hohen Anforderungen von KI-Workloads entwickelt. Die Lösung vereint beschleunigte Rechenleistung, Speicher mit hohem Durchsatz, GPU-Fabrics mit niedriger Latenz, kontrollierten Datenzugriff und koordiniertes Management über validierte, modulare Bausteine hinweg – so müssen die Teams kein eigenes Integrationsprojekt erstellen.

Dieser validierte Ansatz knüpft an NVIDIA ERAs an. Dell AI Factory with NVIDIA kombiniert Dell PowerEdge-Server, PowerScale-Speicher, PowerSwitch-Netzwerktechnologie und die Dell AI Data Platform mit NVIDIA AI Enterprise, NVIDIA NIM-Mikroservices sowie der NVIDIA Spectrum-X-Hochgeschwindigkeits-Ethernet-Fabric. Durch die gemeinsame Validierung des Stacks bieten Dell und NVIDIA Unternehmen eine wiederholbare Architektur, die sie für Training, Inferenz, RAG und zukünftige KI-Workloads skalieren können, ohne die Umgebung für jeden neuen Anwendungsfall neu gestalten zu müssen.

Was verursacht Engpässe in der Enterprise-KI-Infrastruktur?

Engpässe in der Enterprise-KI-Infrastruktur entstehen, wenn Rechenleistung, Speicher, Netzwerke oder Datenpipelines ungleichmäßig skaliert werden. Ein unzureichender Speicherdurchsatz für zusätzliche GPUs, eine für verteilte KI-Workloads ungeeignete Netzwerkkonfiguration oder ein langsamer Zugriff auf Unternehmensdaten für Retrieval-Augmented Generation können die Leistung beeinträchtigen.

Häufige Schwachstellen sind unter anderem:

GPUs, die auf langsame Datenpipelines warten
Speichersysteme, die Trainings- oder Abruf-Workloads nicht unterstützen können
Netzwerklatenz zwischen verteilten Rechen-Nodes
Ungeeignete Verteilung der Workload in der verfügbaren Infrastruktur
RAG-Systeme, die Unternehmensdaten nicht schnell genug abrufen können

Leistungsprobleme treten in der Regel dann auf, wenn Daten nicht schnell genug zwischen den Rechen-, Speicher- und Netzwerkschichten übertragen werden können. In KI-Clustern kann ein schlecht verwalteter Ost-West-Verkehr das Training verlangsamen und die Effizienz der Pipeline beeinträchtigen, wenn die Workloads auf GPUs, CPUs und Speichersystemen skaliert werden.

Konzipieren einer Infrastruktur für skalierbare KI-Workloads

Unternehmen sollten eine skalierbare KI-Infrastruktur basierend auf den Anforderungen der jeweiligen Workloads konzipieren – nicht anhand einer vordefinierten Hardwareliste. Vor der Skalierung müssen sie für jede Workload die jeweiligen Anforderungen hinsichtlich Rechenleistung, Speicher, Netzwerke, Latenz, Datenzugriff, Sicherheit und Wachstum ermitteln.

Ein umfangreicher Trainingsauftrag, eine kundenorientierte Inferenz-App und ein internes RAG-Tool belasten die Infrastruktur nicht in gleicher Weise. Jeder dieser Fälle erfordert ein individuelles Gleichgewicht zwischen Leistung, Datenzugriff, Latenz und Skalierbarkeit.

Zu den wichtigsten Kriterien gehören:

Modellgröße: Größere Modelle benötigen in der Regel mehr beschleunigte Rechenleistung und Arbeitsspeicher.
Datenvolumen: Mehr Daten erhöhen die Anforderungen an Speicher und Datenübertragung.
Latenzanforderungen: Inferenz im Produktivbetrieb und RAG erfordern oft schnellere Antwortzeiten.
Parallelität: Eine höhere Anzahl von Benutzenden oder Anfragen kann den Rechen- und Netzwerkbedarf erhöhen.
Wachstumserwartungen: Die Infrastruktur sollte eine Erweiterung über den ersten Anwendungsfall hinaus unterstützen.

Entwickeln einer On-Premise-KI-Fabrik für Enterprise-Inferenz

Für Inferenz auf Enterprise-Niveau muss eine lokale KI-Fabrik auch bei sprunghafter Nachfrage eine vorhersehbar niedrige Latenz, hohe Verfügbarkeit auf allen Replikaten der Modellbereitstellung sowie einen schnellen Zugriff auf Vektor- und Quelldaten für RAG gewährleisten. Das Ziel besteht nicht nur darin, ein Modell zu hosten, sondern umfasst auch, dass KI-Anwendungen im Produktivbetrieb selbst bei steigender Nutzung reaktionsschnell, resilient und kontrollierbar bleiben.

In der Praxis bedeutet dies, dass GPU-Speicher, Leistung und Serverkapazität genau auf die Modellgröße und die Nachfragemuster abgestimmt werden müssen. Inferenzserver müssen zudem mit Speicher kombiniert werden, der den Abrufdatenverkehr bewältigen kann, sowie mit Netzwerkinfrastrukturen, die sowohl benutzerseitige Anwendungsanfragen als auch die Ost-West-Kommunikation zwischen den GPUs unterstützen. Wenn der Speicher, der Datenzugriff oder die GPU-Fabric nicht mithalten kann, können Antwortzeiten inkonsistent werden, selbst wenn die Beschleunigerkapazität auf dem Papier ausreichend erscheint.

Eine modulare Architektur ist wichtig, da sich der Umfang der Inferenz in der Regel jeweils um einen Anwendungsfall erweitert. Jedes neue Modell, jeder neue Assistent oder jede neue RAG-Anwendung sollte sich nahtlos in die bestehende Plattform einfügen, anstatt eine parallele Umgebung mit eigener Infrastruktur, eigenem Governance-Modell und eigenem Betriebsaufwand zu schaffen.

Infrastrukturanforderungen für KI-Training, KI-Inferenz und RAG

Für das Training und die Inferenz von KI in großem Maßstab ist eine ausgewogene Architektur erforderlich: beschleunigte Rechenleistung, Speicher mit hohem Durchsatz, Netzwerke mit hoher Bandbreite und niedriger Latenz, Orchestrierungssoftware sowie ein sicherer Datenzugriff. Das Training hängt von einer konstanten GPU-Leistung und einer schnellen Datenübertragung ab, während bei der Inferenz niedrige Latenz, Zuverlässigkeit und eine effiziente Workload-Zuordnung im Vordergrund stehen.

RAG erfordert zudem einen schnellen, kontrollierten Zugriff auf Unternehmensdaten, bevor das Modell eine Antwort generiert. Dell Technologies berichtet, dass 95 % der Unternehmen Schwierigkeiten haben, Daten für Anwendungsfälle im Bereich KI oder generative KI zu identifizieren, aufzubereiten oder zu nutzen. In RAG-Umgebungen können Probleme mit der Datenbereitschaft auch die Infrastrukturplanung beeinträchtigen, insbesondere wenn Systeme relevante Informationen schnell abrufen und bereitstellen müssen.

Die nachstehende Tabelle veranschaulicht, wie sich die Prioritäten bei der Infrastruktur zwischen KI-Trainings-, KI-Inferenz- und RAG-Workloads unterscheiden.

KI-Workload	Primäre Infrastrukturanforderungen	Bedeutung
KI-Training	Beschleunigte Rechenleistung, Speicher mit hohem Durchsatz, Netzwerke mit hoher Bandbreite	Trainingsprozesse verarbeiten große Datensätze und erfordern eine gleichbleibende Leistung
KI-Inferenz	Rechenleistung mit niedriger Latenz, zuverlässige Netzwerkverbindungen, effiziente Workload-Platzierung	KI-Anwendungen im Produktivbetrieb erfordern konsistente Antwortzeiten
Retrieval-Augmented Generation	Schneller Datenzugriff, Unterstützung für Vektordatenbanken, Speicher und Netzwerke mit niedriger Latenz	RAG-Systeme müssen relevante Unternehmensdaten abrufen, bevor sie eine Antwort generieren

Infrastrukturanforderungen für Enterprise-Wissensassistenten mit RAG

Ein sicherer Enterprise-Wissensassistent mit RAG erfordert mehr als nur eine Modellschnittstelle. Die Infrastruktur muss einen schnellen und kontrollierten Zugriff auf Unternehmensdaten ermöglichen, bevor das Modell eine Antwort generiert.

Zu den Kernanforderungen zählen ein kontrollierter Zugriff auf Dokumente und Anwendungen, Speicher für Quelldaten und Einbettungen, Vektorsuche, Netzwerke mit niedriger Latenz, Sicherheitskontrollen zur Durchsetzung von Benutzerberechtigungen sowie die Überwachung der Abruflatenz und der Infrastrukturauslastung.

Bei privaten oder On-Premise-Bereitstellungen sollten Unternehmen zudem planen, wo die Daten gespeichert werden, wie sie indexiert werden, wie oft sie aktualisiert werden und wie die Zugriffsrichtlinien durchgesetzt werden.

Entwickeln einer KI-nativen Infrastrukturstrategie

Bei einer KI-nativen Infrastrukturstrategie werden Rechenleistung, Speicher, Netzwerke, Software, Sicherheit und Services auf die Workloads abgestimmt, die das Unternehmen skalieren muss. Dell AI Factory with NVIDIA baut auf der NVIDIA ERA-Validierung auf und vereint beschleunigte Infrastruktur, KI-Software, validierte Designs, Datenservices, Sicherheit und Bereitstellungsfachwissen, um Unternehmen dabei zu unterstützen, KI von Pilotprojekten in den Produktivbetrieb zu überführen.

Dieser Ansatz bietet Teams einen koordinierten Weg von der Anwendungsfallplanung bis zur Produktionsbereitstellung, statt jede Infrastrukturebene separat zusammenstellen und validieren zu müssen. Durch die Nutzung validierter Muster können Unternehmen Integrationslücken verringern, wiederholbare Bereitstellungen standardisieren und neue KI-Workloads skalieren, ohne die Umgebung jedes Mal neu gestalten zu müssen.

Wie Unternehmen KI-Infrastrukturengpässe im großen Maßstab vermeiden können

Unternehmen können Engpässe in der KI-Infrastruktur vermeiden, indem sie Rechenleistung, Speicher, Netzwerke und Betrieb als ein koordiniertes System konzipieren. Sie sollten Workloads vor einer umfassenden Bereitstellung testen, die Auslastung im gesamten Stack überwachen und die Infrastruktur basierend auf den Anforderungen für Training, Inferenz und RAG erweitern.

Ein praxisorientierter Ansatz umfasst die Anpassung der Infrastruktur an den Workload-Typ, die Abstimmung der GPU-Kapazität auf den Speicherdurchsatz und die Netzwerkbandbreite, die Überwachung von Latenz und Datenübertragung, den Einsatz validierter Architekturen sowie die Standardisierung wiederholbarer Bereitstellungsmuster.

Diese Vorgehensweisen tragen zudem zur Reduzierung des Betriebsaufwands bei. Wenn Teams gängige Bereitstellungsmuster wiederverwenden und die Infrastruktur konsistent überwachen, können sie einmalige KI-Umgebungen vermeiden, die zu doppeltem Aufwand, inkonsistenten Konfigurationen und unklaren Zuständigkeiten führen.

Häufig gestellte Fragen

Warum umfasst die Skalierung von KI mehr als nur das Hinzufügen von GPUs?

Die Skalierung von KI bedeutet mehr als nur das Hinzufügen von GPUs, da KI-Workloads auch von der Speicherleistung, der Netzwerkbandbreite, dem Datenzugriff und der Workload-Orchestrierung abhängen.

Was verursacht Engpässe in der KI-Infrastruktur?

Engpässe entstehen, wenn eine Ebene des Infrastruktur-Stacks mit den anderen nicht Schritt halten kann, beispielsweise wenn Speicher Daten nicht schnell genug bereitstellt oder das Netzwerk verteilte Workloads verlangsamt.

Welche Infrastruktur wird für Enterprise-KI benötigt?

Die Enterprise-KI-Infrastruktur umfasst in der Regel beschleunigte Server, leistungsstarken Speicher, Netzwerke mit hoher Bandbreite, KI-Software, Orchestrierungstools, Sicherheitskontrollen und Services.

Welche Infrastruktur unterstützt Retrieval-Augmented Generation?

Retrieval-Augmented Generation (RAG) erfordert einen schnellen Zugriff auf Unternehmensdaten, Vektordatenbanken und Speichersysteme sowie Netzwerke mit niedriger Latenz.

Kann ein Enterprise-Wissensassistent funktionieren, ohne Daten in die Public Cloud zu übertragen?

Ja. Ein Wissensassistent kann in einer privaten oder On-Premise-Umgebung ausgeführt werden, sofern das Unternehmen über die erforderliche Infrastruktur für sicheren Datenzugriff, Vektorsuche, Speicher, Netzwerke, Modellbereitstellung und Governance verfügt.