NVIDIA setzt mit seiner neuen Rubin-GPU den Standard für die nächste KI-Generation. Die ersten Systeme sollen noch dieses Jahr ausgeliefert werden und den Übergang vom Training zur effizienten KI-Anwendung markieren.

Die Vera-Rubin-Plattform, benannt nach der Astronomin, geht in die Serienfertigung. Nach der GPU Technology Conference (GTC) bestätigte der Halbleiterriese, dass die ersten Hardware-Einheiten in der zweiten Jahreshälfte 2026 Rechenzentren und Cloud-Partner erreichen werden. Dieser Architekturwechsel soll die wachsenden Anforderungen von agentischer KI und Modellen mit Billionen Parametern bewältigen.

Anzeige

Während die Hardware-Leistung für KI-Anwendungen rasant steigt, müssen Unternehmen auch die rechtlichen Rahmenbedingungen im Blick behalten. Dieser kostenlose Leitfaden erklärt kompakt, wie Sie die Anforderungen der neuen EU-KI-Verordnung in Ihrem Betrieb rechtssicher umsetzen. EU-KI-Verordnung: Jetzt kostenlosen Umsetzungsleitfaden sichern

Rubin R200: Eine Architektur für die KI-Anwendung

Im Kern der Plattform steht der Rubin R200 GPU. Hergestellt im fortschrittlichen 3-nm-Verfahren von TSMC, vereint er 336 Milliarden Transistoren auf einem Multi-Chip-Modul. Das sind fast 60 Prozent mehr als beim Vorgänger Blackwell B200. Die Leistung für KI-Rückschlüsse (Inference) gibt NVIDIA mit bis zu 50 PetaFLOPS an – eine drei- bis fünffache Steigerung.

Ein Schlüssel zum Erfolg ist der optimierte Tensor-Core der sechsten Generation. Er ist speziell für effiziente "Mixture-of-Experts"-Modelle ausgelegt und reduziert den Energiebedarf für große Kontextfenster deutlich. Diese Fokusierung auf Effizienz ist eine direkte Antwort auf die steigenden Stromkosten in Rechenzentren weltweit.

HBM4: Der Turbo für den Datendurchsatz

Der wohl größte Technologiesprung ist der Einsatz von High-Bandwidth Memory 4 (HBM4). Der Rubin R200 verfügt über acht Stapel dieses Speichers mit einer Kapazität von 288 GB pro GPU. Die Bandbreite erreicht bis zu 22 Terabyte pro Sekunde.

Durch eine neuartige integrierte Bauweise (CG-HBM) wird der Speicher näher an die Recheneinheiten gerückt. Die Latenz sinkt drastisch – eine essentielle Voraussetzung für KI-Agenten, die in Echtzeit handeln müssen. Komplexe Modelle können so lokal verarbeitet werden, anstatt auf mehrere Serverknoten verteilt zu werden.

Das KI-Kraftwerk: Die Vera-Rubin-NVL72-Plattform

NVIDIA verkauft zunehmend komplette Systeme statt einzelner Chips. Das Flaggschiff ist die flüssigkeitsgekühlte Vera-Rubin-NVL72. Ein Rack vereint 72 Rubin-GPUs und 36 neue Vera-CPUs mit 88 ARM-basierten Kernen. Die Verbindung zwischen den Komponenten erfolgt über NVLink 6 mit einer Gesamtbandbreite von 260 TB/s pro Rack.

Um den enormen Strombedarf von über 250 kW pro voll ausgelastetem Rack zu bewältigen, setzt NVIDIA auf eine 800-Volt-Gleichstromarchitektur. Trotz der hohen Leistung soll die Plattform die Kosten pro verarbeitetem KI-Token im Vergleich zu Blackwell um das Zehnfache senken.

Marktreaktion und der Fokus auf KI-Agenten

Die Ankündigung stieß auf sofortiges Interesse. Hyperscaler wie Microsoft und CoreWeave planen bereits die Integration der NVL72-Systeme. Microsoft will sie in seinen "Fairwater"-KI-Standorten einsetzen.

Dies unterstreicht einen Branchentrend: Der Fokus verschiebt sich vom Vor-Trainieren großer Modelle hin zur agentischen Inferenz – der Phase, in der KI-Modelle komplexe Aufgaben für Endnutzer ausführen. NVIDIAs jährlicher Release-Rhythmus mit Rubin nur zwei Jahre nach Blackwell setzt Konkurrenten unter Druck.

Anzeige

Der technologische Fortschritt bei KI-Systemen bringt auch neue Compliance-Pflichten für Entwickler und Anbieter mit sich. Erfahren Sie in diesem Gratis-E-Book, welche Risikoklassen und Dokumentationspflichten die KI-Verordnung für Ihre Projekte vorsieht. Kostenloses E-Book zur KI-Verordnung herunterladen

Analyse: Rubin markiert den Beginn des "Inference-Zeitalters"

Der Start der Rubin-Architektur fällt in eine Phase der Marktreifung. Die anfängliche "KI-Goldgräberstimmung" weicht einem Fokus auf operative Effizienz und Skalierbarkeit bei der Anwendung. NVIDIAs Priorisierung von Speicherbandbreite und Energieeffizienz spiegelt dies wider.

Während Vorgänger wie Hopper (H100) das Rückgrat des KI-Trainings bildeten, positioniert sich Rubin als Fundament für das "Inference-Zeitalter". Die Konzentration auf FP4-Rechengenauigkeit (4-Bit) ist entscheidend, da die Branche zu effizienteren, quantisierten Modellen übergeht. NVIDIAs integrierte Entwicklung von Hardware und Software sichert dem Unternehmen trotz Konkurrenz von Google und Amazon weiterhin eine Marktführerschaft.

Ausblick: Ultra-Variante und Nachfolger bereits in Planung

Bereits für die zweite Hälfte 2027 kündigte NVIDIA eine "Rubin Ultra"-Variante an. Sie soll vier Rechen-Chips pro Package und bis zu 1 TB HBM4e-Speicher bieten. Für 2028 ist die nächste Architektur-Generation mit dem Codenamen "Feynman" angekündigt, die fortschrittliches 3D-Stacking bringen soll.

Für 2026 bleibt der Fokus auf der Hochskalierung der Rubin-R200-Produktion. Erste Kleinserien sollen im zweiten Quartal ausgeliefert werden, die breite Verfügbarkeit über Partner ist für das vierte Quartal geplant. Mit den neuen Systemen erwarten Branchenbeobachter einen deutlichen Preisverfall bei hochwertigen KI-Diensten. Das könnte eine neue Welle von Anwendungen für Verbraucher und Unternehmen ermöglichen, die bisher zu kostspielig waren.