Nvidia baut GPU-Supercomputer für Rechenzentren

DGX A100 schafft bis zu 5 Petaflops

Mit dem neuen Modell A100 liefert ab sofort seine dritte Generation des KI-Servers DGX aus – den ersten 5-Petaflops-Server der Welt. Kostenpunkt: Knapp 200.000 Dollar.

  • Die 5 Petaflops schnellen Server DGX A100 lassen sich auch als SuperPOD-Cluster mit 140 Knoten konfigurieren.

  • Wie schon beim T4-Announcement fehlt der langjährige Nvidia-Partner IBM wieder in der Liste der Unterstützer.

  • Die neue GPU A100 – mit 54 Mrd. Transistoren und 826 mm² Fläche der größte Prozessor, der in einem 7-Nanometer-Verfahren hergestellt wird.

  • Kommt Ende des Jahres: Die Beschleuniger-Karte EGX A100 für das Edge-Computing.

Der neue Rechner basiert auf der ebenfalls neuen A100-GPU, die mit ihrer Ampere genannten Architektur eine Leistungssteigerung bis zum Faktor 20 gegenüber dem Vorgänger Volta verspricht. Mit 54 Milliarden Transistoren ist diese 826 mm² einnehmende GPU aktuell der weltweit größte Prozessor, der vom Auftragsfertiger TSMC in einem 7-Nanometer-Verfahren hergestellt wird.

Die DGX-A100-Systeme enthalten im 6U-Formfaktor acht der neuen GPUs mit 5 Petaflops KI-Leistung, 320 GB GPU-Memory mit 12,4 TB/s Bandbreite für das Training auf Basis großer Datenbestände sowie mit Hochgeschwindigkeits-Verbindungen über Mellanox HDR 200 Gbps. Dazu kommen sechs NVSwitch und zwei Prozessoren der 2. Epyc-Generation 7742 von AMD mit dem Codenamen „Rome“, in Summe 128 Cores, zwischen 2,25 GHz (Basis) und 3.4 GHz (max Boost) getaktet. Auch das ist eine bemerkenswerte Neuerung, denn bisher hatte Nvidia bei den CPUs ausschließlich mit den beiden Partnern Intel und IBM zusammengearbeitet.

Die sechs NVSwitches verbinden Fabrics mit NVLink-Technologie der dritten Generation (4,8 TB pro Sekunde bidirektionaler Bandbreite). Jede A100-GPU verfügt über 1,6 Terabyte pro Sekunde (TB/s), was einer Steigerung von mehr als 70 Prozent gegenüber der letzten Generation entspricht, und über deutlich mehr On-Chip-Speicher, einschließlich eines 40 MB Level-2-Cache, der fast 7x größer ist als bei der vorherigen Generation.

Mit dem Server DGX A100, der mit dem Betriebssystem Ubuntu Linux OS läuft, wird auch die nächste Generation von NVLink-Technologie vorgestellt, die die direkte Bandbreite zwei GPUS auf 600 Gigabyte/s verdoppelt und fast zehnmal schneller ist als PCIe Gen 4. Deshalb können mehrere A100-Server auch als ein einziger riesiger Grafikprozessor fungieren. Das Ergebnis: Sechsmal höhere Leistung als bei der Volta-Architektur der vorherigen Generation für Trainingszwecke und siebenmal höhere Leistung für Inferenz. Dabei ging der Volta-Server DGX-1 im Jahr 2017 zum Preis von 149.000 Dollar in den Verkauf.

SuperPOD mit 700 Petaflops

Außerdem wurde der DGX-SuperPOD der nächsten Generation vorgestellt, ein Cluster aus 140 DGX-A100-Systemen mit bis zu 700 Petaflops KI-Rechenleistung und schnellen Mellanox HDR 200Gbps Infiniband-Interconnects als Verbindung zwischen den Knoten des Clusters. Für die KI-Leistung eines solchen Clusters wären sonst Tausende von Servern erforderlich, sagt Jensen Huang, Gründer und CEO von Nvidia. Schon ein einzelnes Rack mit fünf DGX-A100-Systemen ersetze ein regelrechtes Rechenzentrum mit KI-Traings- und Inferenzinfrastruktur, wobei nur 1/20 des Stromverbrauchs, 1/25 des Platzbedarfs und 1/10 der Kosten anfielen.

Huang rechnet die Kostenvorteile vor: Fünf DGX-A100-Systeme sollen beispielsweise die Leistung einer Konfiguration aus 40 DGX-1-Systemen und 600 CPU-basierten Servern bieten, die in Summe elf Millionen Dollar kosten und 630 Kilowatt Strom benötigen. Das Rack mit fünf DGX-A100-Systemen verbrauche nur 28 Kilowatt Strom und koste eine Million Dollar. Huang will das firmeneigene RZ mit dem internen Supercomputer SATURNV um vier DGX-SuperPODs und 2,8 Exaflops auf dann insgesamt 4,6 Exaflops Gesamtkapazität erweitern – und dann über zum schnellsten KI-Supercomputer der Welt verfügen.

Aufbau eines SuperPOD in weniger als einem Monat

Die Architektur des DGX A100 ermöglichte es Nvidia, ein solches SuperPOD-System in weniger als einem Monat aufzubauen. Bisher waren Monate oder gar Jahre der Planung, Beschaffung spezialisierter Komponenten sowie Installation und Test für die Bereitstellung solcher Supercomputer-Performance erforderlich. Um Kunden beim Aufbau ihrer eigenen A100-basierten Rechenzentren zu unterstützen, wurde bereits eine neue Referenzarchitektur veröffentlicht. Sie bietet Kunden einen Entwurf, der den gleichen Designprinzipien und Best Practices folgt, die der Hersteller beim Aufbau seines KI-Clusters verwendet hat.

Das sogenannte Multiinstanz-GPU (MIG) ermöglicht es, eine einzelne A100-GPU in bis zu sieben unabhängige GPUs mit jeweils eigenen Ressourcen zu partitionieren. Deshalb kann jeder DGX A100 in bis zu 56 Workloads unterteilt werden, die alle völlig unabhängig voneinander laufen. So kann ein einzelner Server für rechenintensive Aufgaben wie KI-Trainings „Scale Up“ betrieben werden, aber auch „Scale Out“ für die Inferenz. Die neue Architektur eines elastischem Multi-Instanz-Grafikprozessors erlaubt es. Datenanalyse, Training und Inferenz auf einer Plattform zusammenzuführen.

Das Supercomputer-Zentrum Jülich und das Karlsruher Institut für Technologie gehören zu den ersten Forschungseinrichtungen in Deutschland, die DGX-A100-Systeme erhalten. Weitere Nutzer der neuen Rechner sind hierzulande das Deutsche Forschungszentrum für Künstliche Intelligenz, das RZ Garching der Max-Planck-Gesellschaft und das Zentrum für Biomedizinische KI am Universitätsklinikum Hamburg-Eppendorf.

Man habe „Turing Natural Language Generation“‚ das größte Sprachmodell der Welt, mit der aktuellen GPU-Generation im großen Maßstab trainiert, sagt Mikhail Parakhin, Corporate Vice President bei Microsoft. „Azure wird das Training deutlich größerer KI-Modelle mit Nvidias neuer Generation von A100-GPUs ermöglichen, um den neuesten Stand der Technik in den Bereichen Sprache, Sprechen, Sehen und Multimodalität voranzutreiben.“

A100 bei Cloud-Providern und Server-Herstellern

Die neue GPU A100 soll aber nicht nur bei Forschungsinstitutionen und oder als KI-System zum Einsatz kommen, sondern auch im Bereich Cloud-Computing. Huang erklärte, dass bereits namhafte Provider wie Alibaba, Amazon Web Services, Baidu, Google, Microsoft, Oracle oder Tencent angekündigt hätten, die neuen GPUs in ihre IT-Infrastruktur zu integrieren und A100-basierte Dienste anzubieten. Darüber hinaus soll eine breite Palette A100-basierter Servern von den weltweit führenden Systemherstellern erwartet, darunter Atos, Dell, Fujitsu, Gigabyte, H3C, HPE, Inspur, Lenovo, Quanta/QCT und Supermicro.

Auffällig ist, das wie im vergangenen Jahr bei der Ankündigung der T4-GPU der langjährige Partner IBM in dieser Aufzählung fehlt. Auf Anfrage von DV-Dialog hielt sich Nvidia bisher zu den Gründen dafür bedeckt. Entweder ist die Integration neuer GPUs in Power-basierte Server aufwändiger als bei X86 – oder aber der Nischenmarkt IBM Power hat für Nvidia nicht die Priorität wie der X86-Massenmarkt.

Letzteres dürfte sich erst dann ändern, wenn die Open Power Foundation merkliche Erfolge zeitigt, die Nvidia und die jüngst erworbene israelische Firma Mellanox 2013 gemeinsam mit Google und IBM gegründet hatte. Allerdings arbeitet Nvidia offenkundig weiter mit Big Blue zusammen, denn IBM ist neben DDN Storage, Dell, Netapp, Pure Storage und Vast in der Liste der Storage-Anbieter, die eine Integration des A100 in ihre Angebote planen. Vermutlich müssen IBM-Kunden wie schon bei der T4-GPU noch etwas warten; nach deren Ankündigung im März 2019 kam erst Anfang 2020 mit dem KI-Server IC922 das erste Power-System mit T4-GPU von IBM.

Tektonische Verschiebung im RZ-Design

Die Basis für die OEM-Lösungen bilden zwei sogenannte HGX-A100-Baseboards. Die große Variante ist mit acht GPUs bestückt und für Systeme mit zwei CPUs ausgelegt, die kleine mit vier ist für Single-CPU-Systeme bestimmt. Ein HGX A100 mit vier GPUs erlaubt die vollständige NVLink-Verbindung zwischen den GPUs, während die Konfiguration mit acht GPUs die volle GPU-zu-GPU-Bandbreite über NVSwitch bietet.

„Die starken Trends von Cloud Computing und KI führen zu einer tektonischen Verschiebung im Rechenzentrumsdesign. Wo in der Vergangenheit nur CPU-Servern waren, gibt es nun GPU-beschleunigtes Computing“, glaubt Huang – und spricht von einen „End-to-End-Beschleuniger für maschinelles Lernen – von der Datenanalyse über das Training bis hin zur Inferenz, denn zum ersten Mal können Scale-Up- und Scale-Out-Workloads auf einer Plattform beschleunigt werden.“

Um die Entwicklung von Servern seiner Partner zu beschleunigen, wurde das Modell HGX A100 entwickelt — ein Server-Baustein in Form integrierter Baseboards in verschiedenen GPU-Konfigurationen. Ein HGX A100 mit vier GPUs erlaubt die vollständige NVLink-Verbindung zwischen den GPUs, während die Konfiguration mit acht GPUs die volle GPU-zu-GPU-Bandbreite über NVSwitch bietet. Der HGX A100 mit der neuen Multiinstanz-GPU-Architektur kann als 56 kleine GPUs konfiguriert werden, jede schneller als die T4-GPU, bis hin zu einem riesigen Server mit acht GPUs und 10 Petaflops KI-Leistung.

Nvidia kündigte außerdem mehrere Aktualisierungen seines Software-Stacks an. Dazu gehören neue Versionen von mehr als 50 CUDA-X-Bibliotheken (die zur Beschleunigung von Grafik, Simulation und KI eingesetzt werden), CUDA 11, Jarvis (ein multimodales Framework für dialogorientierte KI-Dienste). Merlin (ein Framework für Deep-Recommender-Anwendungen) und das HPC SDK mit Compilern, Bibliotheken und Tools für High-Performance-Computing.

Für das Edge Computing will Nvidia zum Ende des Jahres die PCIe-Steckkarte EGX A100 mit einer A100-GPU auf den Markt bringen. Als Netzanschluss für die Beschleunigerkarte ist entweder Mellanox ConnectX-6 DX für 100-Gb/s-Ethernet oder aber ein Infiniband-Adapter vorgesehen. Mögliche Einsatzgebiete sind Smart City, 5G-Infrastrukturen, Spracherkennung, Robotik oder autonomes Fahren.

Bildquelle: Nvidia

©2020Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok