IBM verdoppelt die Leistung des Serverprozessors

Bühne frei für Power8

Auf der Konferenz Hot Chips 2013 hat IBM-Ingenieur Jeff Stuecheli am 26. August erstmals den Power8-Prozessor vorgestellt (siehe Grafik 1). Er wird demnach im 22nm-Design gefertigt, bietet Platz für bis zu zwölf Prozessorkerne mit 4 GHz Taktung sowie 96 MB L3-Cache und erlaubt über den Bus PCI-Express 3.0 Datenraten von 48 GB/s. Damit will IBM die Prozessorleistung gegenüber dem Vorgänger Power7+ verdoppeln bis verdreifachen (siehe Grafik 2).

  • Grafik 1: Block-Diagramm des Power8-Chips.

  • Grafik 2:Der Power8 liefert laut IBM zwei- bis dreimal mehr Socket-Performance als der seit gut einem Jahr erhältliche Prozessor-Chip Power7+

  • Grafik 3:Das „Coherently Allocated Processor Interface“ (CAPI).

  • Grafik 4:Die wichtigsten Verbesserungen des Power-Prozessors in den letzten zehn Jahren.

  • Grafik 5:Power8 soll wohl ab Sommer je Prozessorsteckplatz bis zu 1 TB Hauptspeicher unterstützen.

  • Grafik 6:Die native Implementierung des Busses PCI Express 3.0 auf dem Chip löst den bisher verwendeten Infiniband-Bus GX und die I/O-Bridge ab.

Wann der erste Server mit Power8-Prozessor auf den Markt kommt, steht noch nicht fest; die Gerüchte reichen von Sommer 2014 bis Frühjahr 2015. „Ich habe heute aber einen dabei“, sagte Jeff Stuecheli, Systemarchitekt für das Power System bei IBM in Austin, in seinem Vortrag an der Universität Stanford in Kalifornien. „Und unser Labor ist voll davon.“ Power8 unterstütze je Prozessorsteckplatz bis zu 1 TB Hauptspeicher (siehe Grafik 5). Auch die Speicherbandbreite des Power8-Chips sei mehr als verdoppelt worden (auf 230 GB/s), ebenso die maximale Datenrate pro Kanal (auf jetzt 48 GB/s).

Der neue Prozessorchip ist laut Stuecheli mit 650 mm2 ziemlich groß, obwohl die Strukturgröße (22 nm) erneut verkleinert wird. Rivale Intel liefert mit „Ivy Bridge“ und „Haswell“ bereits heute Serverprozessoren in 22-nm-Technologie. Die Chipgröße: 94 bis 160 mm2 je nach Ivy-Bridge-Variante, 177 mm2 bei Haswell für jeweils 1,4 Mrd. Transistoren. Die Auslieferung der 14-nm-Architektur Airmont für Smartphones, Tablet-PCs und Mini-Server will Intel jetzt auf Sommer 2014 vorziehen. Rivale Oracle fertigt seine aktuelle Prozessorgeneration Sparc T5 in 28-nm-Architektur und 478 mm2 Chipgröße.

Die Zahl der auf den 650 mm2 des Power8 untergebrachten Transistoren hat Stuecheli in seinem Vortrag ebenso wenig genannt wie den Energieverbrauch. Zum Vergleich: Der Vorgänger Power7+ bringt – bei noch 32nm Strukturgröße – auf 567mm2 Fläche insgesamt rund 2,1 Mrd. Transistoren unter. Power8 verfügt über viel Cache-Memory: 512 KB SRAM pro Core als L2-Cache, 96 MB gemeinsam von allen Cores genutzter L3-Cache in Form von eDRAM auf dem Chip und wie noch bei Power6 wieder L4-Cache (128 MB außerhalb des Chips). Bei Power7 hatte IBM auf diesen L4-Cache verzichtet.

Während Power7 vier Instruktionsströme auf bis zu acht Cores parallel ausführen kann, wird mit Power8 ein achtfaches „Simultaneous Multithreading“ (SMT) möglich – und das bei maximal zwölf Cores. Somit kann ein Power8-Chip bis zu 96 Threads („Instruktionsströme“) zeitgleich abarbeiten. Bei 4 GHz Taktrate bringt Power8 in etwa die 1,6fache Leistung pro Thread wie ein Power7-Chip von 2010, kann aber dreimal so viele Threads gleichzeitig abarbeiten – 96 statt 32.

Zu den grundlegenden Neuerungen zählt das „Coherently Allocated Processor Interface“ (CAPI) für den kohärenten Speicherzugriff von Power8-CPU, den Accelatoren (beispielsweise für die Verschlüsselung) und externen Koprozessoren (wie etwa Tesla von Nvidia). Der CAPI-Port des Power8 nutzt für den Zugriff auf externe Komponenten wie Grafikprozessoren oder FPGAs („Field Programmable Gate Arrays“) erstmals den Busstandard PCI Express 3.0.

Hier kann die kürzlich lancierte Open-Power-Initiative ansetzen, in der IBM gemeinsam mit Unternehmen wie Google, Tyan, Mellanox und eben Nvidia ein „Ökosystem“ für die Power-Welt schaffen will. Dank virtueller Adressierung kann ein Accelerator jetzt auch mit den gleichen Speicheradressen wie die CPU arbeiten; außerdem senkt virtuelle Adressierung den Overhead für Betriebssystem und Gerätetreiber.

Die native Implementierung des Busses PCI Express 3.0 auf dem Chip (siehe Grafik 6) löst den bisher verwendeten Infiniband-Bus GX und die I/O-Bridge ab, die noch bei Power7+ für den Anschluss von PCIe-Speichern und Peripheriegeräten verwendet wird. Damit erhöht sich die I/O-Geschwindigkeit auf 16 Gigabyte/s. Außerdem bildet der Industriestandard PCIe 3.0 die Transportschicht für das CAPI-Protokoll beim Speicherzugriff bzw. der Kommunikation mit externen Prozessoren.

www.hotchips.org

www.ibm.de

Bildquelle: IBM

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok