Der X-Gene-Chip, basierend auf dem ARMv8-64-Bit-Kern.

Der X-Gene-Chip, basierend auf dem ARMv8-64-Bit-Kern.Applied Micro

Applied Micro – man kennt sie als Spezialisten für High-End-Transportprodukte, oder als Käufer der Embedded-Power-PC-Familie PPC4xx von IBM – hatte den ersten, auf einem ARMv8-64-Bit-Kern basierenden Server-on-Chip offiziell vorgestellt. Damit hatte eine mehrjährige Zusammenarbeit mit ARM erste Früchte getragen, hatte doch Applied Micro mit zirka 20.000 Zeilen Testcode zum Verifizieren der Funktionalität beigetragen.

Dass es sich hier nicht nur um erstes Silizium handelt, sondern schon weitere Schritte gemacht wurden, davon konnte sich die Server-Gemeinde im Juni auf der International Super Computing in Leipzig ein Bild verschaffen und die Server von Eurotech (Italien) und Sofiron (UK) im Einsatz sehen. Mit dem HP Moonshoot ist zwischenzeitlich ein weiterer Vertreter eines Blue Chip Labels auf Basis des X-Gene-Chips am Markt.

Auf einen Blick

Basierend auf dem Umstand, dass Applied Micro bereits im Jahr 2010 die 64-Bit-Architekturlizenz von ARM erworben hat, dümpelt das Power-PC-Engagement von IBM etwas vor sich hin. Sicherlich auch bedingt durch den Umstand, dass es sich hier „nur“ um eine 32-Bit-Architektur handelt, sieht Applied Micro die eigene Zukunft in seinen ARMv8-Produkten und das bedeutet wohl das Ende einer Love Story, was durch den Umstand, dass Cisco, Netgear und HP – bereits mit Moonshot X-Gene erfahren – die neuen Produkte schon in Betracht zieht, sicherlich erhärtet wird.

Applied Micro, Entwicklungspartner von ARM, ist der erste Lizenznehmer der ARMv8-Architektur. In diesem Zusammenhang ist es erforderlich, zwischen einer solchen Lizenz und einer Core-Lizenz zu differenzieren. Eine Architekturlizenz ist die Grundlage zur Entwicklung eines eigenen Kerns, mit der ganzen benötigten Peripherie. Es gilt nur eine Regel: Das Gebilde muss instuction-set- kompatibel sein. Um das sicherzustellen, stehen allen Lizenznehmern die 20.000 Zeilen Testcode von Applied Micro zur Verfügung.

Unabhängig von der Architekturlizenz gibt es zwischenzeitlich mit dem A56 und dem A57 komplette Kerne von ARM, auf deren Basis noch die eigene Peripherie entwickelt wird. Beide folgen der Big-little-Philosophie von ARM. Der eine ist Performance-optimiert, der andere leistungsoptimiert. Zielanwendungen liegen im Smartphone-Bereich, wo solch eine Lastenverteilung Sinn macht. Dieses Lizenzmodel trifft beispielsweise für AMDs Opteron A1100 zu, der demnächst bemustert werden soll. Insidern zufolge scheint das Ergebnis hinsichtlich der Performance den Erwartungen nicht ganz gerecht zu werden. Nachdem bekannt ist, dass AMD inzwischen ebenfalls eine Architekturlizenz erworben hat, scheint an dieser Information wohl etwas Wahres zu sein.

Bis zu acht Kerne

Aktuell wird der X-Gene 1 bei TSMC in einem 40-nm-Prozess gefertigt und den Partnern bereits seit Anfang 2013 zur Verfügung gestellt. Wie im Blockdiagramm zu sehen ist, besteht der X-Gen 1 aus bis zu acht Kernen, er ist auch als Vierkernversion lieferbar und wird mit bis zu 2,4 GHz getaktet. Zu erkennen ist weiterhin, dass immer zwei Kerne zu einer Gruppe zusammengefasst werden. Jeder dieser Kerne verfügt über einen eigenen L1-Instruktions- und Datencache, sie teilen sich jedoch einen L2-Cache. Zusätzlich greifen alle Kerne auf einen gemeinsamen 8-MByte-L3-Cache zu. Die Kerne charakterisieren eine superscalare, Out-of-order-Microarchitektur mit einer Tiefe von vier Instruktionen. Basierend auf dieser Architektur kann der Baustein mehr als 100 Instruktionen in flight in den unterschiedlichsten Teilen eines Prozessormodules abarbeiten.

Über ein kohärentes Hochgeschwindigkeitsnetzwerk sind die identischen Prozessormodule auf dem Silizium miteinander verbunden. An dieser Netzwerkstruktur hängt auch der bereits erwähnte L3-Cache sowie zwei DDR3-Speichercontroller, die beide über zwei Kanäle verfügen und über ein Koppelfeld für die Peripherie. Dieses kann bis zu vier 10-Gb-Ethernetports, sowie weitere Netzwerk-unterstützende Hardware-Beschleunigungseinheiten bedienen. Der Baustein verfügt über sechs PCI-Express-3.0-Anschlüsse und eine nicht näher bezeichnete Anzahl an SATA3-Ports. Acht würden bei einem 8-Kernbaustein Sinn machen, da dann ein SATA-Port je Kern zur Verfügung stehen würde.

Eigene IP vor Kopien schützen

Zusätzlich zu diesen Peripherieeinheiten erkennt man im Blockdiagramm die üblichen seriellen Schnittstellen sowie diverse Managementeinheiten. Interessant ist sicherlich der Secure-Boot-Block. Er verifiziert, ob es sich um einen authentischen Bootcode handelt und nicht um eine Kopie. So lässt sich die eigene IP vor Kopien schützen.

Was macht ARMv8 so interessant, vielleicht sogar revolutionierend? Einerseits, die Generierung von Rechenleistung. Es stellt sich nur die Frage zu welchem Preis. Denn für 1 W Rechenleistung werden 1 W zur Kühlung und zusätzlich 1 W zur Erzeugung und zum Transport benötigt. Das größte Kostenpotenzial steckt in der Leistungsaufnahme der ARMv8-basierenden Chips. Einer derzeitigen Leistungsaufnahme von 40 bis 60 W je Serverblade stehen etwa 150 bis 200 W einer vergleichbaren x86-Architektur entgegen. Grund dafür ist, dass zusätzlich zu der hohen Leistungsaufnahme der x86-Chips noch Bridgebausteine mit Speichercontroller und externe PHYs zu Buche schlagen. Die neuen ARM-Bausteine haben sich bei den Embedded-Controllern abgeschaut, wie sich das zeitgemäß lösen lässt.

Mit dem Mustang-Evaluierungssystem ist ein erstes Benchmarking möglich.

Mit dem Mustang-Evaluierungssystem ist ein erstes Benchmarking möglich.Applied Micro

Um möglichen Anwendern ein „fast-time-to-market“ zu ermöglichen, steht mit dem Mustang-Evaluierungssystem eine Zielplattform zur Verfügung, mit der es möglich ist, ein erstes Benchmarking zu betreiben oder parallel zur eigenen Hardwareentwicklung den Softwareentwicklern eine Plattform zu bieten, um gleichzeitig an der Entwicklung der Systemsoftware arbeiten zu können.

Im vorliegenden Fall einer neuen und vielleicht sogar revolutionierenden Architektur, kommt interessanterweise eine neue Gruppe von Interessenten hinzu, die man als eine Art Endanwender bezeichnen könnte. Wissenschaftliche Institute und Systemintegratoren verschaffen sich derzeit einen Eindruck über die Performance von ARMv8, um die Weichen für neu aufzubauende Rechenzentren oder Netzwerke zu stellen. Sie gehören zu den Entscheidungsträgern für den künftigen Erfolg, auch wenn sie niemals einen X-Gene-Baustein beim Hersteller oder dessen Partnern bestellen werden. Dies hat sicherlich ein Umdenken zur Folge, denn hier ist Promotionarbeit erforderlich.

Latenzzeiten reduzieren

Was kommt nach X-Gene 1? Applied Micro ließ sich diesbezüglich auf der ISC in Leipzig ein bisschen in die Karten schauen. Mit X-Gene 2 stehen inkrementelle Änderungen der Prozessor-Mikroarchitektur an. Außerdem werden die Ethernet-Controller um RoCE (RDMA over Converged Ethernet) ergänzt, wodurch sich die Latenzzeiten in einem Maß reduzieren lassen, wie man es bisher nur von Infini-Band kennt. Und zwar lassen sich damit die Latenzzeiten um eine Zehnerpotenz von etwa 40 bis 50 µs auf 5 µs reduzieren. Das bedeutet, dass die Latenzzeiten in einem Serverrack im Vergleich zu einer x86-basierenden Plattform um den Faktor 2 bis 3 reduziert werden können.

Das Grunddesign entspricht dem von X-Gene 1, basiert jedoch auf TSMCs 28-nm-Prozess. X-Gene 2 wird mit 2,8 GHz getaktet. Bei gleicher Taktfrequenz bringen die Änderungen in der Mikroarchitektur etwa 10 bis 15 % Leistungsgewinn. Ein zusätzlicher Leistungsgewinn von 17 % ergibt sich durch die erhöhte Taktfrequenz.

In 2015 soll X-Gene 3 – Projektname Skylark – auf den Markt kommen, der auf TSMCs 16-nm-FinFET-Technologie basiert. Zusätzlich zu weiteren Verbesserungen der Mikroarchitektur und einer verbesserten kohärenten On-Chip-Netzwerkstruktur, soll der Baustein über eine noch nicht genauer beschriebene Inter-Rack-Konnektivität verfügen. Je nach Version mit 16 bis 64 Prozessorkernen, die mit 3 GHz getaktet werden.

X-Gene goes embedded – HeliX

Mit Blick auf Applied Micros Emedded-Power-PC-Vergangenheit ist eine Embedded-Version ein logischer Schritt. „We don’t have to build you FinFet to give you a fanless product“, sagte Paramesh Gobi, CEO von Applied Micro auf der ARM Techcon Expo. Das Rezept: man nehme X-Gene und statte diesen – scherzhaft gemeint – mit Zuverlässigkeit aus. Sicherlich lässt sich Zuverlässigkeit eindesignen – Freescale hat es mit redundanten Metallisierungs-Vias gezeigt – nur das ist hier nicht gemeint. Zuverlässigkeit muss nachweisbar sein, um für Embedded-Anwendungen gerüstet zu sein. Da zwischenzeitlich genügend Charakterisierungsdaten für X-Gene vorliegen, ist dieser Nachweis erbracht.

Helix, die X-Gene-Embedded-Version.

Helix, die X-Gene-Embedded-Version.Applied Micro

Herausgekommen ist ein APM887208-H1 Helix-SoC mit vier oder acht Kernen, die mit 2,0 GHz getaktet werden und über einen gemeinsamen 8-MByte-L3-Cache mit der üblichen Cache-Kohärenz und zwei DDR3-RAM-Controllern verfügen. Weiterhin sind sie ausgestattet mit Hardware-Einheiten für AES und andere Algorithmen, die für IPsec, SSL, TLS und DTLS-Verschlüsselung verwendet werden. Zusätzlicher Bestandteil dieses Blocks ist ein Zufallszahlengenerator zur Schlüsselerzeugung. RAID5/6 mit DMA Engine, vier Cortex-A5-Co-Prozessoren, um zusätzliche Aufgaben zu übernehmen, zweimal 10 G Ethernet, vier 1GE-Schnittstellen mit Klassifizierung und Virtualisierung, bis zu fünf PCIe-gen-3-Controller, sowie USB 3.0, SATA 3.0, UARTs, GPIOs und JTAG gehören zur Ausstattung.

Wie X-Gene wird der Baustein in einer 40-nm-Technologie gefertigt. Als Vierkernversion hat er einen Thermal-Design-Punkt (TDP) von 25 W als Achtkernversion von 42 W und ist als Arbeitspferd in Speicher- und Kommunikationsanwendungen gedacht.

Die Zwei- beziehungsweise Vierkernversion APM887104-H2 Helix ist mit denselben Offload-Einheiten ausgestattet, verfügt aber nur über 2 MByte Cache. Im Low-power-standby beträgt die Leistungsaufnahme weniger als 250 mW. Auf X-Gene 2 aufgesetzt, wird Helix 2 in einer 28-nm-Technologie gefertigt, hat einen TDP von 8 beziehungsweise 16 W, je nach Kernversion.