Xilinx, der weltweit führende Anbieter von programmierbaren Lösungen, wird für seine Rolle geehrt, die er bei der Entwicklung von QPACE spielte, einem maßgeschneiderten Supercomputer an der Universität Regensburg, der speziell dafür gebaut wurde, die Geheimnisse der Quanten-Chromodynamik zu entschlüsseln. Der vorherrschende Simulationsprozess, der zum Modellieren der Quanten-Chromodynamik benutzt wird, ist als Lattice-QCD bekannt, und benötigt Supercomputer, die massiv parallel arbeiten und viel Strom verbrauchen. Das Virtex-5-LX110T FPGA von Xilinx wurde ausgewählt, um die Kern-Netzwerktechnik in QPACE abzuwickeln. QPACE ist ein Zwei-Jahres-Projekt, das die höchste Leistung der zurzeit am Markt verfügbaren kommerziell erhältlichen Komponenten benötigt.

Der Einsatz einer kundenspezifischen Designmethode machte QPACE zu einem der effizientesten Supercomputer, der jemals entwickelt wurde. Er weist eine Leistung von 26/56 TeraFLOPS bei einfacher/doppelter Genauigkeit auf und verbraucht dabei durchschnittlich 29 kW pro Einschub. Diese Werte bringen QPACE an die Spitze der Green-500-Liste; einer Messtabelle für die verlustleistungsärmsten Supercomputer der Welt.

Dr. Tilo Wettig Professor an der Universität Regensburg und Leiter des QPACE-Projekts kommentiert: „Wir haben erstmals gezeigt, dass FPGAs als Netzwerk-Coprozessoren eingesetzt werden können, um sehr schnelle Prozessoren in massiv parallelen Supercomputern skalierbar auf tausende von Knoten miteinander zu verschalten.“

Der QPACE-Supercomputer verwendet node cards, die einen PowerXCell 8 enthalten, eine erweiterte Version der Cell-Broadband-Engine-Architecture, die gemeinsam von Sony, Toshiba und IBM entwickelt und erstmals in der PlayStation3 eingesetzt wurde. Die PowerXCell 8 integriert acht Synergistic-Processing-Elements und ein Power-Processing-Element miteinander.

Die maximale Anzahl dieser Knotenpunktkarten in einem Rack beträgt 256, wobei ein typisches System aus vier Schränken oder 1024Knotenpunktkarten besteht, die über drei verschiedene Netzwerktypen miteinander verbunden sind. Das QPACE-Team verwendet die Virtex-5-LX110T-FPGAs von Xilinx, um damit den Netzwerkprozessor (NWP) zu implementieren, der die Datenverarbeitungselemente mit dem Netzwerk verbindet und den gesamten Netzwerkdatenverkehr übernimmt, um die optimale Leistung zu erreichen.

„QPACE repräsentiert die Anstrengungen einer ganzen Reihe führender Technologieanbieter über mehr als zwei Jahre hinweg“, kommentiert Patrick Lysaght, Senior Director der Xilinx Research Labs. „Xilinx-FPGAs sind dafür bekannt, dass sie die Schlüsselfunktionen zur Datenverarbeitung in modernen drahtgebundenen und drahtlosen Kommunikationsnetzwerken bieten. Dieses Forschungsprojekt ist deswegen besonders interessant, weil es demonstriert, wie Verbindungen mit hohem Datendurchsatz und geringer Latenz mit der Virtex-5-Technologie realisiert werden können, um die grundlegenden Netzwerkfunktionen in hoch modernen, verlustleistungsarmen Supercomputern zu ermöglichen.“

Geringe Latenz

Die Lattice-QCD-Algorithmen verwenden üblicherweise relativ kleine Nachrichten, so dass die Latenz des Netzwerks die größte Auswirkung auf die Effizienz hat. Kundenspezifische Netzwerktechniken haben häufig eine nicht akzeptabel hohe Latenz im Bereich von 10 µs, obwohl sie genügend Bandbreite bieten. Durch den Einsatz der FPGA-Technik erreichte das Entwicklungsteam eine Latenz von Zelle zu Zelle von nur 3 µs, wobei für das optimierte Design des in den Virtex-5-FPGAs implementierten dreidimensionalen Torus-Netzwerks wiederum eine Latenz von nur 0,5 µs erzielt wurde.

Die RocketIO-Transceiver der Virtex-5-FPGAs waren ebenfalls sehr hilfreich beim Implementieren der Rambus-FlexIO-Schnittstelle; dies wurde als eine Haupterrungenschaft bezeichnet, da das eine äußerst komplizierte Schnittstelle ist, die nur schwer in ein FPGA zu implementieren ist. IBM trug, über die Tatsache hinaus, dass das Unternehmen einer der Hauptteilnehmer im QPACE-Projekt ist, signifikante Engineering-Beiträge bei, einschließlich der Bereitstellung des Rambus-FlexIO-Interfaces.

Über die deutliche Reduzierung von Entwicklungszeit und –Risiko hinaus, führte Prof. Wettig die GTP-Transceiver der Virtex-5-FPGAs als den wichtigsten Vorteil für das Gelingen des QPCACE-Projekts an. Das Torus-Netzwerk ist in der Lage, 2,5 GHz Übertragungsrate, ohne Bitfehler an Hunderten von Knotenpunktkarten, zu liefern, wobei einzelnen Knotenpunktkarten bereits erfolgreich bei 3 GHz geprüft wurden. Prof. Wettig fügte abschließend hinzu: „Erst die Xilinx-FPGAs ermöglichten uns den Erfolg des QPACE-Projektes.“ (sb)