Der Einsatz von HPC in großem Maßstab erfordert einen außerordentlich hohen Aufwand in Bezug auf die gesamte Rechenkapazität.

Der Einsatz von HPC in großem Maßstab erfordert einen außerordentlich hohen Aufwand in Bezug auf die gesamte Rechenkapazität. (Bild: Xilinx)

Um einen Mehrwert durch Echtzeit-Services realisieren zu können, ist es zwingend erforderlich, dass die generierten Daten und Erkenntnisse unmittelbar verfügbar sind, und dabei treiben KI-basierte (AI-basierte; AI: Artificial Intelligence) Services hierbei die Entwicklung zum größten Teil voran. Als Reaktion darauf entwickeln weltweit führende Service-Provider wie Amazon Web Services (AWS), Microsoft, Alibaba, SK Telecom und andere bereits relevante Lösungen. Obwohl sich hier enorme Marktchancen auftun, benötigen die heutigen Datenzentren zunächst entsprechende Optimierungen ihrer Rechnerlösungen, damit sie die Anforderungen der Echtzeitverarbeitung erfüllen können. Dazu müssen sie Architekturen erstellen, die auf die Fähigkeit zur Verarbeitung stark unterschiedlicher und außerdem schnell evolvierender Workloads und Algorithmen ausgerichtet sind – weitgehend durch AI getrieben – um die wachsende Integration der Rechenleistung in Speicher und Netzwerke zu bewältigen.

Außerdem benötigen die Service-Provider eine Plattform für ihre Infrastrukturen, die ein hohes Maß an Differenzierung und Performance bereitstellen kann, um den erforderlichen Durchsatz, geringe Latenz und eine außerordentlich flexible Software zu liefern. Zusätzlich brauchen sie noch einen Hardware-Stack, der höchst unterschiedliche Algorithmen wie RNN/LSTMs, CNNs und Spark Query Beschleunigung verarbeiten kann. Um dieses Maß an Differenzierung zu erreichen, investieren die Service-Provider in ihre eigenen Hardware- und Software-Stacks und bauen sie aus. Beispielsweise hat AWS mit Advanced Query Accelerator (AQUA) eine Plattform zur Datenanalyse eingerichtet, die über einen maßgeschneiderten Software- und programmierbaren Hardware-Stack verfügt. SK Telecom hat kürzlich eine AI-fähige Sprach- und Video-Analyse auf einem kundenspezifischen Software- und programmierbaren Hardware-Stack entwickelt.

Dies zeigt, dass die nächste Welle der Rechnerkapazitäten adaptiv sein muss, wobei Software und Hardware ineinander übergehen, und sowohl Hardware wie Software programmierbar sind, damit sich Echtzeit-Performance, maximaler Durchsatz, geringe Latenz und Leistungseffizienz umsetzen lassen. Mit dem Wachstum von Echtzeit-Lösungen und den Fortschritten im AI-Bereich, zunehmend komplexen Workloads und der explosiven Ausweitung unstrukturierter Daten ist eine neue Ausrichtung der Datenzentren im Gange. Sie fokussiert sich auf die adaptierbare Beschleunigung in den Bereichen Compute, Speicherung und Vernetzung.

Adaptive Computing für Echtzeit-Vorhersage

Teams, die auf der Höhe der Zeit sind, nutzen High-Performance Computing (HPC) als Tool zur Entdeckung und als Lösungsweg für einige der weltweit wirkmächtigsten und komplexen Probleme. Die Beschleunigung der Verarbeitung zum Erkenntnisgewinn mit Einsatz von HPC in großem Maßstab erfordert einen außerordentlich hohen Aufwand in Bezug auf die gesamte Rechenkapazität, Energie-Effizienz und Adaptierbarkeit. In der Tat ermöglichen durch FPGAs beschleunigte Applikationen optimierte Hardware- und Software-Implementierungen mit der Flexibilität zur Adaption wechselnder Anforderungen, ohne Einbußen an Performance und Energie-Effizienz.

Die bei CERN laufenden Forschungsarbeiten sind dafür ein gutes Beispiel. Auf der Suche nach Antworten auf die größten wissenschaftlichen Herausforderungen der Welt unternimmt ein Konsortium von einigen 20.000 Forschern bei CERN, der Europäischen Organisation für Kernforschung, mit dem Europäischen Laboratorium für Teilchenphysik eine Rekonstruktion des Ursprungs des Universums. Um das zu tun, müssen die Wissenschaftler die derzeitigen Begrenzungen der Technologie überwinden. Der Large Hadron Collider (LHC) unterhalb von Genf ist der größte Teilchenbeschleuniger der Welt. Der 27 km messende Ring besteht aus supraleitenden Magneten, welche die Partikel auf zuvor unerreichte Energieniveaus beschleunigen. Jedes Proton durchläuft den Ring 11.000 Mal pro Sekunde – beinahe mit Lichtgeschwindigkeit. An vier unterschiedlichen Punkten am Umfang des Rings kollidieren die Protonen – alle 25 ns. Die Bedingungen der Kollisionen erfassen Partikel-Detektoren. Einer davon ist der CMS-Detektor.

Dieses Triggersystem ist auf zwei Ebenen implementiert. Der Trigger der ersten Ebene ist der anspruchsvollste. Er erfordert die Fähigkeit zur AI-Inferenz mit fester, extrem geringer Latenz von etwa 3 µs pro Event, in Verbindung mit einer massiven Bandbreite. CPUs und GPUs können solche Anforderungen nicht erfüllen. Deshalb haben die Verantwortlichen in 100 m Tiefe ein gegen Strahlungen abgeschirmtes Netzwerk von FPGAs installiert. Diese verarbeiten Algorithmen, die so angelegt sind, dass sie alle generierten Daten in Echtzeit filtern und neuartige Partikel identifizieren können, die als Evidenz für die Existenz der dunklen Materie und anderer physikalischer Phänomene in Frage kommen. Diese FPGAs arbeiten sowohl mit klassischen, als auch gefalteten neuronalen Netzwerken zur Aufnahme und zum Abgleich der Sensordaten. Sie führen das Tracking und die Clusterbildung aus, bewirken eine durch Machine Learning gestützte Objekt-Identifizierung und triggern entsprechende Funktionen – alles vor der Formatierung und Präsentation der Event-Daten. Das Ergebnis ist eine Inferenz mit extrem niedriger Latenz – in der Größenordnung von 100 ns.

Service-Provider gehen verstärkt auf den Einsatz von Hardware-Beschleunigung und FPGA-adaptierbares Computing über.

Service-Provider gehen verstärkt auf den Einsatz von Hardware-Beschleunigung und FPGA-adaptierbares Computing über. (Bild: Xilinx)

Ein weiterer Gesichtspunkt für die Compute-Leistung ist, dass gewisse Workloads – wie Live Video Streaming – eine signifikante Belastung der Datencenter-Infrastruktur zur Folge haben können. Um dem zu begegnen, gehen die Service-Provider auf den Einsatz von Hardware-Beschleunigung und FPGA-adaptierbares Computing über. Das vereinfacht die Infrastruktur und senkt die Kosten. Beispielsweise hat Twitch – eine Live Streaming Plattform für Gamer – genau dies unternommen, um die Kosten des Echtzeit-Streaming zu senken und die Bedienung von Millionen von Nutzern weltweit entsprechend zu skalieren.

Rechnergestützte Speicherung für Echtzeit-Datenanalyse

Mit der breiten Adoption der High-Speed Datenspeicherung und wachsenden Anforderungen an die Performance von daten-intensiven Applikationen haben die traditionellen Architekturen zu Engpässen bei CPUs und Speichern geführt. Dabei verschiebt sich der Fokus vom Compute-Bereich auf die Daten, durch rechnergestützte Speicherung mit ihren Implikationen für die verbesserte Performance der Applikationen und die Gesamt-Effizienz der Infrastruktur.

Die Verlagerung der Rechenvorgänge in größere Nähe zu den Daten eröffnet eine nachhaltige Lösung, wie das Beispiel der Datenanalytik zeigt. Deren Platzierung im Speicherbereich reduziert signifikant die Engpässe auf der Systemebene, erhöht die Parallelität und reduziert die gesamten Leistungsanforderungen. Diese Vorgehensweise hat auch das Interesse der großen Anbieter wie IBM und Micron gefunden. Sie haben beschleunigte Speicher- und Rechnerprodukte entwickelt, in denen die Verarbeitung dichter an die Daten heranrückt. Außerdem hat Samsung Electronics eine Smart SSD herausgebracht, um die beschleunigte High-Performance näher zur Flash-Speicherung vorzunehmen, und so die Begrenzungen von CPUs und Speichern zu umgehen. Samsungs Smart SSD erhöht die Geschwindigkeit und Effizienz, und verringert gleichzeitig die Betriebskosten durch Verlagerung der Intelligenz dorthin, wo sich die Daten befinden.

Vernetzung

Mit dem Aufkommen des virtualisierten Computing und containerisierter Workloads ist die Vernetzung weitaus komplexer geworden. Da diese Umgebungen weit über einen einzelnen Server hinaus skalieren, müssen hier anspruchsvolle Overlay-Netzwerke zum Einsatz kommen. Overlay-Netzwerke sind virtualisierte Systeme, die sicch dynamisch nach dem Konzept der Paket-Einkapselung erstellen und erhalten lassen. Dies erhöht die Belastung des OS oder des Virtualisation Kernel, um diese Einkapselung zu überwachen. In Kombination mit traditionellen Netzwerkaufgaben verbrauchen sie nahezu 30 Prozent der rohen CPU-Zyklen eines Servers. Eines der am häufigsten eingesetzten Verfahren zur Verwaltung von Overlay-Netzwerken ist die Verwendung des Open vSwitch (OvS) Protocol. FPGA-basierte Smart NICs verfügen über die Rechenkapazität zur Entlastung der Host CPU vom oben erwähnten 30 prozentigen Overhead. Einfach ausgedrückt, haben drei Server mit Smart NICs und OvS-Verarbeitung die Rechenleistung von vier Servern mit Standard NICs.

FPGA-basierte SmartNICs lassen sich auch einsetzten, um eine Entlastung von Aufgaben im Sicherheits- und Verschlüsselungsbereich zu bewirken, die normalerweise die Server-CPU ausführt. Security tritt hier in Gestalt von Deep-Packet-Inspektion auf. Das resultiert in der Aussonderung von Paketen, wenn sie eine Gefährdung darstellen. So ließe sich sogar eine traditionelle Firewall Software verstärken oder sogar ersetzen, wie sie Unternehmen auf ihren Servern betreiben. Außerdem können Smart NICs leicht diverse Verschlüsselungs- und Entschlüsselungsaufgaben von IPSec (Internet Protocol Security) auf TSL (Transport Layer Security) verlagern.

Neue Weltordnung der Echtzeit-Services

In der neuen Ära der Echtzeit-Services ist die Erfüllung der zugehörigen Anforderungen allein durch den Einsatz von CPUs oder auch Multicore CPUs nicht praktikabel, vor allem wegen der Kosten, des Leistungsverbrauchs und des Umfangs der CPU-zentrischen Lösung. Außerdem dürfte für viele Workloads der Einsatz zusätzlicher CPU-basierter Server für dieses Problem nicht die erforderliche Performance erreichen. Da sich das Mooresche Gesetz immer weiter verlangsamt, bieten die CPUs der jeweils nächsten Generation in dieser Hinsicht wenig Hoffnung. Adaptierbare Compute Beschleunigung hingegen ist eine nachhaltige Lösung. Sie kann die breiten Compute-Anforderungen erfüllen, die Skalierung bewältigen und die Betriebskosten drücken.

Adam Scraba

Director of Product Marketing bei Xilinx

(aok)

Sie möchten gerne weiterlesen?

Unternehmen

Xilinx GmbH

Willy-Brandt-Allee 4
81829 München
Germany