Das hocheffiziente Rechenzentrum für Machine Learning des DFKI wurde um eine erste Nvidia DGX A100 erweitert

Das hocheffiziente Rechenzentrum für Machine Learning des DFKI wurde um eine erste Nvidia DGX A100 erweitert. Vier weitere folgen in den nächsten Monaten. DFKI

Die Rechenleistung des Machine-Learning-Clusters des DFKI wird damit mehr als verdoppelt, von derzeit ca. 20 PetaFlops auf 45 PetaFlops. Mit dieser Rechenpower der fünf Nvidia DGX A100 will das DFKI zu einem führenden Anbieter von Machine Learning (ML) werden.

Gleichzeitig wird der durchschnittliche Energieverbrauch des Rechenzentrums verbessert: Während vorhergehende Systeme etwa 5 kW pro PetaFlops verbrauchen, sind es bei der DGX A100 nur noch ca. 1,2 kW. Zudem arbeitet das DFKI mit und an eigenen Algorithmen, welche die Experimentiergeschwindigkeit erhöhen – die Systeme lassen sich damit schneller trainieren, etwa indem mehrere Maschinen/GPUs an einer Berechnung arbeiten (Multi-GPU- statt Single-GPU-Jobs) oder durch eigene Data-Loader-Lösungen.

Das DFKI setzt die neuen Systeme als einer der weltweit ersten Anwender ein. Damit soll die KI-Forschung zu lernenden Systemen und deren Erklärbarkeit weiter beschleunigt werden und komplexe KI-Algorithmen für den praktischen Einsatz in der Industrie verfügbar gemacht. Dieser Transfer geschieht in erster Linie durch die Weitergabe von Know-how und Expertise oder durch eine gemeinsame Forschung in den Transfer-Labs, die verschiedene Unternehmen im DFKI unterhalten, etwa IAV, Hitachi, Continental und Sartorius.

Immense Datenmengen zu bewältigen

Was ist ein Petaflop?

Ein PetaFlops entspricht 1 Billiarde Rechenoperationen pro Sekunde. Zum Vergleich: Würde man jedem Menschen auf der Welt einen Taschenrechner geben und jeder würde damit innerhalb einer Sekunde 125.000 Berechnungen durchführen, entspräche die Rechenleistung etwa einem PetaFlops.

Die dritte Generation des Nvidia DGX-Systems bietet mit jeweils acht der Nvidia-A100-Tensor-Core-Rechenbeschleunigern 5 PetaFlops an Leistung.

„Hochleistungsfähige Hardware ist eine zentrale Grundlage für datenreiche und rechenintensive KI-Methoden“, so Prof. Andreas Dengel, Geschäftsführender Direktor und Leiter des Forschungsbereichs Smarte Daten & Wissensdienste in Kaiserslautern. „Durch die immense Zunahme der Datenmengen in den verschiedensten Anwendungsfeldern verlangen viele unserer Projektfragestellungen und auch der Markt nach der optimalen Kombination von hochleistungsfähigen KI-Rechensystemen und ausgeklügelten Algorithmen.“

„Die grenzüberschreitende Forschung des DFKI erfordert eine ebenso fortschrittliche KI-Infrastruktur, die Einsichten liefern kann, um ihre Forschung voranzutreiben“, sagt Tony Paikeday, Senior Director of Product Marketing für DGX-Systeme bei Nvidia.

Neben dem Einbinden der DGX A100 wird das DFKI optimierte Container für Deep-Learning-Frameworks wie Tensor Flow und Py Torch einsetzen, die über NGC – Nvidias Hub für GPU-optimierte Software für Deep Learning, maschinelles Lernen und Hochleistungsrechnen – leicht zugänglich sind, und erweitern.

Auf Basis von Nvidia-KI-Plattformen erzielten die DFKI-Wissenschaftlerinnen und Wissenschaftler in den letzten Jahren Ergebnisse in der Anwendung, der Erklärbarkeit und zur Optimierung von Neuronalen Netzen und Deep Learning-Methoden. Zudem ist Nvidia kürzlich dem Gesellschafterkreis des DFKI beigetreten.