
Das Training von GenAI-Modellen stellt eine enorme Herausforderung in Bezug auf den Stromverbrauch dar, die nicht mit den gesellschaftlichen Zielen der Netto-Null-Emission und der Reduzierung von Treibhausgasen vereinbar ist. (Bild: @Maksym - stock.sdobe.com)
In den letzten Jahren wurden zahlreiche GenAI-Prozessoren für das Training großer Sprachmodelle eingeführt. Die Halbleiterprozess- und Gehäuse-Neuerungen dieser Prozessoren (Bild 1) sind beeindruckend, mit >100 Milliarden Transistoren, die in 4nm-CMOS-Logikprozesstechnologie gefertigt werden, und mehr als 144 GByte Speicher mit hoher Bandbreite (HBM) (weitere 1,128 Billionen Transistoren), die mehr als 9,6 TByte/s übertragen.

Welche Herausforderungen stellen 2000 A für die Stromversorgung dar?
Der Strombedarf dieser Prozessoren nähert sich Spitzenwerten von bis zu 2000 A, was zu umweltbedingten Leistungsverlusten des Prozessors und einem damit einhergehenden komplexen Wärmemanagement führt. Die Bereitstellung von 2000 A bei 0,7 V mithilfe von Spannungsreglern am Lastpunkt (PoL; Point-of-Load) stellt eine Herausforderung bezüglich der thermischen und elektrischen Leistungsfähigkeit dar.
Aktuelle Lösungen verwenden 30 oder mehr modulierte Phasen des Spannungsreglers, die seitlich um den GenAI-Trainingsprozessor herum angeordnet sind, was zu I2R-Verluste von 50 W oder mehr in den Kupfer-Stromversorgungsebenen (Power Plane) der Hauptplatine führt. Eine Lösung für diese überschüssige Verlustleistung und die Belastung durch das Wärmemanagement besteht darin, die Leistung des Prozessors auf einen thermisch sicheren Betriebsbereich zu beschränken, wodurch TeraFLOPS (Gleitkommaoperationen pro Sekunde) an Leistung ungenutzt bleiben. Eine bessere Lösung ist eine vertikal platzierte PoL-Stromversorgung, was jedoch eine deutlich höhere Stromdichte der Bauelemente und eine neue Gehäusetechnik für Leistungsmodule erfordert.
Die Problematik der hohen Leistungsverluste
Der Widerstand der Leiterplatte (PCB) ist proportional zum Kupferwiderstand, zur Fläche und Dicke der Stromversorgungsebene und zur Temperatur.

Der PCB-Widerstand wird wie folgt ermittelt:
R = [(ρ × L) / (T × W)] × [1 + a × (Celsius-Umgebungstemperatur – 25 °C)]
Mit:
ρ = Kupferwiderstand (1,7 x 10-6 Ohm-cm)
L = Länge der Ebene (cm)
W = Breite der Ebene (cm)
T = Dicke der Ebene (cm)
a = Temperaturkoeffizient von Kupfer (3,9 x 10-3/°C)
Der Widerstand der Stromversorgungsebene ist linear invers proportional zur Querschnittsfläche der Ebene. Durch die Verlegung der PoL-Wandler näher an den GenAI-Trainingsprozessor verringert sich die Fläche der Stromversorgungsebene und der DC-Widerstand des Stromversorgungsnetzes (PDN; Power Delivery Network). Entwickler von PDNs für solche Prozessoren erkennen zunehmend die kritische Rolle der PCB-Stromversorgungsebene als Mittel, um die Gesamtverluste von Beschleunigermodulen zu verringern. Daher sind technische Verbesserungen bei der Stromdichte und optimierte PoL-Leistungsmodulgehäuse gefragt, um eine Platzierung näher an den Stromanschlüssen des Prozessors zu ermöglichen.
Welche Rolle spielt die Platzierung der Leistungsmodulen?
PoL-Power-Management für GenAI-Trainingsprozessoren ist komplex und umfasst mehrere Strom-/Spannungsbereiche, einschließlich der Hauptschiene (Core-VDD) mit nur 0,7 V, die nur eine Über- und Unterschreitung von etwa ±5 % toleriert. Die Stromaufnahme hängt von der Arbeitslast ab (also von der Softwareaufgabe), was zu extrem hohen Stromänderungsraten (dI/dt) von 2000 A/ms oder mehr führt. Dieser hohe Dynamikbereich erfordert, dass die PoL-Stromversorgung eine Spitzenstromkapazität (typischerweise für eine Dauer von 1 bis 2 ms) aufweist, die etwa doppelt so hoch ist wie der kontinuierliche DC-Pegel.
Die HBMs im Prozessor-Array haben ihre eigene Spannungsdomäne (HBM-VDD) mit 1,1 oder 1,2 V Nennspannung. Sie unterliegen Einschränkungen in Bezug auf Dauer- und Spitzenstromanforderungen, dI/dt und transienten Spannungsgrenzen oberhalb und unterhalb der Nennbetriebsspannung, um eine Beschädigung des Schaltkreises oder Beeinträchtigung der Betriebslebensdauer zu vermeiden. Es gibt auch Hilfsspannungsbereiche (Aux-VDD) auf dem Prozessor-Array mit Stromanforderungen von etwa 250 bis 400 A.
Bild 3 zeigt drei Platzierungsmöglichkeiten für Leistungsmodule: lateral/seitlich (LPD), lateral-vertikal (LVD) und vertikal (VPD). Die Platzierung von Spannungsreglern direkt unter dem Prozessor, wie bei LVD und VPD, reduziert den PDN-Widerstand. Dies minimiert die Fläche der Stromversorgungsebene, was die genannten Vorteile mit sich bringt. Typischerweise befindet sich dort aber das große Bypass-Kondensator-Array, das eine hohe Bandbreite für den Bypass und die transiente Stromzufuhr für dynamische KI-Workloads bietet.

Überlegungen zum Bypass des GenAI-Prozessors
Die Entkopplungskondensatoren, die zur Unterstützung eines GenAI-Trainingsprozessors erforderlich sind, müssen so nah wie möglich an den Strom- und Masseanschlüssen (Microballs) des Chiplet-Gehäuses platziert werden. Sie konkurrieren mit den Spannungsreglern um die verfügbare Leiterplattenfläche. Die erforderliche Bypass-Kapazität hängt u. a. von der Welligkeitstoleranz der Prozessorschiene und dem Frequenzgang des Spannungsregelungs-Subsystems ab.
Es überrascht nicht, dass ein GenAI-Trainingsprozessor mit einem TDC (Thermal Design Current) oder Dauerstrom von 1000 A eine Bypass-Kapazität von 3 mF oder mehr benötigt, um Stromschwankungen zu stabilisieren die meist die gesamte Leiterplattenfläche unterhalb des Prozessors belegt. Das lässt nur wenig Platz für die Spannungsregler innerhalb der Kondensatoranordnung. Bei einer Spannungsregler-Stromdichte von 1 A/mm2, die als Stand der Technik gilt, ist es gerade noch möglich, ein Leistungsmodul mit 350 A (Dauerstrom) auf einer Fläche von 3500 mm2 zwischen den Bypass-Kondensatoren unterzubringen und trotzdem die erforderliche dI/dt-Leistung zu erzielen.
Um die Leistungsfähigkeit dieser Platzierung von Spannungsreglern zu bewerten, wurde eine Testplatine (Bild 4) entwickelt. Diese misst die verringerten Wärmeverluste, die die LVD-Stromversorgung einem 1000A-Core-VDD-Prozessor im Vergleich zu einer rein seitlichen Modulplatzierung ermöglicht. Das an der Unterseite vertikal platzierte Modul teilt sich die Aufgabe der Stromzufuhr an die Hauptschiene des Prozessors mit zwei anderen 350A-Modulen (Dauerstrom) mit der gleichen Grundfläche. Diese geben den Strom seitlich an der Oberseite der Leiterplatte ab.

Es stellte sich heraus, dass das lateral-vertikale Layout deutliche Vorteile gegenüber einem rein lateralen Design aufweist. (Die Testplatine wurde mit einem Lastmodul und nicht mit einem tatsächlichen Prozessor entworfen, bei dem die Hochgeschwindigkeitssignalführung, z. B. SERDES-basierte serielle Lanes, und andere Überlegungen zum Leiterplattendesign berücksichtigt werden müssen.)
Die Testergebnisse zeigen, dass sich die PDN-Impedanz um den Faktor sechs verringert, wenn eines der Core-VDD-PoL-Leistungsmodule nicht mehr seitlich, sondern vertikal unter dem Prozessor platziert wird. Die parallel konzentrierte PDN-Impedanz sinkt für die drei Leistungsmodule, die die vollen 1000 A Dauerstrom liefern, von 60 auf 11 mW; und die PCB-Verlustleistung sinkt von 60 W bei seitlicher Leistungsabgabe auf 11 W bei seitlich-vertikaler Leistungsabgabe. Dies entspricht einer Verringerung von 50 WPCB bei 1000 A Laststrom pro Beschleunigermodul und 3200 WPCB im Dauerbetrieb für ein GenAI-Prozessor-Rechenzentrums-Rack mit 64 GenAI-Beschleunigermodulen.
Mit den Bedarfsprognosen für GenAI-Beschleunigermodule in den kommenden Jahren und zukunftsorientierten Schätzungen der Stromkosten führt die Einsparung von 50 W pro Beschleunigermodul bis 2027 zu Stromeinsparungen im TWh-Bereich auf der Ebene globaler Rechenzentren. Dies entspricht Milliarden an Stromkosten sowie Millionen Tonnen an CO2-Emissionen, die sich jährlich und auf Dauer einsparen lassen.
Reine VPD – Herausforderung
Um eine rein vertikale Versorgung für die Hochstrom-Core-Schiene des Trainingsprozessors in diesem Beispiel zu erreichen, müsste die Stromdichte des Spannungsreglers um das 3-fache oder mehr erhöht werden, von etwa 1 auf etwa 3 A/mm2 (für einen typischen Trainingsprozessor mit 3500 mm2 Grundfläche), um in das Bypass-Kondensator-Array zu passen (Bild 5). Um diese mehrfache Steigerung der Stromdichte zu erzielen, muss der traditionelle Ansatz des Spannungsreglers überdacht werden – einschließlich des Leistungsmodulgehäuses.

Warum sind hohe Schaltfrequenzen der Schlüssel zu mehr Effizienz?
Die Herausforderung einer höheren Stromdichte bei PoL-Spannungsreglern ist die Größe der für die Energiespeicherung erforderlichen magnetischen Komponenten. Mehrphasige Spannungsregler und Architekturen mit gekoppelten Spulen (TLVR; Trans-Inductor Voltage Regulation) beruhen auf der Energiespeicherung in magnetischen Komponenten und der Übertragung der gespeicherten Energie an den Prozessor. Kürzlich eingeführte Leistungsmodule dieser Art haben eine geringfügig höhere Schaltfrequenz und Ausgangsstromspezifikationen und sind kompakter – mit zwei modulierten Phasenstufen pro Leistungsmodul. Diese Komponenten regeln von 12 VIN aus, gespeist von 48-V-Buswandlern mit festem Verhältnis (K = 1/4). Alternative Ansätze verwenden laterale MOSFETs mit niedrigerer Spannung (typischerweise 6 VIN), die mit etwas höheren Frequenzen geschaltet werden. Dies verringert die Größe der Energiespeicherinduktoren. Diese PoL-Spannungsregler mit niedrigerer Eingangsspannung werden von Buswandlern mit 48 VIN zu 6 VOUT gespeist, die wesentlich höhere Ströme (ca. 160 A) abgeben, was die Zwischenbus-Verluste in der Leiterplatte ungünstig erhöht.
Aufgrund physikalischer Grenzen der maximalen Schaltfrequenz erreichen herkömmliche Mehrphasen- und TLVR-Ansätze selbst bei 6 V eine maximale Stromdichte von etwa 1 A/mm2. Beide Topologien führen zu Leistungsmodulen, die hoch (4 bis 8 mm) und relativ schwer sind, was auf die magnetischen Energiespeicherkomponenten zurückzuführen ist.
Ein anderer Ansatz, den Vicor im Jahr 2016 vorstellte, integrierte das Bypass-Kondensator-Array in ein gestapeltes (stacked) Leistungsmodul (Bild 6). Ein zusätzlicher „Gearbox“-Layer überträgt die Leistung auf das Prozessor-BGA (Ball Grid Array), so dass jedes Modell zu einer anwenderspezifischen Lösung wurde. Diese Methode ist im Vergleich zu einer Standardproduktreihe hinsichtlich der Skalierbarkeit als auch der Kosten problematisch.

Schalten bei deutlich höheren Frequenzen (>1 MHz) verkleinert die Energiespeicherkomponenten. Bei Mehrphasen-Abwärts-/Buck- oder TVLR-Spannungsreglern erfordert dieser Ansatz jedoch eine verringerte Betriebsspannung der Leistungs-MOSFETs. Die ältere FIVR-Architektur ist ein klassisches Beispiel, bei dem für eine geringere PCB-Dichte des Bypass-Kondensators die Abwärtsregler auf dem Chip mit MHz-Raten schalten und die erforderlichen Stromdichten erreichen. Server-CPUs verwendeten damals eine Off-Chip-Versorgungsspannung von 1,8 VEXT, so dass der FIVR-Ansatz einen Stromgewinn von nur 2x (1,8 VEXT / 0,85 VDD Core) ergab. Der Wirkungsgrad liegt Berichten zufolge im Bereich von 80 %.
Für einen TDC-GenAI-Trainingsprozessor mit 1000 bis 2000 A sind höhere Stromverstärkungen und höhere Wirkungsgrade erforderlich, um übermäßige Wärmeverluste zu vermeiden und die Energieeffizienz zu steigern. Bei den bereits erwähnten 12- und 6-V-Spannungsregler-Architekturen liegen die Stromverstärkungen im 20- bzw. 10-fachen Bereich (bei einem Core-VDD-Prozessor mit 0,7 V). Mit den 30 oder mehr modulierten Phasen, die für die Core-Schiene erforderlich sind, erreichen diese Architekturen jedoch nicht die erforderliche Stromdichte von 3 A/mm2, die eine Platzierung des Spannungsreglers innerhalb des Bypass-Kondensator-Arrays ermöglicht.
Wie können 3Di-Leistungsmodule die Energieeffizienz steigern?
Leistungsmodule mit transformatorbasierter Stromvervielfachung statt traditioneller Spannungsmittelung bieten eine höhere Vervielfachung im Bereich von 48 bis 60. Dieser Aufbau hat von Natur aus niedrigere Schalterbetriebsspannungen. So können bei einer 48-fachen Stromvervielfachung Low-Voltage-Leistungsschalter am PoL verwendet werden. Die Module werden oberhalb von 1 MHz mit Wirkungsgraden von 9 4% betrieben, was auf Nullspannungsschaltungen (ZVS), Nullstromschaltungen (ZCS) und Nullenergiespeichertechniken zurückzuführen ist. Magnetische Komponenten dienen nur zur Wandlung von Spannung und Strom und nicht zur magnetischen Energiespeicherung. Bei hohen Schaltfrequenzen lassen sich die Module außerordentlich klein gestalten. Mit dem 3Di-Leistungsmodulgehäuse wird also die erforderliche Stromdichte von 3 A/mm2 für reines VPD auf der Core-VDD-Schiene erreicht.
Leistungsmodulgehäuse, die VPD ermöglichen, müssen sich auch für die Auftragsfertigung in hohen Stückzahlen eignen. Das Gehäuse (Bild 7) muss thermisch geeignet sein, um die Wärmemanagementlösung für VPD zu vereinfachen. Fortschritte in der Materialwissenschaft und Magnetik mit Schaltfrequenzen von >1 MHz ermöglichen 3Di-Techniken, die zu flachen (<1,8 mm) Gehäusen mit geringem Wärmewiderstand und vorteilhafter SMD-Montage führen. 3Di-Gehäuse sind mechanisch steif, weisen ein hohes Maß an Koplanarität auf, und ihre Beschichtung trägt dazu bei, elektromagnetische Störungen (EMI) zu verringern.

Da künftige GenAI-Trainingsprozessoren immer komplexer werden – mit gestapelten ICs und Multiprozessor-Chip-Arrays in einem einzigen Gehäuse – steigt der Dauerbetriebsstrom auf 2000 A und der Leistungsbedarf auf 1500 W oder mehr. Exascale-GenAI-Supercomputer, auf denen große Sprachmodelle mit mehreren Billionen Parametern laufen, werden weiterhin Tausende von KI- und CPU-Prozessoren pro System verwenden. Diese Anwendung wird zweifellos auf absehbare Zeit die stromintensivste und thermisch anspruchsvollste in der modernen Computerwelt bleiben. Die Zulieferer von GenAI-Komponenten sind dazu verpflichtet, den Stromverbrauch dieser Technik zu senken. (bs)