Die Anforderungen an KI-Netzwerke steigen rasant. Um einen stabilen Betrieb bei 1,6-T-Ethernet sicherzustellen, müssen alle Verbindungen umfassend getestet und validiert werden – von der Bitübertragungsschicht bis zur Protokollebene.
Ben MillerBenMiller
7 min
Keysight
Anzeige
Das „Zeitalter der KI“
bringt Rechenzentren an ihre Grenzen. Das Training von LLMs (Large Language
Models) erfordert enorme Rechen- und Speicherkapazitäten, die über dichte,
miteinander verbundene GPU-Cluster verteilt sind. Um mit der Komplexität und
dem Umfang der Modelle Schritt zu halten, bemühen sich die Betreiber von
Hyperscale-Rechenzentren, ihre Netzwerke auf 800 GE und 1,6-T-Ethernet
aufzurüsten. Die Erhöhung der Netzwerkkapazität durch Verbindungen mit höherer
Bandbreite ist jedoch nur ein Teil des Problems. Die eigentliche
Herausforderung besteht darin, die Zuverlässigkeit und Effizienz der
Verbindungen zu verbessern, um den Belastungen durch kontinuierliche
KI-Trainings-Workloads standzuhalten.
Was beeinträchtigt die Performance von KI-Netzwerken?
Anzeige
KI-Netzwerke sind nur so
schnell wie das schwächste Glied zwischen den Clustern. Jeder Transceiver,
jedes Kabel und jeder Stecker kann sich auf den systemweiten Durchsatz, die
Latenz und die Zuverlässigkeit auswirken. Leistungsengpässe, Interoperabilitätslücken
und Tail-Latenz beeinträchtigen das Modelltraining. Da Betreiber von
Rechenzentren ihre Netzwerke auf 1,6 T und darüber hinaus aufrüsten, müssen
Netzwerkarchitekten berücksichtigen, wie sich jede Komponente unter hoher
KI-Auslastung und realen Bedingungen verhält.
Die Spezifikationen einzuhalten
ist nur der Anfang. Transceiver müssen vom Entwurf bis zur Fertigung streng
validiert werden, um nicht nur die Interoperabilität, sondern auch eine
optimale Leistung auf Systemebene unter realen Bedingungen zu gewährleisten.
Engpässe in
Rechenzentren
durch fehleranfällige Verbindungen
Anzeige
Beim Training von LLMs
geht es nicht nur um reine Rechenleistung – es erfordert eine schnelle,
synchronisierte Kommunikation über riesige GPU-Cluster hinweg. Diese Cluster
bestehen aus disaggregierten Servern, die über elektrische und optische
Hochgeschwindigkeitsverbindungen miteinander verbunden sind. Das Training wird
aufgeteilt und parallel über verschiedene Cluster-Knoten hinweg verarbeitet,
wobei jeder Knoten einen Teil des Modells verarbeitet. Alle Knoten müssen
synchron arbeiten, um effizient voranzukommen.
Mit steigender Auslastung
wächst auch das Risiko einer Unausgewogenheit. Parallelität schafft eine starke
gegenseitige Abhängigkeit zwischen den Knoten. Jeder Knoten stellt eine potenzielle
Schwachstelle im Netzwerk dar. Eine einzige leistungsschwache Verbindung, sei
es ein Transceiver, ein Kabel oder ein Switch, kann den gesamten Cluster
ausbremsen. In nicht optimierten Netzwerken bleiben GPUs mehr als die Hälfte
der Zeit ungenutzt und warten aufgrund langsamer Verbindungen auf ihre nächste
Aufgabe.
Bild 1: Verzögerungen beim Training und Ausfälle aufgrund hoher Arbeitslast werden durch nicht optimierte Netzwerke verursacht.Keysight
Damit Betreiber von
Rechenzentren ihre KI-Workload-Verarbeitung optimieren können, müssen sie jede
Komponente und jede Verbindung im Netzwerk einem Stresstest unterziehen.
Transceiver-Ausfälle sind eine der Hauptursachen für Workload-Ausfälle und
Tail-Latenz, und fast 50 Prozent aller Trainingsaufgaben scheitern aufgrund von
Netzwerk- oder Rechenproblemen. Daher sind die Hersteller von Transceivern und
Verbindungen gefordert, ihre Produkte nicht nur so zu konzipieren, dass sie die
Spezifikationen erfüllen, sondern auch eine hohe Leistungsfähigkeit unter den
in KI-Rechenzentren üblichen Bedingungen mit hohen Temperaturen und enormen
Workloads bieten.
Anzeige
Wie funktioniert die Validierung von Transceivern?
Der erste Schritt, um zu
verhindern, dass eine Verbindung zu einem Engpass in einem KI-Rechenzentrum
wird, ist es, die Leistung auf der Bitübertragungsschicht zu überprüfen.
Während der Entwicklung muss jede elektrische und optische Lane mit 224 Gb/s
streng auf Signalintegrität, Interoperabilität und Zuverlässigkeit unter
realistischen Bedingungen getestet werden, die den Belastungen beim KI-Training
entsprechen.
1,6-T-Transceiver müssen
für jede der elektrischen und optischen 224-Gbit/s-Lanes immer strengere
Anforderungen an die Signalintegrität und Rauschtoleranz erfüllen. Standards
wie IEEE P802.3dj für 1,6-T-Ethernet legen Grenzwerte für Sender-Jitter,
Senderdispersionsverluste, Bitfehlerrate und Signal-Rausch- und
Verzerrungsverhältnis fest. Darüber hinaus gehen die realen Arbeitslasten in
KI-Rechenzentren weit über die normalen Betriebsgrenzen hinaus. Leistungsreserven
unter immer strengeren Spezifikationen für die Bitübertragungsschicht zu
gewährleisten ist schwierig, aber wichtig für die Zuverlässigkeit und
Interoperabilität der Bausteine.
Bild 2: Oszilloskop mit hoher Bandbreite und Anwendung für Konformitätstests gemäß IEEE P802.3dj.Keysight
Die Signalintegrität ist
bei elektrischen Tests von entscheidender Bedeutung. Zu den wichtigsten
Messungen des Senders gehören Jitter, Signal-Rausch- und Verzerrungsverhältnis,
Linearität und Signal-zu-Rest-Intersymbol-Interferenz-Verhältnis. Die Charakterisierung
und Abstimmung der Entzerrung am Sender für eine optimale, klare Übertragung
ist entscheidend für den Ausgleich von Kanalverlusten. Entwickler benötigen ein
Oszilloskop mit hoher Bandbreite für die Signalerfassung und -analyse (Bild 2).
Konformitätsautomatisierungssoftware kann Anwender durch komplexe
Validierungsanforderungen und Tests führen, die den Pass/Fail-Status für jede
erforderliche Spezifikation bestimmen. Weitere Software für Signalintegrität
und Debugging kann bei der Lösung schwieriger Konformitätsprobleme helfen.
Anzeige
Bei den Empfängertests
wird ein Bitfehlerratentester (BERT) verwendet, um belastete Muster
einzuspeisen und die Fehlerraten unter verschlechterten Bedingungen zu
quantifizieren. Das ist für Konformitätstests notwendig, aber besonders wichtig
für lineare steckbare Optiken (Linear Pluggable Optics, LPO), eine neue
Transceiver-Topologie, die auf einen DSP verzichtet, um den Stromverbrauch zu
senken. Dadurch wird die Leistungsreserve für die Netzwerkkarte und den Switch
erheblich reduziert, da der Host-Chip ein viel stärker verzerrtes und
verrauschtes Signal verarbeiten muss. Die Auswahl des richtigen BERT und
Oszilloskops für diese Tests hängt von der Wahl eines Mustergenerators und
eines Fehlerdetektors ab, die das richtige Modulationsformat und die richtige
Symbolrate verwenden (120 GBaud PAM4 für 224 Gb/s-Signale).
Warum ist TDECQ bei optischen Messungen relevant?
Beim Testen der optischen
Leistung geht es darum, genaue Messungen der TDECQ (Transmitter Dispersion and
Eye Closure Quaternary) durchzuführen. TDECQ quantifiziert den
Leistungsverlust, den ein realer Sender im Vergleich zu einer idealen Referenz
bei einer bestimmten Ziel-Symbolfehlerrate (SER) verursacht. TDECQ fasst
Beeinträchtigungen wie Bandbreitenbeschränkungen, Rauschen und
Intersymbolinterferenzen in einer einzigen Metrik zusammen. Ethernet-Standards
stützen sich auf TDECQ als primäre Metrik für den Test von optischen
Transceivern als Kriterium für die Konformität, sodass es ein wichtiges
Unterscheidungsmerkmal für die Zuverlässigkeit und Interoperabilität von
Transceivern ist.
Anzeige
Weitere wichtige optische
Kennwerte sind die optische Modulationsamplitude (OMA – die optische
Leistungslücke zwischen den optischen Pegeln 0 und 1), das
Extinktionsverhältnis (das Verhältnis der Leistung zwischen hohen und niedrigen
Logikpegeln für die Laserleistung), der
Referenz-Entzerrer-Rauschverstärkungskoeffizient (Ceq) und das relative
Intensitätsrauschen (RIN) des Lasers.
Optische Messungen werden
in der Regel mit einem rauscharmen Abtastoszilloskop durchgeführt. Ein ideales
Abtastoszilloskop für die Validierung von 224 Gb/s verfügt über ein extrem
geringes Eigenrauschen (<20 µW RMS) und einen extrem geringen Jitter (<
90 fs RMS) für beste optische Genauigkeit und Empfindlichkeit. Für die
Konformität mit optischen Messungen von 224 Gb/s ist außerdem eine
Taktrückgewinnung von 112 GBaud erforderlich.
Automatisierte
Testprogramme sind in Oszilloskope integriert, um eine schnelle TDECQ-Prüfung
zur Konformitätsvalidierung durchzuführen (Bild 3). Abtastoszilloskope können
zur Bewertung der Bauteileigenschaften sowohl während der Forschung und
Entwicklung als auch während der Fertigung, zur Charakterisierung der
Signalqualität, zur Analyse von Beeinträchtigungen und zur Feinabstimmung der
Entzerrung verwendet werden. Je höher die optische Empfindlichkeit, desto
größer ist die Messmarge, die erzielt werden kann, wodurch eine bessere
Charakterisierung der Signalintegrität des Bauteils möglich ist. Margentests
unter belasteten Augenbedingungen bei verschiedenen Temperaturschwankungen sind
entscheidend, um einen robusteren Betrieb unter realen Bedingungen zu
gewährleisten.
Anzeige
Bild 3: TDECQ-Messung eines 106-Gbaud-PAM4-Signals (112 Gb/s).Keysight
Wo treten Signalverluste und Störungen auf?
Transceiver sind nur so
gut wie die Verbindungen und Kabel, über die ihre Signale übertragen werden.
Während die meisten KI-Rechenzentren heute auf optische Verbindungen setzen,
setzen einige aktive Kupferkabel (ACC) oder herkömmliche passive Kupferkabel
ein. Unabhängig vom Medium ist es eine Herausforderung, eine robuste
Signalintegrität bei 224 Gb/s zu gewährleisten: Die Kanalverluste sind höher,
Reflexionen stören stärker und das Übersprechen ist intensiver. Kleine
Diskontinuitäten oder Impedanzfehlanpassungen können die Leistung erheblich
beeinträchtigen. Die Charakterisierung und Analyse dieses Verhaltens erfordert
fortschrittliche Messverfahren.
Die S-Parameter-Analyse
liefert eine Frequenzbereichsansicht der Einfügungsdämpfung (Signalverlust
entlang des Kanals), der Rückflussdämpfung (Reflexionen aufgrund von
Impedanzfehlanpassungen) und des Übersprechens (unerwünschte Kopplung zwischen
benachbarten Signalpfaden). Zur Charakterisierung der S-Parameter für
224-Gb/s-Verbindungen ist ein Vektor-Netzwerkanalysator (VNA) erforderlich, der
eine Bandbreite von 70 GHz bis 110 GHz unterstützt. Die Kanalbetriebsmarge
(Channel Operating Margin, COM) ist eine Schwellenwertmetrik, die in den
aktuellen IEEE 802.3-Spezifikationen enthalten ist und Einfügungsdämpfung,
Reflexionen, Übersprechen und Rauschen kombiniert.
Die
Zeitbereichsreflektometrie (TDR) ergänzt die Frequenzbereichsanalyse durch
zusätzliche räumliche Auflösung und zeigt die Position und Größe von
Impedanzfehlanpassungen in komplexen Leiterplattenbahnen, Steckverbindern und
Kabeln an. Viele moderne VNAs und Hochgeschwindigkeitsoszilloskope verfügen
mittlerweile über TDR-Modi, um die Ursachen von Diskontinuitäten zu isolieren.
Schließlich ist die
Entkopplung unerlässlich, um die Auswirkungen von Testvorrichtungen und
Adaptern aus dem Messpfad zu entfernen und sicherzustellen, dass die Messungen
nur das Verhalten des Prüflings (DUT) widerspiegeln. Dadurch werden die
Simulationskorrelation und die Messgenauigkeit verbessert. Ein beliebter
Algorithmus für die genaue Entkopplung physikalischer Strukturen innerhalb von
digitalen Hochgeschwindigkeitskanälen ist Automatic Fixture Removal (AFR).
Skalierung der
Transceiver-Produktion
Sobald das Design eines
Transceivers fertiggestellt ist, müssen die Hersteller schnell die
Serienproduktion hochfahren, um die Nachfrage nach Hardware für
KI-Rechenzentren zu befriedigen. Eine langsame Produktionssteigerung kann dazu
führen, dass man den Markt komplett verpasst, aber die Hersteller können auch
keine Abstriche bei der Qualität machen. Es ist entscheidend, hohe Ausbeuten
aufrechtzuerhalten, um die Auslieferung fehlerhafter Geräte und Probleme beim
endgültigen Einsatz zu vermeiden. Die Herausforderung für QA-Ingenieure besteht
darin, die Produktion schnell hochzufahren, ohne die Zuverlässigkeit oder
Testgenauigkeit zu beeinträchtigen.
Viele Testentwickler
erstellen ihre Testprogramme auf der Grundlage von Abtastoszilloskopen und
verwenden diese, um ihre optischen Transceiver während der Fertigung zu
„“tunen““. In einer schnellen Rückkopplungsschleife schreibt das
Produktionssystem die Anfangseinstellungen in ein neu gebautes
Transceiver-Modul (z. B. Laser-Bias, Modulator-Spannung) und misst dann
sofort eine wichtige Leistungskennzahl wie TDECQ. Auf der Grundlage des
Messergebnisses werden die Einstellungen angepasst und die Kennzahl erneut
gemessen. Diese Schleife wiederholt sich schnell, bis der Sender optimiert ist
und das Gerät die Leistungsschwellenwerte überschreiten kann.
Bild 4: Teststation für die Fertigung von optischen Transceivern mit Abtastoszilloskop, Taktrückgewinnung, optischem Schalter/Controller und Testautomatisierungssoftware.Keysight
In der Regel werden
Optimierungstests auch bei mehreren Temperatur-Sollwerten durchgeführt, um
sicherzustellen, dass jedes Gerät über den gesamten Betriebstemperaturbereich
hinweg optimal funktioniert. Das Abtastoszilloskop kann mit einem optischen
Schalter und einer Testautomatisierungssoftware kombiniert werden, um den Test
jeder einzelnen Fertigungsstraße zu erleichtern. So können mehrere Straßen und
Geräte gleichzeitig getestet werden, was die Testzeit verkürzt und die
Hardwareauslastung verbessert (Bild 4).
Mehr als nur Tests der
Bitübertragungsschicht
Die Einhaltung der
Anforderungen an die Bitübertragungsschicht ist notwendig, aber nur der Anfang,
um die Leistung von Transceivern in KI-Rechenzentren sicherzustellen. Standards
wie IEEE 802.3dj definieren Spezifikationen mit 224 Gb/s pro Lane, aber es gibt
viele Probleme, die unter realen Bedingungen auftreten können und die durch
physikalische Validierung nicht erkennbar sind. Wenn Verbindungen sich
Geschwindigkeiten von 1,6 T nähern und diese überschreiten, müssen die Tests
auf die nächste Stufe gebracht werden, indem Stresstests über die
Bitübertragungsschicht hinaus durchgeführt werden.
Bei diesen
Geschwindigkeiten ist die Vorwärtsfehlerkorrektur (FEC) unerlässlich, um die
aggregierte Bitfehlerrate (BER) über alle Kanäle hinweg auf einem akzeptablen
Niveau zu halten und eine zuverlässige Datenübertragung zu gewährleisten.
Während sich die Konformitätsprüfungen für Empfänger auf die BER vor der FEC
konzentrieren, muss ein konformer Empfänger dennoch eine akzeptable BER
aufweisen, damit die FEC wirksam ist. Bei der Post-FEC-Analyse geht es darum,
die Fehlerverteilung zu bestimmen, bei der FEC unzuverlässig wird. Selbst bei
einer durchschnittlichen BER innerhalb der Spezifikation können Burst-Fehler
die FEC-Korrekturgrenzen überschreiten und zu einem nicht wiederherstellbaren
Frame-Verlust führen.
Da KI-Rechenzentren einen
Datenverlust von nahezu Null erfordern, ist die Analyse der FEC-Leistung von
entscheidender Bedeutung. Aus diesem Grund ist die Analyse der
Post-FEC-Leistung, insbesondere der Fehlerverteilung und der Frame-Loss-Rate
(FLR), genauso wichtig wie herkömmliche Konformitätsmetriken für Empfänger.
Interconnect-Testplattformen können Geräte unter voller 1,6-T-Last mit realen
Paketflüssen und Beeinträchtigungen belasten, um Rauschen und Überlastung auf
Systemebene zu simulieren. Durch die Validierung des End-to-End-Verhaltens der
Verbindung, einschließlich einer FEC-Tail-Analyse zur Untersuchung, wie ein
Empfänger auf aufeinanderfolgende Fehler reagiert, können Entwickler
beurteilen, ob ein Transceiver wirklich für den KI-Einsatz bereit ist.
Bei Transceivern für
KI-Rechenzentren darf der Test nicht bei Layer 1 enden. Es ist entscheidend,
die Validierung auf die Leistung des gesamten Protokollstacks auszuweiten.
Entwickler sollten das Verhalten von Layer 2/3 unter realistischen Bedingungen
validieren, um Probleme im Zusammenhang mit MAC-Adressierung, Routing,
IP-Paketverarbeitung und Transporteffizienz aufzudecken und sicherzustellen,
dass die Transceiver parallele Datenübertragungen von KI-Trainings-Workloads
unterstützen können. Durch die Emulation realer Ethernet/IP-Verkehrsmuster bei
voller Leitungsgeschwindigkeit können Probleme beim Routing, bei der
Flusskontrolle, der Latenz, der Verbindungsstabilität und der Überlastung
aufgedeckt werden, die durch die physikalische Signal-Analyse allein nicht
sichtbar sind.
Durch die Kombination von
Validierung der Bitübertragungsschicht, FEC-fähigen Empfängertests und
vollständiger Protokollstapel-Emulation (Schicht 1 – 3) erhalten Entwickler von
Transceivern ein umfassenderes Bild der Transceiver-Leistung. Dieser ganzheitliche
Ansatz mag aufwendig erscheinen, ist jedoch entscheidend, um die
Zuverlässigkeit, den Durchsatz und die Effizienz von KI-Verbindungen zwischen
Rechenzentren zu gewährleisten, wenn Netzwerke auf 1,6T-Ethernet und darüber
hinaus aufgerüstet werden.
Perspektiven für 3,2-T-Ethernet und neue Modulationsformate
Während sich die
Industrie darauf vorbereitet, 1,6-T-Ethernet über 224-Gb/s-Kanäle einzusetzen,
blicken einige Entwickler bereits in die Zukunft. Der nächste Schritt, der
technologische Sprung, der die Geschwindigkeiten im Rechenzentrum auf
3,2-T-Ethernet erhöhen wird, sind 448-Gb/s-Kanäle. Drei primäre Signaloptionen
werden derzeit evaluiert: 224 GBd PAM4, 174 GBd PAM6 und 150 GBd PAM8. Jede
Option hat Vor- und Nachteile in Bezug auf Komplexität, Bandbreite und
Störfestigkeit. Frühe Forschungsergebnisse zeigen, dass jede dieser
potenziellen Methoden geeignet sein könnte, und einige Entwickler arbeiten
bereits daran, die beste Lösung unter Verwendung von
Hochgeschwindigkeits-Arbiträr-Signalgeneratoren und Abtastoszilloskopen zu
finden. Gleichzeitig können neue Transceiver-Topologien wie LPO, die durch neue
photonische ICs ermöglicht werden, diese Entscheidungen beeinflussen, da sich
die Leistungsanforderungen und Prioritäten ändern und die Datenstandards der
nächsten Generation neu gestalten. (bs)
Autor
Ben
Miller,
Product Marketing Manager, Digital Products bei Keysight Technologies