Ganzheitliche Tests für KI-Netzwerk-Komponenten

Zuverlässigkeit von KI-Netzwerken verbessern

Die Anforderungen an KI-Netzwerke steigen rasant. Um einen stabilen Betrieb bei 1,6-T-Ethernet sicherzustellen, müssen alle Verbindungen umfassend getestet und validiert werden – von der Bitübertragungsschicht bis zur Protokollebene.

7 min

Das „Zeitalter der KI“ bringt Rechenzentren an ihre Grenzen. Das Training von LLMs (Large Language Models) erfordert enorme Rechen- und Speicherkapazitäten, die über dichte, miteinander verbundene GPU-Cluster verteilt sind. Um mit der Komplexität und dem Umfang der Modelle Schritt zu halten, bemühen sich die Betreiber von Hyperscale-Rechenzentren, ihre Netzwerke auf 800 GE und 1,6-T-Ethernet aufzurüsten. Die Erhöhung der Netzwerkkapazität durch Verbindungen mit höherer Bandbreite ist jedoch nur ein Teil des Problems. Die eigentliche Herausforderung besteht darin, die Zuverlässigkeit und Effizienz der Verbindungen zu verbessern, um den Belastungen durch kontinuierliche KI-Trainings-Workloads standzuhalten.

Was beeinträchtigt die Performance von KI-Netzwerken?

KI-Netzwerke sind nur so schnell wie das schwächste Glied zwischen den Clustern. Jeder Transceiver, jedes Kabel und jeder Stecker kann sich auf den systemweiten Durchsatz, die Latenz und die Zuverlässigkeit auswirken. Leistungsengpässe, Interoperabilitätslücken und Tail-Latenz beeinträchtigen das Modelltraining. Da Betreiber von Rechenzentren ihre Netzwerke auf 1,6 T und darüber hinaus aufrüsten, müssen Netzwerkarchitekten berücksichtigen, wie sich jede Komponente unter hoher KI-Auslastung und realen Bedingungen verhält.

Die Spezifikationen einzuhalten ist nur der Anfang. Transceiver müssen vom Entwurf bis zur Fertigung streng validiert werden, um nicht nur die Interoperabilität, sondern auch eine optimale Leistung auf Systemebene unter realen Bedingungen zu gewährleisten.

Engpässe in Rechenzentren durch fehleranfällige Verbindungen

Beim Training von LLMs geht es nicht nur um reine Rechenleistung – es erfordert eine schnelle, synchronisierte Kommunikation über riesige GPU-Cluster hinweg. Diese Cluster bestehen aus disaggregierten Servern, die über elektrische und optische Hochgeschwindigkeitsverbindungen miteinander verbunden sind. Das Training wird aufgeteilt und parallel über verschiedene Cluster-Knoten hinweg verarbeitet, wobei jeder Knoten einen Teil des Modells verarbeitet. Alle Knoten müssen synchron arbeiten, um effizient voranzukommen.

Mit steigender Auslastung wächst auch das Risiko einer Unausgewogenheit. Parallelität schafft eine starke gegenseitige Abhängigkeit zwischen den Knoten. Jeder Knoten stellt eine potenzielle Schwachstelle im Netzwerk dar. Eine einzige leistungsschwache Verbindung, sei es ein Transceiver, ein Kabel oder ein Switch, kann den gesamten Cluster ausbremsen. In nicht optimierten Netzwerken bleiben GPUs mehr als die Hälfte der Zeit ungenutzt und warten aufgrund langsamer Verbindungen auf ihre nächste Aufgabe.

Bild 1: Verzögerungen beim Training und Ausfälle aufgrund hoher Arbeitslast werden durch nicht optimierte Netzwerke verursacht.

Damit Betreiber von Rechenzentren ihre KI-Workload-Verarbeitung optimieren können, müssen sie jede Komponente und jede Verbindung im Netzwerk einem Stresstest unterziehen. Transceiver-Ausfälle sind eine der Hauptursachen für Workload-Ausfälle und Tail-Latenz, und fast 50 Prozent aller Trainingsaufgaben scheitern aufgrund von Netzwerk- oder Rechenproblemen. Daher sind die Hersteller von Transceivern und Verbindungen gefordert, ihre Produkte nicht nur so zu konzipieren, dass sie die Spezifikationen erfüllen, sondern auch eine hohe Leistungsfähigkeit unter den in KI-Rechenzentren üblichen Bedingungen mit hohen Temperaturen und enormen Workloads bieten.

Wie funktioniert die Validierung von Transceivern?

Der erste Schritt, um zu verhindern, dass eine Verbindung zu einem Engpass in einem KI-Rechenzentrum wird, ist es, die Leistung auf der Bitübertragungsschicht zu überprüfen. Während der Entwicklung muss jede elektrische und optische Lane mit 224 Gb/s streng auf Signalintegrität, Interoperabilität und Zuverlässigkeit unter realistischen Bedingungen getestet werden, die den Belastungen beim KI-Training entsprechen.

1,6-T-Transceiver müssen für jede der elektrischen und optischen 224-Gbit/s-Lanes immer strengere Anforderungen an die Signalintegrität und Rauschtoleranz erfüllen. Standards wie IEEE P802.3dj für 1,6-T-Ethernet legen Grenzwerte für Sender-Jitter, Senderdispersionsverluste, Bitfehlerrate und Signal-Rausch- und Verzerrungsverhältnis fest. Darüber hinaus gehen die realen Arbeitslasten in KI-Rechenzentren weit über die normalen Betriebsgrenzen hinaus. Leistungsreserven unter immer strengeren Spezifikationen für die Bitübertragungsschicht zu gewährleisten ist schwierig, aber wichtig für die Zuverlässigkeit und Interoperabilität der Bausteine.

Bild 2: Oszilloskop mit hoher Bandbreite und Anwendung für Konformitätstests gemäß IEEE P802.3dj.

Die Signalintegrität ist bei elektrischen Tests von entscheidender Bedeutung. Zu den wichtigsten Messungen des Senders gehören Jitter, Signal-Rausch- und Verzerrungsverhältnis, Linearität und Signal-zu-Rest-Intersymbol-Interferenz-Verhältnis. Die Charakterisierung und Abstimmung der Entzerrung am Sender für eine optimale, klare Übertragung ist entscheidend für den Ausgleich von Kanalverlusten. Entwickler benötigen ein Oszilloskop mit hoher Bandbreite für die Signalerfassung und -analyse (Bild 2). Konformitätsautomatisierungssoftware kann Anwender durch komplexe Validierungsanforderungen und Tests führen, die den Pass/Fail-Status für jede erforderliche Spezifikation bestimmen. Weitere Software für Signalintegrität und Debugging kann bei der Lösung schwieriger Konformitätsprobleme helfen.

Bei den Empfängertests wird ein Bitfehlerratentester (BERT) verwendet, um belastete Muster einzuspeisen und die Fehlerraten unter verschlechterten Bedingungen zu quantifizieren. Das ist für Konformitätstests notwendig, aber besonders wichtig für lineare steckbare Optiken (Linear Pluggable Optics, LPO), eine neue Transceiver-Topologie, die auf einen DSP verzichtet, um den Stromverbrauch zu senken. Dadurch wird die Leistungsreserve für die Netzwerkkarte und den Switch erheblich reduziert, da der Host-Chip ein viel stärker verzerrtes und verrauschtes Signal verarbeiten muss. Die Auswahl des richtigen BERT und Oszilloskops für diese Tests hängt von der Wahl eines Mustergenerators und eines Fehlerdetektors ab, die das richtige Modulationsformat und die richtige Symbolrate verwenden (120 GBaud PAM4 für 224 Gb/s-Signale).

Warum ist TDECQ bei optischen Messungen relevant?

Beim Testen der optischen Leistung geht es darum, genaue Messungen der TDECQ (Transmitter Dispersion and Eye Closure Quaternary) durchzuführen. TDECQ quantifiziert den Leistungsverlust, den ein realer Sender im Vergleich zu einer idealen Referenz bei einer bestimmten Ziel-Symbolfehlerrate (SER) verursacht. TDECQ fasst Beeinträchtigungen wie Bandbreitenbeschränkungen, Rauschen und Intersymbolinterferenzen in einer einzigen Metrik zusammen. Ethernet-Standards stützen sich auf TDECQ als primäre Metrik für den Test von optischen Transceivern als Kriterium für die Konformität, sodass es ein wichtiges Unterscheidungsmerkmal für die Zuverlässigkeit und Interoperabilität von Transceivern ist.

Weitere wichtige optische Kennwerte sind die optische Modulationsamplitude (OMA – die optische Leistungslücke zwischen den optischen Pegeln 0 und 1), das Extinktionsverhältnis (das Verhältnis der Leistung zwischen hohen und niedrigen Logikpegeln für die Laserleistung), der Referenz-Entzerrer-Rauschverstärkungskoeffizient (Ceq) und das relative Intensitätsrauschen (RIN) des Lasers.

Optische Messungen werden in der Regel mit einem rauscharmen Abtastoszilloskop durchgeführt. Ein ideales Abtastoszilloskop für die Validierung von 224 Gb/s verfügt über ein extrem geringes Eigenrauschen (<20 µW RMS) und einen extrem geringen Jitter (< 90 fs RMS) für beste optische Genauigkeit und Empfindlichkeit. Für die Konformität mit optischen Messungen von 224 Gb/s ist außerdem eine Taktrückgewinnung von 112 GBaud erforderlich.

Automatisierte Testprogramme sind in Oszilloskope integriert, um eine schnelle TDECQ-Prüfung zur Konformitätsvalidierung durchzuführen (Bild 3). Abtastoszilloskope können zur Bewertung der Bauteileigenschaften sowohl während der Forschung und Entwicklung als auch während der Fertigung, zur Charakterisierung der Signalqualität, zur Analyse von Beeinträchtigungen und zur Feinabstimmung der Entzerrung verwendet werden. Je höher die optische Empfindlichkeit, desto größer ist die Messmarge, die erzielt werden kann, wodurch eine bessere Charakterisierung der Signalintegrität des Bauteils möglich ist. Margentests unter belasteten Augenbedingungen bei verschiedenen Temperaturschwankungen sind entscheidend, um einen robusteren Betrieb unter realen Bedingungen zu gewährleisten.

Bild 3: TDECQ-Messung eines 106-Gbaud-PAM4-Signals (112 Gb/s).

Wo treten Signalverluste und Störungen auf?

Transceiver sind nur so gut wie die Verbindungen und Kabel, über die ihre Signale übertragen werden. Während die meisten KI-Rechenzentren heute auf optische Verbindungen setzen, setzen einige aktive Kupferkabel (ACC) oder herkömmliche passive Kupferkabel ein. Unabhängig vom Medium ist es eine Herausforderung, eine robuste Signalintegrität bei 224 Gb/s zu gewährleisten: Die Kanalverluste sind höher, Reflexionen stören stärker und das Übersprechen ist intensiver. Kleine Diskontinuitäten oder Impedanzfehlanpassungen können die Leistung erheblich beeinträchtigen. Die Charakterisierung und Analyse dieses Verhaltens erfordert fortschrittliche Messverfahren.

Die S-Parameter-Analyse liefert eine Frequenzbereichsansicht der Einfügungsdämpfung (Signalverlust entlang des Kanals), der Rückflussdämpfung (Reflexionen aufgrund von Impedanzfehlanpassungen) und des Übersprechens (unerwünschte Kopplung zwischen benachbarten Signalpfaden). Zur Charakterisierung der S-Parameter für 224-Gb/s-Verbindungen ist ein Vektor-Netzwerkanalysator (VNA) erforderlich, der eine Bandbreite von 70 GHz bis 110 GHz unterstützt. Die Kanalbetriebsmarge (Channel Operating Margin, COM) ist eine Schwellenwertmetrik, die in den aktuellen IEEE 802.3-Spezifikationen enthalten ist und Einfügungsdämpfung, Reflexionen, Übersprechen und Rauschen kombiniert.

Die Zeitbereichsreflektometrie (TDR) ergänzt die Frequenzbereichsanalyse durch zusätzliche räumliche Auflösung und zeigt die Position und Größe von Impedanzfehlanpassungen in komplexen Leiterplattenbahnen, Steckverbindern und Kabeln an. Viele moderne VNAs und Hochgeschwindigkeitsoszilloskope verfügen mittlerweile über TDR-Modi, um die Ursachen von Diskontinuitäten zu isolieren.

Schließlich ist die Entkopplung unerlässlich, um die Auswirkungen von Testvorrichtungen und Adaptern aus dem Messpfad zu entfernen und sicherzustellen, dass die Messungen nur das Verhalten des Prüflings (DUT) widerspiegeln. Dadurch werden die Simulationskorrelation und die Messgenauigkeit verbessert. Ein beliebter Algorithmus für die genaue Entkopplung physikalischer Strukturen innerhalb von digitalen Hochgeschwindigkeitskanälen ist Automatic Fixture Removal (AFR).

Skalierung der Transceiver-Produktion

Sobald das Design eines Transceivers fertiggestellt ist, müssen die Hersteller schnell die Serienproduktion hochfahren, um die Nachfrage nach Hardware für KI-Rechenzentren zu befriedigen. Eine langsame Produktionssteigerung kann dazu führen, dass man den Markt komplett verpasst, aber die Hersteller können auch keine Abstriche bei der Qualität machen. Es ist entscheidend, hohe Ausbeuten aufrechtzuerhalten, um die Auslieferung fehlerhafter Geräte und Probleme beim endgültigen Einsatz zu vermeiden. Die Herausforderung für QA-Ingenieure besteht darin, die Produktion schnell hochzufahren, ohne die Zuverlässigkeit oder Testgenauigkeit zu beeinträchtigen.

Viele Testentwickler erstellen ihre Testprogramme auf der Grundlage von Abtastoszilloskopen und verwenden diese, um ihre optischen Transceiver während der Fertigung zu „“tunen““. In einer schnellen Rückkopplungsschleife schreibt das Produktionssystem die Anfangseinstellungen in ein neu gebautes Transceiver-Modul (z. B. Laser-Bias, Modulator-Spannung) und misst dann sofort eine wichtige Leistungskennzahl wie TDECQ. Auf der Grundlage des Messergebnisses werden die Einstellungen angepasst und die Kennzahl erneut gemessen. Diese Schleife wiederholt sich schnell, bis der Sender optimiert ist und das Gerät die Leistungsschwellenwerte überschreiten kann.

Bild 4: Teststation für die Fertigung von optischen Transceivern mit Abtastoszilloskop, Taktrückgewinnung, optischem Schalter/Controller und Testautomatisierungssoftware.

In der Regel werden Optimierungstests auch bei mehreren Temperatur-Sollwerten durchgeführt, um sicherzustellen, dass jedes Gerät über den gesamten Betriebstemperaturbereich hinweg optimal funktioniert. Das Abtastoszilloskop kann mit einem optischen Schalter und einer Testautomatisierungssoftware kombiniert werden, um den Test jeder einzelnen Fertigungsstraße zu erleichtern. So können mehrere Straßen und Geräte gleichzeitig getestet werden, was die Testzeit verkürzt und die Hardwareauslastung verbessert (Bild 4).

Mehr als nur Tests der Bitübertragungsschicht

Die Einhaltung der Anforderungen an die Bitübertragungsschicht ist notwendig, aber nur der Anfang, um die Leistung von Transceivern in KI-Rechenzentren sicherzustellen. Standards wie IEEE 802.3dj definieren Spezifikationen mit 224 Gb/s pro Lane, aber es gibt viele Probleme, die unter realen Bedingungen auftreten können und die durch physikalische Validierung nicht erkennbar sind. Wenn Verbindungen sich Geschwindigkeiten von 1,6 T nähern und diese überschreiten, müssen die Tests auf die nächste Stufe gebracht werden, indem Stresstests über die Bitübertragungsschicht hinaus durchgeführt werden.

Bei diesen Geschwindigkeiten ist die Vorwärtsfehlerkorrektur (FEC) unerlässlich, um die aggregierte Bitfehlerrate (BER) über alle Kanäle hinweg auf einem akzeptablen Niveau zu halten und eine zuverlässige Datenübertragung zu gewährleisten. Während sich die Konformitätsprüfungen für Empfänger auf die BER vor der FEC konzentrieren, muss ein konformer Empfänger dennoch eine akzeptable BER aufweisen, damit die FEC wirksam ist. Bei der Post-FEC-Analyse geht es darum, die Fehlerverteilung zu bestimmen, bei der FEC unzuverlässig wird. Selbst bei einer durchschnittlichen BER innerhalb der Spezifikation können Burst-Fehler die FEC-Korrekturgrenzen überschreiten und zu einem nicht wiederherstellbaren Frame-Verlust führen.

Da KI-Rechenzentren einen Datenverlust von nahezu Null erfordern, ist die Analyse der FEC-Leistung von entscheidender Bedeutung. Aus diesem Grund ist die Analyse der Post-FEC-Leistung, insbesondere der Fehlerverteilung und der Frame-Loss-Rate (FLR), genauso wichtig wie herkömmliche Konformitätsmetriken für Empfänger. Interconnect-Testplattformen können Geräte unter voller 1,6-T-Last mit realen Paketflüssen und Beeinträchtigungen belasten, um Rauschen und Überlastung auf Systemebene zu simulieren. Durch die Validierung des End-to-End-Verhaltens der Verbindung, einschließlich einer FEC-Tail-Analyse zur Untersuchung, wie ein Empfänger auf aufeinanderfolgende Fehler reagiert, können Entwickler beurteilen, ob ein Transceiver wirklich für den KI-Einsatz bereit ist.

Bei Transceivern für KI-Rechenzentren darf der Test nicht bei Layer 1 enden. Es ist entscheidend, die Validierung auf die Leistung des gesamten Protokollstacks auszuweiten. Entwickler sollten das Verhalten von Layer 2/3 unter realistischen Bedingungen validieren, um Probleme im Zusammenhang mit MAC-Adressierung, Routing, IP-Paketverarbeitung und Transporteffizienz aufzudecken und sicherzustellen, dass die Transceiver parallele Datenübertragungen von KI-Trainings-Workloads unterstützen können. Durch die Emulation realer Ethernet/IP-Verkehrsmuster bei voller Leitungsgeschwindigkeit können Probleme beim Routing, bei der Flusskontrolle, der Latenz, der Verbindungsstabilität und der Überlastung aufgedeckt werden, die durch die physikalische Signal-Analyse allein nicht sichtbar sind.

Durch die Kombination von Validierung der Bitübertragungsschicht, FEC-fähigen Empfängertests und vollständiger Protokollstapel-Emulation (Schicht 1 – 3) erhalten Entwickler von Transceivern ein umfassenderes Bild der Transceiver-Leistung. Dieser ganzheitliche Ansatz mag aufwendig erscheinen, ist jedoch entscheidend, um die Zuverlässigkeit, den Durchsatz und die Effizienz von KI-Verbindungen zwischen Rechenzentren zu gewährleisten, wenn Netzwerke auf 1,6T-Ethernet und darüber hinaus aufgerüstet werden.

Perspektiven für 3,2-T-Ethernet und neue Modulationsformate

Während sich die Industrie darauf vorbereitet, 1,6-T-Ethernet über 224-Gb/s-Kanäle einzusetzen, blicken einige Entwickler bereits in die Zukunft. Der nächste Schritt, der technologische Sprung, der die Geschwindigkeiten im Rechenzentrum auf 3,2-T-Ethernet erhöhen wird, sind 448-Gb/s-Kanäle. Drei primäre Signaloptionen werden derzeit evaluiert: 224 GBd PAM4, 174 GBd PAM6 und 150 GBd PAM8. Jede Option hat Vor- und Nachteile in Bezug auf Komplexität, Bandbreite und Störfestigkeit. Frühe Forschungsergebnisse zeigen, dass jede dieser potenziellen Methoden geeignet sein könnte, und einige Entwickler arbeiten bereits daran, die beste Lösung unter Verwendung von Hochgeschwindigkeits-Arbiträr-Signalgeneratoren und Abtastoszilloskopen zu finden. Gleichzeitig können neue Transceiver-Topologien wie LPO, die durch neue photonische ICs ermöglicht werden, diese Entscheidungen beeinflussen, da sich die Leistungsanforderungen und Prioritäten ändern und die Datenstandards der nächsten Generation neu gestalten. (bs)

Autor

Ben Miller, Product Marketing Manager, Digital Products bei Keysight Technologies