Eckdaten

Der Artikel beschreibt die Evaluierung eines Kompressionsschemas im Open-Radio-Equipment-Interface-Standard (ORI) für E-Utra-I/Q-Daten mithilfe des Highlevel-Synthese-Tools (HLS) der Xilinx-Vivado-Design-Suite. Dadurch lassen sich die Auswirkungen auf die Signaltreue, die dabei eingeführte Latenz und die Kosten der Implementierung besser abschätzen.

Der immer weiter steigende Bandbreitenbedarf in Mobilfunknetzen verstärkt die Forderungen nach neuen Netzwerkstrukturen und -fähigkeiten wie MIMO (multiple-input, multiple-output) höherer Ordnung und Carrier-Aggregation. Dadurch erhöht sich die Netzwerk-Komplexität. Um die Netzwerk-Ressourcen zu optimieren, sind die Betreiber dazu gezwungen, Änderungen in den Architekturen vorzunehmen, wie etwa die Zentralisierung des Baseband Processing. Positiv an dieser Maßnahme sind die reduzierten Kosten der Basisband-Verarbeitung, jedoch erhöht sich durch die gemeinsame Nutzung dieser Ressourcen die Komplexität des Fronthaul-Netzes.

Fronthaul-Netze transportieren die modulierten Antennensignale der Carrier zwischen den Basisband-Einheiten (baseband units, BBU) und den entfernten Funkstationen (remote radio heads, RRH) und sind meist im Common-Public-Radio-Interface-Protokoll (CPRI) über Glasfaser implementiert. Das CPRI-Protokoll erfordert eine konstante Bitrate. Durch die über die Jahre kontinuierlich erweiterten Spezifikationen wird die maximale Datenrate des Protokolls den steigenden Bandbreitenanforderungen gerecht. Netzwerkbetreiber suchen nun nach geeigneten Technologien, mit denen sie die Datenrate signifikant erhöhen können, ohne die Zahl der eingesetzten Glasfasern zu erhöhen. Damit wollen sie den bestehenden Capex- und Opex-Overhead pro Zelle aufrechterhalten.

600_Xilinx_Aufmacher

Xilinx

Zusätzlich untersuchen die Netzwerkbetreiber alternative Netzwerkstrukturen. Dazu zählt unter anderem der Umbau der Schnittstellen zwischen der Basisbandverarbeitung und den Funkstellen (radio units), mit dem Ziel, die Fronthaul-Bandbreite zu verringern. Allerdings erschweren es solche funktionalen Umorientierungen unter Umständen, die stringenten Performance-Anforderungen bestimmter drahtloser Interface-Spezifikationen zu erfüllen. Eine alternative Methode zur Bandbreitenreduktion besteht in der Implementierung eines Kompressions-/Dekompressionsschemas (codec) für Funkschnittstellen, die den verfügbaren Durchsatz vollständig ausschöpfen oder bereits überschreiten. Die erreichbaren Kompressionsraten hängen von der Charakteristik der Funksignale ab, wie Rauschpegel, Dynamikbereich und Oversampling-Raten.

IQ-Kompressionsalgorithmus

Genauer betrachtet wird im Folgenden ein solches Kompressionsschema im ORI-Standard für E-Utra-IQ-Daten, also die realen und imaginären Anteile der übertragenen Modulationssymbole. Bild 1 verdeutlicht anhand einer stark vereinfachten Applikation den Einsatz eines Kompressions- und Dekompressionsmoduls mit CPRI-IQ-Input-Output-Interface. Der ORI-Standard ist eine Verfeinerung der CPRI-Spezifikation zur Realisierung einer offenen BBU/RRH-Schnittstelle. Das jüngste ORI-Release spezifiziert eine verlustbehaftete Technik im Zeitbereich zur E-Utra-Datenkompression für Kanal-Bandbreiten von 10, 15 oder 20 MHz. Eine um 50 % reduzierte Bandbreitenanforderung erzielt die Kombination eines ¾-Resampling mit fester Rate und nichtlinearer Quantisierung von 15-Bit-IQ-Samples. Beispielsweise ermöglicht dies eine 8×8-MIMO-Konfiguration mit Abdeckung von zwei Sektionen über eine einfache CPRI-Verbindung mit 9,8 GB/s.

Bild 1: Vereinfachtes Mobilfunksystem mit CPRI-IQ-Kompression.

Bild 1: Vereinfachtes Mobilfunksystem mit CPRI-IQ-Kompression.

Xilinx

Die Resampling-Stufe involviert die Interpolation der I- und Q-Ströme im Eingang, die Weiterleitung der interpolierten Daten über ein Tiefpassfilter und die Dezimation des Datenstroms im Ausgang. Um die Signalverluste durch Down- und Upsampling-Schritte zu minimieren, stützt sich der Filterentwurf auf die spezifische Kanal-Charakteristik. So erreicht die effektive Bandbreite eines OFDMA-Ausgangssignals in einem 20-MHz-E-Utra-Downlink-Kanal mit 30,72 MHz Sampling den Wert 18,015 MHz, unter der Voraussetzung eines verlustlosen, idealen Tiefpass-Filters mit ¾-Resampling-Rate.

Eine nichtlineare Quantisierung (NLQ) transformiert die 15-Bit-Baseband-IQ-Samples mit einer Normalverteilung in quantisierte 10-Bit-Werte. Der NLQ-Prozess minimiert den Quantisierungsfehler mithilfe einer kumulativen Verteilungsfunktion (cumulative distribution function, CDF) mit spezifizierter Standardabweichung, um die bei feinerer Granularität häufiger auftretenden Amplituden gegenüber den weniger häufigen stärker zu berücksichtigen. Wie Bild 2b zeigt, füllt die quantisierte Konstellation einen viel höheren Anteil ihres geringeren Zahlenbereichs aus als die in Bild 2a dargestellte Eingangskonstellation. Im Vergleich zu alternativen, linearen Quantisierungsverfahren minimiert dies den Quantisierungsfehler. Meist werden die I- und Q-Samples in einer Lookup-Tabelle implementiert. Sie können entsprechend der jeweiligen Verteilungsfunktionen unabhängig voneinander quantisiert werden.

Bild 2: IQ-Anordnung des Referenz-20-MHz-E-Utra-DL-Kanal-Eingangs-Frame (a), und die komprimierten IQ-Daten (skaliert) zur Illustration des effektiv nutzbaren Zahlenbereichs für jede Konstellation (b).

Bild 2: IQ-Anordnung des Referenz-20-MHz-E-Utra-DL-Kanal-Eingangs-Frame (a), und die komprimierten IQ-Daten (skaliert) zur Illustration des effektiv nutzbaren Zahlenbereichs für jede Konstellation (b). Xilinx

Mu-Law ist ebenfalls eine nichtlineare Quantisierung und verwendet eine logarithmische Funktion zur Redistribution der quantisierten Werte über den verfügbaren Zahlenbereich. Anders als die CDF-basierende Quantisierung, welche die statistische Distribution der Eingangs-Samples berücksichtigt, ist das mit Mu-Law quantisierte Ausgangssignal eine Funktion des korrespondierenden Eingangs-Samples und des spezifizierten Kompander-Wertes.

Als Beispiel für einen Vergleich mit einem äquivalenten Kompressionsverhältnis von 50 % soll ein 16-auf-8-Bit-Mu-Law-Encoder dienen. Da dieser kein Resampling erfordert, ist die Mu-Law-Kompression eine kostengünstigere Lösung in Bezug auf Latenz und Implementation. Sie bietet außerdem eine Entscheidungsmöglichkeit zwischen Designkomplexität und erzielbarer Signaltreue des rekonstruierten Signals.

Skalierung der Code-Architektur

Für die Prototyp-Konfiguration wird der Kompressionsalgorithmus aufskaliert, um einen 9,8304-GB/s-CPRI-Link (Line-Bitrate Option 7) voll auszunutzen. Die laut ORI komprimierte E-Utra-Sample-Spezifikation erlaubt es, 16 komprimierte IQ-Kanäle (32 unabhängig komprimierte I- und Q-Kanäle) über einen einzigen 9,8G-CPRI-Link zu übertragen. Eine Zielvorgabe des Durchsatzes von drei komprimierten Samples pro CPRI-Takt reicht aus, um das 32-Bit-Logi-Core-IP-CPRI-IQ-Interface vollzupacken. Dies ergibt das geforderte komprimierte IP-Ausgangssignal von 737,28 MSamples pro Sekunde.

Die Vorgabe eines Domains mit einfachem Takt bedingt es, das Resampling-Filter so auszulegen, dass es die Ausgangsrate von drei Samples pro Taktzyklus erreicht. Zudem erlaubt es die Interpolation des Eingangs-Signalstroms mit Nullen, die Eingangs-Samples, die nicht zum Signal beitragen, zu vernachlässigen. Somit wird der Signalstrom im Ausgang zu einer Funktion der Interpolationsrate von Subfiltern, wobei jedes Subfilter einen Subset der FIR-Koeffizienten (Gesamtzahl der Koeffizienten/Interpolationsrate) verarbeitet. Jedes der vier parallelen Filter wirkt auf ein Subset von Kanälen. Das hebt den gesamten Durchsatz auf die erforderlichen drei komprimierten Samples pro Taktzyklus an. Zusammen mit dem hohen Durchsatz reduziert diese hier beschriebene Architektur auch die Latenz des Resampling, da in jedem Subfilter nur ein Teil der Koeffizienten genutzt wird.

Bild 3: IQ-Codec-Architektur mit den Verarbeitungsraten der Samples an den IP-Schnittstellen des Codec (dargestellt ist nur der Downlink-Pfad).

Bild 3: IQ-Codec-Architektur mit den Verarbeitungsraten der Samples an den IP-Schnittstellen des Codec (dargestellt ist nur der Downlink-Pfad). Xilinx

Im Kompressionspfad wird die NLQ-Quantifizierungstabellle mithilfe der kumulativen Verteilungsfunktion (CDF) berechnet. Unter der Annahme einer symmetrischen IQ-Distribution wird die NLQ-Lookup-Tabelle auf 214 Einträge mit auf 9-Bit quantisierten Werten verkleinert. Da dieses Design drei parallele Lookup-Vorgänge pro Zyklus erfordert, sind drei parallele Lookup-Tabellen mit denselben Quantisierungswerten zu implementieren. Die Quantisierungsebenen lassen sich für die I- und Q-Samples unabhängig voneinander berechnen, wozu die erwarteten oder beobachteten Werte der Standardabweichung herangezogen werden. Alternativ ist es auch möglich, Subsets von Kanälen unabhängig voneinander auf Basis der aktuellen Signalpegelmessungen oder von Netzwerkparametern höherer Ordnung zu quantisieren. Zur Dekompression kommt die Quantile-Funktion (Inversion von CDF) zum Einsatz, um die inverse NLQ-Tabelle zu berechnen. Deren Größe ist auf 29 Einträge von 14-Bit-Werten limitiert.

Der implementierte Codec-Algorithmus wurde mit Anregung durch einen 20-MHz-LTE-E-UTRA-FDD-Kanal-Stimulus getestet, der mit der Matlab-LTE-System-Toolbox generiert wurde. Anschließend kam der Keysight-VSA zur Demodulation der erfassten IQ-Daten zum Einsatz. Danach erfolgte die Quantifizierung der Signalverzerrung infolge der Kompressions- und Dekompressionsschritte durch Messung der Größe des Fehlervektors (error vector magnitude, EVM) in der Ausgangswellenform. Im nächsten Schritt wurden die erhaltenen EVM-Messungen im Ausgang – die den Unterschied zwischen idealem und gemessenem Signal repräsentieren – mit dem Referenzeingangssignal EVM verglichen.

Highlevel-Modellierung und Implementierung

Der erste Schritt der Implementierung bestand in der Entwicklung einkanaliger Kompressions- und Dekompressionsmodelle in der GNU-Octave-Sprache, unter Nutzung der Packages für Signalverarbeitung und Statistik. Zusätzlich zu den sehr nützlichen Datenpunkten für die Verifikationsreferenz erzeugt das Modell auch einen Satz FIR-Filterkoeffizienten und Quantisierungstabellen. Als anspruchsvolles mathematisches Modell bietet das Vivado-HLS-Tool einen klaren Übergangspfad zur Evaluierung der vorgesehenen Architektur bezüglich der potenziellen Hardwareperformance und deren Kosten. Die C++-Testbench ist so eingerichtet, dass sie die Eingangsdatenströme mit der Komprimierungs- und Dekomprimierungsfunktion bearbeitet. Synthetisiert werden diese Funktionen unabhängig voneinander, da sie an den entgegengesetzten Enden eines CPRI-Link platziert sind. Unter Nutzung der HLS-Ströme erfolgt die Implementierung aller externen und internen funktionalen Interfaces mit dem Interleave-Datenfluss des Kanals über einfache C++-Loops.

Die Vivado-HLS-FIR-IP erstellt den Prototyp des Resampling-Filters. Um die hohen Anforderungen dieses Designs im Durchsatz erfüllen zu können, werden parallele Single-Rate-FIR-Filter verwendet und eine Dezimation mit Loop-basierendem Filterausgang verwendet. Es ist natürlich möglich, ein Resampling-Filter mit besserer Ressourcen-Effizienz zu erstellen, indem man es als Polyphase-Filter implementiert. Eine derartige, einfach einsetzbare Alternative mit Unterstützung der ORI-Resampling-Raten ist das Mehrkanal-Filter mit verringerter Sample-Rate, wie es die Xilinx Application Note XAPP1236 (Multi-Channel Fractional Sample Rate-Conversion Filter Design Using Vivado High-Level Synthesis) beschreibt.

Die Vorteile einer schnellen C-Simulation treten noch deutlicher zutage, wenn die zu verifizierenden Datensätze eine gewisse Größe erreichen. Das ist der Fall, wenn man einen IQ-Kompressionsalgorithmus evaluiert. Denn ein voller Datenrahmen (307.200 IQ-Samples pro Kanal) ist als Minimalwert erforderlich, um die VSA-Tools für EVM-Messungen einzusetzen. Hierbei ließ sich verglichen mit der C/RTL-Ko-Simulation eine um zwei Größenordnungen höhere Geschwindigkeit für die C-Simulation erzielen. Das macht aus der neunstündigen Ko-Simulation eine fünfminütige C-Simulation für den IP-Test-Run der Kompression. Weitere wichtige Vorteile beim Einsatz der HLS-Testbench sind die einfache Nutzung der Eingangsdaten und die Erfassung der Ausgangsdaten auf Basis der HLS-Ströme. Das Ergebnis war die Bereitstellung eines Interfaces für die Datenanalyse mit VSA-Tools oder ein direkter Vergleich mit dem Ausgang des Octave-Modells auf der C++-Testbench.

Performance-Messungen

Die Messungen mit dem VSA ergaben einen mittleren EVM-Wert von 0,29 % für eine Codec-Konfiguration mit 144 FIR-Koeffizienten. Im Vergleich mit den Original-Eingangsdaten mit einem EVM-RMS-Wert von 0,18 % beträgt das zusätzliche, der Kompressions-Dekompressionskette zuzuschreibende EVM 0,23 %. Verglichen mit dem Mu-Law-Kompressionsalgorithmus resultiert das bei äquivalenten Eingangs-Datensätzen in einem mittleren EVM von 1,07 %.

Verringerte Latenz und kostengünstigere Ressourcennutzung machen die Mu-Law-Kompression zu einer besseren Wahl gegenüber der von ORI vorgeschlagenen IQ-Kompression. Das gilt für Situationen, in denen man mindestens 1 % des EVM-Budgets (von 8 % der gesamten LTE-Downlink-Signalverarbeitung) der IQ-Kompression zuweisen kann. Allerdings impliziert jede zusätzliche Signalverzerrung engere Performance-Ziele für die verbleibenden Systemkomponenten. Die potenziellen Kostenvorteile der IQ-Kompression werden also eventuell durch die Kostensteigerungen der digitalen Frontend-Komponenten und der Leistungsverstärker wieder aufgelöst.

Die Vivado-Highlevel-Synthese bestätigte den geforderten Durchsatz in Bezug auf das Initiationsintervall – also die Zahl der Taktzyklen, bevor der Top-level Task neue Eingangsdaten akzeptieren kann. Außerdem konnte verifiziert werden, dass die exportierten Vivado-IP-Integrator-Kerne die Timing-Anforderungen der Kintex-Ultra-Scale-Plattform erfüllen.