Flash-Speicher-Technologien im Vergleich

Bit für Bit zur industriellen Speicherlösung

Ulrich Brandt Ulrich Brandt

2. Juni 2017 - 08:00

Bild 4: Das Innenleben einer SD-Speicherkarte von Swissbit. Zu sehen ist das PCB-Substrat mit einem Stack-up mehrerer NAND-Flash-Chips in der Mitte, der Golddraht-Stufenverdrahtung (links) und dem Flash-Controller (rechts oben).

(Bild: Swissbit)

TLC, MLC, SLC, pSLC – Flash-Speichertechnologien gibt es viele. Nur wer die grundlegenden Mechanismen der Speicherung und Effekte auf Speicherebene kennt, versteht, welche Flash-Speicherprodukte sich für welche Applikationen eignen – und er weiß, welche Fragen er den Anbietern von Speicherbausteinen stellen muss.

Abhängig von der Anwendung entscheiden unterschiedliche Aspekte die Auswahl eines Flash-Speicher-Moduls für industrielle Embedded-Lösungen: Schreib- und Lesegeschwindigkeit, die Lebensdauer von Flash-Medien (Endurance), die Lebensdauer der gespeicherten Daten (Retention), Datensicherheit bei Stromausfall, Temperatur- und Vibrationsunempfindlichkeit sowie die langjährige Lieferbarkeit eines definierten Produkts. Maßgeblich entscheidend für viele dieser Aspekte ist ein Flash-spezifischer Effekt: die Alterung von NAND-Chips.

Bild 1: Eine alternde Speicherzelle: In der Tunneloxidschicht sammeln sich Elektronen, wodurch sich die Schwellspannung der Zelle verschiebt, bis diese nicht mehr lesbar ist.Swissbit

Die Zellen eines NAND-Flashs überstehen nur eine begrenzte Zahl von Löschungen. In der Oxidschicht, die das Abfließen der Elektronen aus dem Floating-Gate verhindert, sammeln sich bei jeder Erzeugung des Tunneleffekts durch die Programmierspannung Elektronen mit erhöhtem Energieniveau an. Damit verschiebt sich auf Dauer die Schwellwertspannung der Speicherzelle, bis diese nicht mehr lesbar ist (Bild 1).

Flash-Alterung – wann ist Schluss?

Ein zweiter Alterungseffekt kommt hinzu: Die Entstehung leitender Pfade durch die Oxidschicht, wodurch eine Zelle allmählich ihren Ladungszustand und damit das gespeicherte Bit verliert. Hohe Temperaturen verstärken diesen Effekt massiv. Untersuchungen an einem 25-nm-MLC-NAND (Multi-Level Cell) haben gezeigt, dass die Retention nach fünf Jahren bei 55 °C auf etwa 75 Prozent fällt. Bei einer vergleichweise moderaten Temperaturerhöhung auf 85 °C fällt die Retention bereits auf unter 10 Prozent.

Der Effekt nimmt mit der Zeit immer stärker zu, je mehr sich die Zelle dem Wert ihren maximalen Programmier-Lösch-Zyklen (P/E-Zyklen) annähert. Die Auswirkung auf die Retention ist gewaltig: Kann man sowohl bei einem Single-Level-Cell-NAND als auch bei einem Multi-Level-Cell-NAND ursprünglich von einer Retention von zehn Jahren ausgehen, liegt diese am Ende des Lebenszyklus nur noch bei einem Jahr. Dieser Punkt ist beim MLC bereits nach 3000 P/E-Zyklen erreicht, beim SLC erst nach 100.000 P/E-Zyklen. Diese hohe Anzahl an P/E-Zyklen ist der wichtigste Grund, weshalb SLC-Speicher ungeachtet ihrer höheren Kosten im industriellen Umfeld weiterhin die bevorzugte, weil dauerhaftere Wahl darstellen.

Die Problemfelder Ladungszustand und Schwellspannung sind auch der Grund, warum die im Consumerbereich beliebten, preisgünstigen Triple-Level-Cell-NAND-Chips (TLC) als Basis für langlebige Speicher in industriellen Anwendungen nicht in Frage kommen. Um 3 Bit pro Zelle zu schreiben, müssen bei TLC-Speichern acht verschiedene Ladungsniveaus unterscheidbar sein. Dabei machen sich die degenerativen Effekte viel schneller bemerkbar, denn die ursprüngliche Retention sinkt beim TLC-Speicher bereits nach 500 P/E-Zyklen von einem Jahr auf drei Monate.

Auf Seite 2 erfahren Sie, was es mit Pseudo-Single-Level-Cell auf sich hat und warum bei Herstellerangaben zur Endurance Vorsicht geboten ist.

Der Kompromiss zum Datenerhalt: pSLC

Bild 2: Die Endurance von SLC, PSLC und MLC im Vergleich. Das pSLC-Verfahren nutzt nur das erste, starke Bit pro Zelle und erhöht die möglichen Schreibzyklen damit auf 20.000.Swissbit

Der Effekt reduzierter Retention hat zu einer kommerziell und technisch sehr interessanten Kompromisslösung geführt – dem Pseudo-Single-Level-Cell-Verfahren (pSLC), denn eine geringere Anzahl zu unterscheidender Ladungsniveaus macht die Speicherung von Informationen in einem NAND-Chip auch weniger anfällig. Das pSLC-Verfahen nutzt in einem im Vergleich zu SLC kostengünstigeren MLC-Chip nur das erste „starke“ Bit pro Zelle. Der pSLC-Modus ist deutlich schneller als das Standardverfahren auf Multi-Level-Cell-Flash-Speichern und erhöht die möglichen P/E-Zyklen von 3000 auf 20.000. Unter gleichen Konditionen erhöht pSLC die Lebensdauer der Datenträger um den Faktor 6,7 bei lediglich doppelten Kosten pro gespeichertem Bit. Bild 2 zeigt die Lebensdauer von SLC, pSLC und MLC im Vergleich.

Vorsicht bei Endurance-Angaben: Workload ist entscheidend

Für die konkrete Auswahl von Produkten ist es für den Anwender wichtig zu wissen, was sich hinter den Angaben der Speicherhersteller verbirgt. Zwei Maße geben zum Beispiel die Lebensdauer von SSD an: Terabyte Written (TBW) und Drive Writes Per Days (DWPD). TBW sagt aus, wie viele Daten über die Lebenszeit des Speichers insgesamt geschrieben werden können, wohingegen DWPD eine Aussage darüber trifft, wie viele Daten innerhalb der Garantiezeit pro Tag maximal schreibbar sind.

Entwickler und Kunden sind hier auf die Angaben des Herstellers angewiesen, da die entsprechenden Benchmarks sehr aufwendig sind. Ob diese Angaben jedoch eine Aussagekraft für die spezifische Anwendung haben, ist nicht gewiss, denn die Werte hängen stark von der Art des Workloads im Test ab. Messungen mit einer 480-GB-SSD von Swissbit ergaben, je nach verwendetem Messverfahren, eine Lebensdauer von 1360 TBW, 912 TBW oder 140 TBW. Der höchste Wert von 1360 TBW wurde beim sequenziellen Schreiben erzielt, der mittlere Wert trat beim Client-Workload auf und der kleinste Wert erschien bei Enterprise-Workload. Beim Client-Workload orientiert sich der Test am Nutzerverhalten eines PC-Anwenders und erzeugt zum größeren Teil sequenzielle Zugriffe. Der Enterprise-Workload simuliert hingegen das Verhalten eines Servers mit Multi-User-Umgebung, die zu 80 Prozent Random-Zugriffe erzeugt.

Bei diesen Belastungstests handelt es sich um Vorgaben der Standardisierungsorganisation JEDEC. Damit wäre eigentlich eine Vergleichbarkeit von Produkten und Herstellern gegeben, doch oft fehlen in den Datenblättern Angaben zum Workload. Viele Hersteller werben mit hohen Endurance-Werten, die auf dem nur in wenigen Anwendungen vorkommenden, sequenziellen Schreiben basieren. Der Anwender sollte die Angaben also mit Vorsicht genießen, denn Endurance-Werte einer Flash-Lösung können bei sequenziellem Schreiben und Enterprise-Workload leicht um den Faktor zehn differieren.

Auf der folgenden Seite beleuchten wir das stressige Leben eines Flash-Speichers und erläutern, wie Speicherhersteller die Effizienz erhöhen.

Flash-Speicher leben im Stress

Löschungen treiben die Alterung der Speicherzellen voran. Diese sind jedoch erforderlich, um den Speicher beschreiben zu können. Das könnte zu dem Schluss verleiten, dass in einer rein lesenden Anwendung, wie beispielsweise bei einem Boot-Medium, Daten aufgrund der verlängerten Retention langfristig sicher sind. Dies ist jedoch ein Irrtum, denn mit dem Program-Disturb existiert noch ein anderes Phänomen, das zu Lesefehlern und indirekt zur Abnutzung der NAND-Zellen führt. Dabei stresst jeder Schreibvorgang auch die Zellen in der Umgebung der zu programmierenden Zelle, da sie eine leicht erhöhte Spannung aufweisen.

Aber auch das Lesen belastet den Speicher, denn in benachbarten Pages sammeln sich Ladungen an (Read-Disturb), wodurch es mit der Zeit zu einer Erhöhung des in den Zellen gespeicherten Potenzials kommt. Dadurch entstehen Lesefehler, die nach dem Löschen des Blocks wieder verschwinden. Der Effekt fällt durch die niedrigere Spannung beim Lesen geringer aus als beim Schreiben, doch auch hier treten Bit-Fehler auf. Diese gleicht das Fehlerkorrekturverfahren (Error Correcting Code, ECC) durch ein Löschen des Blocks aus. Entwickler müssen dabei bedenken, dass der Effekt besonders stark bei Anwendungen auftritt, die immer wieder dieselben Daten lesen. Im Rahmen der Fehlerkorrektur muss daher auch im Inneren des Speichers, der nur gelesen wird, eine regelmäßige Löschung von Blöcken und ein Beschreiben von Pages erfolgen – und folglich altert auch dieses Medium.

Innere Angelegenheiten – Wear-Leveling und Garbage-Collection

eckdaten

Bei der Auswahl von Flash-Speicher für industrielle Anwendungen sind folgende Eckdaten für den Entwickler von Bedeutung:

Es bestehen erhöhte Anforderungen an Vibrationsfestigkeit und Temperaturbereich: Entwickler sollten hier auf die entsprechende Qualifizierung achten.
Der Speicher ist längere Zeit hohen Temperaturen ausgesetzt oder die Anwendung ist überwiegend lesend: Hier empfiehlt sich ein Produkt mit Data-Care-Funktion zur Datenauffrischung.
Die Applikation ist überwiegend schreibend: Speicher mit blockbasiertem Mapping eignet sich für sequenzielles Schreiben. Für Random-Zugriffe sind Produkte mit Seiten-basiertem Mapping zu empfehlen.
Der Datenträger wird längere Zeit mit vielen Daten beschrieben und soll diese erhalten: Hier eignet sich ein SLC-Produkt am besten.
Nutzt die Anwendung die volle Speicherkapazität: In diesem Fall stellt ein Speicher mit Over-Provisioning die Lösung der Wahl für höhere Lebensdauer dar.

Nicht nur die eigentliche Applikation löst das Löschen, Schreiben und Lesen des Speichers aus, sondern auch zahlreiche von Controllern und der Firmware verursachte Vorgänge. Diese nahezu unbemerkt ablaufenden Vorgänge haben jedoch Einfluss auf Performance-Faktoren des Speichers, wie Geschwindigkeit und Lebensdauer.

Neben der bereits erwähnten Fehlerkorrektur, gehört das Wear-Leveling zu diesen internen Mechanismen. Da beim Ausfall von Zellen immer der ganze Block als „Bad Block“ markiert wird, ist es im Sinne der Lebensdauer wichtig, diesen Ausfall möglichst lange hinauszuzögern. Erreicht wird dies durch das Wear-Leveling, also der gleichmäßigen Nutzung der physischen Speicheradressen. Ein weiterer interner Mechanismus ist die sogenannte Garbage-Collection, die ein Umkopieren von Daten zur Freigabe von Blöcken beinhaltet. Alle genannten internen Mechanismen ergänzen das Mapping zwischen logischer und physischer Adresse, was eine Datenspeicherung überhaupt erst ermöglicht.

Das Verhältnis zwischen den vom Host kommenden Anwenderdaten und der tatsächlich in den Flash-Speicher geschriebenen Menge an Daten stellt die Effizienz des Controllers eines Flash-Mediums dar. Ausgedrückt wird dies über den Write Amplification Factor (WAF), also die Schreibverstärkung. Die Schreibverstärkung zu reduzieren, ist einer der Schlüssel für längere Lebensdauer des Speichers. Workload-Faktoren, wie der Unterschied zwischen sequenziellen und Random-Zugriffen oder die Größe der Dateiblöcke im Verhältnis zu Seiten und Blockgrößen, beeinflussen den WAF. Folglich entscheidet die Firmware mit, ob ein Flash-Medium für eine spezielle Anwendung die richtige Wahl darstellt.

Wie Hersteller die Effizienz erhöhen

Beim Flash-Speicher erfolgt das Beschreiben der Seiten eines Blocks von Zellen nacheinander, die Löschung von Blöcken erfolgt jedoch nur als Ganzes. Das Mapping zwischen logischer und physischer Adresse bezieht sich im Standardverfahren auf Blöcke. Bei sequenziellen Daten stellt sich dieses Vorgehen als sehr effizient heraus, denn so werden die Seiten eines Blocks hintereinander weg geschrieben, wie es beispielsweise bei kontinuierlich gesammelten Videodaten geschieht. Für Random-Daten erfolgt das Beschreiben des Speichers in vielen verschiedenen Blocks, weshalb bei jedem internen Umschreiben pro Page ein ganzer Block gelöscht wird. Die Folgen dessen sind ein hoher WAF und eine sinkende Lebensdauer. Für nichtsequenzielle Daten ist daher ein Seiten-basiertes Mapping besser geeignet. Hier sorgt die Firmware dafür, dass Daten verschiedenen Ursprungs sequenziell in die Seiten eines Blocks abgelegt werden können. Dadurch sinkt die Zahl der Löschungen, was sich positiv auf die Lebensdauer des Speichers auswirkt, und die Schreib-Performance steigt. Mit dem Seiten-basierten Mapping wächst allerdings auch die Zuordnungstabelle des FTL (Flash Translation Layer) an, was Speicherhersteller mit integriertem DRAM ausgleichen.

Auf der nächsten Seite erfahren Sie warum Over-Provisioning ein Qualitätsmerkmal bei Flash-Speichern ist und warum gerade für Industrieanwendungen die Langzeitverfügbarkeit wichtig ist.

Üppiges Over-Provisioning als Qualitätsmerkmal

Seiten-basiertes Mapping ist auch von Vorteil, wenn der Nutzungsgrad des Datenträgers den WAF in die Höhe treibt. Denn je mehr Daten auf einem Flash-Speicher-Medium gespeichert sind, desto mehr Bits müssen von der Firmware hin und her bewegt werden. Probleme mit übervollen Datenträgern können die Hersteller im Grunde durch Over-Provisioning (OP) vermeiden. Damit ist der Bereich des Flashspeichers gemeint, der nur für die internen Aktivitäten reserviert ist. Üblicherweise sind dies jene sieben Prozent an Kapazität, die bei den Gigabyte-Angaben eines Speichers den Unterschied zwischen dezimalem und binärem Wert ausmachen.

Anstatt sieben Prozent jedoch 12 Prozent für das Over-Provisioning zu reservieren hat einen erstaunlichen Effekt: Bei einem Lebensdauer-Vergleich (TBW bei Enterprise-Workload) zwischen zwei hardwareseitig identischen SSDs erreichte das Swissbit-Modell X-60 Durabit mit 240 GB Kapazität einen fast doppelt so hohen Wert wie ein Modell mit 256 GB. Bei der Untersuchung des Einflusses des DRAMs auf die Lebensdauer, fällt der Unterschied bei der 240-GB Durabit-Version gegenüber einer Standardversion mit 256 GB Kapazität sogar zehnmal höher aus. Wie schon bei der Nutzung von MLC als pSLC, wirkt sich ein Verzicht auf Speicherkapazität beziehungsweise ein höheres Over-Provisioning positiv auf die Lebensdauer des Speichers aus.

Datenpflege-Management

Bild 3: Das Data-Care-Management beim Flash-Speicher wirkt dem schleichenden Datenverlust entgegeben und geschieht meist im Hintergrund. — Bild 3: Das Data-Care-Management beim Flash-Speicher wirkt dem schleichenden Datenverlust entgegen und geschieht meist im Hintergrund.Swissbit

Fehlerkorrektur und Wear-Leveling sind Mechanismen, die auch in Consumer-Flash-Produkten zum Einsatz kommen. Bei hochwertigen Industrie-SSDs oder Flash-Memory-Karten betreiben die Hersteller zudem weiteren Aufwand, um Datenverlust und Systemausfällen vorzubeugen. So stellt eine Kombination verschiedener Mechanismen wie ECC-Monitoring, Read-Disturb-Management und Auto-Read-Refresh die Überwachung sämtlicher gespeicherter Daten sowie bei Bedarf ihre Auffrischung sicher. Damit lassen sich Systemausfälle schon im Vorfeld verhindern. Wichtig ist dabei, die Datenintegrität ohne Beteiligung der Host-Applikation zu garantieren. Aus diesem Grund verlaufen diese Prozesse autonom innerhalb der Speicherkarte, was üblicherweise nur bei gehäuften Bitfehlern nach Leseanfragen der Host-Applikation der Fall ist.

Aktuelles Data-Care-Management sucht deshalb unabhängig von Anfragen durch die Applikationen nach potenziellen Fehlern (Bild 3). Dazu lesen die Funktionen der Datenpflege alle beschriebenen Seiten inklusive der Firmware und der Zuordnungstabelle des FTL (Flash Translation Layer) und frischen diese bei Bedarf auf. Für diesen Prozess der vorsorglichen Fehlerkorrektur gibt es beim Flash-Speicher verschiedene Auslöser: Eine festgelegte Zahl des wiederholten Einschaltens, eine bestimmte Anzahl von P/E-Zyklen, die gelesene Datenmenge, Lesewiederholungen oder auch erhöhte Temperatur.

Langzeitverfügbarkeit für industrielle Anwendungen

Die Kenntnis verschiedener Aspekte der Flash-Speicher-Technologie ermöglicht es dem Entwickler, das geeignete Speicherprodukt für eine industrielle Anwendung auszuwählen. Natürlich sind noch weitere Kriterien wie Power-Fail-Schutzmechanismen, die besonders robuste Verarbeitung und die Spezifikation für einen erweiterten Temperaturbereich zu beachten. Für einmal mit hohem Aufwand für eine Anwendung qualifizierte Module ist die Langzeitverfügbarkeit von großer Bedeutung. Dies ist auch der Grund, warum dieser Beitrag den 3D-NAND-Speicher nicht beleuchtet. Um eine langfristige Verfügbarkeit zu garantieren, befindet sich die Technologie noch zu sehr in der Entwicklungsphase, die Innovationzyklen und Design-Änderungen sind noch zu kurzfristig für die Lebenszyklen von Industrieprodukten. 3D-NAND-Chips sind derzeit für den TLC-Consumer-Bereich optimiert und nicht für erweiterte Temperaturbereiche spezifiziert. Außerdem liegen für den 3D-NAND noch keine Erfahrungswerte zur Endurance und Retention vor. Diese Werte zu optimieren ist für den Hersteller industrietauglicher Flash-Speicher-Produkte eine zentrale Aufgabe. Wie das Innenleben einer aktuellen SD-Speicherkarte von Swissbit aussieht, zeigt Bild 4.

(na)