Innovativer Ansatz: Drei Prozessoren auf einer einzigen Baugruppe sorgen für kompaktes Systemdesign mit Sicherheit bis SIL 4.

Innovativer Ansatz: Drei Prozessoren auf einer einzigen Baugruppe sorgen für kompaktes Systemdesign mit Sicherheit bis SIL 4.MEN Mikro Elektronik

Fehler oder Ausfälle im Schienenverkehr können die Umwelt zerstören, erheblichen Sachschaden verursachen oder gar Menschenleben gefährden. Die drei größten Verursacher von gefährlichen Zwischenfällen bei sicherheitskritischen Steuerungssystemen sind Bauteilausfälle, Abweichungen im System und menschliche Fehler.

Der Bahnmarkt ist ein wichtiger Bereich für Embedded-Systeme. Neue Möglichkeiten liegen in der Zugbeeinflussung beziehungsweise Zugsicherung (engl. ATC, Automatic Train Control) mit Komponenten an Bord und an der Strecke. Ein großes Potenzial steckt in neuen Technologien für Signalanlagen und sicherheitskritischen Unterbereichen. Beispiele findet man weltweit.

In den Vereinigten Staaten soll ein System namens Positive Train Control (PTC) verhindern, dass Züge kollidieren. PTC wird in erster Linie von der aktuellen Gesetzgebung in Form des Rail Safety Improvement Act von 2008 geprägt, das eine breitflächige Einrichtung von PTC-Systemen im Güterverkehr bis 2015 vorschreibt. In Europa führt das European Train Control System (ETCS) zu einer ähnlichen Entwicklung. Die EU hat das Ziel, den grenzübergreifenden Verkehr und die Signaleinrichtungen durch eine einheitliche europäische Norm für Zugsteuerungssysteme zu harmonisieren. In China besteht mit dem Chinese Train Control System (CTCS) und mit über 90.000 km Schiene ein riesiges Wachstumspotenzial für die Anbieter von sicherheitskritischen Systemen.

Die Infrastruktur, die für all diese Ansätze aus- und aufgebaut werden muss, ist immens. Jedes System muss genau wissen, wo sich ein Zug befindet und in welchem Zustand er ist.

Sicherheitsanforderungsstufen und Normen

Bereits bei der Konzeption kann man die Wahrscheinlichkeit eines Systemausfalls mit katastrophalem Schaden deutlich senken. Ein systematischer Entwicklungsprozess lehnt sich an Normen und Richtlinien an und umfasst die gesamte Produktentwicklung und -realisierung einschließlich entsprechender Verifizierung und Dokumentation.

Allgemein gilt die Norm IEC 61508 der Internationalen Elektrotechnischen Kommission zur funktionalen Sicherheit elektronischer Systeme. Sie definiert die Sicherheitsanforderungsstufen – Safety Integrity Levels – SIL 1 bis SIL 4. Hersteller müssen für sicherheitsrelevante Funktionen in einer Gefahren- und Risikoanalyse die notwendige SIL ermitteln. Sie ist das Maß für die Wirksamkeit der Sicherheitsfunktionen und wird ausgedrückt durch die Wahrscheinlichkeit, mit der eine solche Funktion ausfällt. Verschiedene Szenarien drücken sich in unterschiedlichen Zahlengrößen aus. Speziell für den Bahnbereich hat die europäische Organisation für elektrische Normung (CENELEC) daran anknüpfend entsprechende Standards normiert. Dazu gehören die EN 50126 (Zuverlässigkeit, Verfügbarkeit, Instandhaltbarkeit, Sicherheit (RAMS)), EN 50128 (Software für Eisenbahnsteuerungs- und Überwachungssysteme) und EN 50129 (sicherheitsrelevante elektronische Systeme für Signaltechnik). Die EN 50129 enthält auch die genaue Definition der SIL-Stufen für Bahnanwendungen. Sie leitet die zutreffende SIL von der tolerierbaren Gefährdungsrate pro Stunde und pro Funktion ab. SIL 4 erlaubt einen Bereich von 10-9 bis 10-8, bis zu SIL 1 mit 10-6 bis 10-5.

Überlegungen zur Architektur

Eine sicherheitskritische Anwendung benötigt ein sicheres System mit einem bestimmbaren Fehlerverhalten. Es ist nur logisch, dass man den Faktor Sicherheit bereits in der ersten Planungsphase untersucht. Hier hat man die besten Chancen, Fehlerquellen rechtzeitig zu erkennen. Nur wenn mögliche Fehler frühzeitig erkannt werden, kann das System dahingehend optimiert werden, diese Fehler zu umgehen.

Mit Hilfe der Analysemethode FMEA (Fehlermöglichkeits- und Einflussanalyse), die in der ersten Planungsphase durchgeführt wird, lässt sich bestimmen, ob das System dem geforderten MTBF-Wert genügen wird. Die Mean Time Between Failures ist die Zeit, die zwischen Fehlern vergeht, die das System von sich aus während des Betriebs voraussichtlich aufweist.

Es ist auch entscheidend, welches Verhalten eine Funktion aufweisen soll. Ein System, das stetig („fail-operational“) sein muss, läuft auch weiter nachdem eine oder mehrere Komponenten ausgefallen sind. Da der Betrieb dann aber nicht wie geplant weitergeführt wird, können Fehler hier zu einem unsicheren Zustand führen. Als „fail-safe“ wird ein System bezeichnet, das so ausgelegt ist, dass es im Fehlerfall nicht in einen unsicheren Zustand geht, sondern in einen Zustand, der mindestens ebenso sicher ist wie bei Normalbetrieb.

In manchen Anwendungen definiert sich Sicherheit durch Verfügbarkeit, während speziell bei der Eisenbahn die Verfügbarkeit nicht unbedingt die Sicherheit bestimmt. Fällt ein Steuersystem aus, kann ein Zug anhalten. Für ein Flugzeug kommt das nicht in Frage. Ein Zug, der steht (also nicht verfügbar ist), befindet sich isoliert gesehen in einem sicheren Zustand. Steht er jedoch auf der Strecke, muss diese Information auch zuverlässig und rechtzeitig an Folgezüge gehen. Das geforderte Verhalten hängt also stark von der jeweiligen Funktion und vom Kontext ab.

Redundanz und Sicherheit

Um das Risiko im sicherheitskritischen Umfeld zu senken, integriert man mehrere Instanzen der gleichen Komponente in einem System. Man macht sie redundant. Ein verdoppelter Rechner erhöht die Verfügbarkeit, also den MTBF-Wert. Fällt eine CPU aus, kann das System mit der verbleibenden CPU den Betrieb aufrechterhalten. Um auch die Sicherheit zu erhöhen, müssen beide Systeme ordnungsgemäß funktionieren, damit die Anwendung in Betrieb bleibt. Das wiederum senkt jedoch die Verfügbarkeit.

Die üblichste Konstellation, um sowohl die Sicherheit als auch die Verfügbarkeit zu erhöhen, ist ein dreifach redundantes System. Drei CPUs oder Systeme laufen mit einer Entscheidungsstufe, einem Voter, der ständig die Ausgabe der drei Komponenten überwacht. Gibt es mit einem der Systeme ein Problem, isoliert es der Voter; die anderen beiden bleiben in Betrieb. Ein Minuspunkt bei diesem Design ist die Komplexität, die ein solches System erfordert. Alle drei CPUs müssen zwingend synchronisiert werden und in der Lage sein, miteinander zu kommunizieren – eine große Herausforderung aus Sicht der Softwareentwicklung.

Dreifach redundantes System: zwei von drei Subsystemen müssen ordnungsgemäß funktionieren.

Dreifach redundantes System: zwei von drei Subsystemen müssen ordnungsgemäß funktionieren.MEN Mikro Elektronik

Wird Redundanz aufgebaut, muss man sich auch darüber im Klaren sein, dass identische Systeme anfällig für Gleichartiges sind. Es kann zu Versagen mit einheitlichem Ablauf (Common Mode Failures) und Versagen aufgrund gemeinsamer Ursache (Common Cause Failures) kommen. Um dem entgegenzuwirken, baut man Unterschiede ein, so dass ein einzelner Fehler nicht zu einem Ausfall mehrerer Komponenten und schließlich des Systems führt. Dieses Prinzip nennt man Diversität.

Beispielsweise kann eine elektrostatische Entladung identische Ausgänge stören, so dass diese ausfallen. Bei zwei unterschiedlichen physikalischen Ausführungen eines binären Ausgangs verbessert sich im Vergleich zu zwei identischen Typen die Zuverlässigkeit. Diversität ist auch durch den Einsatz unterschiedlicher Software erreichbar. Zum Beispiel können softwareseitig unterschiedliche, voneinander getrennt entwickelte Anwendungen auf den redundanten Subsystemen laufen.

Dreifache Redundanz auf einer einzigen Baugruppe

Ein System mit eingebauter Dreifachredundanz ist eine innovative Architektur und zugleich eine Alternative zu klassischen Konstellationen. Drei Prozessoren und drei Speicherinstanzen arbeiten im Lockstep-Modus. Alle werden von einem Voter überwacht, der in einem FPGA (Field Programmable Gate Array) realisiert ist. Fällt CPU 2 aus, isoliert der Voter diese, hält sie im Reset-Zustand und benachrichtigt die Software darüber. Anschließend vergleicht der Voter nur noch die Ausgabe der verbleibenden zwei Prozessoren. Das System ist weiterhin funktionsfähig, ein Ausfall von CPU 1 oder CPU 3 würde es jedoch zum Erliegen bringen.

Sogar Diversität ist auf einer einzelnen Baugruppe möglich, mit Echtzeit-Betriebssystemen wie PikeOS. Die Speicherverwaltung muss ein Partitionieren der Ressourcen erlauben, wie beim MEN-Design mit Power-PC-Prozessoren. Bestimmte Speicherbereiche sind den Partitionen genau zugewiesen. Anwendungen und Aufgaben, die innerhalb der Partitionen ausgeführt werden, können völlig verschieden sein.

Sicherheitskritische Anwendungen erfordern Erfahrung

Hersteller mit Erfahrung in den Schlüsseldisziplinen der funktionalen Sicherheit können schnellere und kostengünstigere Lösungen bieten. Dazu gehört auch Erfahrung im entsprechenden Normenumfeld und in der Praxis, zum Beispiel mit der Nachverfolgbarkeit von Anforderungen, dem Prüfen gegen Code-Regeln in der Software- und FPGA-Entwicklung, dem Risiko- und Bauteil-Obsoleszenz-Management, der Qualifikation oder einem IRIS-Qualitätsmanagement speziell für den Bahnmarkt.

Dreifach-Redundanz auf dem nach SIL 4 zertifizierbaren VMEbus-Rechner A602 von MEN, mit Voter im „North FPGA“.

Dreifach-Redundanz auf dem nach SIL 4 zertifizierbaren VMEbus-Rechner A602 von MEN, mit Voter im „North FPGA“.MEN Mikro Elektronik

Zwar nimmt die Anzahl der qualifizierten Anbieter ab, je höher Anspruch und Anforderungen einer kritischen Anwendung sind, doch es gibt sie. Der Schutz menschlichen Lebens und das Vermeiden von katastrophalen Zwischenfällen stehen bei Rechnersystemen in sicherheitskritischen Anwendungen im Vordergrund. Systeme müssen zuverlässig funktionieren und effektiv kommunizieren – und nirgendwo sonst trifft das mehr zu als im wachsenden Bahnmarkt.

Kompaktes Design, geringer Aufwand und Stromverbrauch

MEN hat Dreifach-Redundanz auf Compact-PCI- und VMEbus-Single-Board-Computer im 6-HE-Format gebracht. Deren Herzstück sind drei Power-PC-750-CPUs, die in einer Lockstep-Architektur arbeiten. Verglichen mit Lösungen aus drei einzelnen CPU-Karten ist der Ansatz mit nur einer Karte wesentlich kompakter und verringert sowohl den Software-Aufwand als auch den Stromverbrauch. Ein Sicherheitspaket von MEN soll den Kunden bei der Systemintegration in Bahnprojekten die Zertifizierung nach SIL 4 erleichtern. Momentan arbeitet MEN an weiteren sicheren Rechnern, basierend auf 3 HE Compact-PCI und x86-Prozessoren, ebenfalls mit Redundanz auf der Karte und entwickelt für verschiedene Einsatz-Szenarien speziell im Schienenverkehr.

Susanne Bornschlegl

ist Technische Redakteurin bei MEN Mikro Elektronik in Nürnberg

(ah)

Sie möchten gerne weiterlesen?

Unternehmen

MEN Mikro Elektronik GmbH

Neuwieder Straße 7
90411 Nürnberg
Germany