
3/97
Wieviel Gigabyte RAID hätten Sie gerne?Dietmar InäbnitIst der Kauf eines RAID-Systems wirklich so einfach? Nein, obschon uns das die Werbung verspricht. Es existieren auch noch heute große Unterschiede zwischen den einzelnen RAID-Lösungen. Wenn zwei Hersteller ein RAID 5 anbieten, bedeutet dies nur, da beide Systeme mit diesem RAID-Level arbeiten. Der RAID-Level sagt aber nichts über die generelle Zuverlässigkeit des Systems. Wo sind also die Unterschiede zu finden?
Bereits 1987 wurde am M.I.T. (Massachussets Institute of Technology)
der Begriff RAID geprägt. Unter diesem Begriff faßt
man Technologien zusammen, um mehrere Laufwerke zu größeren,
und sie teilweise auch zu ausfallsicheren Gesamtsystemen zusammenzu-
schließen. Ausfallsicher bedeutet, daß der Ausfall
eines Einzellaufwerkes weder zu einen Ausfall des Gesamtsystems
noch zur Betriebsunterbrechung oder gar zu Datenverlust führt.
RAID bedeutet eigentlich nichts anderes als "Redundant Array of Independent Disks". Der wichtigste Punkt in dieser Definition ist das Wort "Disk". Die RAID-Level beziehen sich ausschließlich auf die Disks. Ausfälle von Ventilatoren, Netzteilen, SCSI-Verbindungen und RAID Storage Processoren werden durch die RAID-Definitionen nicht abgedeckt! In der Praxis bedeutet das für den Kunden, daß unterschiedliche RAID-Systeme ihre Daten auf den Disks ähnlich aufzeichnen (zum Beispiel alle mit RAID 5), aber in der grundsätzlichen Verfügbarkeit und Datensicherheit des ganzen Systems große Unterschiede bestehen können. Die offiziellen RAID-Level reichen von 0 bis 5. Level 0 und 1 können kombiniert eingesetzt werden. Je nach Hersteller wird dies als Level 0/1,1/0 oder 10 bezeichnet. Andere auf dem Markt anzutreffende Bezeichnungen wie RAID 7 ,RAID S oder Super RAID bezeichnen herstellerspezifische Änderungen. Die Bezeichnung "Level" in der RAID-Terminologie ist eigentlich nicht korrekt, denn der RAID Level 3 baut keinesfalls auf RAID Level 2 auf. Statt "Level" sollte man eigentlich besser "Typ" sagen. Von den 5 RAID Leveln haben sich in der Praxis nur die Level 1, 1/0, 3 und 5 durchgesetzt. Je nach Art der Anwendung wird der eine oder andere Level bevorzugt eingesetzt. RAID ist aber keine universelle Lösung für alle Arten von Disk-Performance Problemen. RAID muß auch nicht immer schneller sein als Einzellaufwerke und bedeutet auch nicht grenzenlose Datenverfügbarkeit. Die RAID-Technologie wird zur Erhöhung der Ausfallsicherheit und Datenverfügbarkeit eingesetzt. Andere Elemente eines Subsystems werden dabei nicht berücksichtigt. Wenn nun die Disk-Drives isoliert betrachtet werden, so stellt sich die Frage: Wieviele Harddisks können eigentlich in einem RAID-Level aussteigen, bevor es zu einer Betriebsunterbrechung kommt? Und die Antwort: Egal ob RAID Level 1, 3 oder 5, gleichzeitig ausfallen darf nur eine Harddisk! Alle RAID-Hersteller sind in der Lage den Ausfall einer Disk abzufangen. Damit sind auch schon alle Gemeinsamkeiten der unterschiedlichen Hersteller abgedeckt. Bereits beim Ersetzen der defekten Disks kommen versteckte Unterschiede zu Tage: "Hot Swap"Damit defekte Harddisks möglichst einfach gewechselt werden können, sind diese normalerweise in Wechselkanister (Einschubmodule) untergebracht. Von diesen Einschubmodulen existiert eine Vielzahl von Bauarten. Angefangen beim simplen Plastikrahmen mit Standard-Stecker bis hin zum voll abgeschirmten DASD-Modul mit integrierter Power Control Unit. Hinter den unterschiedlichen Bauweisen versteckt sich oft die Philosophie der Hersteller, wie man mit der "Hot Swap"-Problematik umgeht. "Hot Swap" erlaubt einen Wechsel der Disk-Module im laufenden Betrieb. Bei einem Wechsel wird die elektrische Verbindung (Power) und der SCSI-BUS beeinflußt. Normalerweise wird unter "Hot Swap" nur die elektrische Verbindung berücksichtigt. Mögliche Gefahren sind: Funkenschlag, Spannungsabfall, Kriechstrom und anderes mehr. Dieser Problematik wird mit unterschiedlichen Konstruktionen begegnet. Lösungen reichen von "Das passiert sowieso nie und muß nicht abgesichert werden", über den Einsatz von SCA-SCSI Connectoren (Power Connectoren sind nicht gleich lang wie Daten Connectoren), bis hin zu Modulen mit einer integrierten Power Control Unit. Je mehr Engineering-Arbeit in diesen Details steckt, umso sicherer ist das RAID-System gegen solche Gefahren abgesichert. Bei einem Hot-Swap kann auch der SCSI-Bus des RAID-Systems beeinflußt werden. Bei manchen RAID-Systemen darf die Disk nur ausgewechselt werden, wenn keine Daten auf dem SCSI-Bus sind, da sonst das System abstürzen kann. Bei High-End RAID-Systemen ist dies abgesichert und ohne Probleme jederzeit möglich. Ein besonderes Augenmerk sollte man auch auf die generelle Konstruktion der Disk-Module richten. Wie wird zum Beispiel das Modul im Gehäuse geführt, oder ist das Modul mit einem Metallgitter abgeschirmt? Andere Punkte wie Verarbeitungsqualität oder allenfalls Design können auch Aufschluß über die Qualität/Zuverlässigkeit liefern. "Spare Disk"Ein anderes beliebtes Schlagwort in der RAID-Terminologie ist "Spare Disk". In der Praxis unterscheidet man zwischen drei verschiedenen Arten von Spare Disks: Spare Disk: Eine normale Spare Disk ist einfach ein zusätzliches Disk-Modul, welches bei Bedarf eingesetzt wird. Das Disk-Modul kann sich Off-Line im RAID-Gehäuse befinden oder extern gelagert sein. Hot Spare: Eine Hot Spare Disk ist im RAID-System immer "idle". Das heißt, sie ist On-Line, wird aber nicht genutzt. Fällt eine Disk aus, so übernimmt der Hot Spare automatisch die Identität der defekten Disk und das RAID-System beginnt mit der Rekonstruktion der Daten. Sind bei einem RAID-System gleichzeitig mehrere RAID-Level möglich ( etwa ein Bereich mit Level 5 und ein anderer mit Level 1), so muß für jeden Bereich ein eigener Hot Spare defininiert und eingesetzt werden. Global Hot Spare: Ein Global Hot Spare kann jede ausgefallene Disk innerhalb eines RAID-Systems ersetzen, egal zu welchem RAID-Level der defekte Disk gehörte. Aus Sicherheitsgründen können bei solchen RAID-Systemen oftmals mehrere Global Hot Spare definiert werden. Den Ausfall einer Disk unter Beibehaltung der Disk-Integrität kann fast jeder Hersteller mit seinen RAID-Lösungen abdecken. Welche Auswirkungen hat zum Beispiel eine simple Stromunterbrechung oder der Ausfall eines Storage-Processors, Netzteil oder Ventilators? Bei allen Punkten (außer Stromunterbrechung) ist die Standardaussage vieler Hersteller: Alle Komponenten sind doppelt eingesetzt (N+1 Konfiguration) und können via Hot Swap ersetzt werden. Für viele Anwender/Käufer ist die Antwort absolut ausreichend und wird nicht hinterfragt. Hot Swap heißt auch hier nur, daß die Elemente beim eingeschalteten Gerät ausgetauscht werden können. Es wird aber nicht garantiert, daß die Parity-Integrität der RAID-Level erhalten bleibt und man ohne Betriebsunterbrechung weiter arbeiten kann. Welche Auswirkungen kann nun der Ausfall von Netzteilen, Ventilatoren, Storage Processoren für die Parity-Informationen haben? StromunterbrechungEin Stromunterbrechung ist jederzeit möglich. Die Ursachen sind vielzählig und reichen vom unabsichtlichen Entfernen des Powerkabels oder Ausschalten des Gerätes bis hin zum Blitzeinschlag. Ist das RAID-System nicht abgesichert, geht die Parity-Integrität auf jeden Fall verloren. Die einfachste und oft empfohlene Lösung ist der Einsatz einer USV-Anlage. Eine USV-Anlage schützt aber nicht vor einem unabsichtlichen Ausschalten oder Entfernen der/des Powerkabels. Offen ist auch, ob die USV-Anlage aktiv wird und zwar rechtzeitig (USV Anlagen mit defekten Akkus oder Schaltkreisen sind keine Seltenheit). Sichere RAID-Systeme haben eine integrierte Mini-USV Anlage, welche automatisch wöchentlich einem Selbsttest unterzogen wird. Das RAID-System ist so vor allen Arten einer Stromunterbrechung (Ausschalten, Kabel...) geschützt. Es wird ein normaler Shut-Down des RAID-Systems durchgeführt. Alle pendenten Schreib- und Lesevorgänge werden erledigt, der Inhalt vom Cache Memory auf die Harddisks geschrieben und ein Update der Parity-Informationen durchgeführt. Ausfall von einem NetzteilBei RAID-Systemen mit redundanten Netzteilen (N + 1) kann ein Netzteil ohne Einfluß auf den Betrieb des Gerätes (Parity-Integrität) ausfallen, vorausgesetzt es entstehen keine starken Spannungsschwankungen durch diesen Ausfall. Entweder werden alle Netzteile gleichzeitig genutzt (Power-Sharing) oder das alternative Netzteil wird durch eine elektronische Steuerung aktiviert. Grundsätzlich sollte ein Netzteil immer genügend stark sein, um das ganze RAID-System zu versorgen. Ausfall von einem VentilatorDer Ausfall eines Ventilators oder einer Ventilatoreneinheit hat keinen direkten Einfluß auf die Parity-Integrität. Indirekt könnte ein solcher Ausfall eine Betriebsunterbrechung zur Folge haben. Gute RAID-Systeme arbeiten mit Hitze-Sensoren. Sobald sich die Hitze im System erhöht, zum Beispiel durch den Ausfall eines Ventilators, müssen sich die restlichen Ventilatoren schneller drehen. Intelligente RAID-Systeme führen auch einen automatischen Shut-Down durch, wenn die Temperatur gewisse maximal Werte übersteigt. Ausfall von einem Storage ProcessorWenn ein Storage Processor ausfällt und dieser nicht durch einen Hot-Standby oder zweiten Dual Activen Processor abgesichert ist, geht in diesem RAID-System nichts mehr. Es gibt immer noch große RAID-Systeme auf dem Markt, bei denen der Ausfall der zentralen CPU das gesamte System still legt. Je nach RAID-System springt der zweite Kontroller automatisch ein, oder man muß das System umkonfigurieren und neu booten. Im Zusammenhang mit dem Ausfall eines Storage Processors stellt sich auch die Frage nach einer redundanten SCSI-Verbindung zum Host. Bei einer redundanten SCSI Verbindung zum Host kann ein SCSI-Hostadapter, SCSI-Kabel oder Storageprocessor ausfallen, ohne daß es einen Betriebsunterbruch gibt. Bei vielen Geräten ist auch ein Cache-Memory auf dem Storageprocessor. Solange man nur Read oder Read-Ahead Cache einsetzt, hat ein Fehler im Cache oder der Ausfall eines Storageprocessors keine Folgen für die Daten-Integrität des Systems. Wenn aber ein Write-Cache eingesetzt wird, kann der Verlust der Cache Informationen katastrophale Folgen haben. Viele Hersteller schützen sich durch eine Stützbatterie (Stromausfall) und einen Memory-Check beim Booten des Systems. Die Informationen von Write Cache sind auch durch diese Absicherungen nur einmal im System vorhanden. Bei einem Memoryfehler oder defekten Storageprocessor gehen die Informationen im Write-Cache immer noch verloren. Ein Hersteller hat diese Problematik erkannt und verwendet in seinen Systemen einen Mirrored Write Cache. Alle Informationen werden automatisch auf einen zweiten Storageprocessor gespiegelt. Dank dieser Technik können Memory-Fehler oder -Ausfälle inklusive Storageprocessor ohne Probleme abgefangen werden. Architektur des RAID SystemesMan unterscheidet zwischen einer zentralen Bus-Architektur und einer dezentralen Architektur. Bei einer zentralen Bus-Architektur werden Verbindungen zum Host, Storageprocessor, Memory und SCSI-Channel für die Disk-Drives an einem zentralen Bus angeschlossen. Da alle Komponenten in einer gegenseitigen Abhängigkeit stehen, muß man genau überprüfen, was passiert, wenn die eine oder andere Komponente ausfällt. Große Data Warehouse Lösungen (Gigabytes bis Terabytes) werden aus Sicherheitsgründen immer mehr mit RAID-Systemen aufgebaut, die mit einer dezentralen Architektur arbeiten. Bei diesen Konfigurationen können verschiedene Elemente ausfallen, ohne das Gesamtsystem zu beeinflussen. Welche Sicherheit erwarten Sie von einem RAID-System?Im Prospekt sieht alles perfekt aus. Sind Sie aber wirklich sicher, daß Sie genau die Sicherheit erhalten, die Sie erwarten und die für Ihre Umgebung notwendig ist? Analysieren Sie RAID-Angebote aufgrund dieses Artikels und Sie können sehr schnell entscheiden, welche Sicherheit die unterschiedlichen Systeme bieten.
|