Newsfeed abonnieren
Netz & Telekom

Langzeitarchivierung

Digital Preservation am AIT Austrian Institute of Technology

Papierdokumente können bei richtiger Lagerung über Jahrhunderte erhalten werden. Die durchschnittliche Lebensdauer eines digitalen Dokuments beträgt ohne besondere Vorkehrung nur etwa 5 bis 7 Jahre. Am AIT Austrian Institute of Technology wird an der digitalen Langzeitarchivierung geforscht.

Joachim Korb, Ross King

Ohne Digital Preservation verlieren zukünftige Generationen das Wissen ihrer Vorväter. (Bild: istockphoto.com)

Die Digital Preservation - digitale Langzeitarchivierung (1) - von Daten benötigt neben speziellen Speichermedien, für die es heute bereits eigene Archiv-Systeme gibt, auch entsprechende Management-Software, um einen Zugriff zu abgelegten Daten langfristig sicherzustellen. Das AIT Austrian Institute of Technology besitzt auf diesem Gebiet internationales Know-how und ist auf EU-Ebene führend auf dem Sektor der Entwicklung entsprechender Management-Software-Systeme.

Papierdokumente können bei richtiger Lagerung über Jahrhunderte erhalten werden. Selbst bei weniger vorsichtigem Umgang kann ein Dokument nach vielen Jahrzehnten noch einwandfrei lesbar sein. Der langfristige Zugang gerade zu elektronischen Daten jedoch wird in unserer sich erst entwickelnden Wissensgesellschaft immer wichtiger. Die durchschnittliche Lebensdauer eines digitalen Dokuments aber beträgt ohne besondere Vorkehrung nur etwa 5 bis 7 Jahre. Zu dem wächst die Menge der produzierten digitalen Daten immer weiter. Eine Branchen-Studie (2) legt nahe, dass erstmals in der Geschichte weltweit schneller neue Daten produziert werden als zusätzlicher Speicher auf den Markt kommt. Der stetig wachsende Speicherbedarf und die Herausforderung digitale Daten langfristig zugänglich zu halten, werden die Entwicklung von Content-Management-Systemen (CMS) der nächsten Generation bestimmen.

Zwei bekannte Herausforderungen

Zwei bekannte Probleme ergeben sich aus der langfristigen Speicherung von und den entsprechenden Zugriffsmöglichkeiten zu digitalen Daten: die bit-stream und die logical Preservation. Bit-stream Preservation beschreibt dabei Lösungen für das allgemein bekannte Problem, dass Datenträger über die Zeit von Datenverlust bedroht sind. Dieses Problem ist von verschiedenen Herstellern bereits gelöst. Sie bieten unterschiedlichste Hardware und Speichermedien für Archivsysteme an. So sind die Dateien vor Verlust geschützt.

Um aber den Zugriff auf die in diesen Dateien (bit-streams) enthaltenen Daten auf Dauer zu gewährleisten, brauchen Archivsysteme zusätzlich Mechanismen der logical Preservation. Diese sorgen dafür, dass selbst wenn das Betriebssystem oder die Software, mit der die Dateien erstellt wurden, obsolet sind, oder diese in einem Format vorliegen, für das keine Anwendung mehr existiert, die ursprünglichen Informationen noch zugänglich bleiben.

Die Kombination aus bit-stream und logical Preservation wird als Digital Preservation bezeichnet. Der Begriff Digital Preservation schließt neben Technologien auch Standards (3) und Best Practice mit ein.

Lange standen in der Forschung die Probleme der bit-stream und der logical Preservation im Vordergrund. Angesichts der stetig wachsenden Datenmengen (die oben genannte Studie rechnet mit einer jährlichen Steigerungsrate von etwa 60%, das wären 2011 bereits 1800 Exabyte an digitalen Daten) stellt sich auch die Frage, was wert ist aufbewahrt zu werden und was vernichtet werden sollte.

Die große Herausforderung, der wir also gegenüber stehen, ist es sicher und langfristig die Speicherung und das Management von, aber auch den Zugang zu kritischen Daten angesichts der exponentiellen Steigerung der digitalen Datenproduktion zu gewährleisten. Als Antwort auf diese Herausforderung wurde am AIT Austrian Institute of Technology/Safety & Security Department das Forschungsfeld "Next Generation Content Management Systems" ins Leben gerufen, wobei Digital Preservation eines der zentralen Forschungsthemen darstellt.

Digital Preservation ein zentrales Forschungsthema

Mit ihm wendet sich das AIT verschiedenen Aspekten des Digital Information Life Cycle zu. Dieser umfasst Ingest (also die Einspeisung der Daten in das Archiv inklusive aller Vorbereitungen dafür) und geht über die Richtlinien für die Datenspeicherung und die eigentliche Digital Preservation, bis hin zu neuartigen Methoden für den Zugriff auf die Daten. Um den durch die Datenmenge verursachten Kostenfaktor so gering wie möglich zu halten, spezialisieren sich die ForscherInnen auf die Skalierbarkeit der entwickelten Systeme und stützen sich auf Methoden, diese in verteilten und virtualisierten Umgebungen laufen zu lassen.

Im Research Field "Next Generation Content Management Systems" des AIT werden im Rahmen der Digital Preservation folgende Ansätze erforscht:

Verteilte Analyse und Verarbeitung

Für dauerhaft zu erhaltende Daten muss unter Umständen schon beim Ingest in das digitale Archiv eine nicht unerhebliche Rechenleistung aufgebracht werden (z. B. für die Migration in langfristig unterstützte Formate - etwa PDF/A). Gleiches gilt auch für das Datenmanagement im Archiv (Indexierung, Metadatenextraktion oder semantische Anreicherung, Faktoren, die den späteren Zugang zu den Daten erleichtern). Beide, Ingest und Datenmanagement von so großen Datenmengen, erfordern einen neuen Umgang mit bekannten Technologien wie der Grid-Technologie (für verteilte Speicherung und Verarbeitung) und Cloud Computing Ansätzen (für preiswerte, on-demand Rechenleistung).

Automatische Entscheidungsfindung

Durch die Möglichkeit, dass die Menge neu produzierter Daten die Speicherkapazitäten überschreiten könnte, wird es immer wichtiger werden zu entscheiden, was wie erhalten werden soll. Darüber hinaus muss diese Entscheidung durch die große Datenmenge automatisiert ablaufen. Für jene Daten, die erhalten werden sollen, muss festgelegt werden, für welchen Zeitraum sie im Archiv verbleiben sollen. Hier werden für viele Daten kürzere Aufbewahrungsfristen ausreichen, während wichtigere Daten in einem (teureren) Langzeitarchiv abgelegt werden müssen. Andere Daten (zum Beispiel IP-Packets oder Überwachungsvideos) können als flüchtige Daten identifiziert werden und unterliegen einer anderen Aufbewahrungsstrategie.

Quality Assurance und sichere langfristige Speicherung

Um den Zugang zu digitalen Informationen über lange Zeiträume zu sichern, müssen Archivsysteme über Mechanismen der logical Preservation verfügen. Diese umgehen das bisherige Problem, auf Bit-Streams zugreifen zu müssen, deren Interpretation von obsoleten Betriebssystemen, von veralteter Software oder von nicht mehr unterstützen Formaten abhängt. Die exponentiell ansteigende Datenmenge führt dazu, dass Preservation-Systeme zukünftig voll-automatisch und skalierbar angelegt werden müssen. Gleichzeit müssen diese Systeme Datenqualität und Datensicherheit sicherstellen. Das macht Forschung in diesem Bereich unbedingt notwendig.

Die Forschung im Bereich Digital Preservation am AIT zielt also auf robuste und skalierbare Preservation-Workflows für den industriellen Betrieb ab, bei denen moderne Technologien wie Grid und Cloud Computing integriert werden und ein hoher Grad an Automatisierung bei der Bearbeitung der digitalen Informationen und bei der Entscheidungsfindung im Vordergrund stehen.


(1) Im deutschsprachigen Raum wird oft der Begriff Digitale Langzeitarchivierung gebraucht, der aber häufig mit bit-stream Preservation gleichgesetzt wird. Deshalb benutzen wir am AIT den englischen Begriff.

(2) "The Diverse and Exploding Digital Universe," IDC White Paper, März 2008 http://www.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf

(3) Die Hauptstandards der Digital Preservation sind das Open Archival Information Systems (OAIS) Modell [http://public.ccsds.org/publications/archive/650x0b1.pdf] , der PREMIS Preservation Metadata Standard [http://www.loc.gov/standards/premis/] und die Trustworthy Repositories Audit & Certification criteria and checklist (TRAC) [http://www.crl.edu/sites/default/files/attachments/pages/trac_0.pdf].

weitersagen: drucken
Termine

18. Juni - 22. Juni

In ganz Österreich

SAP Mittelstandstage

Print-Archiv
Folgen Sie uns
Leser empfehlen
MONITOR-Newsletter

Abonnieren Sie unseren Newsletter!

E-Mail:
Die von Ihnen angegebene E-Mail Adresse wird von MONITOR Online weder an Dritte weitergegeben noch zu anderen Zwecken verwendet.
MONITOR-Autoren
Dunja Koelwel

Dunja Koelwel ist freie Journalistin in München. Die studierte Juristin arbeitet für Verlage und Agenturen und betreut vor allem die Themen Internet und Business-Software aus einem strategisch- wirtschaftlichen Blickwinkel. ..mehr..

Die neuesten Artikel:

© Copyright 1983-2012 by MONITOR / Bohmann Druck und Verlag Gesellschaft m.b.H. & Co. KG (www.bohmann.at)

Add to Google  | Abo | Themenvorschau | Mediadaten | Inserate buchen | Kontakt | Impressum