30-5-2017 Gedruckt am 25-06-2017 aus www.monitor.co.at/index.cfm/storyid/17291

Case Study: Software Defined Network bei IMP

IMP-Neubau mit moderner IT-Infrastruktur

Das Forschungsinstitut für Molekulare Pathologie (IMP) eröffnete vor Kurzem sein neues Gebäude. Im Zuge dessen wurde auch die IT-Infrastruktur auf den allerneuesten Stand gebracht.

Blick in das neue Data Center des IMP (Bild: Bernhard Wieland)

Das IMP wurde vor über 30 Jahren gegründet und zählt international zu den renommiertesten Forschungsinstituten. Es betreibt biomedizinische Grundlagenforschung in Wien. Mit dem Neubau, der am 1. März 2017 eröffnet wurde, setzte Boehringer Ingelheim einen Meilenstein in der Geschichte des IMP. 200 Wissenschaftlerinnen und Wissenschaftler aus fast 40 Ländern setzen hier ihre Forschung fort. Boehringer Ingelheim unterstützt das IMP mit jährlich rund 20 Mio. Euro, nimmt aber keinen Einfluss auf dessen Projekte und Forschungsschwerpunkte. In den Neubau investierte das Pharmaunternehmen 52 Mio. Euro.
 

Neue IT-Infrastruktur erfüllt höchste Anforderungen

Neben der Errichtung des imposanten neuen Forschungsgebäudes wurde auch die IT-Infrastruktur des IMP für die Anforderungen der Zukunft neu aufgestellt. Wichtigstes Anliegen war es, die spezifischen und anspruchsvollen Anforderungen eines Forschungscenters an die IT abzudecken und im Gegenzug hohe Stabilität und Verfügbarkeit sicher zu stellen.
 
Das Design und die Planung des Projekts nahm das IMP selbst vor. Finanziell und technisch wurde das Projekt mit Hilfe von Cisco und Kapsch realisiert. Die moderne technische Infrastruktur teilt sich das IMP mit dem IMBA (Institut für Molekulare Biotechnologie), das auch am Vienna Biocenter beheimatet ist.
 

Ausgangslage

Das alte, über die Jahre gewachsene Netzwerk von IMP und IMBA erstreckte sich über zwei Gebäude mit zwei kleineren Serverräumen und einem externen Data-Center bei Boehringer Ingelheim im 12. Bezirk von Wien.
 
Im Einsatz waren Cisco Catalyst 6500 Switchs als Core/Distribution-Switchs eingesetzt, die unter anderem auch als Router/Default-Gateway für die VLANs fungierten. Diese Konfiguration führte dazu, dass jeglicher geroutete Netzwerkverkehr auch über die WAN-Leitung zur Remote-Site geleitet wurde, um das entsprechende Default Gateway zu erreichen.
 
Am Campus wurden Cisco-Switchs verschiedenster Generationen eingesetzt, welche per Link-Aggregation mit den Core/Distribution-Switchs verbunden waren. Per Spanning Tree Protokoll (STP) und Hot Standby Router Protokoll (HSRP) wurde ein gewisser Grad an Ausfallssicherheit erreicht. Insgesamt waren ca. 5.000 Ports installiert, wovon 2.300 Layer-2-Endpunkte verbunden waren. Im WLAN konnten 550 gleichzeitige Verbindungen mit ca. 100 Accesspoints verarbeitet werden.
 

Nur Basis-Redundanz

In der alten Konfiguration gab es nur eine Basis-Redundanz per STP, HSRP und LACP. Die meisten Data Center Services waren per LACP mit zwei Switchs verbunden. Da jedes Gerät seine eigene Implementierung hatte und es keine übergeordnete Architektur gab, welche sich zentral um die Redundanz kümmerte, war das Verhalten dieser Implementierung laut Ronny Zimmermann, Leiter der IT-Abteilung am IMBA und IMP, "nicht immer vorhersehbar". In einigen Fällen dienten auch die Core-Switche als Access-Switche, wodurch das Redundanz-Level ebenfalls gesenkt wurde und es teilweise nicht möglich war, Updates einzuspielen ohne zugleich eine Downtime von Services zu verursachen.
 

Ronny Zimmermann, Head of IT, IMP & IMBA (Bild: IMP-IMBA)

Das Netzwerk stellte eine große Layer-2-Fehler-Domäne dar. Spanning-Tree-Probleme wurden auf alle Geräte verteilt, Broadcast-Domänen waren über Gebäude-Grenzen bis hin zu WAN-Locations gespannt. Alle Switch-Uplinks waren so konfiguriert, dass alle VLANs Broadcast-Anfragen zu jedem Switch im Netzwerk leiteten. VLANs waren überall verfügbar und wurden auch überall hingeroutet. So konnte jeder IP-Endpunkt jeden anderen IP-Endpunkt erreichen.
 

Die Herausforderung

Neben typischen Enterprise Workloads wie Telefonie, E-Mail oder Druckdaten muss die IT-Infrastuktur einer Forschungseinrichtung auch wissenschaftlichen Anwendungen mit besonderen Anforderungen dienen. Große Datenmengen müssen rasch bewegt werden können, wichtig ist auch der durchgehende Betrieb ohne Unterbrechungen. Schließlich gibt es Experimente, die sehr lange laufen und unentwegt Daten produzieren, die analysiert werden müssen.
 
Mit dem Neubau des IMP-Gebäudes samt Data Center (immerhin 200 m2 groß und Heimat von mehr als 100 physischen und 700 virtuellen Servern) ergab sich auch die Notwendigkeit der Implementierung einer neuen Netzwerk-Infrastruktur. Diese Gelegenheit wurde genutzt, um mit Unterstützung der Firmen Kapsch und Cisco ein Netzwerk-Konzept zu erarbeiten, welches unter anderem auch die bestehenden Probleme lösen sollte. Folgende Anforderungen sollte das neue Netzwerk erfüllen:
  • Klare Trennung zwischen Campus- und Datacenter-LAN
  • Clients aus dem Campus-LAN sollten Services aus dem DC-LAN nutzen können
  • Jeder Netzwerkport musste mindestens 1Gbps bieten
  • WLAN in stark frequentierten Bereichen wie Cafeteria und Lecture Hall sollte mindestens 200 gleichzeitige Verbindungen unterstützen
  • Das Netzwerk sollte ohne Unterbrechung der Services gewartet und repariert werden können und musste somit vollständig redundant und hochverfügbar sein
  • Es durfte kein Single Point of Failure existieren
  • Es sollte leicht ausbaubar sein, da sich die Anforderungen in der Wissenschaft oft ändern
  • Es sollte modular aufgebaut sein, um Life Cycle Refreshs mit einem Minimum an Downtime durchführen zu können
  • Das Data-Center-Netzwerk sollte einfach zu managen sein und Interfaces für die automatische Provisionierung von Public- und Private-Netzwerken besitzen
  • Für bestimmte Anwendungen im wissenschaftlichen Bereich wurde 10Gbps-Ethernet bis zum Client benötigt
  • Im Data Center sollte 40Gbps-Ethernet verfügbar sein
 
"Das Data-Center-Netzwerk sollte außerdem ein Software Defined Network (SDN) sein, mit dem Fokus auf leichter Managebarkeit. So war es uns auch wichtig, dass die Fabric als eine logische Einheit und nicht als Cluster aus vielen individuellen Switchen zu managen ist", so IT-Leiter Ronny Zimmermann.
 

Das neue Netzwerk

Das neue Netzwerk umfasst einen neuen Core Layer und ist im Data Center des neuen IMP-Gebäudes untergebracht. An diesem angeschlossen sind die Distribution Switchs, an welchen dann wiederum die Access Switchs (Etagen-Switchs) angebunden sind. Durch die Tatsache, dass alle Switchs jeweils über mehrere Verbindungen zu den entsprechenden Layern darüber angebunden sind, wird eine hohe physische Redundanz erreicht. Alle Interfaces zwischen Core und Distribution Layer sind Layer-3-basierend. Der Access Layer (Layer 2) ist geroutet um Fehler besser eingrenzen zu können. "Jetzt sind problemlos Wartungsarbeiten – Switch-Software oder -Firmware – ohne Downtimes möglich", erklärt Zimmermann.
 
Zimmermann weiter: "Nachdem es sich nicht einfach um eine Erweiterung des bestehenden Netzwerkes handelte, war es uns wichtig im Vorfeld eine sehr genaue Planungs- und Testphase durchzuführen. So wurden unterschiedliche Hersteller bzw. deren Lösungen ausführlich getestet. Auf Grund des Reifegrades im SDN-Bereich haben wir uns schlußendlich für Cisco ACI entschieden. Auch im Access-Bereich fiel dann final die Entscheidung für Cisco-Produkte. Die Implementierung erfolgte in enger Zusammenarbeit mit der Firma Kapsch, wo wir vor allem vom Wissen von Systems Engineer Wilhelm Putz profitieren konnten. Insgesamt wurden 850 Stunden in die PoCs und 1.400 Stunden in die Implementierung investiert."
 

High-Performance Hardware

Von dem neuen Netzwerk profitiert auch ein weiterer wichtiger Bestandteil der neuen IT-Infrastruktur: der neue High-Performance-Computing-Cluster mit schnellerem Speicher sowie leistungsfähigeren Prozessoren. Insgesamt haben die Forscher jetzt 724 CPU-Kerne mit über zwei Terabyte Arbeitsspeicher zusätzlich zur Verfügung, die auch die Abwicklung aufwendigerer Aufgaben – wie moderne Gensequenzierung und Bildverarbeitung durch Hochleistungsmikroskope – in kurzer Zeit erlauben.
 
Letztendlich verlief auch der Projektabschluss, die Systemmigration, reibungslos. Die Aufnahme des Betriebs des neuen Systems sowie die Umsiedlung von Teilen der alten Infrastruktur ins IMP-Gebäude verursachten weniger als einen Tag Downtime. Für ein Projekt dieser Größenordnung ein hervorragender Wert. Auch der bisherige Betrieb ist erfreulicherweise problemlos verlaufen.