28-2-2017 Gedruckt am 28-03-2017 aus www.monitor.co.at/index.cfm/storyid/17145

Gastartikel - Alexander Keidel, it-novum

5 Tipps um Hadoop Cluster sicherer zu machen

Nutzer von Hadoop-Distributed-File-System-Installationen müssen aufpassen – sie sind nämlich ins Visier von Kriminellen gerückt. Alexander Keidel von it-novum ist Experte für Big-Data-Technologien und gibt fünf Ratschläge, wie Anwender ihre Hadoop-Installation absichern und sich gegen kriminelle Machenschaften schützen können.

(Bild: CC0 Public Domain - pixabay.com)

 Hadoop-Anwender müssen sich derzeit vor Hacker-Angriffen in Acht nehmen: Laut den Sicherheitsforschern von Threat Geek werden Nutzer von Hadoop-Distributed-File-System-Installationen (HDFS) angegriffen. Die Kriminellen "leeren" die Hadoop-Datenbank und bieten dann den Opfern an, die gestohlenen Daten gegen Zahlung eines Lösegeldes wieder herauszugeben. Von solchen Angriffen dürften weltweit 8.000 bis 10.000 HDFS Installationen betroffen sein.
 
Das Unternehmen it-novum ist Experte für Big-Data-Technologien und gibt hier fünf Ratschläge, wie Anwender ihre Hadoop-Installation absichern und sich gegen kriminelle Machenschaften schützen können.
 

1. Nutzen Sie Kerberos für alle Hadoop Services

Bei Kerberos handelt es sich um ein Netzwerkprotokoll, das einen sicheren Authentifizierungsservice für den Cluster bereitstellt. So können sich die unterschiedlichen Hadoop Services (z.B. YARN, HDFS, Spark) einschließlich der RPC-Schnittstellen und der Benutzer des Clusters sicher authentifiziert werden. Eine Verwendung von sicheren Kennwörtern und eine Vermeidung der Nutzung von Standard-Ports und -User sind natürlich unablässig.
 

2. Nutzen Sie Sentry

Neben dem Einsatz von Kerberos zur Authentifizierung sollte Sentry als fester Bestandteil des Hadoop Clusters eingesetzt werden. Sentry stellt einen zentralen Authorisierungsservice bereit und ermöglicht die Vergabe von feingranularen rollenbasierten Zugriffsrechten für Apache Hive, Hive Metastore/HCatalog, Apache Solr, Impala und HDFS. Wird dieser Service verwendet, können Daten nur den Benutzern zur Verfügung gestellt werden, die diese auch benötigen. Im Falle eines kompromittierten User-Accounts wird zudem die Menge der sichtbaren Daten begrenzt. 
 

3. Verschlüsseln Sie HDFS

Im HDFS liegen häufig sensible Daten, die Sie unbedingt vor fremden Zugriffen schützen sollten. HDFS selbst stellt bereits eine Verschlüsselung bereit, die "Transparent Encryption" heißt. Sie sorgt dafür, dass die Daten im HDFS automatisch durch die HDFS Clients beim Schreiben verschlüsselt und beim Lesen entschlüsselt werden. Damit wird verhindert, dass die Daten aus dem HDFS durch andere Programme ausgelesen oder manipuliert werden können. 
 

4. Verschlüsseln Sie den Traffic

Ein weiterer Punkt mit dem Sie Ihren Hadoop Cluster sicherer machen können, bietet der Einsatz von TLS / SSL-Verschlüsselung. Das betrifft sowohl die Weboberflächen (z.B. HDFS Filebrowser der NameNode) und REST-Schnittstellen als auch den während des Ablaufs eines MapReduce Jobs entstehenden Netzwerk-Traffic. Damit wird verhindert, dass Daten aus dem HDFS, die während des MapReduce Jobs zwangsläufig unverschlüsselt vorliegen, während des Datentransfers zwischen den einzelnen MapReduce-Phasen aus dem Netzwerk abgegriffen werden können. Dabei ist darauf zu achten, dass nur von einer CA ausgestellte SSL-Zertifikate Sicherheit bieten. 
 

5. Monitoren Sie die Audit Logs

Um einen möglichen Angriff erkennen zu können, ist es unerlässlich, die Hadoop Audit Logs ständig zu überwachen und auf auffällige Events zu reagieren. Das können zum Beispiel eine große Anzahl von Anmeldeversuchen oder ein exzessiver Zugriff auf fachlich nicht zusammenhängende Datenbestände sein. Da die Audit Logs sich an unterschiedlichen Stellen befinden und eine Analyse meist schwierig und aufwendig ist, ist es empfehlenswert, eine professionelle Software zum Monitoring wie z. B. den Cloudera Navigator einzusetzen.
 
Alexander Keidel ist Big Data Consultant bei der it-novum GmbH.