“Haadop” – die Technik der Zukunft?

Als das iPad auf den Markt kam, wusste ich, dass ich bei etwas ganz Großem dabei bin. Von Hadoop aber hatte ich bis gestern noch nichts gehört. Und dabei zeichnete der Guardian ein auf dem Framework basierendes Clustersystem mit dem Media Guardian Innovation Award aus. Denn mit Hadoop sollen wir am Beginn einer neuen Datenrevolution stehen. Und keiner macht mit …

Naja, keiner ist auch nicht ganz richtig. Apache Hadoop ist eines der Top-Level-Projekte von der Apache Software Foundation und wird unter anderem von Yahoo, IBM und Facebook eingesetzt. Es basiert auf dem MapReduce-Algorithmus von Google Inc. sowie Vorschlägen des Google-Dateisystems und ist insbesondere bei rechenintensiven Datenmengen überraschend leistungsfähig. Dennoch ist das System mit dem das Logo anschiebenden Elefanten als Wiedererkennungssymbol unter ITlern wenig bekannt. Und wenn es bekannt ist, dann sitzen sie davor wie das Kaninchen vor der Schlange. Dabei bietet Hadoop insbesondere für die Cloud-Technologie neue Möglichkeiten. Aber die Funktionalität des Systems muss dazu erst einmal beherrscht werden. Und dazu sind nur wenige in der Lage – wie das nun einmal bei Open Source Frameworks oftmals der Fall ist.

Wer sich aber mit Hadoop auskennt, der glaubt fest daran, dass es die Cloud-Data-Warehousing-Technologie der Zukunft ist. So auch der Forrester-Analyst James Kobelius, der in seinem Blog zwar auch die Probleme anspricht, vor allem aber ins Schwärmen gerät. Hadoop scheint tatsächlich alles inne zu haben, um den Datenmengen in der Cloud Herr zu werden. Mit dem Hadoop Distributed File System (HDFS) können selbst riesige Datenmengen hochverfügbar gespeichert werden. Hive ermöglicht eine SQL-ähnliche Syntax und Pig analysiert große Datenmengen.

Einzig an der Standardisierung hapert es noch immer. Denn derzeit wird nur eifrig weiterentwickelt – wie das eben bei einem Open-Source-Projekt so ist -, einen Standardisierungsprozess aber gibt es nicht. Aus diesem Grund setzen viele Unternehmen zwar Hadoop ein, jeder passt es aber an die eigenen Bedürfnisse an, so dass die Interoperabilität kaum noch gegeben ist. Größtenteils werden auch nur Fragmente von Hadoop verwendet, das große Ganze aber trauen sich nur wenige Unternehmen anzufassen und einzubinden. Doch all das ist nur eine Frage der Zeit. Wenn einige wichtige IT-Professionals erst einmal Hadoop für sich entdecken, wird die Standardisierung nur ein folgerichtiger Schritt sein. Umgekehrt werden dann aber auch immer mehr Entwickler Hadoop nutzen.

Kobelius glaubt deshalb fest daran, dass in ein bis zwei Jahren Hadoop zum Herzstück der Architekturen werden wird. Zunächst wird Hadoop nur die Produkte miteinander konnektieren, dann werden Schnittstellen geschaffen, damit Hadoop angebunden werden kann und in einem letzten Schritt wird Hadoop zum Standard werden.

Das ist Zukunftsmusik? Sicherlich, aber ein Blick auf Hadoop kann dennoch nicht schaden. Denn das Framework wird es schaffen, “eine schwindelerregende Bandbreite von Clouds, Event Streams, Dateisystemen, Datenbanken, Complex-Event-Processing-Plattformen, Business-Process-Management-Systeme und Information-as-a-Services mit einzubeziehen”, wie James Kobelius glaubt.