120 Petabyte Daten sind fassbar!

Unfassbar, was inzwischen alles technisch möglich ist. Vor 20 Jahren noch haben wir uns über ein Gigabyte an Plattenplatz gefreut, nachdem nur wenige Jahre vorher noch dicke Platten nur einige hundert MB fassen konnten. Nun können Cluster zusammen gestellt werden, die sagenhafte 120 Petabyte fassen können. Dieses Meisterwerk ist IBM gelungen und ich muss davor wirklich meinen Hut ziehen!

In der Schule hatte ich im Ethik-Unterricht einmal ein unvergessliches Erlebnis. Die Lehrerin fragte uns: “Wie groß ist unendlich?” Sie wollte uns das Weltall vor Augen führen und dessen Größe und Unermesslichkeit. Sie schaffte es, denn erstmals wurde mir bewusst, dass ich “unendlich” nicht fassen kann. Mein Interesse für die wissenschaftlich-philosophischen Themen war geweckt. Ich dachte darüber nach, wie groß unendlich ist. Und kam zu keinem Ergebnis, außer dass mein kleines, endliches Gehirn diesen Begriff nicht erfassen und nicht visualisieren kann. Denn unendlich hatte ich einfach noch nie erlebt.

Bis heute, als ich las, dass ein 120-Petabyte-Cluster aus 200.000 Festplatten in Almaden bei IBM geschaffen wurde. In extra hohen und extra breiten Racks haben die Platten ihren Platz gefunden und werden darin mit speziellen Wasserkreisläufen kühl gehalten. Die Platten werden von einem neuen Supercomputer genutzt, um bislang nicht näher genannte Berechnungen durchzuführen. All das ist fassbar, kann ein Mensch begreifen. Und es zeigt, dass wir uns technisch an die Unendlichkeit herantasten – langsam, aber es wird.

Wären da nicht die Widrigkeiten der Technik, denen man bei der Annäherung an die Unendlichkeit eben entgegen stehen muss. Denn die 120 Petabyte werden durch 200.000 einzelne Platten geschaffen, die alle gleichzeitig eingebaut werden. Regelmäßige Ausfälle einzelner Platten – und das oft gehäuft – liegen deshalb in der Natur der Sache. Die Daten werden deshalb nicht paritätisch aufgeteilt, sondern kopiert und dann nach bestimmten Algorithmen verteilt, um Verlustschäden zu vermeiden. So hat der Supercomputer immer Zugriff darauf. Bei Defekten werden die betroffenen Platten in eine niedrigere Priorität eingestuft und schließlich ausgetauscht. Bei gehäuften Ausfällen wird automatisch die Wiederherstellungsgeschwindigkeit erhöht, um Verluste auszugleichen. Eine geniale Idee mit entsprechend viel Entwickler-KnowHow.

Damit wären Ausfälle relativ gut abgesichert. Wie aber steht es mit den Zugriffsgeschwindigkeiten des Supercomputers auf die Daten? Der Plattenzugriff ist auch auf einem herkömmlichen PC der Flaschenhals, ebenso ergeht es dem Supercomputer. IBM hat deshalb ein eigenes Dateisystem eingesetzt, genannt GPFS (General Parallel File System). Es verteilt die Daten auf mehrere Laufwerke, um sie parallel abzurufen und Scans werden durch einen weiteren Dateisystemindex beschleunigt. Das Ergebnis: In 43 Minuten konnten 10 Milliarden Dateien in einem Test abgerufen werden. Wir kommen der Unendlichkeit also tatsächlich immer näher …