Blue Gene

Blue Gene war ein Projekt zum Entwurf und Bau einer High-End-Computertechnik. Es sollte laut IBM sowohl zur Erforschung der Grenzen des Supercomputing in der Computerarchitektur, zur Entwicklung der für die Programmierung und Kontrolle massiv paralleler Systeme nötigen Software und zur Nutzung von Rechenkraft für ein besseres Verständnis biologischer Prozesse wie etwa der Proteinfaltung dienen.[1] Letztes führte zur gut ein Jahrzehnt lang verwendeten Bezeichnung Blue Gene, die das Forschungsobjekt „gene“ mit der fest etablierten Firmenfarbe „blue“ des IBM-Corporate Design verknüpfte.

Ein Blue-Gene/L-Schrank

Im Dezember 1999 kündigte IBM ein auf fünf Jahre angelegtes Programm an, einen massiv parallelen Computer zu bauen, der bei der Erforschung biomolekularer Phänomene wie der Proteinfaltung helfen soll. Zielvorgabe war dabei, Geschwindigkeiten im Peta-FLOPS-Bereich zu erreichen.

Es handelte sich um ein kooperatives Projekt zwischen dem Energieministerium der Vereinigten Staaten (welches das Projekt teilweise auch finanziert), der Industrie (insbesondere IBM), und den Hochschulen. In der Entwicklung befinden sich fünf Blue Gene-Projekte, darunter Blue Gene/L, Blue Gene/P und Blue Gene/Q (siehe Advanced Simulation and Computing Program).

Als erste Architektur war Blue Gene/L vorgesehen. Die Vorgaben lagen bei einem System mit einer Spitzenleistung von 360 TFLOPS auf 65.536 Nodes und Fertigstellung 2004/2005. Die darauffolgenden Maschinen sollen bis zu 1000 TFLOPS (Blue Gene/P, 2006/2007) beziehungsweise 3000 TFLOPS (Blue Gene/Q, 2007/2008) erreichen. Die Dauerleistung dieser Nachfolgesysteme von Blue Gene/L soll bei 300 TFLOPS beziehungsweise 1000 TFLOPS liegen.

Zu den Chef-Architekten des Projekts bei IBM zählten Monty Denneau und Alan Gara.

Blue Gene/L

Diagramm des Systemaufbaus am Beispiel des Blue Gene/L

Bei Blue Gene/L handelt es sich um eine Familie sehr gut skalierbarer Supercomputer. Das Projekt wird von IBM gemeinsam mit dem Lawrence Livermore National Laboratory finanziert.

Die Architektur besteht aus einem Basisbaustein (Knoten oder Compute-Chip), der immer wieder wiederholt werden kann, ohne dass Flaschenhälse entstehen. Jeder Knoten des BG/L besteht aus einem ASIC mit zugehörigem DDR-SDRAM-Speicher. Jeder ASIC wiederum enthält zwei 0,7 GHz PowerPC Embedded 440 Prozessorkerne, zwei „Double Hummer“ FPU,[2] ein Cachesubsystem und ein Kommunikationssubsystem.

Die doppelten TFlops-Raten (2,8 bzw. 5,6 TFLOPS) auf verschiedenen Zeichnungen im Netz rühren von der Tatsache her, dass ein ASIC mit zwei Prozessoren in zwei Modi betrieben werden kann, welche entweder beide Prozessoren für Rechenaufgaben verwenden, oder nur einen für Rechenaufgaben und den anderen als Coprozessor für Kommunikationsaufgaben. Für die Kommunikation zwischen den Prozessoren steht ein Hochgeschwindigkeitsnetzwerk mit einer 3D-Torus-Topologie sowie ein hierarchisches Netzwerk für kollektive Operationen zur Verfügung.

Der Zugriff auf das Torus-Netzwerk erfolgt über speicher-gemappte Netzwerkadapter, um ähnlich wie bei InfiniBand sehr niedrige Latenzzeiten zu erzielen. Für die Kommunikation wurde eine modifizierte MPICH2-Implementierung entwickelt. Auf den Rechenknoten läuft ein speziell hierfür programmierter, sehr kleiner POSIX-Kernel, welcher kein Multitasking unterstützt – das laufende Programm ist also der einzige Prozess auf dem System.

In der Ausgabe November 2004 der TOP500-Liste übernahm das noch im Aufbau befindliche System Blue Gene/L am Lawrence Livermore National Laboratory mit 16 Racks (16.384 Knoten, entspricht 32.768 Prozessoren) den Spitzenplatz. Seitdem wurde es schrittweise ausgebaut und erreichte am 27. Oktober 2005 mit 65.536 Knoten über 280 TFLOPS, was ihm die Führung in der TOP500 11/2005 einbrachte. Zwar war diese Ausbaustufe ursprünglich als Endausbau deklariert worden, er wurde 2007 jedoch noch einmal erweitert und erbringt seitdem mit 212.992 Prozessoren in 104 Racks über 478 TFLOPS. Damit war er Mitte 2008 das viertschnellste System weltweit.

Die Architektur taugt jedoch auch für andere Installationen wie den Blue Gene Watson (BGW) am IBM-eigenen Thomas J. Watson Research Center (Platz 98 in der TOP500 6/2011), JUGENE (Jülich Blue Gene am Forschungszentrum Jülich, Juni 2011 mit Platz 12 sogar vor seinem Vorgänger) und sechs weiteren Einträgen in den Top 100. Diese fallen alle unter die Bezeichnung eServer Blue Gene Solution.

Blue Gene/P

Blue Gene/P
Eine Knotenkarte des Blue Gene/P

Die Blue Gene/P-Serie wurde erstmals im Juni 2007 auf der ISC in Dresden vorgestellt. Zu den Änderungen gegenüber BG/L zählen die Verwendung von mit 850 MHz getakteten PowerPC 450 Kernen, von denen jetzt vier in einem Knoten enthalten sind. Auf jeder Compute-Card sitzt jetzt zwar nur noch ein statt zweier solcher Knoten, jedoch enthält eine Node-Card als nächstgrößere Einheit 32 statt 16 solcher Compute-Cards.

Ansonsten sind die Baueinheiten gleich geblieben und ein Rack enthält somit doppelt so viele Prozessoren wie ein BG/L. Bei einer zur Taktratenerhöhung parallelen Leistungssteigerung jedes Prozessors von rund 21 % (jedenfalls beim LINPACK) leistet jedes Rack nun 14 statt 5,6 TFLOPS (jeweils Rpeak). Die Speicherbandbreite wuchs im gleichen Maße, die Bandbreite des Torus-Netzwerks wurde von 2,1 GB/s auf 5,1 GB/s mehr als verdoppelt und die Latenzzeiten halbiert. Der Energiebedarf hat sich dabei laut Hersteller nur um 35 % erhöht. Für ein aus 72 Racks bestehendes System, das die Peta-FLOPS-Grenze erreichen soll, sind das ca. 2,3 Megawatt.

Eine der ersten Auslieferungen ging ins Forschungszentrum Jülich, wird dort unter dem Namen JUGENE betrieben und stand mit 180 TFLOPS in der TOP500-Liste Ende 2008 auf Platz elf. Im November 2008 waren sieben Blue Gene/P-Systeme unter den 100 weltweit schnellsten Systemen vertreten.

Am 26. Mai 2009 wurde eine verbesserte Version von JUGENE (Jülich Blue Gene) eingeweiht, bei der die Anzahl der Prozessoren von 65.536 auf 294.912 erhöht wurde und damit eine Spitzenleistung von 1 Petaflops erreicht wird. Dieser Rechner war damit 2012 einer der schnellsten Rechner in Europa und belegte in der TOP500-Liste vom November 2011 den 13. Platz unter den schnellsten Superrechnern weltweit.[3][4]

Blue Gene/Q

Das neueste Supercomputer-Design der Reihe, Blue Gene/Q, zielte darauf ab, 20 Petaflops im Zeitrahmen bis 2011 zu erreichen. Es ist konzipiert als weitere Verbesserung und Erweiterung der Blue Gene/L- und P-Architekturen mit einer höheren Taktfrequenz bei wesentlich verbesserter Energieeffizienz. Blue Gene/Q weist eine vergleichbare Anzahl von Knoten, aber 16 anstatt 4 Kerne pro Knoten auf (neuer entwickelte POWER CPU A2).[5][6]

Die Referenzinstallation eines Blue Gene/Q-Systems namens IBM Sequoia erfolgte am Lawrence Livermore National Laboratory im Jahr 2011 als Teil des „Advanced Simulation and Computing Program“; es dient nuklearen Simulationen und anderer fortgeschrittener wissenschaftlicher Forschung.

Ein Blue Gene/Q-System namens Mira wurde Anfang 2012 am Argonne National Laboratory installiert. Es besteht aus ca. 50.000 Rechenknoten (16 Rechenkerne pro Knoten), 70 PByte Plattenspeicher (mit 470 GByte/s I/O-Bandbreite) und wird mit Wasser gekühlt.[7][8]

Ebenfalls 2012 ging im Rechenzentrum von CINECA bei Bologna FERMI in Betrieb, eine Installation mit 10.240 Power A2-Sockel mit je 16 Kernen.[9]

Weiterentwicklung

Neuere IBM Supercomputer tragen nicht mehr den Namen Blue Gene. Sie basieren auf einer wesentlich weiterentwickelten POWER Prozessor Plattform und sind in der neusten Version (2018) beispielsweise am Lawrence Livermore National Laboratory und am Oak Ridge National Laboratory im Probebetrieb[10].

Neben klassischen Supercomputern hat IBM mit der Entwicklung und dem Bau neuronaler Supercomputer mit extrem niedrigem Stromverbrauch begonnen[11][12][13].

Referenzen

  1. F. Allen, G. Almasi, W. Andreoni, D. Beece, B. J. Berne, A. Bright, J. Brunheroto, C. Cascaval, J. Castanos, P. Coteus, et al.: Blue Gene: A vision for protein science using a petaflop supercomputer. In: IBM Systems Journal. Band 40, Nr. 2, 2001, S. 310–327, doi:10.1147/sj.402.0310 (archive.org).
  2. C. D. Wait: IBM PowerPC 440 FPU with complex-arithmetic extensions. In: IBM Journal of Research and Development. Band 49, Nr. 2.3, 2005, S. 249–254, doi:10.1147/rd.492.0249 (archive.org).
  3. Von 100 Teraflops bis 1 Petaflops: Drei neue Supercomputer in Jülich, Pressemitteilung auf heise-online vom 26. Mai 2009
  4. TOP500-Liste. Abgerufen am 30. Januar 2012
  5. 17th Machine Evaluation Workshop (Memento vom 31. Oktober 2008 im Internet Archive)
  6. Prozessorgeflüster Von 16- und 17-Kernern
  7. Minutes Advanced Scientific Computing Advisory Committee Meeting Nov. 3–4, 2009, Oak Ridge Associated Universities, Oak Ridge, Tenn. (Memento vom 29. März 2010 im Internet Archive)
  8. The View from Germatown – ALCF Getting Started Workshop January 27-29, 2010 (Memento vom 27. Mai 2010 im Internet Archive)
  9. FERMI reconfirmed in the Top500 top-ten
  10. Sven Oehme: CORAL Performance Update. 11. November 2017, abgerufen am 19. Mai 2018.
  11. Brain-inspired supercomputer for LLNL. 29. März 2016, abgerufen am 19. Mai 2018.
  12. Brian Wang: Neural supercomputer for US Air Force Research Laboratory. 24. Juni 2017, abgerufen am 19. Mai 2018.
  13. AFRL Anticipates Arrival of Neuromorphic Supercomputer. In: SIGNAL Magazine. 25. Januar 2018 (afcea.org [abgerufen am 19. Mai 2018]).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.