Aktuell betreiben wir ein Hybrid-System, das aus unterschiedlichen GPU- und CPU-Komponenten besteht. Die CPU-Nodes sind hauptsächlich Blade-Server der Firma Supermicro und können MPI-basiert betrieben werden. Der GPU-Teil beinhaltet Server mit NVIDIA Graphikkarten unterschiedlicher Baureihen (A100, RTX6000/8000, GTX1080Ti). Alle „Teile“ sind von uns zu einem großen Cluster verbunden worden (mit gemeinsamem Batchsystem, Scratch-Speicher, Administration, etc…), das von uns HILBERT (nach dem deutschen Mathematiker David Hilbert, * 1862; † 1943) getauft wurde. Damit ist der Serverraum, in dem das System steht, ein…? Na...?
Warum hybrid?
Aufgrund der an der HHU bestehenden heterogenen Bedarfssituation wurde am ZIM bereits der Vorgänger von HILBERT („GAUSS“, * 2007; † 2013) vom HPC-Team als heterogener Rechencluster konzipiert, ausgeschrieben und installiert. Der heterogene Aufbau des GAUSS-Clusters war bei Inbetriebnahme einzigartig in Deutschland (eine Kombination aus Itanium Montecito (ia64)- und Woodcrest (em64t)-Prozessoren). Das Nachfolge-System "Hilbert" bestand ebenfalls zunächst aus einer großen Shared-Memory-Maschine der Firma SGI und einem MPI-basierten Teil der Firma BULL.
Der notwendige Mehraufwand, der in die Entwicklung neuartiger Tools für so einen heterogenen Cluster gesteckt werden muss, und die deutlich komplexere Administration lohnen sich, um die typischerweise heterogenen Anforderungen sehr unterschiedlicher Anwendungen zu erfüllen.
In dieser Tradition ist auch HILBERT konzipiert worden. In einer gemeinsamen Runde, zu der Vertreter der forschenden Institute eingeladen waren, wurde ermittelt, was die aktuellen und (soweit das ging) die zukünftigen Anforderungen an ein HPC System sind.
Dabei haben sich klar zwei komplett unvereinbare Anforderungen herauskristallisiert: Gerade (aber nicht nur) aus dem Bereich der Bioinformatik kam der Wunsch nach einem System mit viel Hauptspeicher am Stück (auch einige Terabytes pro Prozess, also ein recht großes Shared-Memory-System), wogegen die HPC-User aus Physik und Chemie eher viele Cores bei mittlerem Speicherbedarf nutzen.
Mit diesen Informationen sind dann die Mitglieder des HPC-Teams auf Fachmessen an die Hersteller herangetreten um abzufragen, was es auf dem Markt passendes gibt.