- Angelegt von Rehs, Philipp Helo, zuletzt geändert am Sept. 24, 2021
Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.
Unterschiede anzeigen Seitenhistorie anzeigen
« Vorherige Version anzeigen Version 8 Aktuelle »
Es gibt eine Reihe von kleinen Tools, um Informationen zum Cluster-Status zu bekommen. Diese Tools findet man in dem Modul hpc-tools.
Cluster-Auslastung
Mit dem Skript cluster_usage.py kann man sich die Auslastung des Clusters (oder einer Queue oder einer speziellen Architektur) anzeigen lassen. Hier einige Beispiele:
$ module load hpc-tools $ cluster_usage.py himem $ cluster_usage.py a100 $ cluster_usage.py rtx6000 $ cluster_usage.py skylake
GPUs Available
Das Skript gpus_available gibt eine Liste von GPU-Typen und deren Verfügbarkeit aus
$ gpus_available {'rtx6000': 4, 'teslat4': 4, 'rtx8000': 4, 'gtx1080ti': 103, 'rtx2080': 19, 'a100': 0}
Queue-Warteschlange
Das Skript queue_priority.py gibt eine Liste aller wartenden Jobs und deren aktuelle Priorität aus. Diese Prioritäten steigen von alleine mit der Zeit an und der oberste Job wird vom PBS als nächstes abgearbeitet. Bei wichtigen Jobs kann man allerdings auch über den Einsatz von Bonuspunkten die Priorität erhöhen und dadurch einen Job schneller starten lassen.
$ queue_priority.py 1104935.hpc-batch = 720.82 1104936.hpc-batch = 720.82 1104937.hpc-batch = 720.82 1104938.hpc-batch = 720.82 1105085.hpc-batch = 719.56 1107616.hpc-batch = 674.2 1107625.hpc-batch = 674.04 1107626.hpc-batch = 674.03 1107627.hpc-batch = 674.03 ...
Snapshots finden
Das Tool locate_snapshot gibt einem die Möglichkeit alle Snapshots zu einem bestimmten Pfad zu finden mit Datumsangabe. Es funktioniert für die aktiven Filesysteme /home und /gpfs. Weiter Informationen zu Snapshots finden Sie hier: Datensicherung per Snapshots
$ locate_snapshot /gpfs/project/phreh100/test.0.0 Path: /gpfs/project/phreh100/test.0.0 abs Path: /gpfs/project/phreh100/test.0.0 Base Location: /gpfs/project/.snapshots /gpfs/project/.snapshots/8hours_-2021.09.24-02.01.09/phreh100/test.0.0 /gpfs/project/.snapshots/week-2021.09.19-01.00.46/phreh100/test.0.0 /gpfs/project/.snapshots/week-2021.09.12-01.00.44/phreh100/test.0.0 /gpfs/project/.snapshots/day-2021.09.16-22.00.54/phreh100/test.0.0 /gpfs/project/.snapshots/day-2021.09.23-22.00.55/phreh100/test.0.0 /gpfs/project/.snapshots/8hours_-2021.09.23-10.01.09/phreh100/test.0.0 /gpfs/project/.snapshots/day-2021.09.21-22.00.55/phreh100/test.0.0 /gpfs/project/.snapshots/day-2021.09.18-22.00.54/phreh100/test.0.0 /gpfs/project/.snapshots/day-2021.09.19-22.00.54/phreh100/test.0.0 /gpfs/project/.snapshots/8hours_-2021.09.23-18.01.09/phreh100/test.0.0 /gpfs/project/.snapshots/day-2021.09.22-22.00.55/phreh100/test.0.0 /gpfs/project/.snapshots/week-2021.09.05-01.00.43/phreh100/test.0.0 /gpfs/project/.snapshots/day-2021.09.17-22.00.54/phreh100/test.0.0 /gpfs/project/.snapshots/day-2021.09.20-22.00.54/phreh100/test.0.0 /gpfs/project/.snapshots/week-2021.08.22-01.00.41/phreh100/test.0.0 /gpfs/project/.snapshots/week-2021.08.29-01.00.42/phreh100/test.0.0
Job Logs
Während ein Job läuft ist es möglich in die StdOut und StdErr-Files zu gucken.
Die Scripte dafür heißen job_live_log und job_live_log_error und benötigen die Job-ID als Parameter
$ job_live_log 1377439 $ job_live_log_error 1377439
- Keine Stichwörter