Systemname: wega
Cray XD1 SystemOverview (.pdf)
Das Cluster besteht derzeit aus 4 Chassis. Jedes Chassis enthält 6 Compute Blades mit jeweils 2 64-bit Opteron-Prozessoren.

Die Knoten sind über ein Rapid Array - Netzwerk verbunden.
Managment- Network:
Systemmanagment über internes Supervisor- Netzwerk (100 Mbps Ethernet)
Compiler Language Command PGF77 Fortran 77 pgf77 PGF90 Fortran 90 pgf90 PGHPF High Performance Fortran pghpf PGCC C ANSI and K&R C pgcc PGCC C++ ANSI C++ with cfront features pgCC PGDBG Source code debugger pgdbg PGPROF Performance profiler pgprof
Bibliotheken:
AMD ScaLAPACK ( pdf )
Einführung in das Queuesystem PBSPro und Besonderheiten der XD1- Systeme
Im Februar 2006 wurde das bisherige Queuesystem SGE (SunGridEngine) auf PBSPro umgestellt.
Um die Performance von Paralleljobs zu erhöhen, wurde bei der Systemkonfiguration für alle Compute- Partitions die Nutzung des LSS (Linux Synchronized Scheduler) ermöglicht.
Dazu muß vom Nutzer das Kommando xd1launcher in den Jobscript aufgenommen werden.
mpiexec $XD1LAUNCHER <executable>
$XD1LAUNCHER aktiviert den Linux Synchronized Scheduler (LSS) und setzt die CPU Affinity für die Prozesse.
Über die Option xd1launcher -j kann die die CPU- Zuweisung bei DualCore- Prozessoren gesteuert werden.
Generierieren ssh- keys
Um Probleme mit MPI zu vermeiden, mu vor Verwendung des Batchsystems ein ssh- key mit einer leeren passphrase erzeugt werden.
Außerdem wird dieser Key zum Kopieren der Job- Outputfiles mittels scp benötigt.
ssh-keygen -t dsa -b 1024 cd ~/.ssh cat id_dsa.pub >> authorized_keysAbsetzen von Jobs:
qsub -l nodes=<n>:ppn=<m>,mem=<b>,walltime=<hh:mm:ss> -q<partition> -j oe <script>
-l definiert die Ressourcenanforderungen für den Job
nodes=<n>:ppn=<m> Paralleljob auf <n> Nodes und <m> Prozessoren auf jedem Node, mem=<b> benötigterSpeicher walltime=<hh:mm:ss> Laufzeitlimit
-q <partition> spezifiert die zu nutzende Partition -j oe kombiniert stdout und stderr in eiin File <script> ist der auszuführende Batchscript
Partitions:
DasKommando "lspart" zeigt die zur Verfügung stehenden Partitionsund "lsaccess" die entsprechenden Zugriffsrechte an.
Um die Architektur der Systeme besser zu nutzen, ist ein Chassis (785) für Paralleljobs reserviert.
Das heißt, beim Absetzen von Jobs sind folgende Regeln einzuhalten:
Queue com4: nur für Jobs mit 4 Prozessoren pro Node Queue com: für Jobs mit 1 -2 Prozessoren oder mehr
Eine detaillierte Beschreibung zum Absetzen und Steuern der Jobs finden Siehier:
Außerdem steht Ihnen das PBSPro User Guide (.pdf) zur Verfügung.