Skip to main content

Lancer un calcul sur Arctic

Commandes de Slurm

ActionCommande
Caractéristiques des partitions (classes)sinfo
Soumettre un travailsbatch slurm_script.sl
Lister l'ensemble des travauxsqueue
Lister ses propres travauxsqueue --me
Affichage des caractéristiques d'un travailscontrol show job job_id
Prévision d'horaire de passage d'un travail en file d'attentesqueue --start --job job_id
Prévision d'horaire de passage de ses propres travauxsqueue --me --start
Vérification de la syntaxe et prévision d'horaire de passage d'un travail, sans le soumettresbatch --test-only slurm_script.sl
Tuer un travailscancel job_id

Modèles de script

Les modèles de script sont fournis dans un répertoire /soft/slurm/Arctic_Modeles_scripts/

Les partitions (classes de soumission)

La partition Slurm est à spécifier par l'utilisateur dans son script.

PartitionDurée maximaleLimites par calcul
ar_mig8 h4 cœurs, 1 instance de GPU NVIDIA A100 partitionné en MIG
ar_a1008 h16 cœurs, 1 GPU NVIDIA A100
ar_h2008 h24 cœurs, 1 GPU NVIDIA H200
ar_mi2101 h16 cœurs, 1 GPU AMD MI210
ar_fin1 h384 cœurs (2 nœuds de calcul purs CPU, AMD Genoa)

Domaine IA - deep learning

Lire sa page consacrée et sa section Utilisation (les partitions Slurm pour GPU NVIDIA mentionnées sur ce lien sont à remplacer par celles du tableau ci-dessus).

GPU partitionnés

La partition ar_mig est associée à un nœud de calcul dont les GPU NVIDIA A100 sont partitionnés par la technologie MIG (Multi-Instance GPU).

Différentes tailles d'instances sont disponibles (SM : Streaming Multiprocessor, TC : Tensor Core) :

  • 10 devices a100_1g.10gb avec 10 GB de mémoire, 14 SM et 56 TC
  • 17 devices a100_2g.20gb avec 20 GB de mémoire, 28 SM et 108 TC
  • 4 devices a100_3g.40gb avec 40 GB de mémoire, 42 SM et 164 TC

Pour utiliser l'un de ces devices dans vos calculs il faut :

  • cibler la partition ar_mig avec l'option --partition ar_mig de sbatch
  • préciser le type de device souhaité avec l'option --gres de sbatch :
    • --gres=gpu:a100_1g.10gb pour l'architecture a100_1g.10gb
    • --gres=gpu:a100_2g.20gb pour l'architecture a100_2g.20gb
    • --gres=gpu:a100_3g.40gb pour l'architecture a100_3g.40gb

Un exemple complet basé sur le tutoriel mnist pour PyTorch est disponible sur Arctic, dans le répertoire :

/soft/slurm/Arctic_Modeles_scripts/pytorch-mig/