Skip to main content

Surveiller et gérer ses travaux

Voir la file d'attente

squeue montre l'état de la file d'attente.

Cette commande affiche la liste des travaux en cours pour l'utilisateur spécifié. Vous pouvez voir des informations telles que l'ID du travail, l'état, le nœud, le temps, etc.

$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
... ... ...

Sur certaines machines il se peut que cette commande soit configurée pour ne montrer que vos jobs par (squeue -u $USER).

La colonne ST indique l'état du job : parmi le grand nombre d'états possible les plus fréquents sont: R (Running), PD (Pending - en attente), F (Failed - échec).

Pour des jobs en attente, la colonne (REASON) donne la raison pour laquelle le job est en attente - la liste est longue.

Les plus attendues sont Priority (vous n'avez pas la priorité) et Resources (en attente de disponibilité de ressources). Si d'autres raisons s'affichent, il peut être utile de vérifier si les resources demandés sont compatibles.

Annuler un job

scancel permet d'annuler un ou plusieurs job(s).

  • scancel JOBID permet d'annuler le job JOBID.
  • scancel -n toto annule les jobs nommés toto (bien sûr, seulement vos jobs).
  • scancel -n toto -t PENDING annule les jobs nommés toto en attente.

Voir l'état de la machine

La commande sinfo donne des informations sur les nœuds et partitions d'un cluster.

Il est possible de formater la sortie de sinfo pour obtenir des informations plus détaillés.

Par exemple

  • sinfo -s donne un resumé de l'état du cluster
  • sinfo -N --long donne plus l'état du cluster nœud par nœud avec plus de détails

Inspecter des jobs passés

sacct donne de l'informations sur des jobs passés.

sacct -S 0715 -u $USER

Estimer l'utilisation mémoire d'un code

sacct -o jobid,jobname,reqnodes,reqcpus,reqmem,maxrss,averss,elapsed -j JOBID

ReqMem     MaxRSS     AveRSS    Elapsed
---------- ---------- ---------- ----------
55000Mn 16? 00:08:33
55000Mn 17413256K 16269776K 00:08:33
55000Mn 17440808K 16246408K 00:08:32