Skip to main content

Vesta, la machine IA/GPU AMD de MesoNET

Description matérielle générale

Frontales d'accès

Les deux frontales d'accès sont des serveurs HPE ProLiant DL385 Gen10+ v2 chacun étant composé de :

ComposantModèleQuantitéRéf. HPE
ProcesseurAMD EPYC 73132P38669-B21
MémoireHPE 32 Go DDR4-32008P07646-B21
Stockage SSDHPE 960 Go SAS122P40510-B21
Stockage HDDHPE 18 To SAS1216P37669-B21
Contrôleur RAID SSDBroadcom MegaRAID MR416i-a1P26279-B21
Contrôleur RAID HDDBroadcom MegaRAID MR416i-p1P06367-B21
Adaptateur réseauIntel E810-XXVDA4 10/25Gb4P08458-B21

Nœuds de calcul

Les trois nœuds de calcul sont des serveurs HPE Apollo 6500 XL675d Gen10+ chacun étant composé de :

ComposantModèleQuantitéRéf. HPE
ProcesseurAMD EPYC 76432P40591-B21
MémoireHPE 64 Go DDR4-320032P07650-H21
Carte graphiqueAMD Instinct MI21010R6V51A
BridgeAMD Infinity Link fabric 4-way2R6B51A
Stockage SSDHPE 480 Go2P18422-H21
Stockage NVMeHPE 7,68 To2P47843-H21
Contôleur RAIDHPE Smart Array E208i-a1804326-B21
Adaptateur réseauIntel E810-XXVDA4 10/25Gb1P08458-B21
Adaptateur faible latenceHPE InfiniBand HDR1001P23665-H21

Commutateur Infiniband

Les nœuds de calculs sont reliés entre eux via un fabric Infiniband utilisant le commutateur suivant :

ComposantModèleRéf. HPE
Commutateur InfinibandMellanox InfiniBand EDR 100 Gbit/s v2 36834978-B22

Système d'exploitation

Le système d'exploitation Red Hat Enterprise Linux (RHEL) 8.7 est installé sur l'ensemble des nœuds du cluster.
Voici les certifications de compatibilité matérielle avec le système d'exploitation RHEL 8.7 :

Description du stockage

Stockage SSD

Sur les frontales d'accès comme sur les nœuds de calcul les disques SSD sont configurés en RAID1 (miroir) via un contrôleur matériel. Ils sont destinés à l'installation du système d'exploitation.

Frontales d'accès

Sur les frontales d'accès, les disques SSD sont connectés au contrôleur RAID via un BUS SAS 12G. Le contrôleur RAID est quant à lui connecté sur la carte mère via un BUS PCIe 8X GEN4.
Les performances théoriques des disques SSD P40510-B21 sont listées ci-dessous :

OpérationValeurUnité
Max Seq. Reads Throughput790MiB/s
Max Seq. Writes Throughput635MiB/s
Random Read Avg. Latency (4KiB, Q1)130uSec
Random Write Avg. Latency (4KiB, Q1)35uSec
Random Read (4KiB, Q16)105,000IOPS
Random Write (4KiB, Q16)47,000IOPS
Max Random Read (4KiB, Q32)155,000IOPS
Max Random Wirte (4KiB, Q4)48,000IOPS

Pour la source cliquer ici.

Noeuds de calcul

Sur les nœuds de calcul, les disques SSD sont connectés au contrôleur RAID via un BUS SAS 6G. Le contrôleur RAID est quant à lui connecté sur la carte mère via un BUS PCIe 8X GEN3.
Les performances théoriques des disques SSD P18422-H21 sont listées ci-dessous :

OpérationValeurUnité
Max Seq. Reads Throughput510MiB/s
Max Seq. Writes Throughput300MiB/s
Random Read Avg. Latency (4KiB, Q1)125uSec
Random Write Avg. Latency (4KiB, Q1)75uSec
Random Read (4KiB, Q16)63,000IOPS
Random Write (4KiB, Q16)15,000IOPS
Max Random Read (4KiB, Q32)65,500IOPS
Max Random Wirte (4KiB, Q1)15,400IOPS

Pour la source cliquer ici.

Stockage NVMe

Frontales d'accès

Les frontales d'accès ne disposent d'aucun disque NVMe.

Noeuds de calcul

Sur les nœuds de calcul le stockage NVMe est utilisé pour le montage de la partition scratch. Une répartition physique d'un disque NVMe par socket CPU est utilisée. Afin d'avoir un unique point de montage /scratch les deux disques NVMe sont configurés au niveau logiciel via LVM comme un unique volume logique lv-stratch stripé utilisant un RAID0.
Pour les nœuds de calcul les performances théoriques du stockage NVMe P47843-H21 connecté sur une interface PCIe 4x GEN4 sont listées ci-dessous :

OpérationValeurUnité
Max Seq. Reads Throughput5900MiB/s
Max Seq. Writes Throughput3650MiB/s
Random Read Avg. Latency (4KiB, Q1)107uSec
Random Write Avg. Latency (4KiB, Q1)29uSec
Random Read (4KiB, Q16)155,000IOPS
Random Write (4KiB, Q16)85,000IOPS
Max Random Read (4KiB, Q256)880,000IOPS
Max Random Write (4KiB, Q128)85,000IOPS

Pour la source cliquer ici.

Stockage HDD

Frontales d'accès

Sur les frontales d'accès le stockage HDD est configuré en RAID6 (double parité) via le contrôleur matériel. Le contrôleur matériel utilise une interface PCIe x16 GEN4 avec la carte mère. Les HDD utilisent quant à eux une interface SAS 12G avec le contrôleur RAID. Tous les disques HDD sont identiques P37669-B21
La configuration RAID6 est basée sur la création d'un unique volume RAID contenant 15 HDD physiques sur les 16 disponnibles. Le dernier disque est utilisé comme disque de récupération "global spare". Du fait de l'utilisation d'un RAID6 nous avons par frontale d'accès :

  • Un stockage utile de (18 x 15 - 2) = 234 To
  • Une tolérance aux pannes de deux disques
  • Une résilience supplémentaire du fait de l'utilisation d'un disque de "global spare". En effet cela permet au RAID6 de reconstruire les données perdues sur le disque de "global spare", garantissant ainsi la disponibilité continue des données en cas de double panne de disque.

Les volumes sont partagés par NFS sur l'ensemble des machines du cluster.
Sur la seconde frontale d'accès, le stockage HDD est configuré de manière équivalente à celui de la première frontale, il sert de sauvegarde aux données de la première frontale.

Réseau ethernet

Afin d'augmenter la bande passante utile lors de multiples connexions TCP simulatanées, nous utilisons de l'agrégation de liens (LACP) sur les cartes réseau ethernet.

Réseau Infiniband

La taille maximale de la MTU pour le commutateur IB est de 4 KB.