Vesta, la machine IA/GPU AMD de MesoNET
Description matérielle générale
Frontales d'accès
Les deux frontales d'accès sont des serveurs HPE ProLiant DL385 Gen10+ v2 chacun étant composé de :
Composant | Modèle | Quantité | Réf. HPE |
---|---|---|---|
Processeur | AMD EPYC 7313 | 2 | P38669-B21 |
Mémoire | HPE 32 Go DDR4-3200 | 8 | P07646-B21 |
Stockage SSD | HPE 960 Go SAS12 | 2 | P40510-B21 |
Stockage HDD | HPE 18 To SAS12 | 16 | P37669-B21 |
Contrôleur RAID SSD | Broadcom MegaRAID MR416i-a | 1 | P26279-B21 |
Contrôleur RAID HDD | Broadcom MegaRAID MR416i-p | 1 | P06367-B21 |
Adaptateur réseau | Intel E810-XXVDA4 10/25Gb | 4 | P08458-B21 |
Nœuds de calcul
Les trois nœuds de calcul sont des serveurs HPE Apollo 6500 XL675d Gen10+ chacun étant composé de :
Composant | Modèle | Quantité | Réf. HPE |
---|---|---|---|
Processeur | AMD EPYC 7643 | 2 | P40591-B21 |
Mémoire | HPE 64 Go DDR4-3200 | 32 | P07650-H21 |
Carte graphique | AMD Instinct MI210 | 10 | R6V51A |
Bridge | AMD Infinity Link fabric 4-way | 2 | R6B51A |
Stockage SSD | HPE 480 Go | 2 | P18422-H21 |
Stockage NVMe | HPE 7,68 To | 2 | P47843-H21 |
Contôleur RAID | HPE Smart Array E208i-a | 1 | 804326-B21 |
Adaptateur réseau | Intel E810-XXVDA4 10/25Gb | 1 | P08458-B21 |
Adaptateur faible latence | HPE InfiniBand HDR100 | 1 | P23665-H21 |
Commutateur Infiniband
Les nœuds de calculs sont reliés entre eux via un fabric Infiniband utilisant le commutateur suivant :
Composant | Modèle | Réf. HPE |
---|---|---|
Commutateur Infiniband | Mellanox InfiniBand EDR 100 Gbit/s v2 36 | 834978-B22 |
Système d'exploitation
Le système d'exploitation Red Hat Enterprise Linux (RHEL) 8.7 est installé sur l'ensemble des nœuds du cluster.
Voici les certifications de compatibilité matérielle avec le système d'exploitation RHEL 8.7 :
- Frontales d'accès : HPE ProLiant DL385 Gen10+ v2
- Nœuds de calcul : HPE Apollo 6500 XL675d Gen10+
Description du stockage
Stockage SSD
Sur les frontales d'accès comme sur les nœuds de calcul les disques SSD sont configurés en RAID1 (miroir) via un contrôleur matériel. Ils sont destinés à l'installation du système d'exploitation.
Frontales d'accès
Sur les frontales d'accès, les disques SSD sont connectés au contrôleur RAID via
un BUS SAS 12G. Le contrôleur RAID est quant à lui connecté sur la carte mère
via un BUS PCIe 8X GEN4.
Les performances théoriques des disques SSD P40510-B21 sont listées ci-dessous :
Opération | Valeur | Unité |
---|---|---|
Max Seq. Reads Throughput | 790 | MiB/s |
Max Seq. Writes Throughput | 635 | MiB/s |
Random Read Avg. Latency (4KiB, Q1) | 130 | uSec |
Random Write Avg. Latency (4KiB, Q1) | 35 | uSec |
Random Read (4KiB, Q16) | 105,000 | IOPS |
Random Write (4KiB, Q16) | 47,000 | IOPS |
Max Random Read (4KiB, Q32) | 155,000 | IOPS |
Max Random Wirte (4KiB, Q4) | 48,000 | IOPS |
Pour la source cliquer ici.
Noeuds de calcul
Sur les nœuds de calcul, les disques SSD sont connectés au contrôleur RAID via un BUS SAS 6G. Le contrôleur RAID est quant à lui connecté sur la carte mère via un BUS PCIe 8X GEN3.
Les performances théoriques des disques SSD P18422-H21 sont listées ci-dessous :
Opération | Valeur | Unité |
---|---|---|
Max Seq. Reads Throughput | 510 | MiB/s |
Max Seq. Writes Throughput | 300 | MiB/s |
Random Read Avg. Latency (4KiB, Q1) | 125 | uSec |
Random Write Avg. Latency (4KiB, Q1) | 75 | uSec |
Random Read (4KiB, Q16) | 63,000 | IOPS |
Random Write (4KiB, Q16) | 15,000 | IOPS |
Max Random Read (4KiB, Q32) | 65,500 | IOPS |
Max Random Wirte (4KiB, Q1) | 15,400 | IOPS |
Pour la source cliquer ici.
Stockage NVMe
Frontales d'accès
Les frontales d'accès ne disposent d'aucun disque NVMe.
Noeuds de calcul
Sur les nœuds de calcul le stockage NVMe est utilisé pour le montage de la partition scratch
. Une répartition physique d'un disque NVMe par socket CPU est utilisée. Afin d'avoir un unique point de montage /scratch
les deux disques NVMe sont configurés au niveau logiciel via LVM comme un unique volume logique lv-stratch
stripé utilisant un RAID0.
Pour les nœuds de calcul les performances théoriques du stockage NVMe P47843-H21 connecté sur une interface PCIe 4x GEN4 sont listées ci-dessous :
Opération | Valeur | Unité |
---|---|---|
Max Seq. Reads Throughput | 5900 | MiB/s |
Max Seq. Writes Throughput | 3650 | MiB/s |
Random Read Avg. Latency (4KiB, Q1) | 107 | uSec |
Random Write Avg. Latency (4KiB, Q1) | 29 | uSec |
Random Read (4KiB, Q16) | 155,000 | IOPS |
Random Write (4KiB, Q16) | 85,000 | IOPS |
Max Random Read (4KiB, Q256) | 880,000 | IOPS |
Max Random Write (4KiB, Q128) | 85,000 | IOPS |
Pour la source cliquer ici.
Stockage HDD
Frontales d'accès
Sur les frontales d'accès le stockage HDD est configuré en RAID6 (double parité) via le contrôleur matériel. Le contrôleur matériel utilise une interface PCIe x16 GEN4 avec la carte mère. Les HDD utilisent quant à eux une interface SAS 12G avec le contrôleur RAID. Tous les disques HDD sont identiques P37669-B21
La configuration RAID6 est basée sur la création d'un unique volume RAID contenant 15 HDD physiques sur les 16 disponnibles. Le dernier disque est utilisé comme disque de récupération "global spare". Du fait de l'utilisation d'un RAID6 nous avons par frontale d'accès :
- Un stockage utile de (18 x 15 - 2) = 234 To
- Une tolérance aux pannes de deux disques
- Une résilience supplémentaire du fait de l'utilisation d'un disque de "global spare". En effet cela permet au RAID6 de reconstruire les données perdues sur le disque de "global spare", garantissant ainsi la disponibilité continue des données en cas de double panne de disque.
Les volumes sont partagés par NFS sur l'ensemble des machines du cluster.
Sur la seconde frontale d'accès, le stockage HDD est configuré de manière équivalente à celui de la première frontale, il sert de sauvegarde aux données de la première frontale.
Réseau ethernet
Afin d'augmenter la bande passante utile lors de multiples connexions TCP simulatanées, nous utilisons de l'agrégation de liens (LACP) sur les cartes réseau ethernet.
Réseau Infiniband
La taille maximale de la MTU pour le commutateur IB est de 4 KB.