Les jeux de données
CALMIP met à disposition sur le cluster de prototypage ARM accéléré du projet MesoNET, les jeux de données les plus demandés. Ces jeux de données pré-téléchargés sont disponibles dans le répertoire "/work/shares/IA-Datasets".
- Imagenet
- Imagenet 21k
- Kinetic 400
- Wikipedia-EN
- FineWeb-Edu
ImageNet Large Scale Visual Recognition Challenge (V2017)
La description complète du contenu de ce jeu de données est disponible ici : https://www.image-net.org/index.php
Sur le cluster Turpan, ce jeu de données est disponible dans le répertoire "/work/shares/IA-Datasets/" dans le fichier "imagenet-object-localization-challenge.zip"
ImageNet21K (Winter 2021 Release)
La description complète du contenu de ce jeu de données est disponible ici : https://www.image-net.org/index.php
Sur le cluster Turpan, ce jeu de données est disponible dans le répertoire "/work/shares/IA-Datasets/" dans le fichier "winter21_whole.tar.gz"
Kinetics Datasets
La description complète du contenu de ce jeu de données est disponible ici : https://github.com/cvdfoundation/kinetics-dataset
Sur le cluster Turpan le contenu de ce jeu de données est disponible dans le répertoire "/work/shares/IA-Datasets/k400"
Dataset Card for Wikipedia
La description complète du contenu de ce jeu de données est disponible ici : https://huggingface.co/datasets/legacy-datasets/wikipedia
Sur le cluster Turpan, le contenu de ce jeu de données est disponible dans le répertoire "/work/store/shares/IA-Datasets/Wikipedia-EN"
FineWeb-Edu dataset (uniquement la version 10BT)
Educational content (textbooks, lectures, academic papers, STEM topics, etc.).
La description complète du contenu de ce jeu de données est disponible ici : https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu
Sur le cluster Turpan, le contenu de ce jeu de données est disponible dans le répertoire "/work/shares/IA-Datasets/fineweb_edu_10bt_shuffled "
Si vous avez besoin de jeux de donnée spécifiques, vous pouvez en faire la demande au support.