Gérer et diffuser les données selon les principes FAIR
L’infrastructure nationale de recherche CLIMERI-France joue un rôle central dans la diffusion des données climatiques, en rendant accessible des simulations multi-modèles essentielles pour comprendre l’évolution du climat, tant à l’échelle globale que régionale. Ces données, utilisées dans des études d’impact, la recherche scientifique et la mise en œuvre de services climatiques (comme DRIAS au niveau national), sont basées sur des standards internationaux et sur une systématisation de la documentation des simulations et des modèles, ainsi que de synthèses de résultats de simulation. La qualité, la fiabilité et la traçabilité des données sont garanties grâce à un cadre de gestion rigoureux, reposant sur les principes FAIR (« Findable Accessible Interoperable Reusable »).
1. Collaboration technique internationale
CLIMERI-France s’inscrit dans une collaboration internationale étroite avec :
- Les équipes (ou Task Team) du CMIP IPO (International Project Office) qui visent à encadrer la prochaine génération de simulations climatiques de référence. L’objectif est d’un part d’intégrer les dernières avancées en modélisation climatique, de mieux représenter certains phénomènes régionaux ou extrêmes, et de fournir des données encore plus précises aux chercheurs, et d’autre part de fournir les recommandations techniques nécessaires à la prise en charge de ces simulations (forçages, documentation, accès, etc.)
- L’équipe opérationnelle des serveurs CMIP (CDNOT) pour l’Earth System Grid Federation (ESGF) dont l’objectif est de coordonner les protocoles et le développement des outils et de l’infrastructure de gestion et de distribution des données CMIP et CORDEX. Cette équipe se concentre sur la gestion opérationnelle et le développement technologique du réseau ESGF.
2. Acquisition et stockage
En plus d’accompagner la réalisation des simulations climatiques de référence françaises pour les exercices du Programme Mondial pour la Recherche sur le Climat (WCRP), CLIMERI-France offre une plateforme d’analyse mutli-modèle donnant accès à un ensemble de simulations climatiques globales (CMIP) et régionales (Coordinated Regional Climate Downscaling Experiment - CORDEX) produites par les autres groupes de modélisation internationaux.
Pour cela CLIMERI-France repose entièrement sur les ressources du Centre de Calcul et de Données de l’IPSL (appelé ESPRI) qui agit comme un dépôt secondaire des simulations CMIP et CORDEX disponibles sur ESGF (voir Plateforme analyse multi-modèle). Les données répliquées y sont stockées en utilisant des outils dédiés qui assurent l’intégrité des données. Les données sont préservées pour un minimum de 7 ans pendant lesquels ESPRI assure le renouvellement des espaces de stockage avec le soutien de CLIMERI-France et de ses partenaires HPC (IDRIS et TGCC). Au-delà la curation des données se fait selon une stratégie basée sur les versions de chaque jeu de données et leurs intérêts communautaires. Cela permet d’assurer de façon temporaires la reproductibilité des analyses récentes. Le Plan de Gestion de Données ESPRI détaille cette politique de gestion de données de la plateforme.
C’est également par l’intermédiaire de sa plateforme que CLIMERI-France contribue à la distribution d’un sous-ensemble de projections climatiques pour le Climate Data Store du programme européen Copernicus Climate Change Service.
3. Normes et standards
Que ce soit pour les simulations climatiques de référence françaises produites par les partenaires de CLIMERI-France ou les simulations répliquées des autres groupes de modélisation internationaux participant aux exercices CMIP et CORDEX, les données issues de simulations climatiques doivent se conformer à plusieurs normes :
- La convention Climate and Forecast (CF) est un standard international utilisé pour structurer et organiser les données climatiques, notamment dans des fichiers NetCDF (Network Common Data Form). Son objectif est de garantir que les données produites par les simulations climatiques soient comprises et réutilisables de manière interopérable par la communauté scientifique mondiale. Par exemple, la convention CF applique le principe de donnée « auto-décrite » : toutes les métadonnées décrivant comment et par qui un fichier a été produit doivent être intégrées dans l’en-tête du fichier lui-même.
- Les Data Reference Syntaxe (DRS) de CMIP et CORDEX sont des ensembles de règles supplémentaires qui s’appliquent aux données de références afin de renforcer leur Interopérabilité. En adoptant ces normes, les fichiers produits peuvent être partagés et analysés dans différentes institutions et avec différents outils sans perte d’information. Les résultats de simulations provenant de différentes institutions peuvent alors être comparés et utilisés conjointement, favorisant ainsi une plus grande fiabilité des projections climatiques et assurant une meilleure collaboration internationale..
- Les vocabulaires contrôlés (CVs) définis dans le cadre des projets CMIP et CORDEX sont des listes de métadonnées normalisées : les variables utilisées dans les simulations climatiques, telles que la température, les précipitations, ou les concentrations de gaz à effet de serre, sont associées à des métadonnées détaillées. Ces métadonnées incluent la signification des variables, les unités, les dimensions spatiales et temporelles, et les conditions initiales, le modèle, l’institut facilitant ainsi la compréhension des résultats. Les clés et les valeurs de ces métadonnées ou attributs sont fixées par les communautés CMIP et CORDEX doivent être respectées afin de pourvoir être distribués sur ESGF.
Les équipes de CLIMERI-France apportent une contribution forte à la définition de ces standards internationaux.
4. Contrôle qualité
Le contrôle qualité (QA/QC) des données diffusées par CLIMERI-France est une étape essentielle pour garantir la fiabilité des simulations climatiques et comporte deux étapes :
- La validation scientifique consiste à appliquer des tests de cohérence pour s’assurer que les simulations climatiques respectent les principes physiques de base et ne présentent pas d’anomalies ou d’incohérences majeures. Par exemple, les simulations sont vérifiées pour éviter des erreurs telles que des valeurs aberrantes ou manquantes. Cette étape est assurée par les scientifiques ayant eux mêmes produit/lancé la simulation avant que celle-ci ne soit collectée par CLIMERI.
- La vérification des métadonnées consiste à soumettre chaque fichier à une vérification systématique de leurs métadonnées afin de garantir leur conformité avec les normes décrites précédemment. Cela permet d’assurer que chaque variable, expérience et scénario est correctement documenté, facilitant l’interprétation et l’utilisation des données. Pour les données produites par les partenaires de CLIMERI, la conformité à ces différentes normes est contrôlée systématiquement par les ingénieur.e.s du groupe CLIMERI-Tech à l’aide d’outils communautaires dédiés et open source tels que nctime ou PrePARE. Dans le cas des données répliquées, cette conformité repose principalement sur une confiance mutuelle tacite établie avec les groupes de modélisation internationaux appliquant les mêmes outils et le processus de publication ESGF validant automatiquement certaines métadonnées.
5. Distribution et préservation
L’Earth System Grid Federation (ESGF) est une infrastructure mondiale dédiée à la distribution des simulations climatiques et des données connexes. Le Centre de Calcul et de Données de l’IPSL (ESPRI) est un des piliers de cette infrastructure, jouant un rôle crucial dans la gestion et la diffusion des données de CLIMERI. l’ESGF fonctionne comme réseau serveurs de données interconnectés, chacun hébergeant une partie des données climatiques de référence mondiale. Chaque serveur partage son catalogue de données permettant une distribution décentralisée des données, tout en garantissant un accès rapide et fiable pour les utilisateurs du monde entier.
Grâce à des protocoles standardisés et à des outils de recherche sophistiqués, les utilisateurs peuvent accéder aux données hébergées dans n’importe quel centre membre du réseau ESGF. Cela inclut les simulations CMIP, CORDEX, ainsi que d’autres expériences climatiques à grande échelle.
L’ESGF garantit les simulations climatiques essentielles (i.e., variables, fréquences et scenario clés) sont préservées et restent accessibles à la communauté scientifique mondiale pour une utilisation immédiate ou future via une redondance à l’échelle européenne et internationale. Des partenaires identifiés répliquent en continu les résultats des modèles climatiques d’autres groupes de modélisation au sein de l’ESGF, selon un système RAID distribué, avec un contrôle systématique des sommes de contrôle des fichiers pour garantir la cohérence des copies physiques sur les sites.
Enfin, toutes les données CMIP et CORDEX sont ouvertes et libre d’accès (licence CC-BY) sans système d’authentification.
6. Traçabilité et documentation
Lors de leur publication sur ESGF, les données CMIP et CORDEX se voient attribuer un identifiant unique et immuable appelé Persistent IDentifier (PID). Cette identifiant a le même rôle qu’un DOI (Digitial Object Identifier) menant à une page web comportant des informations supplémentaires sur la provenance de la donnée (e.g., généalogie des versions, erreurs connues). Cet identifiant peut également être directement utilisé afin de citer un jeu de données ou un fichier lors de la soumission d'un article scientifique. De plus, la plateforme ESPRI a obtenu en 2024 la certification CoreTrustSeal renforçant son statut de dépôt de données FAIR aux yeux des éditeurs de revues scientifiques à comité de lecture.
L’un des aspects les plus importants pour l’utilisation efficace des données climatiques est une documentation claire et détaillée des simulations et des modèles utilisés. CLIMERI-France soutien depuis de nombreuses années le service de documentation centralisé ES-DOC (Earth System Documentation), qui propose une description exhaustive des simulations et des modèles, afin de garantir une traçabilité complète des expériences climatiques. ES-DOC fournit des informations sur :
- Les modèles climatiques utilisés, y compris leurs versions, les processus physiques modélisés et les incertitudes associées.
- Les conditions initiales et les forçages externes appliqués (tels que les concentrations de gaz à effet de serre, les aérosols, etc.).
- Les paramètres spécifiques à chaque simulation, facilitant ainsi les comparaisons entre différentes expériences.
Depuis 2018, CLIMERI-France a également la responsabilité du service d’errata d’ESGF mis en place pour signaler tout problème rencontré après la diffusion des données, leur sévérité, leur statut (corrigé ou non). Si une simulation contient une erreur, elle doit être documentée et corrigée. Cela assure que les utilisateurs peuvent ajuster leurs analyses en conséquence, et contribue à maintenir une grande transparence dans la gestion des données.