La machine HPCDA (Dahu)

La toute nouvelle machine de GRICAD illustre le positionnement de l’unité dans un cadre technologique avancé. Construite, installée, partagée et mise en exploitation depuis décembre 2018 avec le projet national Grid’5000, cette plate-forme, intégrant les avancées techniques les plus récentes, ouvrent des perspectives très intéressantes, tant pour les communautés utilisatrices des technologies du calcul et des données, que pour la communauté de la recherche en informatique.

Pour la communauté du calcul scientifique, un grand avantage pourra être tiré de l’infrastructure de services fournie par le projet Grid’5000. Cette dernière propose en effet des mécanismes très efficaces de déploiement d’environnements systèmes et applicatifs qui permettent de reconfigurer à la demande les ressources de calcul afin de s’adapter aux différents besoins des utilisateurs. Les chercheurs de la communauté du calcul scientifique pourront donc bénéficier de cette nouvelle fonctionnalité pour importer leur propre environnement de calcul (système d’exploitation particulier, configuration légère et minimaliste, etc.) et ainsi s’affranchir des contraintes inhérentes à un environnement de production partagé, complexe et assez peu évolutif, qui peut rendre difficile le déploiement de certains environnements de calcul scientifique.

Grid’5000 offre aussi des outils d’introspection très avancés sur les plates-formes (consommation énergétique par exemple) qui permettront une meilleure compréhension de l’usage qui est fait des ressources de calcul et par là même, l’optimisation de leur utilisation. Cet aspect est particulièrement important dans le contexte du passage à l’exascale où on s’attend à voir émerger des plates-formes de calcul à l’architecture complexe (en termes d’hétérogénéité et de hiérarchie des composants).

Pour la communauté d’utilisateurs Grid’5000, cette plate-forme commune apporte un support de premier plan pour l’étude des problématiques de calcul scientifique. D’une part cette mise en commun permet de construire une plate-forme de dimension bien supérieure, primordiale pour les études de passage à l’échelle des systèmes et des codes applicatifs. En effet la validation expérimentale sur plusieurs milliers de coeurs est aujourd’hui un prérequis pour prouver la qualité des résultats de recherches dans le domaine de l’informatique parallèle ou distribuée et donc pour l’acceptation des publications associées dans de grandes conférences comme SuperComputing. Cette infrastructure innovante favorise les collaborations fructueuses car transversales entre les domaines scientifiques et facilite les transferts de technologies : les uns apportent de nouveaux problèmes et les autres de nouvelles techniques.


Plateforme PREDIMED

En collaboration avec le CHUGA et les équipes des laboratoires du site dont les axes de recherche touchent à la santé, GRICAD a participé à la définition de l’architecture de l’Entrepôt de Données de Santé (EDS) PREDIMED (Plateforme de Recueil et d’Exploitation de Données bIoMEDicales). Concernant l’exploitation de ces données, les ingénieurs de l’unité ont développé un outil de constitution de cohorte de patients. Pour chaque patient, il est possible d’avoir une vue graphique de son dossier, sous différents angles : pathologies, prescriptions, parcours au sein du CHU, ...


Ils ont également fourni un maillage optimisé du territoire qui homogénéise au mieux la répartition des populations sous-jacentes et qui respecte les seuils permettant d’éviter la ré-identification des cas de pathologie les plus rares. Cette technologie a été utilisé dans le projet PREDIMED, ainsi que dans un autre projet mené avec la Mutualité Sociale Agricole (MSA).


Projet F-IMAGE

Le projet ERC F-IMAGE, porté par Michel Campillo (laboratoire ISTERRE) vise à étudier les applications en géophysique de l’intelligence artificielle pour les risques naturels et les géoressources. Il implique de nombreux partenaires, en France et à l’étranger, et GRICAD participe activement aux développements réalisés.
Les enjeux géophysiques sont importants : il s’agit d’améliorer les connaissances des processus sismiques et volcaniques pour atténuer les risques corrélés causant des destructions massives tous les ans. En sismologie et en géodésie, les données s’accumulent rapidement, les informations fondamentales des processus physiques de la terre sont contenues dans ces données, mais les méthodes pour les extraire sont à inventer. L’intelligence artificielle apparaît comme la méthode qui réduira l’écart entre des grandes bases de données d’observations disponibles et les possibilités de calcul actuel.
La détection de classes de signaux connus et inconnus est au coeur du processus. Les catalogues existants peuvent s’enrichir significativement en se basant sur l’apprentissage supervisé appliqué aux données géophysiques et géodésiques. La stratégie du projet est d’utiliser des réseaux de neurones très profond et des algorithmes de reconnaissances d’image déjà existant sur des infrastructures de GRICAD (Multi-GPU NV100 32Go) permettant d’avoir des possibilités de plusieurs dizaines de TFlops.
Le problème principal des signaux géophysiques est la complexité spectrale ainsi qu’une dynamique très forte. Dans le cadre de F-IMAGE, une approche méthodologique novatrice a été adoptée sur l’homogénéisation d’un dataset mondial (IRIS, GEOSCOPE, IRIS) de 3600 canaux à 20sps et des catalogues de signaux connus (séismes de magnitudes différentes/profondeurs/azimuth, trémors non-volcaniques, bruits océaniques etc..). Un pré-traitement des données en spectrogrammes normalisés et interpolés de fenêtres avec un ajout de filtre S&P de taille fixe a été appliqué pour la création d’une base de données d’images.


Projet MERCURIUS

Le projet Mercurius (2,4 Mh entre 2016 et 2018) piloté par A. Manceau (ISTerre) était consacré à l’étude de l’impact du mercure sur les écosystèmes terrestres et aquatiques ainsi que sur la santé humaine.
L’enjeu était de comprendre sous quelles formes chimiques et structurales le mercure est immobilisé durablement dans les géomatériaux, remobilisé puis transféré dans les écosystèmes (sols, sédiments, milieux aquatiques), puis bioaccumulé et détoxifié par les organismes vivants (plantes, animaux, homme). Grâce au développement d’un spectromètre X à très haute résolution spectrale et grande sensibilité chimique (financé par le projet Equipex EcoX) plusieurs formes organiques (méthylmercure) et inorganiques du Mercure ont tout d’abord été identifiées sur des supports naturels (cheveux, plantes, moules, poissons, oiseaux).
Ensuite, les moyens de calcul de GRICAD ont été mobilisés pour modéliser, par le calcul thermodynamique et cinétique des réactions chimiques des espèces mercurielles, les configurations moléculaires identifiées par spectroscopie.


Projet GLASSDEF

Le projet GLASSDEF (6,9 Mh), financé par une bourse "advanced" de 1,8 M€ du European Research Council et piloté par J.-L. Barrat (LIPhy) avait pour but de développer des modèles microscopiques de la déformation de solides désordonnés: ces solides, qu'il s'agisse de systèmes mous tels que les gels où les mousses ou de systèmes beaucoup plus durs tels que les verres métalliques, peuvent s'écouler comme des liquides si les contraintes appliquées sont suffisantes. Au niveau microscopique, les mécanismes d'écoulement sont cependant très différents de ceux des liquides: ils impliquent des instabilités locales du solide appelées zones de cisaillement, assimilables à des microfractures, qui interagissent entre elles et donnent lieu à un comportement collectif impliquant des événements de toutes tailles, distribués suivant des lois de puissance analogues à la loi de Gutenberg Richter bien connue en sismologie. Les travaux numériques réalisés sur le calculateur parallèle Froggy, et en particulier sur ses unités de processeurs graphiques (GPU) ont permis de caractériser en détail cette dynamique collective à l'origine de la déformation, et d'en faire émerger les lois statistiques qui peuvent être comparées aux résultats expérimentaux ou aux modèles théoriques.


Projet SIMSERT

CONSERT (COmet Nucleus Sounding Experiment by Radiowave Transmission) est un instrument radar à bord de la sonde Rosetta et de son atterrisseur Philae. Il a sondé l'intérieur de la comète 67P/Churyumov-Gerasimenko en Novembre 2014. Ces mesures ont permis de contraindre les propriétés physiques des matériaux en présence en profondeur dans le noyau cométaire : porosité, composition en termes de poussières et de glaces. L'instrument mesure fondamentalement le temps de propagation d'une onde radio à travers un milieu diélectrique. Des simulations numériques (projet SimSERT, 1.4 Mh, 2014-2019, Y. Rogez, IPAG) réalisées sur les moyens de calcul CIMENT ont permis dans un premier temps de réaliser la planification des opérations spatiales de l'instrument CONSERT, en anticipant les configurations de mesures possibles; à la fois pour fournir les contraintes radar pour la sélection du site d'atterrissage de Philae et pour les définitions de trajectoires de Rosetta. Une fois les mesures effectuées, les simulations numériques ont permis de contraindre les valeurs possibles de permittivité diélectrique du matériau cométaire, ce qui constitue une entrée essentielle dans l'analyse de sa composition.


Projet AURAGEN

AURAGEN est un projet s’inscrivant dans le soin, financé par la DGOS (Direction Générale de l’Offre de Soins), dans le cadre du Plan France Médecine Génomique 2025. L’objectif de ce projet est la création d’un laboratoire de biologie médicale multi-site dédié à la médecine génomique. La mise en place des analyses bioinformatiques des données de séquençage pan-génomique pour les maladies rares est réalisée à Grenoble en utilisant les ressources de l’UAR GRICAD. Ainsi, l’UAR GRICAD permet de disposer d’un environnement de recherche et développement en amont de la mise en pré-production des procédures d’analyses sur l’infrastructure dédiée au projet AURAGEN.


Projets en Sciences Humaines et Sociales

Qu'il s'agisse d'expérimentation ou d'observation écologique des pratiques sociales du Web ou des réseaux sociaux, la collection et l'exploitation de traces numériques ou de flux massifs de données font désormais partie de l'outillage des sciences sociales. De plus en plus de projets interdisciplinaires à l'initiative de laboratoire de sciences sociales proposent un volet empirique guidé par les données. Il s'agit le plus souvent d'innovations dans la manière d'aborder un terrain et d'instrumenter son exploration qui appelent non seulement de nouvelles techniques mais également de nouvelles méthodes de production et d'analyse des observables. La participation de GRICAD à divers initiatives de ce type, permet d'apporter un soutien à l'innovation technique aux chercheurs dans l'ingénierie de la donnée et du big data, mais aussi de capitaliser l'expérience entre les projets au bénéfice des communautés scientifiques.

L'étude sur les mobilités inter-urbaines menée par les chercheurs du laboratoire de PACTE dans le contexte du DataInstitute, en collaboration avec la plateforme BlablaCar illustre ces nouvelles possibilités scientifiques impliquant la collecte de très gros jeux de données. Cette étude en cours, préfigure le programme de recherche MobilAir (projet Idex UGA), dans lequel de très grosses collections de données multidimensionnelles sont envisagées, mixant des relevés GPS (mobilité), des données d'accélérométrie (activité physique et mobilité), des carnets de bords (mobilité et économie), des enquêtes (activité physique et psycho), etc.


Projet TEEMBIO

Le Laboratoire d’Ecologie Alpine effectue des recherches visant à comprendre l’origine de la biodiversité, son rôle dans le fonctionnement des écosystèmes et la réalisation des activités humaines, et de prédire son évolution dans un contexte de changement climatique. Ses chercheurs produisent et utilisent de très gros jeux de données (prospections de la biodiversité, imagerie satellitaire, génomiques haut-débit, etc..) et déploient une activité modélisation intense, qui nécessitent d’importants moyens de stockage et de calculs. Plusieur projets en particulier sont de gros utilisateurs des moyens fournis par l’UAR GRICAD.

Le projet TEEMBIO, porté par une ERC entre 2012 et 2016 et depuis par plusieurs ANRs, vise à comprendre et modéliser la structure et la distribution de la biodiversité. Pour ce faire, les chercheurs utilisent des données de biodiversité de l’échelle globale à locale qui proviennent soit de base de données existantes, soit de données collectées par nous même, et les analysent en fonction de paramètres physiques ou biologiques. Les modèles utilisés sont variés, de type machine learning, GLM, et requièrent le plus souvent du déploiement massif (jobs séquentiels), ou des runs gourmands en mémoire vive. Les chercheurs ont ainsi pu montrer qu’une augmentation de 5% des aires protégées mondiales doublerait la protection de l'ensemble des vertébrés terrestres (Pollock, Thuiller & Jetz 2017 Nature).