Singapour a adopté une stratégie active dans le domaine du calcul sur grille - infrastructure de calcul de grande taille composée de ressources partagées interconnectées par des réseaux grande distance.
Cet article a été préparé par Gaëlle Degrez à partir du rapport "Le calcul sur grille à Singapour : réalité et perspectives" réalisé par Johan Montagnat, du service pour la Science et la Technologie de l'ambassade de France à Singapour, que nous remercions pour sa collaboration.
Télécharger ce rapport en version pdf (gratuit)>>
Pour recevoir les prochaines parutions, abonnez-vous à "Technologies Internationales" :
De l'expression anglaise "grid computing", elle-même tirée de "power grid" qui désigne le réseau électrique, est née "grille de calcul". Une grille de calcul est en effet constituée de nombreuses ressources informatiques géographiquement dispersées, mises en réseau afin de fournir une énorme puissance de calcul. Pour Singapour, ce type d'infrastructure est d'autant plus intéressant que la cité-Etat possède des compétences reconnues dans de nombreux autres domaines connexes. La recherche, traditionnellement gourmande en puissance de calcul, est en effet un de ses axes privilégiés de développement avec un accent mis sur les sciences biomédicales et les sciences de l'ingénieur.
Singapour se présente dans le domaine du calcul sur grille comme une entité particulièrement bien dotée et structurée en relation avec plusieurs plateformes de dimension internationale, notamment dans le secteur des biotechnologies. La cité-Etat a créé une structure nationale, le National Grid, pour gérer la coordination des projets de grille répartis entre de nombreux autres partenaires du monde de l'enseignement supérieur ou de la recherche. Le domaine des biotechnologies, fortement soutenu par l'Etat singapourien, est particulièrement intéressé par les possibilités que lui offrent de tels "supercalculateurs". Les capacités d'interconnexions des grilles permettent en outre une interaction avec d'autres réseaux mondiaux, comme la principale grille européenne EGEE.
Une puissance de calcul inégalée
Les grilles sont des infrastructures de calcul de grande taille, composées de ressources partagées interconnectées par des réseaux grande distance. Il existe plusieurs types de fédérations de ressources de calcul nommées grilles, mais la majorité des infrastructures matérielles reposent sur des ordinateurs personnels dispersés sur Internet. Une couche logicielle, connue sous le nom d'intergiciel, fournit les services fondamentaux permettant l'accès aux ressources distribuées et leur exploitation efficace (cachant autant que possible la nature distribuée et hétérogène de l'infrastructure aux utilisateurs finaux). Les grilles se sont développées depuis une dizaine d'années et ont atteint un niveau de maturité suffisant pour que des infrastructures de production soient déployées. C'est le cas en Europe avec l'infrastructure paneuropéenne EGEE, aux Etats-Unis avec la grille américaine OSG (Open Science Grid) ou encore au Japon avec NAREGI (National REsearch Grid Initiative).
Une grille de production est un système opérationnel 24 heures sur 24 et 7 jours sur 7 pour les utilisateurs, chercheurs ou ingénieurs. Etant donnée leur taille, les grilles sont souvent vues comme des plateformes de calcul à haute performance. Elles ne peuvent cependant se comparer aux infrastructures dédiées de calcul parallèle qui disposent de connexions entre unités de calcul incomparablement plus performantes et fiables. Elles sont néanmoins bien moins onéreuses (réutilisant souvent des ressources de calcul existantes). Les infrastructures de grilles fournissent en outre à leurs utilisateurs des ressources partagées : principalement des ressources de calcul et de stockage mais aussi potentiellement d'autres ressources matérielles telles que des instruments scientifiques connectés à la grille. L'assemblage d'entrepôts de données de très grande taille peut être important notamment quand certaines données sont rares comme c'est le cas pour les études sur des maladies rares, ou pour traiter des données qui sont distribuées par nature, des images médicales par exemple, acquises dans un grand nombre de centres cliniques notamment. Enfin, en fournissant un accès à des infrastructures d'extension mondiale, les grilles sont également un vecteur pour fédérer les communautés d'utilisateurs internationaux et promouvoir ainsi les collaborations internationales.
Harmoniser les initiatives
Avec l'intérêt grandissant pour les grilles tout autour du globe, de nombreux pays développent des infrastructures nationales de grille et créent des institutions destinées à les promouvoir. A Singapour, un effort est fait pour coordonner les initiatives de grille à l'échelle nationale à travers le National Grid (NG). Les principaux acteurs académiques et scientifiques impliqués dans le secteur informatique y participent : les universités NUS (National University of Singapore) et NTU (Nanyang Technological University), ainsi que l'agence A*STAR (Agency for Science, Technology and Research). NG est entré dans sa deuxième phase en mai 2005. La décision de financement d'une troisième phase (2008-2010) est en cours de discussion.
La mission de NG est de déployer une infrastructure de grille singapourienne fournissant un accès sécurisé, fiable et efficace aux ressources de calcul partagées pour répondre aux besoins des acteurs des domaines de l'éducation, du commerce, des loisirs, de la recherche et développement et de la sécurité nationale. NG décide des politiques d'accès et du contexte de développement de la grille nationale. Il planifie le déploiement d'une plateforme sécurisée, encourageant l'adoption de cet outil tout en démontrant sa viabilité commerciale. Pour obtenir ce résultat, NG finance le National Grid Office - comptant cinq membres - et investit dans des projets de grilles spécifiques : aide à l'acquisition de licences commerciales pour les entreprises, plateformes spécifiques telles qu'une salle de visualisation 3D, etc. Les projets soutenus sont sélectionnés par un appel ouvert en permanence. A la suite d'une collaboration avec l'organisme britannique eScience et d'un séminaire conjoint organisé en mai 2006, un appel à propositions cofinancé par le NGO et eScience a été lancé. Il concerne des propositions exploitant les grilles de Singapour et du Royaume-Uni de façon conjointe.
NG ne fournit pas de ressource matérielle mais fédère les ressources existantes dans les centres de calcul de Singapour. Des administrateurs de "fermes de calcul" - ou "grappe de serveurs" (cluster en anglais) - distribués dans les centres participants sont financés. NG pilote le National Grid Pilot Plateform (NGPP) dont les ressources sont fournies par Sun Microsystems (64 processeurs), NTU, NUS, IHPC (Institute of High Performance Computing) et quelques ressources propres. Au total, NGPP représente 150 processeurs. Toutes ces machines sont interconnectées par un réseau gigabit et utilisent l'intergiciel globus toolkit.
Un énorme potentiel pour les biotechnologies
Singapour investit massivement dans le domaine des biotechnologies. L'infrastructure d'information et de calcul dans ce domaine scientifique est un composant clé pour le support de nombreuses applications liées à l'analyse d'images, la bioinformatique ou la simulation moléculaire à des fins pharmaceutiques. Grâce à l'infrastructure nationale et aux collaborations internationales, les éléments sont en place pour permettre d'étudier la capacité des grilles à répondre aux besoins de la recherche singapourienne en biotechnologies. Plusieurs initiatives de grilles à travers le monde, nationales ou internationales, ont déjà démontré la faisabilité de l'exploitation d'infrastructures de grilles de production pour s'attaquer à ce type de problème.
Dans le domaine de l'analyse d'images, le traitement informatique des données est utilisé de manière croissante. Il permet la modélisation, l'analyse et la quantification des données médicales en vue d'établir ou de contribuer à établir le diagnostic, de suivre l'évolution de pathologies, de planifier les thérapies et d'entraîner les praticiens à des actes précis.
Des services de grille de haut niveau capables de traiter des données dans des formats spécifiques au domaine médical et de déployer à grande échelle des procédures d'analyse de données sont développées aujourd'hui. Ces dernières années, les grilles ont été utilisées en production dans de nombreuses applications relatives à l'analyse d'images médicales, démontrant ainsi la pertinence de cette approche (voir "Le projet ONCO-MEDIA" en fin d'article).
Dans le domaine de la bioinformatique, la gestion de données biologiques produites lors d'expériences à grande échelle telles que les projets de séquençage de génomes constituent l'un des défis majeurs. Les ensembles de données biologiques sont hétérogènes en raison de la diversité des fournisseurs de données. L'accès à ces données est plus ou moins libre et implique des contraintes sur la manière dont elles peuvent être stockées, traitées et utilisées. De plus, la répartition des grands ensembles de données à traiter nécessite l'accès à des serveurs hétérogènes et distribués que les grilles permettent de mettre en oeuvre. Les données doivent être transportées efficacement vers d'importantes ressources de calcul.
EGEE (Enabling Grids for E-sciencE) est l'infrastructure de grille européenne de référence (voir "Le projet EGEE" en fin d'article). Fonctionnant en mode de production depuis 2004, l'infrastructure de grille EGEE est une fédération de plus de 190 centres de calculs distribués à travers toute l'Europe et même au-delà pour certains d'entre eux. Singapour est connecté à l'infrastructure EGEE au travers d'une ferme de calcul hébergée par une ONG connue comme un centre de stockage et de traitement secondaire des données de physique des hautes énergies.
Bien qu'il n'y ait que peu d'activités autour de la physique des particules à Singapour, l'intérêt est d'apprendre à mettre en oeuvre et à exploiter une infrastructure de grande taille. A l'inverse, la ferme du National Grid est accessible à l'organisation virtuelle "biomed" d'EGEE.
Des liens avec l'infrastructure européenne
Depuis la fin des années 1990, les technologies de grilles font l'objet d'un développement très soutenu dans tous les pays industrialisés, tant dans le secteur académique que dans le secteur industriel. Singapour a adopté dans ce domaine une stratégie active avec la mise en place du National Grid qui joue un rôle de coordination des actions locales. Des liens avec les grandes grilles d'extension mondiale telles qu'EGEE en Europe ou PRAGMA dans le Pacifique sont déjà établis et une infrastructure est en place qui favorise la migration d'applications et l'adoption des technologies de grilles pour les acteurs souhaitant investir dans ce secteur.
Dans de nombreux domaines industriels et scientifiques, et tout particulièrement dans le domaine biomédical, les grilles ont déjà montré leur capacité à accompagner les passages à différentes échelles et à réduire les coûts.
C'est une opportunité pour la recherche et développement en biotechnologies, très en pointe à Singapour.
Le point sur :
Le projet ONCO-MEDIA
ONCO-MEDIA (ONtology and COntext related MEdical image Distributed Intelligent Access) est un projet financé par STIC-Asie (programme de coopération entre la France et l'Asie destiné à renforcer les actions dans le domaine des sciences et technologies de l'information et de la communication). Il est piloté par le laboratoire Image, Perception, Access & Language (IPAL), une unité de recherche franco-singapourienne.
Les objectifs d'ONCO-MEDIA sont :
- l'étude des systèmes d'information contextuels et sémantiques distribués sur grille, utiles à la gestion de données médicales ;
- l'exploitation de nouvelles techniques de diagnostic basées sur l'image médicale ;
- la fédération d'un réseau d'excellence de recherche dans le domaine de l'imagerie médicale distribuée.
Le projet a débuté à la fin de l'année 2006. Il implique des partenaires de Singapour (laboratoire IPAL), France (laboratoires Creatis, Liris, Lip6, 13S), Suisse (université de Genève), Taiwan (NTU), Japon (NCGG), Chine (CASIA) et des Philippines (Ateneo de Manila University).
Le projet EGEE
EGEE réunit des experts de 45 pays avec pour objectif commun de faire des avancées sur la technologie des grilles et de concevoir une infrastructure de grille disponible 24 heures sur 24 et 7 jours sur 7 pour les scientifiques. Ce projet concilie la recherche en université et l'entreprise en permettant un accès à des ressources informatiques inégalées, indépendantes de leur situation géographique.
Le projet EGEE a aussi pour objectif d'accroître le nombre d'utilisateurs de la grille. Ce projet est tout d'abord concentré autour de trois points :
- concevoir une grille fiable, robuste et sécurisée qui accueillera des ressources informatiques supplémentaires ;
- continuer d'entretenir et d'améliorer le middleware afin d'offrir un service de qualité aux utilisateurs ;
- attirer de nouveaux utilisateurs aussi bien du domaine de l'industrie que de celui de la science et de s'assurer qu'ils puissent recevoir aussi bien une formation qu'un support de haute qualité répondant à leurs besoins.
La grille EGEE sera construite à partir du réseau de recherche Européen GEANT et exploitera les expertises de grilles effectuées par de nombreux projets de grilles européen, nationaux ou internationaux. Fondée par la Commission européenne, la communauté du projet EGEE a été divisée en 13 fédérations, constituée de plus de 70 contractants et de plus de 30 participants non financés couvrant une large part des applications scientifiques et industrielles.
Le travail actuellement en cours est organisé en 10 activités. Deux applications maîtresses servent à guider l'implémentation de la grille et à certifier les performances et les fonctionnalités de la structure. L'une de ces applications est Large Hadron Collider Computing Grid (LCG) qui est utilisée pour des expériences de physique, tandis que l'autre, Biomedical Grids, est utilisée par différentes communautés afin de récupérer des flux de données en bioinformatique et santé. En effet, le LCG compte sur les infrastructures de grilles afin de stocker et analyser des pétabytes (environ 1015 tétrabytes) et afin de stimuler les données pendant les expériences physiques des hautes énergies au CERN.
Avec un investissement de plus de 30 millions d'euros de la commission Européenne, ce projet est l'un des plus grands de sa catégorie. EGEE constitue les deux premières années d'un projet de quatre ans, et doit évaluer les besoins et fournir les objectifs des deux années suivantes.