Des chercheurs de l'Institut technologique de Karlsruhe (KIT) ont développé un nouveau procédé robuste de tri pour de très grandes quantités de données. Ils battent ainsi le précédent record détenu par l'Institut de technologie du Massachusetts (MIT) avec, qui plus est, une moindre consommation de ressources informatiques.
Les ordinateurs en réseaux sur Internet produisent des quantités de plus en plus grandes de données. Afin de pouvoir les traiter, il est nécessaire, en premier lieu, de les ordonner suivant des critères particuliers. Le tri efficace de données est ainsi d'une importance grandissante pour les moteurs de recherche ou les banques de données et un thème de recherche central, aussi bien dans l'informatique théorique que dans la pratique.
Depuis des années, le Sort Benchmark [1], un tableau en libre consultation sur Internet, recense les actuels records de tri de données. Dans la discipline reine, il s'agit de trier le plus rapidement un minimum de 100 milliards de Byte. Autour du Prof. Peter Sanders, une équipe de chercheurs de l'Institut d'informatique théorique au KIT s'est imposée dans deux catégories du Sort Benchmark. Ils ont réussi à trier 100 Terabyte en moins de trois heures, ce qui équivaut à une moyenne de 564 GB par minute. Pour réussir cet exploit, ils ont utilisé une association d'ordinateurs intégrant 200 noeuds de calcul. Une équipe du géant Yahoo a dépassé cette valeur de 564 GB par minute, mais a dû utiliser, à cette fin, 17 fois plus de noeuds de calcul.
De plus, les chercheurs du KIT ont augmenté le nombre record d'enregistrements qui peuvent être triés en une minute. Cette valeur s'établit à 950 GB. C'est trois fois plus que le précédent record détenu par le MIT et encore deux fois plus que le record de Yahoo dans cette catégorie. Les chercheurs du KIT ont également amélioré le record de Google pour le tri le plus rapide d'un TeraByte en descendant le record de 68 à 64 secondes, de nouveau avec une moindre consommation de ressources informatiques.