Le CEA et Bull annoncent avoir atteint une performance record dans la recherche d'images dans les très grandes bases de données. Ainsi, le nouveau moteur permet d'effectuer une recherche de 3,7 millions d'images par seconde, ce qui est 5 fois plus rapide que précédemment. Cette performance record a été obtenue sur un supercalculateur conçu et fourni par Bull, en utilisant le logiciel de recherche multimédia spécialement développé par le CEA LIST
(1) dans le cadre du projet FAME2
(2). Il ouvre la voie à un vaste champ applicatif allant de la veille stratégique à la comparaison d'images médicales, des "fouilles" de données sur Internet au commerce électronique ou à la gestion de contenu.
Une technologie révolutionnaire de recherche d'image aux applications multiples...
Aujourd'hui, les moteurs sur Internet effectuent des recherches d'images uniquement à partir de leur description textuelle (noms, légende). En effectuant les recherches à partir de l'analyse du contenu des images, le moteur de recherche Piria développé par le CEA, apporte une solution beaucoup plus puissante, ouvrant la voie à un vaste champ applicatif: de la veille stratégique à la comparaison d'images médicales, des "fouilles" de données sur Internet au commerce électronique ou à la gestion de contenu. Le CEA LIST, qui mène des recherches en ingénierie de la connaissance multimédia multilingue, développe depuis plusieurs années des techniques d'extraction de connaissances pour améliorer la pertinence des résultats. Le principe de la recherche d'images par le contenu est de calculer, pour chaque image de la base, une signature visuelle ou codée et de regrouper ces signatures dans un index. La requête, matérialisée par une image, donne lieu à une réponse sous forme d'images similaires. Ces techniques de recherche par le contenu, qui analysent en premier lieu la valeur des pixels, sont intrinsèquement très consommatrices en calcul.
... aujourd'hui rendue possible par la maîtrise des très grandes puissances de calcul
Dans le cadre du projet FAME2 auquel participe le CEA, les chercheurs ont pu accéder à de puissants moyens de calcul haute performance pour tester l'application de recherche d'images Piria dans une base de données de grande dimension.
Le test a nécessité l'adaptation du code du moteur Piria à l'architecture parallèle du supercalculateur développé par Bull (88 cœurs de processeurs Intel® Itanium® et 50 téra octets de disque), permettant d'intégrer la base de 22 millions d'images d'un volume de 2,9 Téra octets. Cette action, pilotée par le CEA/DAM
(3), a fait l'objet d'une collaboration étroite entre les équipes du CEA LIST et de Bull. Les résultats de ce développement ont été présentés durant l'été 2007: les 22 millions d'images ont été indexées en moins d'une semaine de calcul, en exploitant 48 cœurs de processeurs Intel® Itanium® du supercalculateur ; une fois la base de données indexée, l'utilisateur peut soumettre sa requête depuis son navigateur et obtenir des réponses quasi-instantanées.
Un record de performance mondial
Le moteur Piria permet d'effectuer en 6 secondes une recherche parmi 22 millions d'images, au lieu de 15 secondes pour une recherche d'image parmi 11 millions avec le système Cortina, système de recherche d'images par le contenu accessible par Internet et développé par l'Université de Californie de Santa Barbara (UCSB). Cette épreuve était l'un des grands défis que le projet FAME2 se proposait de relever.
Cette réussite montre la puissance des technologies de reconnaissance d'images développées au CEA LIST sur de très grandes bases de données comptant plusieurs téraoctets. Ces technologies sont commercialisées par la société NewPhenix .
Notes:
(1) CEA LIST: Laboratoire d'intégration des systèmes et des technologies du Commissariat à l'Energie Atomique.
(2) Au sein du pôle de compétitivité SYSTEM@TIC PARIS-REGION, le projet FAME2 avait pour objectif le développement des architectures de calcul parallèle haute performance et leur mise à disposition des industriels pour valider leurs besoins de calculs du futur. Ses partenaires, Bull (coordinateur du projet), l'Institut Français du Pétrole, l'Ecole Centrale Paris, l'INRIA, Dassault Aviation, ILOG, INT Evry, NewPhenix, l'Université de Versailles Saint-Quentin (UVSQ), CAPS entreprise et le CEA poursuivent cette collaboration dans le cadre du projet POPS (Peta Operations par Seconde).
(3) Direction des applications militaires du CEA