L'essor fulgurant de l'IA a fait émerger une nouvelle génération de modèles capables de produire des images, des sons ou des vidéos d'un réalisme impressionnant. Parmi eux, les modèles de diffusion occupent une place de choix car en apprenant à partir de nombreux exemples, ils parviennent à créer des contenus souvent indiscernables de données réelles.
Mais derrière cette prouesse se cache un enjeu fondamental: comment ces systèmes parviennent-ils à inventer de nouvelles données (images, sons, videos,...), c'est-à-dire
généraliser, plutôt qu'à simplement
mémoriser puis répéter exactement ce qu'ils ont “appris” ?
Image d'illustration Pixabay
Grâce à une approche interdisciplinaire combinant physique statistique, informatique et expériences numériques, Tony Bonnaire et ses collaborateurs ont fait une découverte essentielle concernant le processus d'apprentissage des modèles de diffusion: ils ont mis en lumière deux échelles de temps distinctes et prévisibles, avec une première phase de généralisation indépendante des données d'entrainement, suivie beaucoup plus longtemps après d'une phase de mémorisation dépendant de la taille du jeu de données.
L'équipe montre que le temps de mémorisation recule à mesure que le nombre de données d'entrainement augmente expliquant ainsi que les IA génératives basées sur les modèles de diffusion demeurent longtemps dans une phase où elles créent de nouvelles données.
En démontrant que la performance observée des modèles de diffusion et leur succès pratique repose sur un mécanisme démontrable et mesurable qui retarde naturellement le sur-apprentissage, le travail de Tony Bonnaire et ses collaborateurs offre une compréhension profonde et exploitable des mécanismes qui gouvernent l'IA générative moderne.