Der rasante Aufstieg der KI hat eine neue Generation von Modellen hervorgebracht, die Bilder, Töne oder Videos von beeindruckendem Realismus erzeugen können. Unter ihnen nehmen Diffusionsmodelle einen besonderen Platz ein, denn durch Lernen anhand zahlreicher Beispiele schaffen sie es, Inhalte zu erstellen, die oft nicht von realen Daten zu unterscheiden sind.
Aber hinter dieser Leistung verbirgt sich eine grundlegende Frage: Wie schaffen es diese Systeme, neue Daten (Bilder, Töne, Videos,...) zu erfinden, also zu
generalisieren, anstatt einfach nur genau das, was sie "gelernt" haben, zu
memorieren und dann zu wiederholen?
Illustrationsbild Pixabay
Dank eines interdisziplinären Ansatzes, der statistische Physik, Informatik und numerische Experimente kombiniert, haben Tony Bonnaire und seine Mitarbeiter eine wesentliche Entdeckung bezüglich des Lernprozesses von Diffusionsmodellen gemacht: Sie haben zwei getrennte und vorhersagbare Zeitskalen aufgedeckt, mit einer ersten Phase der Generalisierung, die unabhängig von den Trainingsdaten ist, gefolgt, viel später, von einer Memorierungsphase, die von der Größe des Datensatzes abhängt.
Das Team zeigt, dass die Memorierungszeit zurückgeht, wenn die Anzahl der Trainingsdaten zunimmt, und erklärt so, dass generative KIs, die auf Diffusionsmodellen basieren, lange in einer Phase bleiben, in der sie neue Daten erschaffen.
Indem sie demonstrieren, dass die beobachtete Leistung von Diffusionsmodellen und ihr praktischer Erfolg auf einem nachweisbaren und messbaren Mechanismus beruhen, der das Overfitting natürlich verzögert, bietet die Arbeit von Tony Bonnaire und seinen Mitarbeitern ein tiefes und nutzbares Verständnis der Mechanismen, die die moderne generative KI steuern.
Quelle: CNRS INSU