Ein neues computergestütztes Werkzeug auf Grundlage von maschinellem Lernen ermöglicht es, bisher unbekannte Moleküle in natürlichen Extrakten schneller zu identifizieren. Basierend auf der Entscheidungstheorie lernt es, wie ein Experte zu "denken", indem es die Ergebnisse mehrerer chemischer Analyseprogramme kombiniert, um die vorhandenen Verbindungen zu klassifizieren und solche hervorzuheben, die noch nie zuvor identifiziert wurden. Ein leistungsstarker Ansatz, um die noch wenig erforschten Geheimnisse der Biodiversität zu erkunden.
Die Natur birgt unendlich viele potenziell nützliche Moleküle (Medikamente, Aromen, Materialien...), und viele davon wurden noch nie identifiziert. Sie zu entdecken gleicht jedoch der Suche nach einer Nadel im Heuhaufen – oder besser: in einem Berg von Daten! Chemiker auf der Suche nach neuen natürlichen Molekülen stützen sich auf die Massenspektrometrie, eine Technik, die die Masse der Fragmente eines Moleküls misst, wenn es nach der Ionisierung zerfällt. Die Art und Weise, wie ein Molekül bricht, und die Masse seiner Fragmente, die vom Gerät sehr präzise gemessen werden, hängen direkt von seiner chemischen Struktur ab.
Durch den Vergleich dieser "spektralen Signaturen" mit denen bekannter Moleküle kann die Zusammensetzung der Probe abgeleitet und manchmal sogar neue Verbindungen identifiziert werden. Diese Analysen erzeugen riesige Datenmengen, die interpretiert werden müssen. Bisher mussten Wissenschaftler die Ergebnisse mehrerer Softwareprogramme, die ein Signal einer Struktur zuordnen, manuell vergleichen. Jedes dieser Programme basiert auf unterschiedlichen Datenbanken und Modellen, die nicht immer übereinstimmen, was das Risiko birgt, eine Entdeckung zu verpassen.
Um aus dieser Sackgasse herauszukommen, hat ein interdisziplinäres Team von Chemikern und Informatikern des CNRS, der Universität Paris-Saclay und der Universität Paris Sciences & Lettres MS2DECIDE entwickelt, ein Programm, das die Rolle eines intelligenten Schiedsrichters zwischen diesen Werkzeugen übernimmt. Inspiriert von der Entscheidungstheorie lernt es, die Ergebnisse der verschiedenen Softwareprogramme unter Berücksichtigung ihrer Zuverlässigkeit und ihres Übereinstimmungsgrades zu kombinieren, wie es ein menschlicher Experte tun würde.
Das Programm berechnet so einen "
Knownness"-Score (Bekanntheitsgrad), der es ermöglicht, alle in einer natürlichen Probe vorhandenen Moleküle nach ihrer Wahrscheinlichkeit, bereits bekannt und in Datenbanken erfasst zu sein, zu klassifizieren. Je niedriger dieser Score ist, desto wahrscheinlicher ist es, dass das Molekül neu ist.
Getestet an etwa hundert Verbindungen, die in einer "künstlichen" Probe gemischt waren, darunter sechs bisher nicht identifizierte, platzierte MS2DECIDE alle neuen Moleküle unter den ersten zehn Positionen. In einem zweiten, diesmal realen Versuch wurde es auf eine Probe der afrikanischen Pflanze
Pleiocarpa mutica angewendet, die für ihre Indolomonoterpenalkaloide bekannt ist – komplexe natürliche Moleküle mit oft bemerkenswerten biologischen Eigenschaften (antitumor, antimalaria, schmerzlindernd...). Das Programm identifizierte ein neuartiges Alkaloid, dessen Eigenschaften nun bewertet werden können.
Das in der Zeitschrift
Chemistry-Methods vorgestellte Werkzeug könnte die chemische Prospektion revolutionieren. Langfristig könnte jedes Labor MS2DECIDE, das frei zugänglich ist, sogar an sein eigenes Know-how anpassen, damit die Maschine den "Blick" des Chemikers annimmt. Eine vielversprechende Allianz zwischen menschlichem Denken und algorithmischer Intelligenz.
Redakteur: AVR
Quelle: CNRS INC