Demokratisierung der KI für die Biologie mit OpenFold

„Es ist eine großartige Lösung zum Protokollieren und Nachverfolgen von Trainingsläufen. Es ist schön, dass man auch verschiedene Läufe einfach übereinanderlegen kann. Das war für uns zum Beispiel bei unseren Ablationsstudien besonders nützlich.“

Gustaf Ahdritz
Leitender Entwickler

Der Ursprung von OpenFold

Die endgültige Struktur von Proteinen zu entschlüsseln, ist als „Proteinfaltungsproblem“ bekannt und hat in den letzten 50 Jahren Generationen von Wissenschaftlern vor ein Rätsel gestellt. Als DeepMind AlphaFold 2 auf der CASP14 – der Critical Assessment of Structure Prediction Conference 2020 – vorstellte, wurde es als Lösung für diese jahrzehntealte große Herausforderung gefeiert.
Die Vorhersage der komplexen Form von Proteinen war eine Aufgabe, die stundenlange, anstrengende Laborarbeit erforderte, und selbst dann war die Genauigkeit ein Problem. Mit AlphaFold 2 arbeitete das System mit unglaublicher Geschwindigkeit und Präzision. Dieser Durchbruch veranlasste Forscher auf der ganzen Welt, nach weiteren Details zu suchen, in der Hoffnung, darauf aufbauen zu können. Die bahnbrechende Veröffentlichung von AlphaFold 2 war der Anstoß für OpenFold.
Wer war das inspirierende Team, das OpenFold zur Vollendung geführt hat? Das Projekt wurde von Gustaf Ahdritz, Sachin Kadyan, Will Gerecke und Luna Xia geleitet und von Nazim Bouatta und Mohammed AlQuraishi gemeinsam betreut. Sie alle sind Experten auf ihren Gebieten und haben das Ziel, OpenFold zu entwickeln, um unzähligen weiteren Forschern bei ihrer Arbeit zu helfen und neue Wege für wissenschaftliche Entdeckungen zu eröffnen.
Zunächst ging es bei OpenFold darum, eine trainierbare Version von AlphaFold 2 zu erstellen, aber inzwischen ist viel mehr daraus geworden. Als die Nachricht über AlphaFold 2 bekannt wurde, lieferte DeepMind nur oberflächliche Details darüber, wie das Modell trainiert wurde, was es für Forscher schwierig machte, zu verstehen, wie sie diese Arbeit reproduzieren und darauf aufbauen konnten. Die ursprüngliche Motivation hinter OpenFold war die Beantwortung der Frage: Können wir AlphaFold 2 von Grund auf neu erstellen?

Eine Ausgrabung für die Reproduzierbarkeit

Eine kritische Komponente, die DeepMind bei AlphaFold 2 ausgelassen hat, war der Trainingsteil. Insbesondere die trainierten Gewichte unterlagen einer restriktiven Lizenz, die ihre Verwendung in kommerziellen Anwendungen verhinderte. Ohne die Trainingsdaten war es sehr zeit- und arbeitsaufwendig herauszufinden, wie man die Ergebnisse reproduzieren konnte.
In der frühen Entwicklungsphase von OpenFold musste das Team Informationen aus offiziellen Unterlagen sammeln und die Unterschiede zwischen verschiedenen Quellen in Einklang bringen. Damals war OpenFold wie ein Ausgrabungsprojekt – es ging darum, das Vorhandene zu verstehen und die einzelnen Teile miteinander zu verbinden. Und wie bei vielen Machine-Learning-Projekten bedeutete das Experimente. Viele Experimente.
Im Juli 2021 veröffentlichte die Zeitschrift Nature einen Artikel , in dem die Funktionsweise von DeepMinds Modell detailliert beschrieben wurde. DeepMind veröffentlichte seinen Code öffentlich mit ergänzenden Informationen zu verschiedenen Aspekten des Systems. Mit den neuen Informationen beschleunigte das Team die Arbeit an OpenFold.
Das Ziel blieb jedoch dasselbe: AlphaFold 2 nicht einfach zu reproduzieren, sondern als Open Source bereitzustellen, damit gleichgesinnte Forscher und Akademiker darauf aufbauen können. Schließlich ist die Schaffung neuer Proteinstrukturen die Grundlage aller Arten biologischer Forschung, insbesondere der Frage, ob diese Proteine ​​zur Heilung oder Vorbeugung von Krankheiten eingesetzt werden können. Je mehr Menschen Zugang zu solchen Techniken und Technologien haben, desto größer ist die Wirkung.
Das Team war der Meinung, dass es AlphaFold originalgetreu reproduzieren müsse, um die nötige Zustimmung und Begeisterung für das Projekt zu erhalten. Also machten sie sich daran, genau das zu tun. Und sie erreichten es mit cleverem Back-Engineering, umfassender Zusammenarbeit und, ja, vielen Experimenten mit maschinellem Lernen.

Wissensaustausch mit Gewichtungen und Verzerrungen

Ein System wie AlphaFold 2 nachzubauen ist keine leichte Aufgabe. Um die von DeepMind bereitgestellten Informationen zusammenzufügen, benötigte das Team von OpenFold ein Tool, das von Natur aus kollaborativ ist, sodass das Team seine Erkenntnisse von einem einzelnen Forscher auf das gesamte Team übertragen konnte. Der Schlüssel lag darin, einen effektiven Weg zu finden, um Wissen zu verbreiten und zu teilen.
Weights & Biases war eine natürliche Wahl, nachdem Ahdritz durch die PyTorch Lightning-Integration auf das Tool gestoßen war .
„Es ist eine großartige Lösung für die Protokollierung und Nachverfolgung von Trainingsläufen. Es ist schön, dass man auch verschiedene Läufe einfach übereinanderlegen kann. Das war für uns beispielsweise während unserer Ablationsstudien besonders nützlich“, sagte Ahdritz, leitender Entwickler von OpenFold
Als das Team mit dem Experimentieren begann, kamen mehrere interessante Erkenntnisse zutage. Diese ließen sich alle leicht erfassen und durch die Visualisierungen von Weights & Biases ans Licht bringen.
Eine der überraschendsten Entdeckungen machte das Team während der Validierung, als es feststellte, dass das Modell viel schneller konvergiert als erwartet.
Darüber hinaus wird AlphaFold 2 mit einer großen Mischung verschiedener Verluste trainiert. Die Analyse ihrer einzelnen Verläufe im Zeitverlauf offenbart ungewöhnliches Verhalten. Der primäre Vertrauensverlust („lddt_epoch“) erreicht zunächst einen Spitzenwert, bevor er monoton abnimmt. Andere Verluste, wie der maskierte MSA-Verlust, sind das Gegenteil: Sie nehmen zunächst ab und steigen dann für den Rest des Trainings auf ein höheres Plateau.
Bemerkenswert ist, dass die Einführung von Weights & Biases über OpenFold hinausgeht. Heute werden fast alle im Labor durchgeführten Experimente in Weights & Biases verfolgt, verglichen und visualisiert.
Angesichts der Unklarheiten des Projekts war es entscheidend, alle Details des Modellerstellungsprozesses aufzuzeichnen, um wirklich zu verstehen, was zum gewünschten Ergebnis führt und was nicht. Mit Weights & Biases gab es ein Aufzeichnungssystem, mit dem die Teammitglieder die Experimente der anderen verfolgen und verbessern konnten, sodass das gesamte Team gemeinsam vorankam. Es gab vollständige Transparenz in ihre ML-Workflows und die Modellleistung.
Und für ein Open-Source-Projekt wird dies noch wichtiger. OpenFold wollte – und will immer noch – eine breite, kollaborative Community von Forschern, die dabei hilft, ihre Arbeit zu verbessern und an neue Grenzen, neue Forscher und neue Bereiche zu bringen. Eine kohärente, leicht verständliche Codebasis und echte, vollständige Nachverfolgung und Protokollierung machen das viel einfacher.
„Dadurch wurde es für die Leute einfacher, Fehler zu beheben, die Arbeit der anderen zu überprüfen und mehr Einblick in das Geschehen zu erhalten“, sagte Mohamme d AlQuraishi, Gründungsmitglied von OpenFold.
Wie der Erfolg von OpenFold zeigt, ist die Förderung einer Kultur der Zusammenarbeit und Transparenz von entscheidender Bedeutung, um die Herausforderung der Reproduzierbarkeit im ML zu lösen. Weights & Biases hat ihnen genau das geboten.

OpenFold und darüber hinaus

Was als Versuch begann, die Leistungsfähigkeit von AlphaFold der Welt zugänglich zu machen, hat sich zu einer viel größeren Mission entwickelt. Open-Source-Systeme wie OpenFold sind ein Schritt in die richtige Richtung für die moderne wissenschaftliche Forschung – sie bieten Reproduzierbarkeit, Transparenz und Möglichkeiten zur Zusammenarbeit.
Und das Spannendste daran? Das Team ist überzeugt, dass die Anwendungsmöglichkeiten von OpenFold nicht auf die Biologie beschränkt sind, sondern auch andere große Probleme der Menschheit lösen können. Geometrische Deep-Learning-Projekte wie OpenFold sind vielseitig einsetzbar, nicht nur für die Proteinentdeckung, sondern auch für 3D-Modellierung, Physik und komplexe biologische Systeme. Tatsächlich haben Studierende der Columbia University bereits begonnen, OpenFold im Chemiebereich anzuwenden, und die Ergebnisse sind sehr ermutigend.
Die Existenz von OpenFold bedeutet jedoch, dass es qualitativ hochwertige, trainierbare Implementierungen gibt, die andere Forscher als Module an anderer Stelle verwenden können. Das Team hofft, dass die entscheidende nächste Anwendung von OpenFold die Vorhersage von Bindungsstellen für kleine Moleküle sein wird. Die genaue Identifizierung dieser Stellen könnte die Zukunft der Arzneimittelforschung und des Arzneimitteldesigns revolutionieren. Darüber hinaus bedeutet die Open-Source-Veröffentlichung ihres Modells, dass sich mehr Forscher diesen Problemen widmen können, frei von den technischen Beschränkungen, die die akademische Arbeit in diesem Bereich oft behindern.
In jüngster Zeit hat OpenFold Forscher bereits dazu inspiriert, es für andere Modalitäten zu nutzen. Das ESM2- Proteinsprachenmodell von Meta ist eines der jüngsten Projekte, die OpenFold ermöglicht hat. Uni-Fold und FastFold sind zwei weitere Open-Source-Proteinfaltungs-Repositorien, die ebenfalls in großem Umfang auf OpenFold zurückgreifen.
Einfach ausgedrückt: OpenFold verändert nicht nur die Art und Weise, wie Wissenschaft betrieben wird, sondern auch, wie wissenschaftliche Ergebnisse ausgetauscht werden.

Erfahren Sie mehr über OpenFold

Zweifellos werden noch mehr bahnbrechende Arbeiten aus OpenFold hervorgehen. Das Team hat kürzlich ein Papier veröffentlicht, das sich auf den Trainingscode von AlphaFold konzentriert, um die Trainingsdynamik des Modells zu verstehen. Jetzt können sie Fragen beantworten wie: Wie viele Daten benötigen Sie, um AlphaFold oder OpenFold zu trainieren? Wie und wann lernt es verschiedene Aspekte des Faltens? Sehen Sie sich hier ihre neueste Veröffentlichung an .
Möchten Sie OpenFold beitreten oder mit uns zusammenarbeiten? Weitere Informationen finden Sie auf der Website .