OpenFold で生物学における AI を民主化
「これは、トレーニングの実行を記録および追跡するための優れたソリューションです。さまざまな実行を簡単に重ね合わせることもできるのは素晴らしいことです。これは、たとえばアブレーションの研究中に特に役立ちました。」

グスタフ・アドリッツ
リード開発者
OpenFold の起源
タンパク質の最終的な構造を解明することは「タンパク質の折り畳み問題」として知られており、過去 50 年間、何世代もの科学者を悩ませてきました。 DeepMind が発表したとき
アルファフォールド 2
CASP14(2020年の構造予測の重要評価会議)では、これは数十年にわたる壮大な課題の解決策として歓迎されました。
アルファフォールド 2
CASP14(2020年の構造予測の重要評価会議)では、これは数十年にわたる壮大な課題の解決策として歓迎されました。
を予測する
タンパク質の複雑な形状
これは何時間もの精力的なラボ作業を必要とする作業であり、それでも精度が問題でした。 AlphaFold 2 では、システムは驚くべき速度と精度で実行されました。この画期的な進歩により、世界中の研究者がさらなる発展を期待してさらなる詳細を求めました。 AlphaFold 2 の画期的なリリースが OpenFold の原動力となった
.
タンパク質の複雑な形状
これは何時間もの精力的なラボ作業を必要とする作業であり、それでも精度が問題でした。 AlphaFold 2 では、システムは驚くべき速度と精度で実行されました。この画期的な進歩により、世界中の研究者がさらなる発展を期待してさらなる詳細を求めました。 AlphaFold 2 の画期的なリリースが OpenFold の原動力となった
.
OpenFold を実現に導いたインスピレーションを与えたチームは誰ですか?このプロジェクトは、Gustaf Ahdritz、Sachin Kadyan、Will Gerecke、Luna Xia が主導し、Nazim Bouatta と Mohammed AlQraishi が共同監督しました。彼らは全員、それぞれの分野の専門家であり、OpenFold を構築して、無数の研究者の研究を支援し、科学的発見の新たな道を切り開くという目標を持っています。
当初、OpenFold は AlphaFold 2 のトレーニング可能なバージョンを作成することを目的としていましたが、それ以上のものになりました。 AlphaFold 2 に関するニュースが報道されたとき、DeepMind はモデルがどのようにトレーニングされたかについて浅い詳細しか提供しなかったため、研究者がその研究をどのように再現して構築するかを理解することが困難でした。 OpenFold の最初の動機は、次の質問に答えることでした。
AlphaFold 2 を最初から作り直すことはできますか?
AlphaFold 2 を最初から作り直すことはできますか?
再現性のための発掘
DeepMind が AlphaFold 2 に関して省略した重要なコンポーネントの 1 つは、トレーニング部分でした。特に、訓練された重りには、商業用途での使用を妨げる制限的なライセンスが適用されていました。トレーニング データがなければ、結果を再現する方法を見つけるのに多大な時間と労力がかかりました。
OpenFold の初期開発では、チームは公式資料から情報を収集し、さまざまなソース間の相違点を調整する必要がありました。当時、OpenFold は発掘プロジェクトのようなもので、利用可能なものを理解し、断片をつなぎ合わせていました。そして、多くの機械学習プロジェクトと同様に、それは実験を意味しました。たくさんの実験
.
.
In July 2021, the journal Nature published 紙
detailing the wDeepMind のモデルの動作を確認し、DeepMind はシステムのさまざまな側面を詳述する補足情報とともにそのコードを公開しました。新しい情報を手に入れて、チームは OpenFold の開発を加速しました
.
detailing the wDeepMind のモデルの動作を確認し、DeepMind はシステムのさまざまな側面を詳述する補足情報とともにそのコードを公開しました。新しい情報を手に入れて、チームは OpenFold の開発を加速しました
.
ただし、目標は同じでした。単に AlphaFold 2 を再現するのではなく、それをオープンソースにして、志を同じくする研究者や学者がその上に構築できるようにすることです。結局のところ、新しいタンパク質構造を作成することは、あらゆる種類の生物学的研究の基礎であり、最も注目すべきは、それらのタンパク質を病気の治療または予防に使用できるかどうかです。このような技術やテクノロジーにアクセスできる人が増えれば増えるほど、その影響は大きくなります。
チームは、プロジェクトに必要な賛同と熱意を得るには、AlphaFold を忠実に再現する必要があると感じ、まさにそれを実行することに着手しました。そして彼らは、賢いバックエンジニアリング、広範なコラボレーション、そしてもちろん、多くの機械学習実験によってそれを達成しました。
重みとバイアスによる知識の共有
AlphaFold 2 のようなシステムを再作成するのは簡単なことではありません。 DeepMind から提供された情報をつなぎ合わせるために、OpenFold のチームは、1 人の研究者からチーム全体まで洞察を拡張できる、本質的に共同作業的なツールを必要としていました。知識を広め、共有する効果的な方法を見つけることが鍵でした。
“これは、トレーニングの実行をログに記録し、追跡するための優れたソリューションです。異なるランを簡単に重ね合わせることもできるのは素晴らしいことです。これは、たとえばアブレーション研究の際に特に役立ちました」と OpenFold の主任開発者 Ahdritz 氏は述べています。
チームが実験を始めると、いくつかの興味深い洞察が明らかになりました。これらはすべて、W&B の視覚化によって簡単にキャプチャされ、表面化されました。
最も驚くべき発見の 1 つは検証中にあり、チームはモデルが予想よりもはるかに速く収束することを学びました。
.
.
さらに、AlphaFold 2 は、さまざまな損失を大量に組み合わせてトレーニングされます。時間の経過とともに個々の軌跡を分析すると、異常な行動が明らかになります。一次信頼損失 (「lddt_epoch」) は、単調に減少する前に最初は急上昇します。マスクされた MSA 損失などの他の損失はその逆で、最初に減少し、その後トレーニングの残りの部分でより高いプラトーに上昇します。
.
.
注目すべきは、W&B の採用が OpenFold だけにとどまらないことです。現在、ラボで行われるほぼすべての実験は、W&B で追跡、比較、視覚化されています。
プロジェクトの曖昧さから、モデル構築プロセスに関するすべての詳細を記録して、何が望ましい結果につながり、何がつながっていないのかを真に理解することが重要でした。W&B では、チーム メンバーが互いの実験を追跡して改善するための記録システムがあり、チーム全体が一緒に前進し続けることができました。ML ワークフローとモデルのパフォーマンスを完全に可視化できました。
オープンソース プロジェクトでは、これがさらに重要になります。OpenFold は、研究者の幅広い協力的なコミュニティを望んでいました (そして今も望んでいます)。そのコミュニティは、研究者の作業を改善し、新しい領域、新しい研究者、新しいドメインに広めるのに役立ちます。一貫性があり、理解しやすいコードベースと、真の完全な追跡とログ記録があれば、それがずっと簡単になります。
「これにより、デバッグや互いの作業の確認が容易になり、何が起きているかをより深く理解できるようになりました」と、OpenFold の創設メンバーである Mohamme d AlQuraishi 氏は述べています。
OpenFold の成功が示すように、コラボレーションと透明性の文化を育むことは、ML における再現性の課題を解決するために不可欠です。Weights & Biases はまさにそれを実現しました。
OpenFoldとその先
AlphaFold のパワーを世界に届けるという試みとして始まったものが、はるかに大きな使命に変わりました。OpenFold のようなオープン ソース システムは、再現性、透明性、コラボレーションの機会を提供し、現代の科学研究にとって正しい方向への一歩となります。
最もエキサイティングな部分は何でしょうか? チームは、OpenFold の応用は生物学に限定されず、人類が直面している他の大きな問題を解決できると考えています。OpenFold のような幾何学的ディープラーニング プロジェクトは、タンパク質の発見だけでなく、3D モデリング、物理学、複雑な生物システムなど、幅広い応用が可能です。実際、コロンビア大学では、学生がすでに化学分野で OpenFold を適用し始めており、その結果は非常に有望です。
それでも、OpenFold が存在するということは、他の研究者がモジュールとして他の場所で使用できる、高品質でトレーニング可能な実装があることを意味します。チームは、OpenFold の次の重要な用途が小分子結合部位の予測になることを望んでいます。これらの部位を正確に特定できれば、新薬の発見と設計の未来に革命をもたらす可能性があります。さらに、モデルをオープンソース化することで、より多くの研究者が、この分野の学術研究を悩ませることが多いエンジニアリングの制約から解放され、これらの問題に取り組むことができます。
最近、OpenFold は研究者に、他のモダリティに活用するきっかけを与えています。MetaのESM2タンパク質言語モデルは、OpenFold が実現に貢献した最新のプロジェクトの 1 つです。Uni -FoldとFastFold は、OpenFold から多くの情報を得ている他の 2 つのオープン ソース タンパク質フォールディング リポジトリです。
簡単に言えば、OpenFold は科学の実施方法を変えるだけでなく、科学研究の共有方法も変えます。
OpenFoldについて詳しく見る
疑いの余地はありません。OpenFold からさらに最先端の研究が生まれるでしょう。チームは最近、モデルのトレーニング ダイナミクスを理解するために AlphaFold のトレーニング コードに焦点を当てた論文を発表しました。これで、次のような質問に答えることができます。AlphaFold または OpenFold をトレーニングするにはどのくらいのデータが必要ですか? 折り畳みのさまざまな側面をいつ、どのように学習しますか? 最新の論文は、こちら でご覧ください。