OpenFold를 통해 생물학을 위한 AI 민주화
"훈련 실행을 기록하고 추적하는 데 훌륭한 솔루션이었습니다. 다양한 실행을 쉽게 중첩할 수 있다는 점이 좋습니다. 예를 들어 절제 연구 중에 특히 유용했습니다."

Gustaf Ahdritz
수석 개발자
오픈폴드의 유래
단백질의 최종 구조를 알아내는 것은 “단백질 접힘 문제”로 알려져 있으며 지난 50년 동안 여러 세대의 과학자들을 난처하게 만들었습니다. DeepMind가 발표되었을 때
AlphaFold 2 2020년 구조 예측에 대한 비판적 평가 컨퍼런스인 CASP14에서 수십 년 된 거대한 과제에 대한 해결책으로 호평을 받았습니다.
.
AlphaFold 2 2020년 구조 예측에 대한 비판적 평가 컨퍼런스인 CASP14에서 수십 년 된 거대한 과제에 대한 해결책으로 호평을 받았습니다.
.
Predicting the 복잡한 모양의 단백질는 몇 시간에 걸쳐 힘든 실험실 작업이 필요한 작업이었고, 그때에도 정확성이 문제였습니다. AlphaFold 2를 사용하면 시스템이 놀라운 속도와 정밀도로 작동했습니다. 이 획기적인 발전으로 인해 전 세계의 연구자들은 이를 더욱 발전시키기 위해 더 많은 세부 정보를 찾게 되었습니다. AlphaFold 2의 획기적인 출시는 OpenFold의 원동력이었습니다.
.
.
OpenFold를 결실로 이끈 영감을 준 팀은 누구였나요? 이 프로젝트는 Gustaf Ahdritz, Sachin Kadyan, Will Gerecke, Luna Xia가 이끌었고 Nazim Bouatta와 Mohammed AlQuraishi가 공동 감독했습니다. 그들 모두는 해당 분야의 전문가이며, 더 많은 연구자들의 작업을 돕고 과학적 발견의 새로운 길을 열 수 있도록 OpenFold를 구축하는 것을 목표로 합니다.
.
.
처음에 OpenFold는 훈련 가능한 AlphaFold 2 버전을 만드는 것이었지만 그 이상이었습니다. AlphaFold 2에 대한 뉴스가 나왔을 때 DeepMind는 모델이 어떻게 훈련되었는지에 대한 얕은 세부 정보만 제공했기 때문에 연구자들이 해당 작업을 재현하고 구축하는 방법을 이해하기가 어려웠습니다. OpenFold의 초기 동기는 다음 질문에 답하는 것이었습니다.
AlphaFold 2를 처음부터 다시 만들 수 있나요?
AlphaFold 2를 처음부터 다시 만들 수 있나요?
재현성을 위한 발굴
DeepMind가 AlphaFold 2에서 빠뜨린 중요한 구성 요소 중 하나는 훈련 부분이었습니다. 특히, 훈련된 가중치는 상업용 응용 프로그램에 사용되는 것을 방지하는 제한적인 라이센스에 따라 이루어졌습니다. 학습 데이터가 없었기 때문에 결과를 재현하는 방법을 찾는 데 많은 시간과 노력이 소요되었습니다.
.
.
OpenFold의 초기 개발에서 팀은 공식 자료에서 정보를 수집하고 다양한 소스 간의 차이점을 조정해야 했습니다. 그 당시 OpenFold는 사용 가능한 항목을 이해하고 조각을 연결하는 발굴 프로젝트와 같았습니다. 그리고 많은 기계 학습 프로젝트와 마찬가지로 이는 실험을 의미했습니다. 많은 실험
.
.
2021년 7월에 저널은
Nature 출판됨a paper detailing the DeepMind 모델의 작동 방식과 DeepMind는 시스템의 다양한 측면을 자세히 설명하는 추가 정보와 함께 코드를 공개적으로 공유했습니다. 새로운 정보를 확보한 후 팀은 OpenFold를 가속화했습니다.
Nature 출판됨a paper detailing the DeepMind 모델의 작동 방식과 DeepMind는 시스템의 다양한 측면을 자세히 설명하는 추가 정보와 함께 코드를 공개적으로 공유했습니다. 새로운 정보를 확보한 후 팀은 OpenFold를 가속화했습니다.
하지만 목표는 동일했습니다. 단순히 AlphaFold 2를 재현하는 것이 아니라 같은 생각을 가진 연구자와 학계가 이를 기반으로 구축할 수 있도록 오픈 소스화하는 것입니다. 결국, 새로운 단백질 구조를 만드는 것은 모든 방식의 생물학적 연구의 기초이며, 특히 해당 단백질이 질병을 치료하거나 예방하는 데 사용될 수 있는지 여부가 중요합니다. 더 많은 사람들이 그러한 기술과 기술에 접근할 수 있을수록 그 영향은 더 커집니다.
팀은 프로젝트에 필요한 동의와 열정을 얻기 위해 AlphaFold를 충실하게 재현해야 한다고 느꼈고, 그렇게 하기로 결정했습니다. 그리고 그들은 영리한 백엔지니어링, 광범위한 협업, 그리고 수많은 머신러닝 실험을 통해 이를 달성했습니다.
.
.
Weights &를 통한 지식 공유 편견
AlphaFold 2와 같은 시스템을 재현하는 것은 쉬운 일이 아닙니다. DeepMind에서 제공한 정보를 종합하기 위해 OpenFold 팀은 단일 연구원에서 전체 팀으로 통찰력을 확장할 수 있도록 본질적으로 협업적인 도구가 필요했습니다. 지식을 전파하고 공유하는 효과적인 방법을 찾는 것이 핵심이었습니다.
.
.
“훈련 실행을 기록하고 추적하는 데 훌륭한 솔루션이었습니다. 다양한 런을 쉽게 중첩할 수 있다는 점이 좋습니다. 이는 예를 들어 절제 연구 중에 특히 유용했습니다.”라고 OpenFold의 수석 개발자인 Ahdritz는 말했습니다.
팀은 실험을 시작하면서 몇 가지 흥미로운 통찰력을 발견했습니다. 이 모든 것은 W&B의 시각화를 통해 쉽게 포착되고 드러났습니다.
.
.
가장 놀라운 발견 중 하나는 검증 중에 모델이 예상보다 훨씬 빠르게 수렴된다는 것을 팀이 알게 된 것입니다.
또한 AlphaFold 2는 다양한 손실이 혼합되어 훈련되었습니다. 시간이 지남에 따라 개별 궤적을 분석하면 비정상적인 행동이 드러납니다. 1차 신뢰도 손실(“lddt_epoch”)은 처음에는 급등하다가 단조롭게 감소합니다. 마스크된 MSA 손실과 같은 다른 손실은 반대이며 먼저 감소한 다음 나머지 훈련 동안 더 높은 안정기로 상승합니다.
.
.
주목할 만한 점은 W&B의 채택이 OpenFold를 넘어선다는 점입니다. 오늘날 실험실에서 수행되는 거의 모든 실험은 W&B에서 추적, 비교 및 시각화됩니다.
프로젝트의 모호성으로 인해 원하는 결과로 이어지는 것이 무엇인지 또는 그렇지 않은지를 진정으로 이해하기 위해 모델 구축 프로세스에 대한 모든 세부 정보를 기록하는 것이 중요했습니다. W&B에는 팀원들이 서로의 실험을 추적하고 개선하여 팀 전체가 함께 발전할 수 있는 기록 시스템이 있었습니다. ML 워크플로와 모델 성능에 대한 완전한 가시성이 확보되었습니다.
.
.
그리고 오픈 소스 프로젝트의 경우 이는 더욱 중요해집니다. OpenFold는 자신의 작업을 새로운 개척지, 새로운 연구자, 새로운 영역으로 확장하고 개선하는 데 도움이 되는 광범위하고 협력적인 연구자 커뮤니티를 원했고 지금도 원하고 있습니다. 일관되고 이해하기 쉬운 코드베이스와 완전하고 완전한 추적 및 로깅을 사용하면 훨씬 더 쉽게 작업할 수 있습니다.
“이를 통해 사람들은 쉽게 디버깅하고, 서로의 작업을 확인하고, 무슨 일이 일어나고 있는지 더 많은 통찰력을 얻을 수 있었습니다.”라고 Mohamme은 말했습니다.
d AlQuraishi, 오픈폴드 창립멤버
.
d AlQuraishi, 오픈폴드 창립멤버
.
OpenFold의 성공이 보여 주듯이 ML의 재현성 문제를 해결하려면 협업과 투명성의 문화를 조성하는 것이 중요합니다. 무게 & 편견은 그들에게 정확히 그것을 주었다
.
.
OpenFold and Beyond
AlphaFold의 강력한 기능을 전 세계에 전달하려는 노력으로 시작된 것이 훨씬 더 큰 사명으로 바뀌었습니다. OpenFold와 같은 오픈 소스 시스템은 현대 과학 연구를 위한 올바른 방향으로 나아가는 단계로서 재현성, 투명성 및 협업 기회를 제공합니다.
.
.
가장 흥미로운 부분은 무엇입니까? 팀은 OpenFold의 응용이 생물학에만 국한되지 않고 인류가 직면한 다른 큰 문제를 해결할 수 있다고 믿습니다. OpenFold와 같은 기하학적 딥 러닝 프로젝트는 단백질 발견뿐만 아니라 3D 모델링, 물리학 및 복잡한 생물학적 시스템에 폭넓게 적용할 수 있습니다. 실제로 Columbia University의 학생들은 이미 OpenFold를 화학 분야에 적용하기 시작했으며 그 결과는 매우 고무적입니다.
.
.
그럼에도 불구하고 OpenFold의 존재는 다른 연구자들이 다른 곳에서 모듈로 사용할 수 있는 고품질의 훈련 가능한 구현이 있음을 의미합니다. 연구팀은 OpenFold의 중요한 다음 응용 분야가 소분자 결합 부위를 예측하는 것이 되기를 바라고 있습니다. 이러한 사이트를 정확하게 식별하면 약물 발견 및 약물 설계의 미래에 혁명을 일으킬 수 있습니다. 또한 모델을 오픈 소스화하면 더 많은 연구자가 해당 분야의 학문적 작업을 방해하는 엔지니어링 제약에서 벗어나 이러한 문제를 해결할 수 있습니다.
.
.
최근 OpenFold는 이미 연구자들에게 다른 방식으로 활용하도록 영감을 주었습니다. 그만큼
ESM2 Meta의 단백질 언어 모델은 OpenFold가 지원하는 최신 프로젝트 중 하나입니다.
유니폴드
and 패스트폴드
OpenFold를 상당 부분 활용한 두 개의 다른 오픈 소스 단백질 폴딩 저장소도 있습니다.
ESM2 Meta의 단백질 언어 모델은 OpenFold가 지원하는 최신 프로젝트 중 하나입니다.
유니폴드
and 패스트폴드
OpenFold를 상당 부분 활용한 두 개의 다른 오픈 소스 단백질 폴딩 저장소도 있습니다.
간단히 말해서, OpenFold는 과학이 수행되는 방식뿐만 아니라 과학 작업이 공유되는 방식도 변화시키고 있습니다.
Learn More About OpenFold
의심할 여지 없이 OpenFold를 통해 더 많은 최첨단 작업이 나올 것입니다. 팀은 최근 모델의 훈련 역학을 이해하기 위해 AlphaFold의 훈련 코드에 초점을 맞춘 논문을 발표했습니다. 이제 그들은 AlphaFold 또는 OpenFold를 훈련하는 데 얼마나 많은 데이터가 필요한가?와 같은 질문에 답할 수 있습니다. 접기의 다양한 측면을 언제 어떻게 학습합니까? 최신 간행물을 확인하세요.
here.
here.