신규: CoreWeave에서 AI 학습과 파인튜닝을 위한 심층 가시성
CoreWeave의 심층 인프라 가시성을 Weights & Biases로 가져옵니다 이 글은 AI 번역본입니다. 오역이 있을 경우 댓글로 알려주세요
Created on September 15|Last edited on September 15
Comment
학습 작업이 중단되거나 모델 성능이 예기치 않게 떨어질 때, 가장 어려운 일은 원인을 파악하는 것입니다. 모델 문제였는지, 아니면 네트워크 장애나 GPU 장애 때문이었는지 어떻게 알 수 있을까요?
이런 모호함 때문에 시스템 로그를 뒤지고, 난해한 오류를 해석하고, ML 플랫폼 엔지니어에게 도움을 청하며, 실행을 다시 시작해도 안전한지 걱정하는 데 몇 시간을 허비할 수 있습니다. 이제 상황이 바뀝니다.
CoreWeave와 Weights & Biases 간의 새로운 통합을 발표하게 되어 기쁩니다. 이제 CoreWeave의 심층 인프라 가시성이 W&B 학습 워크플로에 직접 통합됩니다. GPU 장애, 열 제한 위반과 같은 인프라 수준 경고가 W&B 워크스페이스에 포함되어, 문제가 하드웨어 때문인지 모델 때문인지 즉시 판단할 수 있습니다. 아래 스크린샷은 W&B 워크스페이스에서 이슈가 어떻게 표시되는지 보여줍니다.

문제를 더 빠르게 찾아 더 효율적으로 학습하세요
단일 작업에 더 많은 GPU와 고성능 네트워크 구성 요소를 사용할수록 장애 발생 빈도는 높아집니다. 이는 병렬 학습의 특성 때문으로, 구성 요소 고장이 발생할 가능성이 커질 뿐 아니라, 긴밀하게 결합된 학습 환경에서는 단 한 번의 고장으로도 전체 작업이 중단되거나 결과가 조용히 손상될 수 있어 값비싼 자원이 낭비될 수 있습니다.
그럴 때면 애플리케이션과 시스템 로그를 깊이 파고들어야 하는 경우가 많습니다. 인프라 전문가가 아니거나 전문가에게 의존하지 않는 이상, 어떤 오류나 메시지가 의미 있는지, 무엇이 헷갈리게 하는 신호인지 판단하기 어렵습니다. 이 과정에는 시간이 많이 들고, 프로젝트 전체가 지연될 수 있습니다. 작업이 계속 실행 중이더라도 인프라 오류가 결과를 손상시키고 있을 수 있으며, 체크포인트 저장과 재시작 조치를 하지 않으면 손상된 실행에 GPU 시간을 낭비하게 됩니다.
새로운 CoreWeave와 Weights & Biases 통합은 강력한 인사이트와 전문가 검증 복구 힌트를 제공해 학습 및 파인튜닝 실행을 더 빠르게 디버그하도록 돕습니다. CoreWeave에서 학습할 때 Weights & Biases는 CoreWeave의 Mission Control에서 정보를 자동으로 가져옵니다. Mission Control은 클러스터의 높은 신뢰성과 가용성을 제공하기 위해 컴퓨팅 인프라를 지속적으로 모니터링하고 자동으로 복구하는 시스템입니다.
여기에는 GPU 오류, 네트워크 오류 또는 타임아웃, 그리고 W&B 학습 작업 지표와 애플리케이션 로그만으로는 애플리케이션 수준에서 감지하기 어려운 기타 인프라 문제에 대한 시스템 경고가 포함됩니다. Weights & Biases는 실행 맥락에서 문제의 내용, 실행에 미칠 수 있는 영향, 그리고 문제를 복구하기 위해 CoreWeave가 수행 중인 조치를 명확하게 제시합니다.
시작은 간단합니다. CoreWeave에서 실행되고 W&B Models에서 모니터링되는 작업의 경우, 새로 추가된 Issues 열 아래 Runs 테이블에 인프라 이슈가 자동으로 W&B 워크스페이스에 표시됩니다. 특정 실행을 선택하면, 메트릭 패널에 주석 형태로 해당 이슈가 바로 하이라이트됩니다. 더 자세한 정보가 필요하면 Runs 테이블이나 개별 실행 화면에서 Issues 서랍을 열어 각 이슈의 상세 내용을 확인하세요. 자세한 내용은 우리의 문서 특정 이슈와 해석 방법에 대한 자세한 내용은 다음을 참고하세요.
이 기능이 모든 ML 엔지니어에게 필수인 이유를 보여 주는 몇 가지 사례를 소개합니다.
예시 1: 실패한 학습 실행 트러블슈팅
이 예시는 다음을 사용한 학습 실행에서 나온 것입니다 침수됨 (Kubernetes 위에서 구동되는 CoreWeave의 Slurm 제품)으로 512 H100 GPU에서 실행된 작업입니다. 이 작업은 통합 이전에 수행되었습니다. 작업이 크래시 난 것이 확인되자, 엔지니어가 가장 먼저 한 일은 W&B 실행 메트릭을 확인하는 것이었습니다. 작업이 재큐잉되었기 때문에 중단이 있었다는 점은 분명했지만, GPU 시스템 메트릭에서는 원인을 짐작할 만한 신호가 전혀 보이지 않았습니다.

다음 단계는 애플리케이션 로그를 확인하는 것이었습니다. 안타깝게도 병렬 애플리케이션이 실패할 때, 애플리케이션 수준에서 처음 나타나는 오류는 크래시의 구체적인 원인이라기보다 애플리케이션 내부 컴포넌트 간 통신 실패인 경우가 많습니다. 이 사례에서도 PyTorch가 다수의 NCCL 오류를 발생시켰고, 마지막에는 다음과 같은 메시지로 끝났습니다:
terminate called after throwing an instance of 'c10::DistBackendError'
애플리케이션이 이전에는 정상적으로 실행되었기 때문에 엔지니어는 시스템 오류를 의심했지만, 실행 구성 요소 일부의 실패로 인해 발생한 통신 오류만으로는 원인을 좁히기 어렵습니다. 실제로 네트워크 통신 장애가 있었던 걸까요? 시스템 메모리가 부족해 어떤 컴포넌트가 크래시 난 ���까요? 하드웨어 문제였을까요? 이 모든 상황이 통신 문제처럼 나타날 수 있습니다.
CoreWeave는 작업 단위에서 물리 하드웨어까지 시스템 인프라 상태를 지속적으로 모니터링하고, 해당 Slurm 작업에 대한 CoreWeave Grafana 대시보드에서 보이는 것처럼 작업 현황을 일관된 뷰로 제공합니다. 하지만 이렇게 세밀한 뷰에서는 다양한 노드 상태와 알림이 동시에 발생하고 점검해야 할 데이터가 매우 많아, 문제의 구체적 원인을 파악하려면 인프라 전문 지식이 필요합니다. 더 중요한 점은, 이 정보만으로는 재시작한 작업이 정상적으로 실행될지 엔지니어가 판단하는 데 도움이 되지 않았다는 것입니다.

이제 Weights & Biases에 딥 오브저버빌리티 통합이 추가되면서, 인프라 정보가 엔지니어가 가장 먼저 확인하는 위치—바로 W&B Models의 메트릭 플롯—에 직접 표시됩니다.

엔지니어는 작업이 실패했다는 사실을 확인하고, 이제 가장 중요한 인프라 경고와 함께 그 의미뿐 아니라 해당 작업에 미치는 영향까지 설명을 바로 얻을 수 있습니다.
이 경우, 노드 중 하나가 치명적인 오류로 실패했고 GPUContainedECCError설명에 따르면 GPU에서 XID Error 94가 발생했으며, 이는 Contained Uncorrectable ECC(Error Correction Code) 오류입니다. 이러한 상황이 발생하면 해당 애플리케이션이 크래시 나고, 이 정보가 사용자에게 전달됩니다. 이것이 근본 원인이었고, 인프라에서 나타난 다른 모든 문제는 여기에 기인한 것이므로 엔지니어가 추가로 디버깅할 필요가 없습니다. 자세한 내용은 Grafana 대시보드 링크에서 확인할 수 있지만, 핵심 정보는 이미 명확하게 제공됩니다.
예시 2: 성능 저하 진단
다른 예로, 엔지니어는 아래에서 볼 수 있듯 W&B Models에서 MFU(Model FLOPS Utilization)가 하락한 것을 확인했습니다.

하지만 이제 성능 저하 직후에 빨간색 주석이 표시됩니다. 이 선은 작업 성능 저하와 관련된 DCGMThermalViolation 알림이 발생하기 시작한 시점을 나타냅니다. 모든 정보가 한곳에 모여 있으므로 작업에 영향을 미치는 하드웨어 문제가 분명해집니다. 엔지니어는 체크포인트를 생성한 뒤 작업을 재시작해 문제를 자동으로 해소할 수 있습니다.
결론
오류 메시지는 항상 말 그대로의 의미가 아니며, 고성능을 달성하는 일은 쉽지 않습니다. 게다가 작업이 왜 크래시 났는지 확인하려고 시스템 로그를 파고드는 일은 어렵고 시간이 많이 듭니다. Weights & Biases를 위한 딥 오브저버빌리티는 문제를 정확히 짚어내고, 실패의 근본 원인을 식별하며, 다음에 어떻��� 진행할지에 대한 권장 사항을 제공합니다.
W&B Models에 새로 추가된 CoreWeave 오브저버빌리티는 현재 비공개 프리뷰 단계입니다. 기능 활성화를 원하시면 귀하의 조직에 대해 Weights & Biases 담당자에게 문의해 요청하실 수 있습니다. 자세한 내용은 저희의 문서 시작하려면
Add a comment