Woven이 W&B를 활용하여 지속적인 학습을 추진하는 방법
"실험 추적 덕분에 작업 속도가 10배 빨라졌고, 결과를 더 빠르게 공유할 수 있게 되었으며, 추적성과 추적 가능성도 확보할 수 있었습니다."

Evan Cushing
Machine Learning Engineer
이동성 시장은 끊임없이 진화하고 있습니다. 킥보드, 차세대 자동차, 전기 자전거, MaaS(Mobility as a Service) 시스템 등 새로운 도로 이용자와 차량이 정기적으로 도입되고 있으며, 운전자와 자동차는 이에 따라 적응해야 합니다.
ML 엔지니어인 에반 쿠싱(Evan Cushing)에 따르면, 그러한 끊임없는 진화 상태는 그와 그의 팀이 Toyota Motor Corporation의 모빌리티 기술 자회사인 Woven에서 진행하는 프로젝트를 매우 매력적으로 만드는 요소입니다. Woven은 Toyota 그룹 내에서 소프트웨어 혁신을 추진하는 데 주력하고 있습니다.
쿠싱은 “우리는 다른 어떤 공간이나 회사에서도 찾을 수 없는 규모로 정말 흥미롭고 도전적인 문제를 해결합니다.”라고 말했습니다. “자율 주행을 Weights & Biases와 같은 도구가 필요한 흥미로운 ML 문제로 만드는 것은 그것이 매우 차원적인 문제라는 것입니다. 이러한 과제 중 하나는 지속적인 학습의 ML 시스템이 필요하다는 것입니다.”
팀의 사명은 안전하고 지능적이며 인간 중심의 자율 주행 및 모빌리티 솔루션을 제공하는 것입니다. 감지 오류는 승객과 주변 커뮤니티에 큰 안전 위험을 초래하여 회사와 Evan의 ML 팀에 최첨단 모델과 솔루션을 제공하라는 엄청난 압력을 가하고 있습니다.
“Autonomy 1.0” 워크플로의 과제

- 실제 주행 시나리오의 풍부하고 다양한 데이터 분포를 완전히 포착하지 못한 채 고정된 경로를 주행하는 테스트 차량을 사용하는 데이터 수집 방법은 확장성이 부족했습니다.
- 테스트 차량의 데이터를 수동으로 큐레이션하여 벤치마킹에 사용되는 테스트 세트의 일부가 되어야 합니다. 팀원들은 비디오를 검토하여 ML 모델이나 AI 시스템에 도전이 될 수 있는 카이젠 시나리오(예: 도로 위의 동물)를 훈련에 적합한 장면을 찾아 큐레이션해야 합니다. 또한 확장이 불가능했습니다.
- 타사 데이터 주석 서비스를 이용하여 데이터 레이블을 지정하는 과정은 느리고 시간이 많이 걸리며, 최대 한 달이 걸릴 수 있습니다.
카이젠 원칙을 활용한 10배 개선
카이젠은 “지속적인 개선” 또는 문자 그대로 “더 나은 방향으로의 변화”를 의미하는 일본어 용어입니다. 핵심적으로, 이는 시간이 지남에 따라 지속적으로 작고 점진적인 개선을 통해 상당한 진전을 이루고 프로세스의 낭비와 비효율성을 제거하는 철학을 강조합니다. 쿠싱은 이러한 사고 과정을 과제를 해결하는 열쇠로 보고 워크플로 전반에 카이젠을 구현할 영역을 찾았습니다.
가장 큰 개선은 데이터 수집을 위해 테스트 차량에서 벗어나 데이터 수집 센서가 있는 대규모 고객 차량을 활용한 것이었으며, 이를 통해 훨씬 짧은 시간에 훨씬 더 많은 양의 데이터를 수집할 수 있었습니다. 이러한 센서는 또한 자동화된 트리거를 사용하여 카이젠 시나리오를 찾았습니다. 예를 들어 갑작스러운 G-포스의 엄청난 증가를 감지한 경우입니다. 이는 잠재적으로 안전하지 않은 상황이고 모델을 훈련하기에 가치 있는 장면일 수 있습니다.
데이터 큐레이션 워크플로우 동안 자동 라벨링 및 데이터 세트 쿼리도 시간 절약을 크게 개선하여 20개월에서 단 2개월로 단축했습니다. 이 팀은 머신 러닝을 사용하여 데이터 주석을 자동화하여 사람이 수동으로 큐레이션하고 훈련할 장면을 주석 처리하는 대신 데이터에 자동으로 레이블을 지정했습니다. 이제 이 팀은 데이터 세트를 쿼리하여 “도로를 건너는 사슴” 또는 “자전거를 탄 아이”와 같이 카이젠 시나리오일 수 있는 장면을 검색하여 이 특정 시나리오의 모든 샘플을 가져올 수 있습니다.
이러한 모든 노력을 전체 워크플로우에서 지원하는 것은 Weights & Biases를 중앙 기록 시스템으로 사용하고, PyTorch를 핵심 프레임워크로 사용하고, Hydra를 사용하여 구성을 관리하고, 온프레미스(DGX)와 클라우드(AWS EC2 및 SageMaker) 인프라를 모두 갖춘 동급 최고의 ML 프레임워크였습니다.
가중치와 편향의 영향
특히 Weights & Biases는 Woven by Toyota가 여러 조직과 제품 애플리케이션에서 ML 프로젝트를 개발하고, 소통하고, 협업하는 데 필수적인 도구가 되었습니다.
쿠싱은 “실험 추적 덕분에 속도가 10배 빨라졌고, 추적성과 추적성을 통해 결과를 훨씬 더 빠르게 공유할 수 있었습니다.”라고 말했습니다. “Sweeps는 이전에 지루했던 프로세스를 자동화하는 데 도움이 되었고, Reports는 Toyota에서 우수한 ML에 대한 표준을 높이는 데 도움이 되었습니다.”
팀은 또한 가중치 및 편향을 사용하는 고유한 방법을 고안해냈으며, 쿠싱이 “정말 재밌는 카이젠 프로 팁”이라고 묘사한 것을 생각해냈습니다. 즉, 테이블을 사용하여 사실상의 모델 리더보드 역할을 하는 것입니다.
팀은 여러 팀과 기능에서 모델을 공유하고, 동일한 데이터 세트 버전에서 훈련된 모델 실행을 집계합니다. 그런 다음 테이블을 사용하여 평가 지표별로 정렬하여 누가 무엇을 하고 있는지, 어떤 모델 버전이 선두를 달리고 있는지, 팀에서 누가 선두를 달리고 있는지 확인합니다.
쿠싱은 “이를 통해 팀이 프로젝트 개발에 맞춰 정렬됩니다.”라고 말했습니다. “리더보드를 통해 훌륭한 성과를 내는 데이터, 기술 및 스쿼드에 대한 교차 기능적 가시성을 얻을 수 있습니다.”
그리고 팀은 Weights & Biases 사용과 그들이 작업하고 있는 전반적인 Autonomy 2.0 워크플로우 모두에서 안주하지 않습니다. Cushing은 특히 Launch(더 큰 규모로 훈련 및 추론 작업을 실행하기 위한 컴퓨팅에 대한 원활한 연결)와 Model Registry(모든 모델 관리 및 배포를 중앙 집중화하고 구성)를 통해 W&B 플랫폼에 더욱 통합할 계획입니다.
한편, Autonomy 2.0은 대규모 행동 데이터 세트, 검증을 위한 더 나은 오프라인 시뮬레이션, 더 저렴한 하드웨어 비용으로 더 큰 규모를 촉진하여 지속적으로 개선될 것입니다. 자율 주행의 가까운 미래는 Cushing과 그의 Woven by Toyota 팀이 이끄는 흥미로운 미래입니다.