보리스 데이마, 흑백 사진에 색을 입히는 마법사
우리 컬러라이저 대회는 큰 성공을 거두었습니다! 우승자인 Boris Dayma에게서 몇 가지 팁을 배워 보세요. 이 글은 AI 번역 기사입니다. 오역이 의심되는 부분이 있으면 댓글로 알려 주세요.
Created on September 15|Last edited on September 15
Comment
휴스턴(텍사스) 출신 보리스 데이마는 우리 여름 컬러라이저 대회의 우승자 중 한 사람이었습니다. 그는 신경망을 개발했다 흑백 이미지를 아름답고 완전한 컬러 렌더링으로 바꾸는 것입니다. 아래의 흑백 이미지와 컬러 이미지를 잠시 비교해 보세요.

각 꽃이 어떤 색인지 어떻게 예측할 수 있을까요? 수작업으로 하려면 꽃 하나하나를 조사하고, 부케의 팔레트와 배치를 합리적으로 추정해야 합니다. 흑백 필름을 컬러화할 때는 아티스트가 프레임마다 색을 공들여 상상하고, 손으로 하나씩 칠합니다. 우리는 연구자들에게 신경망을 사용해 꽃의 흑백 사진을 컬러화하도록 도전장을 던졌지만, 우리의 자체 결과는 그다지 좋지 않았습니다.

컬러라이저에 적합한 손실 함수를 정의하는 일은 어렵습니다. 예측한 색과 정답 색의 거리를 쉽게 최소화하는 방법은 모든 색의 중간쯤 되는 값을 추정하는 것인데, 그렇게 하면 결국 갈색에 가까운 색으로 수렴해 버리기 때문입니다.
브라질로 2주 휴가를 떠나기 전, 보리스는 컬러라이저 관련 발표 논문을 한 무더기 인쇄해 갔습니다. 그는 비행기에서 훑어보고, 해변에서 구현 사례를 읽어가며, 문제에 접근할 개념을 정리했습니다. 그래서 미국에 돌아오자마자 바로 실행에 옮길 수 있었습니다.
그는 Weights & Biases의 실시간 손실 곡선을 활용해 이상치를 식별하고, 성능이 좋지 않을 때는 학습을 조기에 중단하는 방식으로 모델 학습 과정을 면밀하게 추적했다.
보리스의 방법
흑백 이미지는 기본적으로 RGB 색 공간에 있기 때문에, 보리스는 이미지를 YCrCb 공간으로 변환했습니다. 이렇게 하면 차원 중 하나가 이미지의 밝기(Y)만을 나타내므로, 예측해야 할 값을 Cr와 Cb로 한정해 문제가 단순해집니다. 그는 이미지 분할에 쓰이는 U-Net, MobileNet, ResNet에서 영감을 받아 자체 아키텍처를 설계했습니다. 보리스는 학습 데이터를 정제하고, 학습 세트를 보강하기 위해 꽃 이미지도 더 수집했습니다. 또한 데이터 증강으로 랜덤 크롭과 수직 뒤집기를 적용했습니다.

- 베이스라인 - 5개 레이어: 첫 번째 베이스라인 실행은 5개 레이어와 초기 필터 32개로 설정되었습니다.
- 베이스라인 + 업컨볼루션업샘플링 대신 업컨볼루션을 사용해도 성능 향상은 없었고, 모델 크기만 크게 증가했다.
- 6개 레이어 - 가중치 감쇠:가중치 감쇠 사용 총 손실에 대한 기여도를 여러 차례 줄였음에도 학습 속도가 지나치게 느려지는 결과를 초래한다.
- 6개 레이어최상의 결과는 6개 레이어, 초기 필터 32개, 정규화 없음.
결과
그의 결과는 우리가 단순한 모델로 얻던 세피아 톤 출력보다 훨씬 뛰어났다. 그의 과정과 결과에 대해 더 알아보려면 다음을 참고하라 Weights & Biases 프로젝트그의 결과 샘플을 확인해 보라. 그는 이 엉겅퀴 꽃을 보라색으로, 배경의 잔디를 초록색으로 정확히 채색하도록 모델을 학습시키는 데 성공했다. 결코 쉬운 일이 아니다!

우리의 축하
우리는 그의 결과에 매우 감명받아 보리스를 초청해 팀을 만나고 Shivon Zilis와 함께 드라이브를 하도록 했다. 그는 오후 내내 아이스크림을 먹으며 Tesla의 최신 자율주행 기능을 직접 체험했다!

영광과 명성, 그리고 무료 아이스크림까지 원하나요? 다음 대회의 소식을 듣고 싶다면 contest@wandb.com 으로 이메일을 보내주세요!
Add a comment