Skip to main content

일본어 독해를 위한 협업형 딥러닝

희귀한 시각 언어를 함께 학습해 봅시다—지금 함께하세요! 이 글은 AI 번역본입니다. 오역이 있을 수 있으니 댓글로 알려 주세요.
Created on September 15|Last edited on September 15
요약: 희귀한 시각 언어를 함께 학습하는 네트워크를 같이 만들어 봅시다—함께하세요!
Weights & Biases는 실험과 노트를 공유 워크스페이스에서 체계적으로 관리하고, 모든 코드를 추적하며, 나머지 입력과 출력도 표준화하고, 결과 플로팅 같은 지루한 작업을 대신 처리해 줍니다. 그 덕분에 팀은 다른 사람들과 대화하며 흥미롭고 의미 있는 퍼즐을 풀어 나가는, 가장 흥미로운 일에만 집중할 수 있습니다.

KMNIST 벤치마크

공개 벤치마크를 통해 더 넓은 커뮤니티 차원의 협업을 탐색하고자 합니다. 개인의 노력과 아이디어를 어떻게 하면 분야 전체가 최대한 쉽게 접근하고 유용하게 활용할 수 있을까요? 우리는 Kuzushiji-MNIST 데이터셋(kmnist)에 wandb를 추가했습니다. 이 데이터셋은 고전 일본어 초서체의 10개 서로 다른 문자 이미지를 포함합니다. 이 글 하단의 세 가지 명령만으로 본인 환경을 설정하고 실행한 뒤, 하이퍼파라미터를 조정하고 브라우저에서 모델 성능을 시각화할 수 있습니다.


데이터셋

우리가 이 데이터셋을 선택한 이유는 손글씨 숫자 베이스라인인 mnist를 새롭게 재해석했기 때문입니다. mnist의 기술적 단순함은 유지하면서도, 탐색된 풀이 공간이 적고 시각적 직관에 의존하기 어려워(쿠즈시지를 읽을 수 있는 전문가는 극소수입니다) 더 넓은 창의적 실험 여지를 제공합니다. mnist의 일반화는 10개 숫자에서 끝나지만, kmnist는 Kuzushiji-49(이미지 270,912장, 문자 49종)와 심하게 불균형한 Kuzushiji-Kanji(이미지 140,426장, 문자 3,832종, 일부 문자는 12가지 변형 포함)로 확장됩니다. mnist가 사실상 해결된 과제인 반면, kmnist는 사라져 가는 언어의 구조를 이해하고 약 30만 권의 일본 고서를 디지털화하는 데 기여할 수 있습니다(참고: 이 논문 자세한 내용은 참고).

작은 인센티브

kmnist 벤치마크의 초기 참여를 독려하기 위해, 6주 이내(10월 8일까지) 최고 검증 정확도를 달성한 기여자에게 1,000달러 상당의 컴퓨팅 크레딧을 제공합니다. 그 크레딧으로 멋진 결과를 만들어 주시길 기대합니다!

더 큰 인센티브

명확한 문서화, 기존 배경과 새로운 아이디어의 융합, 그리고 연구 노력의 효율적 축약을 장려하는 벤치마크를 개발하고 있습니다. 수많은 논문과 블로그 글 더미의 맨 아래에서 혼자 시작하는 대신, 공동으로 다져진 토대 위에서 팀과 함께 출발하면 더 빠르고 더 나은 결과를 만들 수 있습니다. 여러분도 함께해 주셔서 머신러닝 분야가 이런 방향으로 나아가도록 힘을 보태주시길 바랍니다. 여기에서 벤치마크에 함께 참여하기.

시작하는 방법

참여를 믿을 수 없을 만큼 쉽게 만들고자 했습니다. 다음으로 이동해 주세요 https://app.wandb.ai/wandb/kmnist/benchmark 또는 다음 명령을 따르세요:
1. 코드와 학습 데이터를 받기:
> git clone https://github.com/wandb/kmnist
> cd kmnist/benchmarks && pip install -r requirements.txt
> ./init.sh kmnist
2. 첫 번째 학습 실행하기:
> python cnn_kmnist.py --quick_run







이 글은 AI로 번역된 기사입니다. 오역이 있을 수 있으니 댓글로 알려 주세요. 원문은 아래 링크에서 확인하실 수 있습니다: 원문 보고서 보기