Skip to main content

Microsoft 발표: 언어만으로는 충분하지 않습니다

Microsoft는 이미지 를 LLM의 보조 입력으로 활용합니다 이 글은 AI 번역 기사입니다 오역이 의심되면 댓글로 알려 주세요
Created on September 12|Last edited on September 12
Microsoft는 텍스트뿐 아니라 이미지와 같은 추가 모달리티로도 학습할 수 있는 새로운 멀티모달 대규모 언어 모델(MLLM)인 Kosmos-1을 공개했다. 연구진은 이미지 데이터를 활용해 대규모 언어 모델을 학습시키는 효과를 조사했으며, 학습 과정에서 이미지를 추가 문맥으로 포함하면 텍스트 설명만으로는 얻기 어려운 상식 지식을 더 잘 습득하고 로보틱스 등 다른 응용 분야에서도 활용 가능성이 커진다는 사실을 확인했다. 또한 저자들은 Raven IQ 테스트와 같은 비언어적 추론 평가로 모델의 성능을 검증할 수 있었다.


작동 방식


개략적으로 저자들은 이미지를 직접 벡터 임베딩으로 변환해 트랜스포머 모델에 입력하고, 시퀀스에서 이미지 데이터의 시작을 표시하기 위해 <image>와 같은 토큰을 사용했다. 백본 모델로는 여러 모달리티에서 견고한 성능을 보이는 Magento 아키텍처를 채택했으며, 위치 인코딩으로는 다양한 시퀀스 길이에 잘 일반화되는 xPos를 사용했다. 학습 과제는 다음 토큰 예측으로, 시퀀스에서 다음 토큰(이미지 제외)을 맞히는 것이 목표였다. 전체 모델의 파라미터 수는 17억 개다.


결과


이 모델은 제로샷 학습 설정에서 Raven 지능 검사에서 IQ 능력이 4% 향상되었다. 이미지 모달리티를 추가하자 체인 오브 소트 프롬프팅 과제에서 성능이 5.8포인트 개선되었다. 저자들은 이미지에 더해 프롬프트를 입력으로 사용하는 제로샷 이미지 분류 과제에 모델을 적용했으며, CLIP 같은 모델보다 더 나은 성능을 보였다. 또한 설명이 있는 경우와 없는 경우로 나누어 제로샷 이미지 분류를 평가한 결과, 두 조건 간 성능 차이가 크게 나타나 모델이 예측을 위해 이미지와 언어 두 모달리티를 효과적으로 결합해 활용함을 확인했다.


결론

종합하면, 대규모 언어 모델의 학습 과정에 이미지를 포함하면 성능이 향상되며, 시각 입력에 크게 의존하는 로보틱스 등 다른 시스템과의 통합을 위한 실질적인 경로가 될 수 있다. 현재 인간 수준의 추론이 필요한 상황에서 어려움을 겪는 자율 시스템의 발전에 LLM이 어떤 영향을 미칠지 지켜보는 것도 흥미롭다. 이번 연구는 이러한 문제를 해결하기 위한 첫걸음이 될 수 있다.


논문



이 글은 AI로 번역되었습니다. 오역이 있을 수 있으니 댓글로 알려 주세요. 원문 보고서는 아래 링크에서 확인할 수 있습니다: 원문 보기