Skip to main content

Meta AI, 무료로 사용할 수 있는 사전 학습 언어 모델 제품군 OPT-175B 공개

Meta AI는 오늘 블로그 게시글을 통해 “Open Pretrained Transformer”라는 이름의 새로운 언어 모델 세트를 공개했다고 발표했다. 이 모델들은 GPT-3의 기능을 재현하는 것을 목표로 하며, 로컬 사용과 추가 학습에 자유롭게 활용할 수 있다. 본 문서는 AI 번역 기사입니다. 오역 가능성은 댓글로 제보해 주세요.
Created on September 15|Last edited on September 15
오픈 AI 협업과 연구 개방을 지속적으로 추진하는 일환으로, Meta AI는 사전 학습 언어 모델 세트를 공개했다고 밝혔다 오늘 공개된 블로그 게시글이 모델들은 “Open Pretrained Transformer”라는 이름으로 공개되었으며, 1,750억 매개변수를 갖춘 OPT-175B가 하이라이트다(1억 2,500만 매개변수까지의 소형 모델도 제공된다).
OPT 모델 제품군은 현재 공개된 모델에 견줄 만한 대규모 언어 모델을 무료로 제공하여, 머신 러닝 엔지니어가 소모적인 초기 사전 학습 단계를 건너뛸 수 있도록 한다.
발표와 함께 연구 논문도 공개되었으며, 이 모델들의 제작 과정과 의도에 대해 구체적으로 설명하고 있습니다. 논문은 여기에서 확인할 수 있습니다: https://arxiv.org/abs/2205.01068
OPT-175B로 대규모 언어 모델 접근성 민주화하기

Open Pretrained Transformer 모델 — 진정한 오픈 언어 처리

OPT는 다양한 크기의 모델이 마련되어 있으며, 1억 2,500만부터 300억 매개변수까지의 모델(곧 660억 매개변수 버전 추가 예정)을 로컬 사용을 위해 자유롭게 내려받을 수 있다., 반면 1,750억 매개변수 버전은 안전상의 이유로 수동 승인 요청이 필요합니다. 모든 모델은 여기 GitHub 페이지에서 이용할 수 있습니다: https://github.com/facebookresearch/metaseq/tree/main/projects/OPT
이 모델들은 자연어 생성과 대화 등 표준 언어 모델 과업 전반을 포함해, 편향과 혐오 표현 감지 기능까지 수행할 수 있도록 여러 오픈소스 데이터셋으로 학습되었다.
매개변수 1,750억 규모의 모델을 학습시키는 데는 많은 시간과 에너지가 필요합니다. OPT 모델은 에너지 효율을 중시해 학습되었으며, 몇 가지 최적화와 최신 하드웨어를 활용해 사전 학습 모델을 기존 대비 탄소 발자국의 7분의 1 수준으로 생산할 수 있었습니다. GPT-3이 모델들이 무료로 제공되므로, 대규모 모델을 활용하려는 엔지니어들은 처음부터 자체 모델을 학습시키는 에너지 집약적인 초기 단계(프리트레이닝)를 건너뛸 수 있다.
이들 모델을 만드는 데 사용된 전체 코드베이스와, 개발 과정에서 남긴 로그와 노트, 모델을 직접 학습하고 사용하는 방법에 대한 튜토리얼을 포함한 상세 제작 정보가 모두 제공된다. 모든 자료는 여기 GitHub 저장소에서 확인할 수 있다: https://github.com/facebookresearch/metaseq

OPT-175B와 GPT-3, 그리고 NLP의 한계

OPT-175B는 주로 GPT-3와 비교해 평가된다. OPT-175B의 1차 목표가 GPT-3의 재현이기 때문이며, 두 모델의 최대 규모가 모두 매개변수 1,750억 개로 동일하다. 평가 결과를 보면, OPT-175B는 대부분의 과업에서 매우 유사한 성능을 보이며, 일부 과업에서는 결과 변동성이 상당히 큰 것으로 나타났다.
OPT의 강점은 앞서 언급했듯이 자유롭게 사용할 수 있다는 점이다. 안타깝게도 GPT-3는 충분한 하드웨어가 있더라도 로컬에서 실행할 수 없다. OPT는 자체 AI 솔루션을 온전히 통제하려는 엔지니어를 위한 GPT-3의 대안이 된다.
매개변수 1,750억 규모의 모델이 특별 요청을 통해서만 제공되는 이유는, 이처럼 거대한 언어 처리 모델에 다양한 안전 문제들이 따르기 때문입니다. 유해한 언어를 생성하거나 편향과 고정관념을 드러내는 등의 위험이 있어, 이러한 대규모 NLP 모델은 책임 있는 연구자들에게 제한적으로 제공되어야 합니다. 더불어 AI 언어 생성 자체의 문제점과는 별개로, OPT는 여전히 대화 반복 같은 루프 현상이나 기본 사실을 틀리게 진술하는 등 컴퓨터적 한계에도 부딪힙니다.
따라서 매개변수 1,750억 규모의 모델인 OPT-175B는 수동 심사를 거치는 접근 요청 뒤에 잠겨 있다.

자세히 알아보기


이 기사는 AI 번역본입니다. 오역이 있다면 댓글로 알려주세요. 원문 보고서는 아래 링크에서 확인할 수 있습니다: 원문 보기