Google AI, PaLM 공개: Pathways 언어 모델 소개
2022년 4월 4일, Google AI는 도메인과 작업 전반에 걸쳐 일반화하면서도 매우 효율적인 “단일 모델”을 만들기 위한 노력의 일환으로 Pathways Language Model(PaLM)을 발표했다. 이 글은 AI 번역본입니다. 오역이 있을 수 있으니 댓글로 알려주세요.
Created on September 15|Last edited on September 15
Comment
Google AI가 방금 Pathways 시스템의 개발을 발표했다. 이 5,400억 개 파라미터 모델은 평가된 수백 개의 언어 이해 과제 대부분에서 최첨단 성능을 달성했다.

모델의 규모가 커질수록 다양한 작업 전반에서 성능이 향상되고, 동시에 새로운 기능이 활성화됩니다.
PaLM이란 무엇인가?
그들은 이를 다음과 같이 설명한다. “… 5,400억 개 파라미터의 밀집 활성화 Transformer 언어 모델로, 다중 TPU Pod 전반에서 매우 효율적인 학습을 가능하게 하는 새로운 ML 시스템인 Pathways를 사용해 6,144개의 TPU v4 칩에서 학습되었다.”
PaLM은 현재까지 가장 큰 TPU 기반 학습을 시연했으며, Pathways 시스템에서 6,144개의 칩로 스케일링했다. 이는 다른 대규모 언어 모델과 비교해 규모가 크게 증가한 것이다.
우리가 왜 중요하게 여길까?
PaLM은 다음을 포함해 “… 수많은 매우 어려운 과제에서 획기적인 역량”을 발휘했다.
- 언어 이해와 생성 영역에서 29개 과제 중 28개에서 이전의 대규모 모델들을 능가했다.


PaLM 540B의 BIG-bench 과제 1샷 성능을 보여주는 예시: 인과관계 레이블링, 개념적 이해, 이모지로 영화 맞히기, 동의어 찾기와 반사실 추론.
- 추론 과제에서 이전 모델들을 상당한 격차로 능가했다.

PaLM은 투샷 프롬프트로 원조 농담을 설명한다.
- 코드 생성: 자연어 설명을 바탕으로 코드를 작성하는 기능.

미세 조정된 PaLM 540B 모델이 GSM8K-Python과 HumanEval 같은 텍스트‑투‑코드 과제 및 Transcoder와 같은 코드‑투‑코드 과제에서 보인 예시.
직접 읽어보세요
Add a comment