이번 주 AI 소식: Meta LLaMA 2, Meta-Transformer, Stability AI FreeWilly
최근 몇 주간 인공지능 분야에서 발생한 가장 크고 중요한 변화들을 한데 모았습니다 — LLaMA 2부터 Meta-Transformer까지, 그리고 그 너머까지. 이 글은 AI 번역 기사입니다. 오역 가능성이 있으면 댓글로 알려주세요.
Created on September 15|Last edited on September 15
Comment
메타 LLaMA 2
그들의 2버전과 함께 LLaMA 모델한편 Meta는 Microsoft와의 파트너십을 이어가며 Azure의 AI Model Catalog에 LLaMA 2를 등록했습니다. 개방형 접근에 따라 Meta의 LLaMA 2는 연구 및 상업적 용도로 무료로 사용할 수 있습니다.
이 모델들은 1세대 모델과 무엇이 다를까요? 논문에 따르면 LLaMA 2 모델은 “더 강력한 데이터 정제, 업데이트된 데이터 믹스, 총 토큰 수 40% 증가, 컨텍스트 길이 두 배, 그리고 추론 확장성을 높이기 위한 grouped-query attention(GQA) 적용”을 거쳤습니다. 이 새로운 세대의 LLaMA 모델은 대화형 사용 사례에 최적화되어 있습니다.
Meta-Transformer
메타‑트랜스포머 아니오 메타가 발표한 통합형 멀티모달 트랜스포머 아키텍처입니다!

이 트랜스포머는 …라고 말해도 무방합니다 정말 멀티모달, 즉 텍스트와 이미지에만 국한되지 않습니다. 이들의 웹사이트에는 논문 방법을 자세히 설명한 훌륭한 동영상이 아래에 있습니다.

이들의 Meta‑ 전체 아키텍처는트랜스포머 데이터‑투‑시퀀스 토크나이저 레이어로 구성되며, 이 레이어는 다시 여러 모달리티별 토크나이저로 이루어져 있습니다. 토크나이즈된 입력은 통합 모델에 모두 투입할 수 있는 공유 토큰 공간으로 들어갑니다. 통합 모델의 출력은 작업별 모델로 전달됩니다.
이들은 수십 가지 벤치마크와 다른 모델 전반에서 자신들의 모델을 평가했습니다!

Stability AI FreeWilly
StabilityAI는 최근 LLaMA의 새로운 변형 두 가지, FreeWilly와 FreeWilly2를 공개했습니다. 두 모델 모두 합성적으로 생성한 데이터셋으로 학습되었으며, 다음 연구의 발견을 참고했습니다.Orca: GPT-4의 복잡한 설명 추적을 통한 점진적 학습. 이들은 간단한 예제와 복잡한 예제를 혼합한 60만 개 데이터 포인트만으로 학습했으며, 이는 Orca 논문에서 사용한 원본 데이터셋의 약 10%에 해당하지만 뛰어난 성능을 보여줍니다. FreeWilly 계열의 대규모 언어 모델 에서 이용할 수 있습니다 허깅 페이스 모델 카드와 추론 API도 함께 제공합니다.
참고 문헌
Add a comment