Skip to main content

Mojo, 스케일링 트랜스포머, YOLO-NAS, MPT 및 OpenLLaMA

새로운 고성능 Python 언어, 트랜스포머의 컨텍스트 길이 확장, YOLO-NAS의 SOTA 달성, 파운데이션 모델 등 최신 소식! 이 글은 AI가 번역한 기사입니다. 오역이 있을 경우 댓글로 알려 주세요.
Created on September 15|Last edited on September 15

Mojo: 더 새롭고 더 빠른 Python 상위 호환 언어

Mojo, Python 상위 호환 언어로 설계되었습니다 AI 개발자들을 위한 언어입니다. 아직 개발 중이지만, 개발자들은 Jupyter 기반 플레이그라운드에서 얼리 액세스를 신청할 수 있습니다.




트랜스포머를 100만 토큰까지 확장하기

모든 언어 모델은 매우 제한된 컨텍스트 길이를 갖습니다. 예를 들어 Bing은 최대 4000자만 입력할 수 있습니다. Yannic Kilcher가 이 논문을 훌륭하게 해설한 영상이 있습니다.


이 논문은 다음과 같은 제목의 기존 논문을 바탕으로 합니다: 순환 메모리 트랜스포머요약하면, 특정 하드웨어와 언어 모델이 한 번에 처리하기에는 입력 길이가 너무 길 경우, 입력을 여러 청크로 나누어 순차적으로 모델에 넣습니다. 각 청크마다 모델은 일정 개수의 고정된 메모리 토큰을 받아들이고, 일정 개수의 고정된 메모리 토큰을 출력합니다. 본질적으로 RNN의 순환 특성을 트랜스포머에 적용한 방식입니다.


YOLO-NAS

Deci가 공개한 YOLO-NAS는 다른 모든 YOLO 변형을 능가합니다. NAS는 다음의 약자입니다 신경 아키텍처 탐색

import super_gradients

yolo_nas = super_gradients.training.models.get("yolo_nas_l", pretrained_weights="coco").cuda()
yolo_nas.predict("https://deci-pretrained-models.s3.amazonaws.com/sample_images/beatles-abbeyroad.jpg").show()
그들의 GitHub 저장소.
파인튜닝과 양자화를 위한 예제 노트북도 제공합니다.

MosaicML MPT 모델과 OpenLLaMA

MosaicML은 파운데이션 모델 시리즈의 일환으로 MosaicML Pretrained Transformer(MPT) 계열 LLM을 공개했습니다. 자세한 내용은 그들의 블로그 그리고 확인해 보세요 Hugging Face Spaces 이 모델들과 상호작용해 보세요!
그들은 4개의 모델을 제공합니다:
  • MPT-7B 베이스
  • MPT-7B-StoryWriter-65k+
  • MPT-7B-Instruct
  • MPT-7B-Chat
MosaicML은 자체 파운데이션 모델을 공개하는 더 큰 조직군의 일부입니다. StabilityAI의 StableLM, EleutherAI의 Pythia, Meta의 LLaMA, BAIR의 OpenLLaMA 등이 이에 포함됩니다.
LLM 분야에서 오픈 소스가 믿을 수 없을 만큼 빠르게 발전하고 있네요!

흥미로운 자료

참고 문헌

Mojo
Transformers를 100만 토큰으로 확장하기
YOLO-NAS
MosaicML MPT 모델과 OpenLLaMA
흥미로운 자료

이 기사는 AI 번역본입니다. 오역이 있으면 댓글로 알려 주세요. 원본 보고서 링크는 다음과 같습니다: 원문 보고서 보기