Skip to main content

Cerebras Systems, 세계에서 가장 빠른 AI 추론 플랫폼 출시

Cerebras Systems가 Cerebras Inference 출시를 발표했습니다. 전통적인 GPU 대비 성능을 최대 20배 향상하면서 비용은 크게 낮춥니다. 이 글은 AI 번역 본입니다. 오역이 있을 경우 댓글로 알려주세요.
Created on September 15|Last edited on September 15
Cerebras Systems가 Cerebras Inference 출시를 발표했습니다. 이 새로운 솔루션은 AI 추론에서 속도, 비용, 정확도의 기준을 재정의하며, 전통적인 GPU 대비 비용은 크게 줄이면서 성능을 최대 20배 향상합니다.
Weights & Biases는 이번 혁신에 긴밀히 참여하게 되어 자랑스럽게 생각합니다. 우리는 Cerebras의 인프라와 완전히 매끄럽게 통합되는 핵심 실험 추적 및 평가 도구를 제공하고 있습니다. 또한 최신 팟캐스트에서 그들의 CEO와 대화를 나눌 기회를 얻었고, 네이티브 W&B Weave 통합을 구축했으며, 그들의 솔루션이 경쟁사 대비 어떤 벤치마크 결과를 보였는지 미리 살펴볼 수 있었습니다.
알아두어야 할 점은 다음과 같습니다:

Cerebras SDK용 네이티브 Weave 통합

출시 파트너로서 Weights & Biases Weave는 첫날부터 네이티브 auto-logger 통합으로 Cerebras SDK를 지원합니다. 즉, Cerebras SDK와 Weave를 함께 사용하면 모든 Cerebras call의 입력, 메타데이터, 출력이 코드 한 줄만으로 자동 기록됩니다. 시작하려면 아래 코드를 확인하고, Weave 문서 자세히 알아보기.


import os
import weave
from cerebras.cloud.sdk import Cerebras

# Add 1 line of weave code to turn on auto-logging
weave.init("cerebras_speedster")

# Then use the Cerebras SDK as usual
api_key = model = "llama3.1-8b"
client = Cerebras(api_key=os.environ["CEREBRAS_API_KEY"])

response = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": "What's the fastest land animal?"}],
)

print(response.choices[0].message.content)


Gradient Dissent: Andrew Feldman이 AI 추론 기술을 이야기합니다

Cerebras Systems의 CEO Andrew Feldman와 Weights & Biases의 CEO이자 공동 창업자인 Lukas Biewald가 Gradient Dissent의 최신 에피소드에서 AI 추론 기술의 최신 발전에 대해 대화를 나눕니다.

이번 에피소드에서 그들은 Cerebras Systems의 새로운 AI 추론 제품을 살펴보며, 웨이퍼 스케일 칩이 속도, 정확도, 비용 효율 측면에서 어떻게 새로운 기준을 세우고 있는지 검토합니다. Andrew는 이를 가능하게 하는 아키텍처적 혁신에 대한 인사이트를 공유하고, 프로덕션 환경의 AI 워크로드에 미치는 더 넓은 함의에 대해서도 논의합니다.

Cerebras와 다른 LLM 서비스 제공업체 비교

주말에 초기 프리뷰를 직접 시험해 볼 기회가 있어, 당연히 이들의 칩 성능을 검증해 보고자 했습니다. Llama 3.1 70B instruct로 문제 해결형 코딩 태스크를 선택하고, Cerebras를 Groq, Together AI, Fireworks, Okto와 비교했습니다. 모든 제공업체가 Llama 3.1 70B를 실행하고 있었으므로 과제 자체의 모델 성능은 파고들지 않았고, 대신 지연 시간에 집중했습니다.
여기서의 결과는 인상적이었습니다 그리고 이들의 솔루션을 사용해 보고 싶다면, 세부 사항을 직접 살펴보시길 권합니다. 초기 테스트에서 Cerebras는 우리가 비교한 다른 제공업체들보다 실제로 더 빨랐고, 앞으로 몇 달 동안 더 깊이 파고들며 실험해 볼 생각에 기대하고 있습니다.

Cerebras Inference의 영향 살펴보기

Cerebras Inference는 AI 추론의 진전을 의미하며, 기존 GPU 기반 솔루션보다 최대 20배 빠른 성능을 제공합니다. 업계 벤치마크에 따르면, Cerebras Inference는 Llama 3.1 8B에서 초당 1,700 토큰, Llama 3.1 70B에서 초당 450 토큰을 처리해 현재 사용 가능한 옵션 중 가장 빠른 성능을 보여줍니다.

이 새로운 솔루션은 비용 효율성과 정확성이라는 핵심 요구도 함께 해결합니다. Cerebras Inference는 전체 추론 과정에서 16비트 정밀도를 유지하여, 정확도를 희생하지 않고 최첨단 성능을 보장합니다.
Cerebras Inference는 Cerebras CS-3 시스템과 Wafer Scale Engine 3(WSE-3)를 기반으로 하며, 오늘날 가장 까다로운 AI 워크로드에 필요한 메모리 대역폭과 처리 성능을 제공합니다. GPU 기반 솔루션에서 흔히 따르는 트레이드오프를 제거함으로써, Cerebras Inference는 개발자가 더 높은 속도와 정확도로 AI 모델을 구축하고 배포할 수 있도록 합니다.

MLOps South Bay 밋업에서 Cerebras Systems와 Weights & Biases와 함께하세요

베이 에어리어에 계시다면, 9월 19일 캘리포니아 마운틴뷰에서 열리는 MLOps South Bay 밋업에 꼭 함께해 주세요. Cerebras의 Head of Developer Relations인 Daniel Kim과 Product Manager인 Atharva Talpade가 참석해, Cerebras Inference의 기술 사양과 그 활용 사례에 대해 인사이트를 공유할 예정입니다.
Weights & Biases의 머신러닝 엔지니어 Anish Shah도 Weights & Biases를 활용한 멀티모달 대규모 언어 모델의 파인튜닝과 평가 방법을 발표할 예정입니다. 새 소식을 배우고, ML 전문가에게서 직접 실습형 교육을 받으며, 네트워킹에도 참여해 보세요. 좌석이 한정되어 있으니, 부탁드립니다 사전 등록하세요 좌석을 확보하려면

이 기사는 AI 번역본입니다. 오역이 의심되는 부분은 댓글로 알려주세요. 원문 보고서는 아래 링크에서 확인하실 수 있습니다: 원문 보고서 보기