Skip to main content

새로운 Cerebras API가 가장 빠른 LLM 서비스 제공자인가요?

다섯 가지 Llama 70B 제공자를 비교하고 벤치마크를 돌려보겠습니다. 대상은 Cerebras, Groq, Together, Fireworks, Octo입니다. 이 글은 AI 번역본입니다. 오역이 있을 수 있으니 댓글로 알려 주세요.
Created on September 12|Last edited on September 12
지난주에 저는 Cerebras API 서비스의 초기 프리뷰에 접근할 수 있었습니다. Cerebras는 경쟁사보다 훨씬 큰 웨이퍼급 칩을 제작하는 것으로 알려져 있으며, 막대한 온칩 메모리를 탑재해 필요한 속도와 낮은 지연 시간을 제공함으로써 대형 언어 모델 빠르게 실행됩니다. 테스트 당시 사용 가능한 최상위 모델은 Llama 3.1 70B였으며, 이 모델을 기준으로 서로 다른 LLM 제공자들의 서빙 성능을 확인했습니다.
Explore the evaluation



요약

이 글에서는 비교에 사용한 과제와 함께 Cerebras가 Groq, Together, Fireworks, Octo와 어떻게 견주었는지 살펴보겠습니다. 먼저 속도 테스트를 진행했고(아래 W&B Weave 스크린샷 참고), 이어서 2023 NeurIPS Hacker Cup이라는 고급 코드 기반 문제 해결 대회를 통해 각 제공자를 비교했습니다. 자세한 내용은 다음 섹션에서 다루겠습니다.
우리는 Cerebras가 일관되게 초당 370토큰, Groq가 226으로 가장 가까웠습니다. 지연 시간도 인상적이어서 Cerebras는 우리의 작업을 대략 30초, 우리가 테스트한 다른 어떤 솔루션보다도 두 배 이상 빠른 속도였습니다. 제공자별로 신뢰성에는 차이가 있었고, 일부 API는 레이트 리미트 문제를 보였거나 테스트 시점에 서비스가 중단되기도 했습니다.
Cerebras는 인기 있는 다른 LLM 제공자들과 비교했을 때 평균적으로 초당 거의 370 토큰 속도로 Llama 70B를 서빙하고 있습니다.
테스트는 간단한 추론 스크립트를 사용해 진행했으며, 10회 실행 평균을 기준으로 했습니다. 측정된 시간은 소비자 측 기준입니다. 벤치마킹 코드는 확인하실 수 있습니다. 여기
💡

목차



속도를 활용한 복잡한 문제 해결: NeurIPS Hacker Cup AI

2024 NeurIPS 해커컵 AI 는 훌륭한 시험대입니다 LLM 비교문제들이 복잡해서 작동하는 해법을 얻기까지 반복이 필요할 수 있습니다. 또한 이상적으로는 동시에 여러 번 호출하게 되므로, 제공업체의 신뢰성과 한계도 함께 검증하게 됩니다.
각 문제를 개별적으로 풀 수 있고 각 라운드마다 6분의 시간 제한이 있으므로, 병렬로 풀이를 시도하는 것이 좋습니다. 이는 LLM 서비스 제공업체의 성능을 검증하는 또 다른 시험이 됩니다.
2024 NeurIPS HackerCup AI가 몇 주 뒤에 시작되며, 저희는 이를 준비해 왔습니다. 이 대회는 가장 복잡한 코딩 문제들로 구성되어 있고, 올해는 AI 모델들이 자신의 가치를 입증할 수 있는 뛰어난 트랙이 마련되어 있습니다.
경진대회용 자동화 솔루션을 구축하는 데 유용한 기법을 다루기 위해 각 분야 전문가들과 함께 일련의 강의를 진행했습니다: 영상을 보려면 여기를 클릭하세요.
💡
비교의 기준으로 2023 NeurIPS Hacker Cup을 사용할 예정입니다. 그 대회에 대해 더 알아보거나 우리가 구현한 DUP(Deeply Understand the Problems) 전략을 살펴보고 싶다면 아래의 어떤 섹션이든 펼쳐 보세요. 해당 대회에서 발췌한 샘플 과제도 ���인할 수 있습니다. 여기.
하지만 여러분이 평가 결과를 보고 싶어 한다는 걸 알기에, 지금 바로 보여드리겠습니다.

NeurIPS Hacker Cup에서의 평가 방법

Hacker Cup 평가 결과

2023년 연습 라운드를 풀어 보겠습니다. 이 라운드는 다섯 문제로 구성되어 있습니다. 다섯 문제 중 하나의 유효한 해답을 몇 샷 예제로 사용할 것이므로 실제로는 네 문제만 풉니다. 코드 해답을 생성한 뒤 다음 두 가지를 테스트하겠습니다:
  • 생성된 코드가 오류 없이 실행되어 출력 파일을 만들어낸다면
  • 출력 파일이 일치한다면 sample_output, 실제 대회 출력과 대조해 볼 ���도 있겠지만, 이는 너무 어렵습니다.
Llama 3.1 70B 모델은 SoTA 모델들과 비교할 때 전반적으로 코드 생성과 추론 성능이 그리 강하지 않습니다 Claude Sonnet 또는 GPT-4o, 또는 DeepSeek code나 Codestral 같은 보다 특화된 코드 모델과 비교해도 마찬가지이니, 이 결과는 있는 그대로 받아들이시기 바랍니다.
W&B Weave의 평가 비교 도구가 이를 수행하기에 가장 적합한 방법입니다. 우리 제품에서 이 프로젝트를 다음과 같이 탐색할 수 있습니다. 다음 링크를 따라가세요.

이 비교를 확인하세요 여기
우리는 모델 성능을 비교하는 것이 아닙니다. 모든 제공업체가 다음과 같은 변형을 제공했기 때문입니다. Llama 3.1 70B 인스트럭트 그리고 API와의 상호작용도 비슷한 방식으로 제한합니다(분당/시간당/일일 토큰 수와 호출 횟수를 제한). 이런 에이전틱 또는 반복형 파이프라인을 사용할 때는 해당 한도에 걸릴 가능성이 높으므로, 다음 조건에서 제출하려면 6분 원칙적으로, 파이프라인을 철저히 벤치마크하세요.

두 가지 측면에서 평가를 분석해 봅시다: 당면한 실제 과제를 해결하기 그리고 그렇게 하면서 신뢰성 있고 빠르게.
평가를 완료한 대부분의 모델은 실행 가능한 코드를 생성했고, 4개 문제 중 1개를 해결했습니다:
  • Cerebras: 4개 문제 모두에서 실행 가능한 코드를 생성했으며, 그중 1개 문제를 해결했습니다. 속도가 상당히 빨라 30초 만에 평가를 완료했습니다. 참고: 현재 모델의 컨텍스트 길이는 8k입니다.
  • Groq: 4개 출력물 중 1개를 생성했으며, 실행 가능한 코드는 4개 중 1개였고, 해결한 문제는 없었습니다. 레이트 리밋 때문에 전체 평가를 완료하지 못했습니다.
  • Fireworks: 4개 문제 모두에서 실행 가능한 코드를 생성했으며, 그중 1개 문제를 해결했습니다. 전체 평가를 4분 53초에 완료했습니다. 레이트 리밋으로 인해 평가를 순차적으로 진행했으며, 각 개별 문제는 약 72초가 소요됐습니다.
  • Together: 4개 문제 모두에서 실행 가능한 코드를 생성했으며, 그중 1개 문제를 해결했습니다.
  • Octo: 4개 문제 모두에서 실행 가능한 코드를 생성했으며, 그중 1개 문제를 해결했습니다. 평가당 89초로 성능은 Fireworks보다 약간 느렸습니다.
용량이 늘어남에 따라, 특히 비즈니스 계정의 경우 향후 몇 달 안에 이러한 레이트 및 동시성 제한의 대부분이 사라질 것으로 예상됩니다.

더 알아보기





이 기사는 AI 번역본입니다. 오역이 의심되는 부분이 있으면 댓글로 알려주세요. 원문 보고서는 다음 링크에서 확인하실 수 있습니다: 원문 보고서 보기
Angela Yeung
Angela Yeung •  
In the Scorecard section, what does it mean that it's "Really having a hard time producing solutions"?
Reply