새로운 Cerebras API가 가장 빠른 LLM 서비스 제공자인가요?
다섯 가지 Llama 70B 제공자를 비교하고 벤치마크를 돌려보겠습니다. 대상은 Cerebras, Groq, Together, Fireworks, Octo입니다. 이 글은 AI 번역본입니다. 오역이 있을 수 있으니 댓글로 알려 주세요.
Created on September 12|Last edited on September 12
Comment
지난주에 저는 Cerebras API 서비스의 초기 프리뷰에 접근할 수 있었습니다. Cerebras는 경쟁사보다 훨씬 큰 웨이퍼급 칩을 제작하는 것으로 알려져 있으며, 막대한 온칩 메모리를 탑재해 필요한 속도와 낮은 지연 시간을 제공함으로써 대형 언어 모델 빠르게 실행됩니다. 테스트 당시 사용 가능한 최상위 모델은 Llama 3.1 70B였으며, 이 모델을 기준으로 서로 다른 LLM 제공자들의 서빙 성능을 확인했습니다.
Explore the evaluation
요약
이 글에서는 비교에 사용한 과제와 함께 Cerebras가 Groq, Together, Fireworks, Octo와 어떻게 견주었는지 살펴보겠습니다. 먼저 속도 테스트를 진행했고(아래 W&B Weave 스크린샷 참고), 이어서 2023 NeurIPS Hacker Cup이라는 고급 코드 기반 문제 해결 대회를 통해 각 제공자를 비교했습니다. 자세한 내용은 다음 섹션에서 다루겠습니다.
우리는 Cerebras가 일관되게 초당 370토큰, Groq가 226으로 가장 가까웠습니다. 지연 시간도 인상적이어서 Cerebras는 우리의 작업을 대략 30초, 우리가 테스트한 다른 어떤 솔루션보다도 두 배 이상 빠른 속도였습니다. 제공자별로 신뢰성에는 차이가 있었고, 일부 API는 레이트 리미트 문제를 보였거나 테스트 시점에 서비스가 중단되기도 했습니다.

Cerebras는 인기 있는 다른 LLM 제공자들과 비교했을 때 평균적으로 초당 거의 370 토큰 속도로 Llama 70B를 서빙하고 있습니다.
💡
목차
속도를 활용한 복잡한 문제 해결: NeurIPS Hacker Cup AI
그 2024 NeurIPS 해커컵 AI 는 훌륭한 시험대입니다 LLM 비교문제들이 복잡해서 작동하는 해법을 얻기까지 반복이 필요할 수 있습니다. 또한 이상적으로는 동시에 여러 번 호출하게 되므로, 제공업체의 신뢰성과 한계도 함께 검증하게 됩니다.
각 문제를 개별적으로 풀 수 있고 각 라운드마다 6분의 시간 제한이 있으므로, 병렬로 풀이를 시도하는 것이 좋습니다. 이는 LLM 서비스 제공업체의 성능을 검증하는 또 다른 시험이 됩니다.
2024 NeurIPS HackerCup AI가 몇 주 뒤에 시작되며, 저희는 이를 준비해 왔습니다. 이 대회는 가장 복잡한 코딩 문제들로 구성되어 있고, 올해는 AI 모델들이 자신의 가치를 입증할 수 있는 뛰어난 트랙이 마련되어 있습니다.
💡
비교의 기준으로 2023 NeurIPS Hacker Cup을 사용할 예정입니다. 그 대회에 대해 더 알아보거나 우리가 구현한 DUP(Deeply Understand the Problems) 전략을 살펴보고 싶다면 아래의 어떤 섹션이든 펼쳐 보세요. 해당 대회에서 발췌한 샘플 과제도 ���인할 수 있습니다. 여기.
하지만 여러분이 평가 결과를 보고 싶어 한다는 걸 알기에, 지금 바로 보여드리겠습니다.
NeurIPS Hacker Cup에서의 평가 방법
Hacker Cup 평가 결과
2023년 연습 라운드를 풀어 보겠습니다. 이 라운드는 다섯 문제로 구성되어 있습니다. 다섯 문제 중 하나의 유효한 해답을 몇 샷 예제로 사용할 것이므로 실제로는 네 문제만 풉니다. 코드 해답을 생성한 뒤 다음 두 가지를 테스트하겠습니다:
- 생성된 코드가 오류 없이 실행되어 출력 파일을 만들어낸다면
- 출력 파일이 일치한다면 sample_output, 실제 대회 출력과 대조해 볼 ���도 있겠지만, 이는 너무 어렵습니다.
Llama 3.1 70B 모델은 SoTA 모델들과 비교할 때 전반적으로 코드 생성과 추론 성능이 그리 강하지 않습니다 Claude Sonnet 또는 GPT-4o, 또는 DeepSeek code나 Codestral 같은 보다 특화된 코드 모델과 비교해도 마찬가지이니, 이 결과는 있는 그대로 받아들이시기 바랍니다.

우리는 모델 성능을 비교하는 것이 아닙니다. 모든 제공업체가 다음과 같은 변형을 제공했기 때문입니다. Llama 3.1 70B 인스트럭트 그리고 API와의 상호작용도 비슷한 방식으로 제한합니다(분당/시간당/일일 토큰 수와 호출 횟수를 제한). 이런 에이전틱 또는 반복형 파이프라인을 사용할 때는 해당 한도에 걸릴 가능성이 높으므로, 다음 조건에서 제출하려면 6분 원칙적으로, 파이프라인을 철저히 벤치마크하세요.

두 가지 측면에서 평가를 분석해 봅시다: 당면한 실제 과제를 해결하기 그리고 그렇게 하면서 신뢰성 있고 빠르게.
평가를 완료한 대부분의 모델은 실행 가능한 코드를 생성했고, 4개 문제 중 1개를 해결했습니다:
- Cerebras: 4개 문제 모두에서 실행 가능한 코드를 생성했으며, 그중 1개 문제를 해결했습니다. 속도가 상당히 빨라 30초 만에 평가를 완료했습니다. 참고: 현재 모델의 컨텍스트 길이는 8k입니다.
- Groq: 4개 출력물 중 1개를 생성했으며, 실행 가능한 코드는 4개 중 1개였고, 해결한 문제는 없었습니다. 레이트 리밋 때문에 전체 평가를 완료하지 못했습니다.
- Fireworks: 4개 문제 모두에서 실행 가능한 코드를 생성했으며, 그중 1개 문제를 해결했습니다. 전체 평가를 4분 53초에 완료했습니다. 레이트 리밋으로 인해 평가를 순차적으로 진행했으며, 각 개별 문제는 약 72초가 소요됐습니다.
- Together: 4개 문제 모두에서 실행 가능한 코드를 생성했으며, 그중 1개 문제를 해결했습니다.
- Octo: 4개 문제 모두에서 실행 가능한 코드를 생성했으며, 그중 1개 문제를 해결했습니다. 평가당 89초로 성능은 Fireworks보다 약간 느렸습니다.
용량이 늘어남에 따라, 특히 비즈니스 계정의 경우 향후 몇 달 안에 이러한 레이트 및 동시성 제한의 대부분이 사라질 것으로 예상됩니다.
더 알아보기
Cerebras Systems launches the world’s fastest AI inference
Cerebras Systems has announced the launch of Cerebras Inference, offering a 20x performance improvement over traditional GPUs at a fraction of the cost.

Gradient Dissent Podcast with Cerebras CEO Andrew Feldman
In this episode of Gradient Dissent, Andrew Feldman, CEO of Cerebras Systems, joins host Lukas Biewald to discuss the latest advancements in AI inference technology.
Add a comment
In the Scorecard section, what does it mean that it's "Really having a hard time producing solutions"?
Reply