Skip to main content

새로운 Cerebras API는 가장 빠른 LLM 서비스 제공자인가요?

Llama 70B 제공업체 다섯 곳을 비교하고 벤치마크를 돌려보겠습니다. 대상은 Cerebras, Groq, Together, Fireworks, Octo입니다. 이 글은 AI 번역본입니다. 오역이 있다면 댓글로 알려주세요.
Created on September 12|Last edited on September 12
지난주에 저는 Cerebras API 서비스의 초기 미리보기 권한을 받았습니다. Cerebras는 경쟁사보다 훨씬 큰 웨이퍼 크기의 칩을 제작하는 것으로 알려져 있으며, 엄청난 양의 온칩 메모리를 탑재해 고속성과 저지연을 제공할 수 있습니다. 이런 특성은 다음과 같은 작업을 가능하게 합니다 대규모 언어 모델 빠르게 실행해야 합니다. 테스트 당시 사용 가능한 최상위 모델은 Llama 3.1 70B였기 때문에, 이 모델을 기준으로 다양한 LLM 서비스 제공업체가 어떤 성능을 내는지 확인했습니다.
Explore the evaluation



요약

이 글에서는 비교에 사용한 과제와 함께 Cerebras가 Groq, Together, Fireworks, Octo와 어떻게 맞붙었는지 살펴보겠습니다. 먼저 속도 테스트를 진행했고(아래 W&B Weave 스크린샷 참조), 이어서 2023 NeurIPS Hacker Cup이라는 고급 코드 기반 문제 해결 대회로 이들을 비교했습니다. 자세한 내용은 다음 섹션에서 다루겠습니다.
우리는 Cerebras가 일관되게 초당 370토큰, 가장 가까운 추격자인 Groq는 226이었습니다. Cerebras의 지연 시간도 인상적이었는데, 우리의 작업을 대략적으로 완료한 시간은 30초, 우리가 테스트한 다른 어떤 솔루션보다도 두 배 이상 빠른 속도였습니다. 한편 일부 제공업체는 다른 곳보다 더 신뢰성이 높았고, 몇몇 API는 레이트 리밋 문제를 겪거나 테스트 시점에 서비스가 중단되기도 했습니다.
Cerebras는 다른 인기 LLM 제공업체들과 비교해 평균적으로 초당 약 370 토큰 속도로 Llama 70B를 서빙하고 있습니다.
테스트는 간단한 추론 스크립트를 사용해 수행했으며 10회 시행 평균으로 산출했습니다. 측정 시간은 사용자 측 기준입니다. 벤치마킹 코드는 확인할 수 있습니다. 여기
💡

목차



속도를 활용해 복잡한 문제를 해결하기: NeurIPS Hacker Cup AI

The 2024 NeurIPS Hacker Cup AI 을 위한 훌륭한 시험대입니다 LLM 비교문제는 복잡하며 작동하는 해답을 내기까지 반복이 필요할 수 있습니다. 또한 이상적으로는 동시에 여러 번 호출하게 되므로, 제공자의 안정성과 한계를 함께 검증하게 됩니다.
각 문제를 개별적으로 풀 수 있고 각 라운드마다 제한 시간이 6분이므로, 가능한 한 병렬로 시도하는 것이 좋습니다. 이는 LLM 서비스 제공자의 역량을 검증하는 또 다른 테스트가 됩니다.
2024 NeurIPS Hacker Cup AI가 몇 주 후에 시작되며, 저희도 이를 준비해 왔습니다. 이 대회는 가장 복잡한 코딩 문제들로 구성되어 있으며, 올해는 AI 모델이 실력을 입증할 수 있는 탁월한 트랙이 마련되어 있습니다.
대회용 자동화 솔루션을 구축하는 데 유용한 기법을 주제로, 해당 분야 전문가들과 함께 연속 강연을 진행했습니다: 동영상을 보려면 여기를 클릭하세요.
💡
이번 비교는 2023 NeurIPS Hacker Cup을 기준으로 진행합니다. 해당 대회나 우리가 구현한 DUP(Deeply Understand the Problems) 전략에 대해 더 알고 싶다면, 아래의 섹션을 펼쳐 확인하세요. 또한 그 대회에서 사용된 샘플 과제도 확인할 수 있습니다. 여기.
하지만 여러분이 평가 결과를 보고 싶어 한다는 걸 알기에, 지금 바로 보여 드리겠습니다.

NeurIPS Hacker Cup에서의 평가 방법

Hacker Cup 평가 결과

2023년 연습 라운드를 풀어 봅시다. 문제는 다섯 개로 구성되어 있습니다. 그중 하나의 유효한 해답을 few-shot 예제로 사용할 것이므로, 실제로는 네 개만 풉니다. 코드 해답을 생성한 뒤, 다음 두 가지를 검증하겠습니다:
  • 생성된 코드가 오류 없이 실행되어 출력 파일을 생성하면
  • 출력 파일이 일치하면 sample_output, 실제 대회 출력과 대조해 볼 수도 있지만, 그건 너무 어렵습니다.
Llama 3.1 70B 모델은 코드 생성과 전반적인 추론 능력에서 최첨단 모델들과 비교하면 그다지 강력하지 않습니다, 예를 들어 Claude Sonnet 또는 GPT-4o, 또는 DeepSeek-Coder나 Codestral 같은 더욱 특화된 코드 모델과 비교해도 마찬가지이니, 이 결과는 있는 그대로 받아들여 주세요.
W&B Weave의 평가 비교 도구는 이를 수행하기에 매우 적합합니다. 우리 제품에서 이 프로젝트를 다음 방법으로 탐색할 수 있습니다 다음 링크를 통해.

이 비교를 확인하세요 여기
우리는 모델 성능을 비교하지 않습니다. 모든 제공자가 제공한 버전은 Llama 3.1 70B Instruct 그리고 API와의 상호작용도 비슷한 방식으로 제한하세요(분당/시간당/일일 토큰 수와 호출 횟수를 제한합니다). 이러한 에이전트형 혹은 반복형 파이프라인으로 작업할 때는 해당 한도에 도달할 가능성이 높으므로, 제출을 위해서는 6분 원칙적으로, 파이프라인을 철저히 벤치마크하세요.

평가를 두 가지 관점에서 분석해 봅시다: 당면한 실제 과제를 해결하기 그리고 그렇게 하기 신뢰성 있고 빠르게.
평가를 끝까지 수행한 대부분의 모델은 실행 가능한 코드를 생성했고, 4개 문제 중 1개를 해결했습니다:
  • Cerebras: 4개 문제 모두에서 실행 가능한 코드를 생성했으며, 이 중 1개 문제를 해결했습니다. 30초 만에 평가를 완료할 정도로 상당히 빨랐습니다. 참고: 현재 모델의 컨텍스트 길이는 8k입니다.
  • Groq: 4개 출력 중 1개만 생성했고, 실행 가능한 코드는 4개 중 1개였으며, 해결한 문제는 없었습니다. 레이트 리밋 때문에 전체 평가를 완료하지 못했습니다.
  • Fireworks: 4개 문제 모두에서 실행 가능한 코드를 생성했으며, 이 중 1개 문제를 해결했습니다. 전체 평가를 4분 53초 만에 완료했습니다. 레이트 리밋으로 인해 평가를 순차적으로 진행했으며, 각 문제는 약 72초가 소요되었습니다.
  • Together: 4개 문제 모두에서 실행 가능한 코드를 생성했고, 4개 중 1개를 해결했습니다.
  • Octo: 4개 문제 모두에서 실행 가능한 코드를 생성했으며, 이 중 1개 문제를 해결했습니다. 평가당 89초로 Fireworks보다 약간 느렸습니다.
용량이 증가함에 따라, 특히 비즈니스 계정의 경우 향후 몇 달 안에 이러한 레이트 및 동시성 제한의 대부분이 사라질 것으로 예상됩니다.

자세히 알아보기





이 글은 AI로 번역된 기사입니다. 오역이 의심되는 부분이 있으면 댓���로 알려주세요. 원문 보고서는 아래 링크에서 확인할 수 있습니다: 원문 보고서 보기
Angela Yeung
Angela Yeung •  
In the Scorecard section, what does it mean that it's "Really having a hard time producing solutions"?
Reply