Mistral AI, Mistral 7B 공개
Mistral 7B는 매개변수가 많을수록 성능이 반드시 더 좋아진다는 통념에 반기를 들며, 7.3B 매개변수 모델이 여러 벤치마크에서 최대 34B 매개변수 모델들을 능가할 수 있음을 보여줍니다. 이 기사는 AI 번역본입니다. 오역이 의심되는 부분이 있으면 댓글로 알려주세요.
Created on September 12|Last edited on September 12
Comment
Mistral AI가 최신 모델을 공개했습니다Mistral 7B는 73억 개의 매개변수를 탑재하면서도 다양한 벤치마크에서 최상급 성능을 제공합니다. Mistral 7B의 차별점은 효율성과 적응력으로, Llama 2 13B와 Llama 1 34B 같은 훨씬 큰 모델들의 성능에 도전합니다.
주요 특징
고성능Mistral 7B는 상식 추론부터 코드 관련 작업에 이르는 다양한 벤치마크에서 뛰어난 성능을 보이며, Llama 2 13B 같은 훨씬 큰 모델을 능가하고 CodeLlama 7B의 성능에 근접합니다.
그룹드‑쿼리 어텐션 (GQA)이 모델은 추론 속도를 높이기 위해 GQA를 사용하여 더 빠른 응답을 제공합니다.
슬라이딩 윈도우 어텐션(SWA): 연산 ��율을 유지하면서 더 긴 시퀀스를 처리하기 위해 이 모델은 선형 연산 비용을 갖는 SWA를 사용합니다.
성능 지표
Mistral AI는 자체 평가 파이프라인을 사용해 모든 모델을 정면 비교 방식으로 다시 평가했습니다. 지표에는 상식 추론, 세계 지식, 독해, 수학, 코드 작업이 포함되었습니다. Mistral 7B는 매개변수 수가 훨씬 큰 모델들과 비교했을 때에도 기대를 뛰어넘는 성능을 보였습니다.

기술적 세부사항
이 모델은 SWA를 사용해 연산 비용을 선형으로 유지하면서, 계층화된 어텐션 메커니즘을 통해 정보가 처음 제시된 범위보다 더 이전의 토큰까지 전파되도록 합니다. 또한 SWA 구현에 FlashAttention과 xFormers의 개선을 결합해 윈도우 4,000에서 길이 16,000 시퀀스에 대해 속도가 2배 향상됩니다.
이용 가능 여부 및 라이선스
Apache 2.0 라이선스로 공개된 Mistral 7B는 AWS, GCP, Azure를 포함한 다양한 플랫폼에서 자유롭게 사용하고 배포할 수 있습니다. 또한 이 모델은 다음과의 호환성도 제공합니다 허깅 페이스또한 Mistral AI는 모델의 다재다능함을 보여 주기 위해 대화형 애플리케이션용 파인튜닝 버전도 제공합니다.
주류 경향: 더 많은 연산, 더 강한 성능
AI 분야에서는 지난 몇 년간 뚜렷한 흐름이 지배적이었습니다. 모델이 클수록, 그리고 더 많은 연산 자원을 투입할수록 성능이 좋아진다는 믿음입니다. 이 생각은 파라미터 수가 기하급수적으로 늘어난 초대형 모델 경쟁을 크게 부추겼습니다. 대기업과 학계 모두 이 추세에 동참하면서 여러 돌파구가 열렸지만, 동시에 비용과 에너지 소비, 진입 장벽도 급격히 높아졌습니다.
효율성과 우아함
그러나 대안적 접근이 점차 힘을 얻고 있습니다. 발상은 단순하지만 혁신적입니다. 더 작으면서도 연산 효율이 높은 모델로 기존 성능을 유지하거나 심지어 능가할 수 있다면 어떨까요?
Mistral 7B의 공개는 73억 개 파라미터 모델이 벤치마크 테스트에서 130억, 나아가 340억 파라미터 모델과 경쟁할 뿐 아니라 종종 능가할 수도 있음을 보여 주었습니다. 이러한 효율성은 머신러닝과 자연어 처리에서 가능한 것의 기준을 새롭게 정의할 수 있습니다.
Add a comment