Python에서 Llama 4 추론 실행과 평가

Python 스크립트로 Llama 4를 로컬 또는 API를 통해 배포하세요. ChartQA에서 GPT-4o와의 멀티모달 성능을 비교 테스트하고, Weave를 사용해 결과를 디버그하고 비교하는 방법을 보여줍니다. 이 글은 AI 번역본입니다. 오역이 의심되면 댓글로 알려주세요.
Brett Young
Created on September 12|Last edited on September 12
Comment
Llama 4는 Meta의 최신 오픈 웨이트 모델로, 규모와 성능 모두에서 큰 폭의 업그레이드를 이뤘습니다. 최대 1천만 토큰까지의 긴 컨텍스트 윈도우를 도입해, 책·자막·논문·전체 코드베이스 같은 방대한 입력을 처리하면서 앞부분 정보를 잃지 않습니다. 그 결과 더 복잡한 추론, 심층 분석, 그리고 짧은 컨텍스트로는 불가능했던 장시간 상호작용이 가능해집니다. 또한 멀티모달 입력을 지원해, 필요할 때 이미지와 텍스트를 함께 처리할 수 있습니다. Llama 4는 단지 더 빠르거나 더 강력한 모델이 아니라, 타협을 줄이면서 실제 워크로드를 감당하도록 설계된 모델입니다. 
이 글에서는 Llama 4의 차별점, Scout와 Maverick 변형이 다른 최상위 모델들과 어떻게 비교되는지, 그리고 실제 워크로드에서 기대할 수 있는 성능을 살펴봅니다. 또한 Weave를 사용해 ChartQA에서 Llama 4의 멀티모달 추론을 테스트하는 방법도 다룹니다.
바로 Llama 4를 사용해 보고 싶다면, 여기서 곧바로 코딩으로 들어갈 수 있습니다.
Jump to the Llama 4 tutorials﻿
﻿
무엇을 다루게 될지 알고 싶다면, 계속 읽어 주세요.
﻿
목차목차Llama 4의 핵심 발전 사항과 기능모델 변형양자화학습 방법과 데이터 모델 비교기본 멀티모달리티와 긴 컨텍스트 윈도로 성능 강화Llama 4 Maverick의 비용 영향과 성능 벤치마크Llama 4로 추론 실행하기 ChartQA에서 Llama 4 평가하기 Weave 비교 뷰결론
﻿
Llama 4의 핵심 발전 사항과 기능Llama 4는 이전 Llama 버전과 다수의 폐쇄형 모델을 훨씬 뛰어넘는 대규모 구조적·성능적 개선을 도입했습니다. 최대 1천만 토큰의 컨텍스트 윈도우를 지원하고, 텍스트와 이미지를 네이티브로 처리하며, 효율적인 배포와 강력한 실제 성능을 목표로 처음부터 설계되었습니다.
모델 변형현재 Llama 4의 핵심 모델은 세 가지입니다: Scout, Maverick, 그리고 Behemoth(Behemoth는 아직 출시되지 않았습니다).
Scout는 16개의 전문가를 사용하며 활성 파라미터는 170억 개입니다. 효율성을 염두에 두고 설계되었습니다. Int4 양자화를 적용해 단일 H100 GPU에서 구동되며, 해당 규모에서 최상급 성능을 제공합니다. 추론, 코딩, 이미지 벤치마크 전반에서 Mistral 3.1, Gemini 2.0 Flash-Lite, Gemma 3 같은 모델들을 능가합니다.
Maverick는 활성 파라미터 170억 개를 사용하지만, 128명의 전문가와 총 4천억 개의 파라미터를 갖추고 있습니다.. 더 우수한 성능을 보입니다 GPT-4o 그리고 Gemini 2.0 코딩, 다국어, 비전-언어, 추론 과제에서 Flash 수준의 성능을 보입니다. LMArena에서 실험용 챗 변형은 ELO 1417점을 기록했습니다. 활성 파라미터를 훨씬 적게 사용함에도 품질 면에서 DeepSeek v3.1에 필적합니다.
Llama의 MoE 아키텍처 다이어그램 
두 모델 모두 Llama 4 Behemoth에서 증류되었습니다, a 활성 파라미터 2880억 개, 총 파라미터 2조 개 모델. Behemoth는 STEM 중심 벤치마크에서 선도적인 성능을 보이며, MATH-500에서 정확도 95.0, GPQA Diamond에서 73.7, MMLU Pro에서 82.2를 기록했습니다. GPT-4.5, Claude 3.7, Gemini 2.0 Pro를 뛰어넘는 결과입니다.
﻿
양자화Llama 4는 효율적으로 실행되도록 설계되었습니다 양자화. Scout는 Int4 양자화를 지원하며 단일 장치에서 실행할 수 있습니다 GPU 눈에 띄는 품질 저하 없이. Maverick은 단일 호스트와 분산 추론을 모두 지원하며, 지연 시간을 줄이고 처리량을 높이기 위해 Int4와 bfloat16을 포함한 혼합 정밀도의 이점을 제공합니다.
학습 방법과 데이터 Llama 4는 200개 이상 언어와 이미지, 비디오를 포함한 다중 모달리티 전반에서 30조 개가 넘는 토큰으로 학습되었습니다. 이 모델은 혼합 전문가 모델 밀집 레이어와 MoE 레이어를 함께 사용하며, 토큰당 소수의 전문가만 활성화해 연산량을 줄입니다. 사후 학습에서는 경량 SFT, 커리큘럼 기반 온라인 RL, 그리고 적응형 DPO를 적용해 일반 능력을 저해하지 않으면서 추론, 코드 품질, 멀티모달 성능을 향상시켰습니다. 사전 학습 단계에서 최대 48장의 이미지를 처리하도록 학습되었고, 이후 평가에서는 최대 8장으로 테스트되었습니다.
모델 비교Llama 4 Maverick은 추론, 코딩, 비전, 장기 컨텍스트 전반에서 기존의 모든 공개 모델과 경쟁력이 있습니다. Maverick은 GPT-4o와 Gemini 2.0 Flash를 능가하며, …에 근접합니다 DeepSeek v3.1 더 어려운 작업에서도 뛰어난 성능을 보이며, 실행 비용도 더 저렴합니다. 가장 효율적인 고성능 모델 중 하나입니다. 아직 공개되지 않은 Behemoth는 이미 상위를 차지하고 있습니다. Claude 3.7, GPT-4.5, 그리고 STEM 분야에서는 Gemini 2.0 Pro를 능가하며 Scout와 Maverick 모두의 기반이 됩니다. Llama 4는 단지 더 강력한 것에 그치지 않고, 확장성과 비용 효율성을 갖추었으며, 장기 컨텍스트와 멀티모달 작업을 안정적으로 처리하도록 설계되었습니다. 
기본 멀티모달리티와 긴 컨텍스트 윈도로 성능 강화Llama 4는 기본 멀티모달리티와 매우 긴 컨텍스트 윈도우를 통합해 실제 업무 환경에서의 성능을 크게 끌어올립니다. 초기 융합 방식(early fusion)을 사용하여 처리 시작 단계에서 텍스트와 이미지 토큰을 직접 통합하고, 시각·텍스트 요소가 즉시 정렬되는 공유 어텐션 공간을 형성합니다. 덕분에 Llama 4는 도표 해석, 시각적 지시 이해, 스크린샷 분석과 같은 작업에서 특히 높은 효과를 발휘합니다.
또한 Llama 4는 다양한 이미지와 동영상 프레임 스틸로 학습되어 시간적 활동과 관련 이미지를 포함한 폭넓은 시각적 이해 능력을 갖추었습니다. 이러한 학습을 통해 텍스트 프롬프트와 함께 여러 이미지를 입력받아 자연스럽게 상호작용하며, 포괄적인 시각 추론과 이해 작업을 수행할 수 있습니다. 사전 학습에서는 최대 48장의 이미지를 사용했으며, 사후 학습 단계의 테스트에서는 최대 8장의 이미지로 성공적인 성능을 확인했습니다.
모델의 1,000만 토큰 컨텍스트 윈도우는 이러한 역량을 한층 확장하여, 방대한 멀티모달 입력을 부담 없이 처리할 수 있게 합니다 RAG 또는 외부 메모리 보조 수단 없이도. 이는 통합된 시각 데이터가 포함된 장문 문서를 처리하면서, 응집력 그리고 장시간 상호작용 전반에 걸친 세밀한 상호 참조까지 지원합니다. 이러한 기능이 결합되어 사용성을 높이고, 더 발전된 직관적 AI 애플리케이션을 가능하게 합니다.
Llama 4 Maverick의 비용 영향과 성능 벤치마크Llama 4 Maverick는 동급 최고 수준의 성능 벤치마크와 함께 비용 효율적인 솔루션을 제공합니다. 자원 활용 효율성과 경쟁력 있는 가격 덕분에 고급 AI 역량을 원하는 기업에 매력적인 선택지입니다. Gemini 2.0 Flash, DeepSeek v3.1, GPT-4o와 비교했을 때, Llama 4 Maverick는 성능과 비용의 균형에서 두드러집니다. 아래에 일부 벤치마크를 공유하겠습니다. 
﻿
﻿
Llama 4 Maverick의 경우, 분산 추론 시 백만 토큰당 비용은 약 $0.19로, 단일 호스트에서 실행할 때는 백만 토큰당 $0.30–$0.49로 추정됩니다(입력 대 출력 토큰 비율을 3:1로 가정). 비교하면, Gemini 2.0 Flash는 백만 토큰당 $0.17로 약간 더 저렴하고, DeepSeek v3.1은 백만 토큰당 $0.48이 듭니다. 반면, GPT-4o는 백만 토큰당 $4.38로 상당히 비싸며(예: 입력 75만 토큰, 출력 25만 토큰), 큰 비용 차이를 보입니다.
Maverick가 총 400B 파라미터로 높은 성능을 보이는 반면, Llama 4 Scout는 활성 파라미터 수가 유사한 170억이지만 총 파라미터는 1,090억으로 크게 적습니다. 이처럼 규모가 축소되면 메모리 요구량이 줄고 인프라 복잡성이 낮아져 배포가 쉬워지므로, Scout의 가격은 더욱 낮아질 가능성이 큽니다. 그 결과, Scout는 총 파라미터가 더 큰 모델 대비 경쟁력 있는 가격 우위를 제공할 수 있으며, 견고한 성능 역량을 유지하면서도 비용 민감형 애플리케이션에 더욱 매력적인 선택지가 됩니다.
종합적으로 볼 때, Llama 4 Maverick는 고성능 역량, 대규모 컨텍스트 윈도우, 비용 효율성의 균형을 바탕으로 경쟁 모델 대비 우수한 위치를 차지하며, 예산 제약 속에서도 AI 활용 가치를 극대화하려는 기술 선도 기업에게 견고한 선택지를 제공합니다. 여기에 Scout가 포함되면서 가격 유연성이 더욱 확대되어, 다양한 예산 선호와 애플리케이션 요구를 폭넓게 충족합니다.
Llama 4로 추론 실행하기 먼저 OpenRouter API 키가 사용 가능한지 확인하는 간단한 스크립트를 작성하겠습니다. 키가 있으면 OpenRouter를 통해 Meta Llama 4 Scout 모델에 질의하고, 없으면 다음 방법으로 대체하도록 하겠습니다. Hugging Face Transformers 같은 모델의 버전
이 구성은 사용 가능한 환경에 따라 원격 API 추론과 로컬 모델 실행을 유연하게 전환할 수 있게 해줍니다.
import os
import torch
from openai import OpenAI
from transformers import AutoTokenizer, Llama4ForConditionalGeneration, FbgemmFp8Config
import weave; weave.init("llama4")
﻿
OPENROUTER_API_KEY = ""
USE_OPENROUTER = True if OPENROUTER_API_KEY else False
﻿
def infer_with_openrouter(prompt):
    client = OpenAI(
        base_url="https://openrouter.ai/api/v1",
        api_key=OPENROUTER_API_KEY
    )
    messages = [{"role": "user", "content": prompt}]
    response = client.chat.completions.create(
        model="meta-llama/llama-4-scout",
        messages=messages,
        max_tokens=300
    )
    return response.choices[0].message.content
﻿
def infer_with_huggingface(prompt):
    model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
    tokenizer = AutoTokenizer.from_pretrained(model_id)
﻿
    if not torch.cuda.is_available():
        print("WARNING: CUDA not available. This will be slow as hell or might just crash.")
﻿
    model = Llama4ForConditionalGeneration.from_pretrained(
        model_id,
        torch_dtype=torch.bfloat16,
        quantization_config=FbgemmFp8Config(),
        device_map="auto" if torch.cuda.is_available() else None
    )
﻿
    messages = [{"role": "user", "content": prompt}]
    inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
    outputs = model.generate(**inputs, max_new_tokens=300)
    return tokenizer.decode(outputs[0, inputs.shape[-1]:], skip_special_tokens=True)
@weave.op 
def infer(prompt):
    if USE_OPENROUTER:
        print("[ using OpenRouter ]")
        return infer_with_openrouter(prompt)
    else:
        print("[ using HuggingFace ]")
        return infer_with_huggingface(prompt)
﻿
# example
if __name__ == "__main__":
    output = infer("What is the capital of France?")
    print("\n" + output)
﻿
이 구성은 사용 가능한 환경에 따라 원격 API 추론과 로컬 모델 실행을 유연하게 전환할 수 있게 해줍니다. 이 글을 작성하는 시점에는 OpenRouter가 Llama 4에 접근하기 가장 편리한 선택지였습니다. 가까운 시일 내에 여러 클라우드 제공자를 통해 이 모델에 쉽게 접근할 수 있을 것으로 예상합니다. Hugging Face 경로는 하드웨어가 뒷받침된다는 전제하에 전체 제어권을 제공합니다.
단일 H100에서 8비트 양자화를 사용해 로컬 추론을 테스트했지만, 여전히 메모리가 부족했습니다. 따라서 실제로는 모델을 로컬에서 안정적으로 실행하려면 지속적인 크래시 없이 운영할 수 있도록 VRAM 기준으로 동등한 구성의 H100 3–4개가 필요합니다. 각 추론 호출의 입력과 출력을 추적하기 위해 Weave를 사용했으며, 이는 실험 규모를 확장하거나 모델 간 비교를 수행할 때 디버깅과 평가를 훨씬 수월하게 해줍니다.
ChartQA에서 Llama 4 평가하기 저는 멀티모달 작업에서 Llama 4 모델(Scout, Maverick)과 GPT-4o의 성능을 비교하기 위해 ChartQA 데이터셋을 사용한 종합 평가를 수행했습니다. 평가의 목적은 Llama 4의 진전, 특히 긴 컨텍스트 윈도우와 네이티브 멀티모달리티가 차트 기반 질문 응답 과제에서 추론 능력과 답변 생성 품질 향상으로 어떻게 이어지는지를 분석하는 것이었습니다.
이상적인 평가는 모든 가능한 시나리오에서의 성능을 완전히 포착하기 위해 전체 ChartQA 데이터셋으로 모델을 테스트하는 것이겠지만, 본 실험에서는 데이터셋에서 100개 샘플의 하위 집합을 사용했습니다. 이러한 선택은 균형 잡히고 관리 가능한 평가 세트를 제공하여, 전체 데이터셋에 대한 소모적인 전수 테스트 없이도 차트와 시각 데이터를 포함한 멀티모달 추론 과제에서 모델의 일반화 능력과 성능에 대한 통찰을 가능하게 합니다.
평가는 다음과 같이 수행되었습니다 Weave 평가이를 통해 각 모델의 입력, 출력, 성능 지표를 나란히 비교할 수 있었습니다. Weave의 정교한 비교 뷰는 긴 컨텍스트 윈도우와 교차 배치된 멀티모달 추론 등 Llama 4의 아키텍처 개선이 차트, 그래프, 데이터 중심 질문에 맞춰 설계된 과제를 해결하는 데 어떻게 기여하는지를 분석하는 데 핵심적이었습니다. GPT-4o, Scout, Maverick은 동일한 입력으로 테스트되어 평가의 일관성을 보장했습니다.
Llama 4 Scout와 Llama 4 Maverick 모델은 OpenRouter를 통해, GPT-4o는 OpenAI API를 통해 접근했습니다. 차트 기반 데이터에 대한 추론 평가에 특화된 ChartQA 데이터셋은 이들 모델의 멀티모달 역량을 테스트하고 성능을 비교하기 위한 견고한 평가 프레임워크를 제공했습니다. 
평가에 사용한 코드는 다음과 같습니다: 
import base64
import random
import asyncio
import os
from datasets import load_dataset
from io import BytesIO
from PIL import Image
from openai import OpenAI
import weave
from weave import Evaluation, Model
import json 
from litellm import completion
import time
﻿
weave.init("meta_llama_eval")
﻿
OPENAI_API_KEY = "yourapikey"  # Replace with your actual OpenAI API key
meta_client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="your_openrouter_apikey",
)
﻿
﻿
SEED = 3
random.seed(SEED)
﻿
# Function to perform inference using litellm for the scorer
def run_inference_openai(prompt, model_id="gpt-4o-2024-08-06"):
    try:
        response = completion(
            model=model_id,
            temperature=0.0,
            messages=[
                {"role": "user", "content": prompt}
            ]
        )
        
        # Extract content from litellm response
        if response and hasattr(response, 'choices') and len(response.choices) > 0:
            content = response.choices[0].message.content
            return content
        else:
            print("No content found in response")
            return None
            
    except Exception as e:
        print(f"Failed to get response: {e}")
        return None
﻿
# Function to encode PIL image to base64
def encode_pil_image_to_base64(pil_image):
    buffered = BytesIO()
    pil_image.save(buffered, format="PNG")
    return base64.b64encode(buffered.getvalue()).decode("utf-8")
﻿
@weave.op
async def gpt4o_scorer(expected: str, model_output: str) -> dict:
    """Score the model's output by comparing it with the ground truth."""
    query = f"""
    YOU ARE A LLM JUDGE DETERMINING IF THE FOLLOWING MODEL GENERATED ANSWER IS THE SAME AS THE CORRECT ANSWER FOR THE CHART-QA DATASET.
    It's ok if predicted/ground truth answers aren't formatted the same or slightly wored differently 
﻿
    Model's Answer: {str(model_output)}
    Correct Answer: {expected}
    
    Your task:
    1. State the model's predicted answer (answer only).
    2. State the ground truth (answer only).
    3. Determine if the model's final answer is correct (ignore formatting differences, etc.). RESPOND with the predicted and ground truth answer, followed with a JSON object containing the correctness encapsulated within the following delimiters:
       ```json
       {{ "correctness": true/false }}
       ```
    """
    
    # Perform inference using litellm
    response = run_inference_openai(query, "gpt-4o-2024-08-06")
    
    if response is None:
        return {"correctness": False, "reasoning": "Inference failed."}
    
    try:
        # Extract correctness JSON object from the response
        json_start = response.index("```json") + 7
        json_end = response.index("```", json_start)
        correctness = json.loads(response[json_start:json_end].strip()).get("correctness", False)
    except (ValueError, IndexError):
        correctness = False
﻿
    return {"correctness": correctness, "reasoning": response}
﻿
# Load dataset and preprocess
def load_ds():
    dataset = load_dataset("TeeA/ChartQA", split="test", cache_dir="./cache")
    dataset = dataset.shuffle(seed=SEED)
    eval_data = dataset.select(range(len(dataset) - 100, len(dataset)))
﻿
    def sample_image_and_query(example):
        image = example["image"]
        img = Image.open(image) if isinstance(image, str) else image
        return {
            "question": example["qa"][0]["query"],
            "image": img,  # Pass the PIL image directly
            "expected": example["qa"][0]["label"]
        }
﻿
    return [sample_image_and_query(example) for example in eval_data]
﻿
# Scoring function
@weave.op()
def substring_match(expected: str, model_output: dict) -> dict:
    match = expected.lower() in model_output['output'].lower()
    return {"substring_match": match}
﻿
# Model classes - now converting PIL images to base64 inside the predict methods
class MetaLLaMA4Scout(Model):
    @weave.op()
    def predict(self, question: str, image: Image.Image):
        # Convert PIL image to base64 inside the predict method
        image_base64 = f"data:image/png;base64,{encode_pil_image_to_base64(image)}"
        
        time.sleep(2)  # delay in seconds
﻿
        messages = [
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": question},
                    {"type": "image_url", "image_url": {"url": image_base64}}
                ]
            }
        ]
        response = meta_client.chat.completions.create(
            model="meta-llama/llama-4-scout",
            messages=messages,
            max_tokens=300,
            temperature=0.0
        )
        return {"output": response.choices[0].message.content}
﻿
class MetaLLaMA4Maverick(Model):
    @weave.op()
    def predict(self, question: str, image: Image.Image):
        # Convert PIL image to base64 inside the predict method
        image_base64 = f"data:image/png;base64,{encode_pil_image_to_base64(image)}"
        
        time.sleep(2)  # delay in seconds
﻿
        messages = [
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": question},
                    {"type": "image_url", "image_url": {"url": image_base64}}
                ]
            }
        ]
        response = meta_client.chat.completions.create(
            model="meta-llama/llama-4-maverick:free",
            messages=messages,
            max_tokens=300,
            temperature=0.0
        )
        return {"output": response.choices[0].message.content}
﻿
class GPT4oModel(Model):
    @weave.op()
    def predict(self, question: str, image: Image.Image):
        # Convert PIL image to base64 inside the predict method
        image_base64 = f"data:image/png;base64,{encode_pil_image_to_base64(image)}"
        
        time.sleep(2)
        messages = [
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": question},
                    {"type": "image_url", "image_url": {"url": image_base64}}
                ]
            }
        ]
        try:
            response = completion(
                model="openai/gpt-4o-2024-08-06",
                messages=messages,
                temperature=0
            )
            return {"output": response.choices[0].message.content}
        except Exception as e:
            return {"output": f"Error: {e}"}
﻿
# Main eval loop
async def run_evaluations():
    print("Loading dataset...")
    dataset = load_ds()
    print(f"Loaded {len(dataset)} problems")
﻿
    print("Initializing models...")
    models = {
        "llama-4-scout": MetaLLaMA4Scout(),
        "llama-4-maverick": MetaLLaMA4Maverick(),
        "gpt-4o": GPT4oModel()
    }
﻿
    print("Preparing dataset for evaluation...")
    dataset_prepared = dataset
﻿
    print("Running evaluations...")
    scorers = [gpt4o_scorer]
﻿
    for model_name, model in models.items():
        print(f"\n\n=== EVALUATING {model_name.upper()} ===")
        evaluation = Evaluation(
            dataset=dataset_prepared,
            scorers=scorers,
            name=f"{model_name} Evaluation"
        )
        results = await evaluation.evaluate(model)
        print(f"Results for {model_name}: {results}")
﻿
if __name__ == "__main__":
    asyncio.run(run_evaluations())
해당 코드는 ChartQA 샘플 100개 하위 집합에서 Llama 4 Scout, Llama 4 Maverick, GPT-4o 등 세 가지 멀티모달 모델을 평가합니다. 먼저 Hugging Face datasets를 사용해 평가 데이터를 로드하고 전처리하여 차트 이미지, 질문, 정답을 추출합니다. 각 모델 클래스는 이미지의 base64 인코딩과 멀티모달 프롬프트 구성을 수행하는 자체 predict 메서드를 갖도록 정의됩니다. Llama 모델은 OpenRouter의 API를 통해, GPT-4o는 Litellm을 거쳐 OpenAI의 API를 통해 호출하며, 호출마다 2초 지연을 두어 레이트 리밋을 방지합니다. GPT-4o 기반 스코어러가 모델의 답변을 정답과 대조하여, 포맷 차이를 넘어 의미적 정합성을 분석해 정오를 판정합니다. 평가는 Weave로 자동화되어 각 모델에 데이터셋 샘플을 체계적으로 공급하고, 출력을 수집하며, 예측을 채점합니다. 정확도와 지연 시간을 측정한 결과를 통해 차트 기반 멀티모달 추론 과제에서 모델 간 상대적인 강점과 약점을 파악할 수 있습니다.
Weave 평가를 활용해 각 모델의 강점과 약점을 정밀하게 나란히 분석할 수 있었습니다. Weave에 기록된 각 응답은, 특히 멀티모달 과제에서 모델이 추론 작업에 어떻게 접근했는지에 대한 통찰을 제공했습니다. 이를 통해 최종 출력의 정답 여부뿐만 아니라, 최종 답에 도달하기까지 모델이 밟은 추론 경로까지 함께 검토할 수 있었습니다.
이번 평가에서 Llama 4 Maverick은 정확도(정합 점수: 0.85)에서 가장 높은 성능을 기록했으며, 정합 점수 0.77을 받은 GPT-4o와 Llama 4 Scout을 능가했습니다. Maverick의 정확도 향상은 고도화된 멀티모달 추론 능력과 더 긴 컨텍스트 윈도우에서 비롯된 것으로 보이며, 이는 복잡한 차트 기반 질의응답 과제에서 더 나은 성능을 발휘하도록 합니다.
﻿
Weave 비교 뷰Weave의 비교 뷰는 여러 멀티모달 모델 간의 추론 차이를 명확하게 시각화하는 데 특히 유용합니다. 각 모델의 출력을 나란히 표시하여 정답 여부, 논리적 일관성, 차트나 그래프 같은 시각 입력 처리 방식의 차이를 즉시 파악할 수 있습니다. 이 직관적인 인터페이스를 통해 어떤 모델은 실패하고 다른 모델은 성공하는지 그 이유를 신속하게 짚어낼 수 있습니다.
﻿
이러한 통찰은 멀티모달 추론 성능을 효과적으로 분석하고 최적화하는 일을 한층 수월하게 만듭니다. 최종 예측뿐 아니라 그에 이르는 단계와 추론 경로까지 드러내 줌으로써, Weave의 비교 뷰는 각 모델의 멀티모달 추론 역량을 평가하고 개선하는 과정을 단순화합니다.
결론결론적으로, Llama 4는 오픈웨이트 기반 모델의 도약을 이끌었습니다. 단순한 규모나 아키텍처를 넘어, 까다로운 과제 전반에서 실질적인 성능을 입증했습니다. 최대 1,000만 토큰까지 처리해 책 한 권, 대규모 코드베이스, 멀티모달 문서를 일관되게 추론할 수 있고, 이미지와 텍스트의 네이티브 통합을 통한 강력한 멀티모달 역량까지 갖추었습니다. Llama 4는 벤치마크 점수 경쟁에 그치지 않고, 견고하고 현실적인 활용성에 분명한 초점을 맞추고 있음을 보여줍니다.
Scout과 Maverick 변형은 이 아키텍처가 얼마나 유연하게 배포될 수 있는지를 잘 보여줍니다. Scout은 단일 GPU 환경에서도 탁월한 효율과 경쟁력 있는 정확도를 제공하는 반면, Maverick은 추론의 깊이, 언어의 폭, 이미지 이해 측면에서 한계를 끌어올려 특정 작업에서는 GPT-4o 같은 폐쇄형 모델과 맞먹거나 이를 능가합니다. 비용 효율성도 두드러진 강점으로, 두 변형 모두 폐쇄형 대안 대비 추론 비용의 일부만으로 다양한 배포 옵션을 제공합니다.
경험적 평가 결과는 Llama 4의 성능 우위를 더욱 공고히 합니다. ChartQA와 Weave Evaluations를 사용한 통제된 멀티모달 테스트에서, Maverick은 시각적 질의응답 과제의 정답률에서 Scout과 GPT-4o를 모두 앞질렀습니다. 이는 더 정확한 출력뿐 아니라 더 일관된 추론 경로를 보여 주었다는 점에서도 드러납니다. 모델이 어떤 과정을 통해 왜 그 결론에 도달했는지에 대한 이 정도의 세밀한 통찰은, 실제 배포 환경에서 중요한 해석 가능성과 투명성을 잘 반영합니다.
결국 Llama 4는 단순한 고성능 LLM을 넘어, 아키텍처 혁신, 장문 컨텍스트 안정성, 네이티브 멀티모달리티, 접근성을 하나의 통합 프레임워크로 결합해 제공합니다. 연구자, 개발자, 그리고 기업 모두에게 신뢰할 수 있고 지능적인 AI 솔루션을 구축할 수 있는 확장 가능한 오픈 기반을 제공하며, 그 어느 때보다 적은 트레이드오프로 이를 실현합니다.
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
 이 글은 AI로 번역되었습니다. 오역이 의심되는 부분이 있다면 댓글로 알려 주세요. 원문 보고서는 아래 링크에서 확인할 수 있습니다: 원문 보고서 보기﻿
﻿
Add a comment