튜토리얼: Claude Opus 4.1로 코딩하기

Claude Opus 4.1로 고급 코딩을 시작하고 W&B Weave로 성능을 모니터링하세요. 향상된 AI 기능으로 복잡한 소프트웨어 작업을 완벽하게 수행해 보세요. 이 글은 AI 번역본입니다. 오역 가능성이 있으면 댓글로 알려주세요.
Dave Davies
Created on September 15|Last edited on September 15
Comment
이 실습형 튜토리얼에서는 Anthropic의 Claude Opus 4.1 모델을 활용해 고급 코딩 작업을 수행하는 방법과, Weights & Biases의 W&B Weave로 성능을 모니터링하는 방법을 배웁니다. W&B WeaveClaude Opus 4.1은 복잡한 소프트웨어 개발 과제를 뛰어나게 수행하도록 설계되었으며, W&B와 통합할 때 향상된 관측 가능성을 제공합니다. 이 튜토리얼에서는 Claude Opus 4.1의 초기 설정과 이전 버전에서의 업그레이드, 모델을 활용한 코드 생성 방법, 그리고 W&B Weave로 결과를 추적하고 분석하는 방법을 단계별로 안내합니다.
목차Claude Opus 4 대비 주요 개선점Claude Opus 4.1 성능 벤치마크와 평가1단계: 필요한 라이브러리를 설치하고 임포트하기2단계: Claude Opus 4.1을 위한 프롬프트 작성하기3단계: Claude 4.1를 호출해 코드 생성하기W&B Weave로 관측 가능성 확보결론
﻿
Claude Opus 4 대비 주요 개선점
﻿
Claude Opus 4.1은 업그레이드된 버전으로 Anthropic의 Claude Opus 4 모델, 개발자에게 여러 가지 주목할 만한 개선점을 제공합니다:"
고급 코딩 역량: Claude Opus 4.1은 실제 코딩 작업에서 눈에 띄는 개선을 보여줍니다. 다중 파일로 구성된 코드베이스를 더 잘 처리하며, 한 번의 세션에서 여러 모듈에 걸친 리팩터링이나 코드 업데이트를 수행할 수 있습니다. 이는 향상된 메모리와 컨텍스트 처리 덕분으로, 더 큰 코드베이스 전반에 걸쳐 “핵심 문맥 정보”를 지속적으로 파악해 일관성 있는 편집을 가능하게 합니다.  
더 긴 자율적 추론 능력: 이 모델은 더욱 강한 에이전트형 능력을 보여주며, 이는 곧 모델이 … 할 수 있음을 의미합니다 더 자율적으로 작동하다 그리고 더 오랜 시간 동안 개입 없이 작업을 지속할 수 있습니다. 예를 들어, Claude Opus 4.1은 코드 프로젝트를 몇 시간 동안 실행하면서 단계별 계획을 세우고 필요에 따라 조정할 수 있습니다. (Claude Opus 4는 코드 리팩터링 작업에서 최대 7시간 연속으로 작동하는 것이 입증되었으며, 4.1은 이 한계를 계속 확장하고 있습니다.) 이는 반복적 디버깅이나 장시간의 코드 생성처럼 지속적인 집중이 필요한 복잡한 작업에 특히 적합합니다.
향상된 추론과 사고의 사슬 (Chain-of-Thought): Claude Opus 4.1은 문제를 더 체계적으로 해결하도록 돕는 추론 알고리즘이 업그레이드되었습니다. 예를 들어, 코딩에서 논리적 추론 능력이 향상되어 알고리즘 복잡도를 이해하거나 변수 상태를 추적하는 데 더 능숙하며, 그 결과 더 정확하고 효율적인 코드 출력을 제공합니다. 또한 요청 시 전체 사고의 사슬을 그대로 나열하기보다 요약된 추론을 제공하는 등 설명을 더 명확하게 제시하여 솔루션을 이해하는 데 도움이 됩니다. 이는 모델의 의도를 해석하는 데 드는 시간을 줄이고 개발 사이클을 가속화할 수 있습니다.
강화된 안전성 및 가이드라인: 성능 향상과 더불어, Claude Opus 4.1은 시스템 카드에 상세히 설명된 정교한 안전 장치를 갖추고 있습니다. 이 모델은 보안에 취약한 코딩 제안을 피하도록 설계되었고, 사용자가 제공한 가이드라인이나 코딩 표준을 준수할 수 있습니다. 예를 들어, 특정 제약이나 스타일을 명시해 함수 작성을 요청하면, 해당 지침을 더 정확히 따를 가능성이 높습니다. 이러한 개선은 수동 수정의 필요성을 줄이고, 모델을 더욱 신뢰할 수 있는 코딩 도우미로 만들어 줍니다.  
Claude Opus 4.1의 개선점을 최대한 활용하려면 명확하고 구조화된 프롬프트를 제공하세요. 이 모델은 더 큰 컨텍스트를 처리할 수 있으므로, 프롬프트에 여러 파일이나 상세한 사양을 포함할 수 있습니다. Claude Opus 4.1은 해당 컨텍스트를 바탕으로 프로젝트의 관련 모든 부분에 걸쳐 일관된 변경 사항을 생성합니다. 항상 여러 파일에 걸친 변경 사항의 일관성을 재검토하되, 향상된 컨텍스트 유지 능력 덕분에 누락이 줄어들 것으로 기대할 수 있습니다.
💡
Claude Opus 4.1 성능 벤치마크와 평가Claude Opus 4.1의 진보는 벤치마크 성능에 잘 반영됩니다. 코딩 역량을 평가하는 핵심 지표로는 SWE-bench Verified 코딩 벤치마크(해결 결과의 정합성을 검증하는 소프트웨어 엔지니어링 과제 모음)가 있습니다. 
﻿
Claude Opus 4.1은 이 벤치마크의 “verified” 범주에서 약 74.5%를 달성했으며, 이는 전체 코딩 과제의 약 4분의 3을 정답으로 성공적으로 완료할 수 있음을 의미합니다. 이는 이전 버전인 Claude Opus 4의 약 72.5%에서 눈에 띄게 상승한 수치이며, 크게 앞서는 성능을 보여줍니다. OpenAI의 GPT-4.1 (동일한 벤치마크에서 약 54.6%를 기록). 이러한 수치는 테스트를 통과하는 동작하는 코드를 생성하는 데 있어 Claude Opus 4.1의 강점을 보여 줍니다.
이 수치를 맥락화하기 위해, 코딩 벤치마크에서 Claude Opus 4.1과 경쟁 제품을 비교하면 다음과 같습니다:





















ModelSWE-bench Verified Score 🏆
Claude Opus 4.174.5%  (highest)
Claude Opus 4.0~72.5%
GPT-4.1~54.6%
﻿
벤치마크를 넘어, 정성적 평가에 따르면 Claude Opus 4.1은 복잡한 문제 해결 시나리오에서 뛰어난 성능을 보입니다. 이 모델을 사용한 개발자들은 논리적으로 복잡한 코드를 디버깅하거나 알고리즘을 최적화하는 것과 같은 까다로운 작업을 더 수월하게 처리한다고 보고합니다. 예를 들어, 지속적인 집중이 필요한 장시간 작업에서도 Claude Opus 4.1은 높은 성능을 유지했습니다. (한 테스트에서는 Opus 4가 애플리케이션의 일부를 재작성하는 작업을 자율적으로 거의 7시간 동안 수행하여, 이전 모델의 45분 한계를 크게 넘어섰습니다. 이는 Opus 4.x 시리즈의 개선을 잘 보여 주는 사례입니다.)
향상된 코딩 작업과 성능 모니터링을 위해 W&B Weave와 함께 작동하는 Claude 4.1 AI.
Claude Opus 4.1의 추론 능력 향상은 흔한 오류도 줄여 줍니다. 존재하지 않는 함수를 상상해 내거나 코드에서 문법 오류를 낼 가능성이 낮아졌습니다. 코드 생성을 요청하면, 경계 사례 처리나 주석과 같은 세심한 요소를 함께 포함하는 경우가 많아 결과물이 더 견고합니다. 진행 중에 평가또한 여러 단계의 지시를 정확하게 따르는 강력한 능력을 보여 주었는데, 이는 코딩에서 에이전트형 작업(예: 먼저 코드를 작성하고, 그다음 테스트를 작성한 뒤, 실패한 테스트를 수정하는 순서)에 매우 중요합니다. 전반적으로 이러한 성능 향상은 보다 도전적인 코딩 지원에 Claude 4.1을 신뢰할 수 있음을 의미하며, 첫 시도에서 정답이면서 테스트를 통과하는 해법을 제시할 가능성이 더욱 높아졌습니다.
1단계: 필요한 라이브러리를 설치하고 임포트하기Claude의 API에 접근하려면 Anthropic SDK가, Weights & Biases를 사용하려면 wandb 라이브러리가 필요합니다. 아직 설치하지 않았다면 다음을 설치하세요:
pip install anthropic weave 
2단계: Claude Opus 4.1을 위한 프롬프트 작성하기이제 Claude에게 필요한 작업을 지시하는 프롬프트를 작성하겠습니다. 깔끔한 함수 정의가 필요하므로, 추가 설명 없이 코드만 반환하도록 명시적으로 요청합니다:
prompt = (
    "You are an expert Python programmer. "
    "Please write a Python function named factorial(n) that returns the factorial of n. "
    "Only provide the code for the function, without any additional explanation."
)
3단계: Claude 4.1를 호출해 코드 생성하기이제 Anthropic 클라이언트를 사용해 우리 프롬프트에 대한 Claude의 응답을 받아보겠습니다:
import os
import weave; weave.init("claude-opus-4-1-tutorial")
from anthropic import Anthropic
﻿
﻿
# Step 4: Compose prompt
prompt = (
    "You are an expert Python programmer. "
    "Please write a Python function named factorial(n) that returns the factorial of n. "
    "Only provide the code for the function, without any additional explanation."
)
﻿
# Step 5: Call Claude 4.1 to generate the code
client = Anthropic(api_key=os.environ.get("ANTHROPIC_API_KEY"))
﻿
response = client.messages.create(
    model="claude-opus-4-1-20250805",
    max_tokens=300,
    messages=[{"role": "user", "content": prompt}]
)
﻿
generated_code = response.content
print("Claude Opus 4.1's output:\n", generated_code)
﻿
# Step 6: Extract, clean, save, and execute the generated code
code_text = generated_code[0].text if isinstance(generated_code, list) else generated_code
code_str = code_text.strip().strip("```python").strip("```")
﻿
with open("generated_factorial.py", "w") as f:
    f.write(code_str)
﻿
import generated_factorial
﻿
test_value = 5
expected = 120
result = generated_factorial.factorial(test_value)
print(f"factorial({test_value}) = {result}")
﻿
이 단계에서 참고할 몇 가지 사항:  
혹시 모를 상황에 대비해 코드 문자열에서 마크다운의 ``` 표식을 모두 제거했습니다. 위의 예상 출력에서는 Claude가 이를 포함하지 않았지만, 이 과정을 거치면 그런 경우에도 해법이 견고해집니다.  
정리한 코드를 다음에 작성했습니다 generated_factorial.py. Claude가 완전한 함수 정의를 제공했다면, 이제 해당 파일에는 def factorial(n): ... 바로 사용할 수 있습니다.  
새 모듈을 가져옵니다 generated_factorial이를 통해 파일의 코드를 실행하여 다음을 정의합니다 factorial 해당 모듈의 네임스페이스 안에서 동작하는 함수입니다.  
그다음 호출합니다 generated_factorial.factorial(5) 5!을 계산하도록. 또한 우리는 an expected 값(120)을 사용해 정확성을 검증합니다.  
결과가 기대와 일치하는지 확인할 수 있도록 보기 쉬운 형식으로 출력합니다.
이 코드를 실행하면 모델의 코드가 수행됩니다. 예상 출력:
factorial(5) = 120
입력이 5일 때 출력이 120이라면, 해당 테스트에 대해 모델의 코드는 올바릅니다. 추가 검증을 위해 다른 값들(예: 0, 1, 6)도 시도해 볼 수 있습니다. Claude Opus 4.1의 코드는 기본 사례를 적절히 처리하는 것으로 보이며(도크스트링과 코드에 나타난 대로 0 또는 1에 대해 1을 반환합니다), 이 빠른 테스트는 Claude의 생성 결과가 정상적으로 동작함을 보여 줍니다.
이 단계들을 마치면 Claude Opus 4.1을 사용해 코드를 생성하고 실행하는 데 성공한 것입니다! 또한 전체 상호작용이 W&B Weave에 기록됩니다. 다음으로, W&B Weave의 관측 가능성 기능을 활용해 이번 실행을 분석하는 방법(그리고 복잡한 다단계 코딩 작업에서 어떻게 더 유용해지는지)을 알아보겠습니다.
﻿
도전 과제: 이 워크플로를 조금 더 복잡한 작업으로 확장해 보세요. 예를 들어, Claude Opus 4.1에게 다른 알고리즘을 위한 함수를 작성해 달라고 요청해 보세요(리스트 정렬, 소수 판별 등). 또는 서로 관련된 두 개의 함수(예: 구현 함수와 보조 함수)를 생성하도록 해도 좋습니다. 여러 개의 테스트 케이스를 W&B에 로깅하세요. 그런 다음 W&B 대시보드에서 각 케이스가 통과하는지 확인하세요. 이렇게 하면 프롬프트를 반복 개선하고 결과를 관찰하는 연습이 됩니다. 의도적으로 버그를 주입해 보거나(혹은 모델이 만든 버그를 포착해) W&B 로그를 사용해 문제 지점을 정확히 찾아낸 뒤, 후속 프롬프트로 수정하는 것도 시도해 보세요.
W&B Weave로 관측 가능성 확보이제 Claude Opus 4.1의 코딩 실행을 Weights & Biases에 로깅했으니, W&B Weave를 활용해 모델의 성능과 동작을 살펴볼 수 있습니다. 관측 가능성은 AI 보조 코딩 과정의 내부를 들여다볼 수 있게 해 주는 능력입니다. W&B Weave가 제공하는 기능과, 개발 과정에서 Claude 활용을 디버그하고 개선하는 역량을 어떻게 높여 주는지 살펴보겠습니다:
상호작용 상세 추적: W&B Weave는 우리가 로깅한 각 프롬프트와 응답을 자동으로 기록합니다. W&B 실행 페이지에서 다음을 확인할 수 있습니다. 추적 테이블 입력과 출력을 보여 줍니다. 예를 들어, 사용자 프롬프트(“당신은 숙련된 파이썬 프로그래머입니다...”)와 Claude의 답변(다음과 같은 코드)이 한 행에 표시됩니다. factorial(n)). 워크플로에 여러 단계가 있었다면(예: Claude에게 여러 번 질의하는 에이전트나 프롬프트 체인), 각 단계가 순서대로 표시됩니다. Weave 인터페이스에서는 각 단계를 클릭해 전체 내용을 손쉽게 확인할 수 있습니다. 이는 다단계 디버깅에 매우 유용하며, 어떤 프롬프트가 잘못되었거나 예상치 못한 출력을 유발했는지 정확히 찾아낼 수 있습니다.
메타데이터와 메트릭 로깅하기: 간단한 실행에서는 테스트 입력과 출력을 로깅했습니다. 더 큰 프로젝트에서는 실행 시간, 사용된 토큰 수, 메모리 사용량 등 더 많은 메트릭을 로깅할 수 있습니다. W&B Weave는 이러한 값을 시간 경과나 실행 간 비교로 시각화할 수 있습니다. 예를 들어 Claude Opus 4.1이 응답을 생성하는 데 걸린 시간을 로깅했다면, 더 복잡한 프롬프트가 속도 저하를 유발하는지 확인할 수 있습니다. 각 응답의 토큰 수를 로깅하면(Anthropic의 API가 응답 객체에 사용량 정보를 포함해 반환할 수 있음), 비용 관리를 위해 Claude의 사용량을 모니터링할 수 있습니다. 이러한 모든 정보는 Weave의 대시보드 여기에서 사용자 정의 시각화를 만들 수 있습니다. 마치 AI 성능을 위한 분석 패널을 ���진 것과 같습니다.
모델 버전과 프롬프트 비교하기: Weave는 서로 다른 실행을 쉽게 비교할 수 있게 해줍니다. 예를 들어 다음 주에 동일한 팩토리얼 프롬프트를 다른 모델로 시도해 본다고 가정해 보세요(예를 들면 Claude의 더 작은 모델). 소네트 4 모델이나 GPT-4)로 실행한 결과를 W&B에 로깅하세요. Weave를 사용하면 실행들을 나란히 비교할 수 있습니다. 이를 통해 예를 들어 Claude Opus 4.1이 답안을 개선하는 데 더 적은 반복 횟수가 필요했거나, 다른 모델보다 더 최적의 해법을 제시했는지 같은 차이를 확인할 수 있습니다. 출력을 한곳에서 비교하면 각 모델의 강점을 파악하는 데 도움이 됩니다. 서로 다른 프롬프트 스타일도 비교할 수 있습니다. 예를 들어 최소한의 지시만 담은 프롬프트와, 주석에 big-O 분석을 명시적으로 요구하는 프롬프트를 대비해 결과가 어떻게 달라지는지 W&B 인터페이스 내에서 확인해 보세요.
풍부한 데이터로 디버깅하기: 강력한 옵저버빌리티 기능 중 하나는 감지하는 것입니다 실패 모드Claude가 실수했을 때(예를 들어 여러 파일에 걸친 코드 생성이나 API 호출처럼 더 복잡한 시나리오에서), W&B Weave는 그 문제를 식별하는 데 도움이 됩니다. 우리는 로깅을 해두었기 때문에 expected_output 대 대 model_output팩토리얼 예시에서는 결과가 일치하는지 쉽게 확인할 수 있었습니다. 일치하지 않는 경우라면 “test_passed = False”라는 플래그를 로깅할 수 있습니다. 그러면 Weave에서 테스트가 실패한 실행만 필터링하거나 강조 표시할 수 있습니다. 자동화된 스크립트로 수십 개의 함수를 생성하고 각각의 테스트 결과를 로깅한다고 가정해 보세요. 프롬프트와 제공된 코드의 전체 문맥을 유지한 상태로 실패한 항목만 빠르게 걸러 확인하고, 무엇이 잘못됐는지 살펴볼 수 있습니다. 이는 콘솔 로그를 수동으로 뒤지는 것보다 훨씬 효율적입니다.
팀 협업 및 보고서: W&B 실행이 클라우드에 저장되므로, 동료들과 Weave 대시보드 링크를 공유할 수 있습니다. 그들은 프롬프트와 출력을 열람하고 댓글을 남기거나, 심지어 보고서를 작성하세요 (요약 문서처럼) 실행 기록의 일부를 직접 포함하여. 이는 AI가 생성한 코드의 코드 리뷰에 매우 유용합니다. 예를 들어, 팀원이 해당 실행을 열어 다음을 확인할 수 있습니다 generated_code 우리는 로깅해 두었고, 이를 코드 스니펫처럼 검토할 수 있습니다. 개선점이나 문제를 논의한 뒤 그에 맞춰 프롬프트를 다듬으면 됩니다. W&B Weave는 본질적으로 여러분의 코드베이스에 대한 AI의 기여를 함께 분석할 수 있는 공유 공간을 제공합니다.
이번 실행에서는 W&B 인터페이스를 열어 우리가 로깅한 내용을 확인할 수 있습니다. 프롬프트 텍스트와 Claude Opus 4.1이 생성한 전체 코드가 깔끔하게 보존되어 표시됩니다. 테스트 입력값(5)과 결과(120)가 로깅된 값으로 보일 수도 있습니다. 여러 번 실행했다면(예를 들어 위 스크립트를 여러 차례 실행하거나 변형을 주어 실행한 경우), W&B에서 표나 차트로 비교할 수 있습니다. 예를 들어, 동일한 프롬프트에 대해 시도마다 모델이 다른 코드를 출력했는지 확인할 수 있습니다(temperature=0이면 결정적이지만, 0이 아닌 temperature에서는 코드가 달라질 수 있습니다).
이를 시각화하려면 아래에 연결된 준비된 Weave 대시보드를 확인하세요. AI 코딩 세션에서 수집된 상세 지표와 로깅 데이터를 보여주는 예시입니다. 여러분의 실행 기록이 어떻게 보일지 참고용으로 활용할 수 있습니다. 프롬프트/응답 테이블을 탐색하며 정보가 어떻게 구성되어 있는지 확인해 보세요.
W&B Weave는 더 풍부한 데이터 타입을 위한 맞춤형 패널을 제공합니다. 파일과 같은 아티팩트(예: the generated_factorial.py 파일 자체)나 플롯을 Weave 대시보드에 임베드할 수 있습니다. 예를 들어, 전체 파일을 아티팩트로 로깅하거나, 어떤 함수에 대해 여러 테스트 케이스를 평가했다면 혼동 행렬을 로깅할 수 있습니다. Weave는 매우 유연하여, 서식화된 코드, 코드 버전 간의 diff, 로깅한 임의의 지표에 대한 인터랙티브 차트 등을 표시하는 패널을 만들 수 있습니다. 이를 통해 관측 대시보드를 AI 에이전트 성능을 위한 미니 관제 센터로 전환할 수 있습니다.
💡
W&B Weave로 관측 가능성을 도입하면 Claude Opus 4.1이 프로젝트에 어떻게 기여하는지에 대한 지속적인 피드백을 얻을 수 있습니다. 코드를 뿜어내는 블랙박스 모델로 취급하는 대신, 모니터링하고 최적화할 수 있는 데이터를 생성하는 개발 파이프라인의 필수 구성 요소로 다루게 됩니다. 시간이 지나면서 특정 유형의 프롬프트는 항상 두 번째 검토가 필요하다거나, 일정 복잡도를 넘으면 정확도가 떨어지는 등 추세를 발견하고 선제적으로 대응할 수 있습니다.
✅ 이번에 해낸 것: W&B Weave를 사용해 Claude Opus 4.1 코드 실행에 대한 인사이트를 얻었습니다. 로깅된 데이터(프롬프트, 코드 출력물, 테스트 결과)를 시각화하고 분석하여 문제를 디버그하거나 프롬프트를 개선하는 방법을 배웠습니다. 시작부터 관측 가능성을 통합함으로써, 매번 AI 지원 코딩 세션이 지속적 개선을 위한 유용한 데이터를 생산하는 견고한 워크플로를 구축했습니다. 이제 Claude Opus 4.1로 단순히 코드를 생성하는 데 그치지 않고, W&B로 과정을 모니터링하고 정제함으로써 AI 지원 코딩 시대에 더욱 효과적인 개발자가 되었습니다.
결론앞으로 Claude Opus 4.1 같은 AI 모델의 소프트웨어 개발 통합은 더욱 심화될 것입니다. 더 강력한 차세대 모델(예: Claude 5, GPT-5)이 등장해 훨씬 큰 컨텍스트 윈도우(예를 들어 전체 리포지토리를 한 번에 입력), 더 나은 얼라인먼트(지시사항을 더욱 정확하게 준수), 그리고 향상된 정합성을 제공할 것으로 예상할 수 있습니다. 이에 따라 관측 가능성에 대한 요구도 한층 높아질 것입니다. W&B Weave와 유사한 도구들은 진화하여, 개발자들이 이러한 AI 시스템을 시각화하고 제어하는 새로운 방법을 제공할 가능성이 큽니다. 예를 들어, 여러 시간 동안 코딩하는 에이전트를 실시간으로 모니터링하거나, AI 출력에서 이상 징후를 자동으로 감지하는 기능 등이 그 예입니다.
이 튜토리얼을 완료함으로써, 여러분은 AI 중심 개발 워크플로의 최전선에 서게 되었습니다. 최첨단 모델을 코딩 작업에 활용하는 방법과 그 사용을 모니터링이라는 안전망으로 감싸는 방법을 익혔습니다. 자신의 프로젝트에서 Claude Opus 4.1을 계속 실험해 보세요. 더 큰 프로그램에 도전하고, IDE나 지속적 통합 파이프라인에 통합하며, W&B로 개선 사항을 추적해 보세요. 연습을 거듭하면 훌륭한 코드를 이끌어내는 프롬프트를 설계하는 직관과, 관측 가능성 데이터를 해석해 프롬프트와 모델 사용 방식을 더욱 정교화하는 안목을 갖추게 될 것입니다.
AI와 함께 즐거운 코딩, 그리고 즐거운 모니터링 되세요! Claude Opus 4.1과 W&B Weave의 조합은 여러분의 개발 여정에 든든한 동반자가 되어 줄 것입니다. 여러분이 이 도구들로 무엇을 만들어낼지 기대하고 있겠습니다.
﻿
 ��� 글은 AI로 번역되었습니다. 오역이 의심되면 댓글로 알려주세요. 원문 보고서는 다음 링크에서 확인할 수 있습니다: 원문 보고서 보기﻿
﻿
Model	SWE-bench Verified Score 🏆
Claude Opus 4.1	74.5% (highest)
Claude Opus 4.0	~72.5%
GPT-4.1	~54.6%
Add a comment