나는 gpt2-chatbot의 코딩 실력을 직접 시험해 보았다
lmsys에 새로운 모델이 등장했는데, GPT-4와 매우 흡사해 보입니다! 이 글은 AI 번역본입니다. 오역이 의심되는 부분이 있으면 댓글로 알려 주세요.
Created on September 12|Last edited on September 12
Comment
LMSYS 플랫폼에 gpt2-chatbot이라는 새로운 모델이 등장해 고급 기능으로 주목받고 있습니다. OpenAI의 GPT-4에 필적하는 성능을 낸다는 소문과 함께, 이 모델의 개발자와 기반 아키텍처에 대한 궁금증이 커지고 있습니다.
가능성을 파악하기 위해 일련의 테스트를 진행하기로 했습니다. 이 글에서는 제가 사용한 접근 방식, 수행한 테스트, 그리고 gpt2-chatbot과 상호작용하며 얻은 인사이트를 상세히 다룹니다. 흥미로운 이 새로운 모델의 역량을 함께 탐구해 보세요.
모델의 성능을 ChatGPT-4와 비교 벤치마크하여 테스트하겠습니다. 제 GPT-4 결과와 실제 GPT-4 API가 생성한 결과 사이에는 차이가 있을 수 있으니 참고해 주세요.
테스트 1: 하나의 Bash 스크립트로 웹사이트 만들기
이 테스트는 단순히 Bash 스크립트를 작성하는 것만으로 웹사이트를 생성하는 모델의 능력을 검증하도록 설계되었습니다. 아래는 제가 사용한 프롬프트입니다:
prompt = write a sh script that creates and opens a website about vr sports simulation (a company)
GPT-4 (ChatGPT) 결과

gpt2-chatbot 결과

모두가 동의하겠지만 gpt2-chatbot의 웹사이트가 시각적으로 훨씬 더 매력적입니다! 다만 gpt2-chatbot 웹사이트의 버튼들은 작동하지 않았고, 애초에 없어야 할 요소들이었습니다. GPT-4는 이런 버튼을 구현하려고 시도하지 않았습니다. 그럼에도 gpt2-chatbot의 디자인 역량을 높이 평가하여, 이번 라운드는 gpt2-chatbot의 승리로 하겠습니다!
테스트 2: Python 슬리더.io 게임 만들기
이 테스트는 모델이 Slither.io와 유사한 게임을 제작할 수 있는지 평가하도록 설계되었습니다!
prompt = write a python game similar to slither io
GPT-4 (ChatGPT) 결과

gpt2-chatbot 결과

두 게임은 꽤 비슷했습니다. 가장 큰 차이는 GPT-4 게임에서는 사망 후 게임을 종료하거나 다시 시작할 수 있었다는 점입니다. 반면 gpt2-chatbot 버전은 속도가 조금 더 빠르고 난이도도 높은 편이었습니다. 다시 시작할 수 있는 기능 때문에, 이번 라운드는 GPT-4의 승리로 하겠습니다.
테스트 3: Flutter 모바일 앱 만들기
여기서는 모델이 Weights & Biases와 유사한 차트를 표시할 수 있는 Flutter 앱을 구축하는 능력을 시험합니다. 아래는 프롬프트입니다:
prompt = make a flutter app that has charts similar to wandb for various metrics. Make it look good (similar to wandb), and be efficient so you can fit the main.dart all in one script. Do not use any packages
GPT-4 (ChatGPT) 결과

gpt2-chatbot 결과

전반적으로 이들도 매우 비슷했습니다. 더 이상 덧붙일 말이 없어서, 이번 라운드는 무승부로 처리하겠습니다.
테스트 4: Brick Breaker와 유사한 Python 게임 만들기
예전에 가지고 있던 오래된 아이팟에서 이 게임을 정말 즐겨 했습니다. 모델이 브릭 브레이커 게임을 만들 수 있는지 시험해 보고 싶었습니다. 아래는 프롬프트입니다:
prompt = make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game make a python brick breaker (breakout) game
lmsys에서 레이트 리밋에 자주 걸려서 답답한 나머지 프롬프트를 5~10번 복사해 붙여넣고 엔터를 눌렀습니다. 놀랍게도 작동해서, 이번 테스트는 그냥 이 프롬프트로 진행했습니다. 결과에 큰 영향을 주지는 않을 것이라고 생각합니다.
GPT-4 (ChatGPT) 결과

gpt2-chatbot 결과

이번에도 두 결과는 매우 비슷했습니다. 두 모델의 주요 차이는 gpt2-chatbot이 GPT-4보다 속도가 조금 더 ��라서, 더 도전적이고 몰입감 있게 느껴졌다는 점입니다. 이 라운드는 무승부로 판정했습니다.
테스트 5: 기존 Brick Breaker 게임 개선하기
두 챗봇이 기존 게임을 얼마나 잘 개선할 수 있는지 시험해 보고 싶었습니다. 모델들에게 제공한 프롬프트는 다음과 같습니다:
[previous code context]prompt = add some fire to the ball and make a more exciting UI
GPT-4 (ChatGPT) 결과

gpt2-chatbot 결과

보시다시피 두 모델 모두 공에 불꽃 효과를 추가했고, 좌측 상단에 점수도 넣었습니다. 다만 gpt2-chatbot은 점수를 1점 단위로 올리도록 선택한 반면, GPT-4는 100점 단위를 사용했습니다. 또한 gpt2-chatbot 버전의 물리 엔진이 더 현실적으로 느껴졌는데, 두 벽돌 사이를 스치며 맞춘 경우 두 개가 모두 깨졌던 반면, GPT-4 버전에는 이 기능이 없는 것으로 보였습니다.
이 때문에 이번 라운드는 gpt2-chatbot의 승리로 하겠습니다.
테스트 6: 우리 Brick Breaker 게임 코드 압축하기
각 챗봇이 기존 코드를 얼마나 잘 응축해 간결한 형태로 만들 수 있는지 확인해 보고 싶었습니다. 이는 최근 Sam Altman의 트윗에서 영감을 받은 부분도 있습니다. 특히 코드처럼 복잡한 대상을 압축해 내는 능력은 이해도와 역량을 평가하는 훌륭한 시험이라고 저도 동의합니다.

prompt = do your best to try to condense this code as much as humanly possible[previous gpt2-chatbot code]
두 챗봇 모두 줄 수를 상당히 줄여냈습니다! 원본 파일은 약 118줄에 3,559자였습니다.
GPT-4 (ChatGPT) 결과
결과는 62줄로 나왔지만, 공의 불꽃 효과가 사라지고 말았습니다!
gpt2-chatbot 결과
gpt2-chatbot의 결과는 약 75줄로 나왔지만, 불꽃 효과를 유지했습니다. 그래서 이번 라운드는 gpt2-chatbot의 승리라고 생각합니다!
전반적으로
LMSYS 플랫폼의 새로운 gpt2-chatbot과 OpenAI의 GPT-4를 비교 분석한 결과, 단순부터 중간 난이도의 과제에서는 성능이 놀라울 정도로 유사하게 나타났습니다. 이에 따라 gpt2-chatbot이 GPT-4의 응축 또는 증류 버전일 수 있다는 가설을 제기합니다. 이러한 모델은 자원 효율성이 높을 뿐만 아니라, 더 넓은 AI 개발 생태계에서 특정 전략적 목적을 수행하는 데에도 유용할 수 있습니다.
현재로서는 OpenAI의 주요 재무적 유인은 GPT-4의 비용을 낮추고 성능을 더 끌어올려 타사 대비 경쟁 우위를 유지하는 데 있는 것으로 보입니다. 모델명이 gpt2-chatbot인 점을 고려하면, 대규모 데이터와 최신 학습 기법을 적용해 성능을 크게 끌어올린 GPT-2 기반 모델(또는 MoE가 적용된 GPT-2)일 가능성도 충분히 있어 보입니다.
만약 이것이 실제로 GPT-2 모델이라면, ChatGPT 운영뿐만 아니라 차세대 모델 학습을 위한 합성 데이터 생성 작업에서도 OpenAI의 비용을 대폭 절감할 가능성이 큽니다. gpt2-chatbot의 진짜 출처가 무엇인지 지켜보는 일은 매우 흥미로울 것입니다!
Add a comment