에이던 고메즈 - LLM 확장과 도입 가속화
이번 Gradient Dissent 에피소드에는 Cohere의 공동 창업자이자 CEO인 에이든 고메즈가 함께합니다. Cohere는 다양한 NLP 활용 사례를 위해 혁신적인 AI 기반 도구와 솔루션을 개발하고 공개하고 있습니다. 이 글은 AI가 번역한 기사입니다. 오역이 있을 경우 댓글로 알려주세요.
Created on September 15|Last edited on September 15
Comment
에피소드 소개
이번 에피소드에는 Cohere의 공동 창업자이자 CEO인 Aidan Gomez가 함께합니다. Cohere는 다양한 NLP 활용 사례를 위해 혁신적인 AI 기반 도구와 솔루션을 개발하고 공개하고 있습니다.
우리가 논의한 내용:
- ML 맥락에서의 “어텐션”의 의미
- “Attention Is All You Need” 논문에서 에이든의 역할
- 상태공간 모델(SSM)이 무엇인지, 그리고 그것이 트랜스포머의 대안이 될 수 있는 방법
- ML 아키텍처가 연산 자원을 포화시킨다는 의미
- LLM을 확장할 때 직면하는 데이터 제약의 구체적 내용
- LLM 성능 측정의 과제
- LLM 개발 생태계에서 Cohere의 포지셔닝
- 범용 LLM을 더 좁은 도메인 특화 모델로 축소하는 데 대한 인사이트
- 합성 콘텐츠와 AI가 공적 담론을 변화시키는 데 대한 우려
- AI 개발을 위해 건전한 이정표마다 자금을 조달하는 것의 중요성
Aidan과 연결하기
Cohere와 연결하기
자료
듣기
전사본(오터.ai 제공)
에이던 고메즈 0:00
전반적으로 파인튜닝은 성숙한 시스템의 기능에 가깝다고 생각합니다. 할 수 있는 다른 모든 방법을 다 시도해 본 다음에 모델을 미세 조정하고 싶어지는 것이죠. 실제로는 시스템을 배포하고 최적화한 뒤, 결국 “이제 이 시스템에서 더 높은 성능을 끌어내는 유일한 방법은 파인튜닝뿐이다”라는 결론에 도달했을 때 비로소 적용하는 단계입니다.
루카스 비왈드 0:25
여러분은 현실 세계의 머신러닝을 다루는 프로그램 ‘Gradient Descent’를 듣고 계십니다. 진행은 제가 맡았습니다, 루카스 디왈드입니다. 오늘의 게스트는 Cohere의 공동 창업자이자 CEO인 에이던 고메즈로, 트랜스포머를 소개한 기념비적 논문 “Attention Is All You Need”의 저자이기도 합니다. 저는 오래전부터 그와 이야기하기를 고대해 왔고, 메타버스의 몇 개 우주에서 트랜스포머가 지금과 같은 형태로 존재하느냐 같은 황당한 질문에도 기꺼이 답해 줄 만큼 너그러운 분입니다. 정말 재미있고 사려 깊은 인터뷰였고, 여러분도 즐기시길 바랍니다.
제가 가장 먼저 시작하고 싶었던 지점은 이것입니다. 당신은 “Attention Is All You Need” 논문의 공저자 중 한 명이고, 이 논문은 역사상 가장 영향력 있는 논문들 중 하나라고 할 수 있죠. 아마 이 방송을 듣는 대부분은 이미 읽어 보셨을 텐데, 혹시 아직 접해 보지 못한 분들도 따라올 수 있���록 그 핵심 결과를 간단히 설명해 주실 수 있을까요?
에이던 고메즈 1:20
네, 물론이죠. 그렇게 말씀해 주셔서 감사해요. 역사상 가장 영향력 있는 논문 중 하나라고까지는 저도 확신하지 못하지만, 적어도 지금 시점에는 확실히 영향력이 크다고 생각합니다. 저는 구글 브레인에 있을 때 그 논문의 일부를 맡았어요. 학부 시절 인턴으로 있었고, 루카시 카이저의 매니지먼트를 받게 됐습니다. 그와 함께 대규모 신경망을 학습시키는 소프트웨어 플랫폼인 Tensor를 만들었고요. 인턴십 초반에 남, 야콥, 아시시, 니키와 연결되어 그들이 탐구하던 모델을 Tensor, 정확히 말하면 2-Tensor에서 학습해 보자고 설득했죠. 그들이 만들던 모델이 결국 트랜스포머가 됐습니다.
트랜스포머는 LSTM과 RNN—트랜스포머 이전에 배치되어 쓰이던 범주의 모델—보다 훨씬 단순하고 정제되어 있으며 스케일이 잘 되는 아키텍처를 만들자는 목적에서 나온 구조예요. 어떤 분들은 트랜스포머가 매우 복잡하다고 보지만, 그건 LSTM과 그 이전 것들과 비교하지 않았기 때문이라고 생각합니다. 트랜스포머는 사실 주의(attention) 블록을 다층 퍼셉트론, 즉 피드포워드 레이어 위에 얹고, 그런 블록을 여러 층 쌓아 올린 형태에 가깝거든요. 그래서 이전과 비교하면 믿을 수 없을 만큼 단순하고, 확장에 유리한 플랫폼이라고 봅니다.
물론 지금 와서는 스케일의 중요성이 자명하지만, 당시에는 그렇게 분명하지 않았어요. “신경망은 클수록 좋다”는 경험칙은 있었지만, 우리가 그 한계를 어디까지 밀어붙여야 하는지에 대한 감각은 부족했죠. 큰 모델이 과적합될 것이라는 두려움도 컸고, 너무 키우면 정작 중요한 과업에서 성능이 떨어질 수 있다는 우려가 있었습니다. 하지만 우리는 이걸 훨씬 극단적으로 밀어붙여서, 한 자릿수 가속기나 수십 개 수준이 아니라 수천 개의 가속기까지 스케일할 수 있다고 베팅했고, 그 베팅은 성공했습니다.
루카스 비왈드 3:29
그러면 무엇이 당신을 자극해서 기반이 되는 LSTM 없이 주의 메커니즘만 시도해 보게 만든 걸까요? 저는 처음에 순환 신경망에 주의가 도입됐을 때를 기억합니다. 지금 돌아보면 당연히 해볼 만한 시도였던 것 같기도 한데요, 그런 결정을 하게 된 계기가 무엇이었나요? 그래서 저는…
에이던 고메즈 3:45
일단 첫 번째로, 이건 정말 팀의 노력으로 이루어진 일이었고, 나암과 야콥 같은 분들이 확실히 주도했습니다. 질문에 답하자면, 영감이 어디서 왔는지에 대한 제 이해는 이렇습니다. 주의(attention)는 사실 이미 RNN과 LSTM에서 엄청난 성공을 거두었고, 그 세대의 시퀀스 러닝 스택에서 결정적인 구성 요소가 되었죠. 하지만 신경과학 관점에서 본 ‘주의’라는 개념 자체가 매우 매력적이었고, 인간 지능의 근본적 요소로 여겨졌습니다. 제프 힌튼 같은 분들이 그 점을 높이 평가했고, 제가 함께 일하던 야콥 같은 동료들도 그 구조에서 같은 종류의 우아함을 보았어요. 그들은 주의를 계산적 모델링의 구조 혹은 도구로서 근본적인 중요성을 지닌다고 보았고, 모델의 전면에 그 요소를 배치해 끝에서 무엇이 나오는지 보고 싶어 했습니다.
그래서 다른 모든 복잡성을 걷어내고, 갖가지 작은 트릭과 해크를 제거한 뒤, 이 신경망 아키텍처 안에서 지능의 근본 단위로서 주의가 온전히 드러나도록 만들고자 했죠. 그것이 바로 씨앗이었습니다.
루카스 비왈드 4:59
‘어텐션’이라는 단어 자체가 참 많은 상상을 불러일으키죠. 그 말을 쓰면 우리의 뇌 같은 걸 떠올리지 않을 수가 없습니다. 그런데 트랜스포머의 수학은 정말 단순하잖아요. 가끔은, 만약 그 수학이 다른 경로로 나왔더라면 ‘어텐션’이라고 부르지 않았을지도 모른다는 생각도 듭니다. 어떻게 보세요? 어텐션이 정말로 그렇게 근본적인 무언가라는 데에 일리가 있다고 보시나요?
에이던 고메즈 5:29
네, 다른 방식으로 설명하자면 ‘소프트 룩업’이라고 할 수 있죠. 일종의 테이블에서 소프트 룩업을 수행하는 거예요. 여기서 소프트라는 건, 하드 룩업이 테이블에서 하나의 엔트리만 보는 것이라면, 소프트 룩업은 서로 다른 가중치를 두고 여러 엔트리를 함께 참조하는 걸 의미합니다. 제가 알기로는 그 메커니즘이 BATNA나 누군가에 의해 ‘어텐션’으로 브랜딩되었지만, 룩업을 신경망에 통합하려는 병행된 시도들이 존재했어요. 그래서 말씀하신 어텐션에 대한 설명은 아주 적확하다고 봅니다. 직관 차원에서, 계산 개념을 직관적으로 만드는 관점에서 보면, 어텐션은 그냥 ‘룩업’보다 훨씬 낫죠. ‘소프트 룩업으로서의 어텐션’은 우리가 이해하고 감을 잡기 쉬워요. 데이터베이스 용어 같은 걸 썼을 때보다 모델이 내부에서 무엇을 하는지 훨씬 더 빨리 파악할 수 있습니다. 그래서 브랜딩 관점에서도 어텐션이 크게 확산된 이유는, 이 개념이 우리가 이미 갖고 있는 이해 방식과 훨씬 더 밀접하게 대응되기 때문이라고 생각합니다. 개념을 다룰 때 더 좋은 비유들을 제공해 주거든요.
루카스 비왈드 6:33
좋아요. 제가 신경망에서 겪은 또 다른 경험은, 아키텍처의 세부 사항이 의외로 크게 중요하지 않은 것처럼 보인다는 점입니다. 결국 우리는 이전 논문을 복제하려고 하다가 뭔가를 망치고 싶지 않아서, 그런 기준으로 아키텍처를 고르게 되는 경우가 많았어요. 트랜스포머는 얼마나 근본적이라고 보시나요? 질문을 좀 더 명확히 하자면, 역사를 천 번 되돌려 다시 달린다고 했을 때, 그 중 몇 번에서 트랜스포머라는 아키텍처에 정확히 도달했을 거라고 생각하시나요?
에이던 고메즈 7:09
정말 흥미로운 사고 실험이네요. 저는 그게 그렇게까지 근본적이라고는 보지 않습니다. 이제는 점점 덜 파격적인 의견이 되었다고도 생각해요. 핵심은 잘 설계된 방식으로 연산 자원을 포화시키는 것이고, 확장 가능하면서도 충분히 단순한 아키텍처를 고안하는 일입니다. 그래야 사람들이 아키텍처 자체를 가지고 여러 실험을 해 보고 그 안에서 자신만의 아이디어를 탐구할 수 있죠. 동시에 충분히 스케일이 나와서, 깔끔한 방식으로 원하면 어떤 파라미터 규모로든 가져갈 수 있어야 합니다.
루카스 비왈드 7:35
그렇다면 멀티버스 전체를 통틀어 정확히 지금의 트랜스포머 계산을 쓰는 우주가 우리뿐이라고 보시나요?
에이던 고메즈 7:42
트랜스포머를 사용하는 구현은 아마 가산 무한히 많을 거고, 그 비중도 영이 아닌 수준일 겁니다. 네, 측도로 보면 분명 영은 아니라고 생각해요.
루카스 비왈드 7:51
제 생각에는 여기서는 측도의 문제라고 봅니다. 정말 흥미롭네요.
에이던 고메즈 7:54
가능한 조합은 정말 많았을 거라고 봅니다. 트랜스포머가 최적이라는 건 매우 가능성이 낮다고 느껴요. 특히 SSM, 즉 상태공간 모델처럼 더 흥미로운 탐색 경로가 여전히 있다고 생각합니다. 상태공간 모델은 트랜스포머를 대체할 수 있는 매우 유망한 대안으로 떠오르고 있습니다.
루카스 비왈드 8:12
그건 잘 모르겠는데, 어떻게 작동하나요?
에이던 고메즈 8:15
네, 저도 잘 알지는 못하지만, 잠재적으로 다음 단계가 될 수 있다고 생각해요.
발언자 미상 8:18
저에게 더 알아볼 수 있는 링크를 제공하자는 아이디어가 있는데요,
에이던 고메즈 8:21
제 생각에는, ‘S4’ 논문을 읽어보시면 됩니다. 일반적인 원칙은—이 말을 이해하지 못하시면 제가 약간은 농담을 섞고 있다는 점을 알아주세요—SSM의 아이디어가 무엇인지 떠올리게 해줍니다. 핵심은 트랜스포머와 완전히 자동회귀적인 방식, 즉 전체 과거 시퀀스에 어텐션을 하는 방식과, 스펙트럼의 반대편에 있는 LSTM이나 RNN처럼 내부 상태에 의존해 과거를 기억해야 하는 방식 사이의 중간 지점을 찾으려는 것입니다. 그래서 SSM은 이런 중간 지대를 모색합니다. 즉, 조회가 가능한 윈도우가 어느 정도 존재하고, 그 윈도우 밖에 있는 것들에 대해서는 읽고 쓸 수 있는 내부 메모리에 의존하는 접근이죠.
이렇게 하면—두 방식의 중간 지대처럼 들리는데—동시에 극도로 확장 가능해야 합니다. 수천, 수만 개의 가속기 전반으로 병렬화할 수 있어야 하니까요. 그리고 바로 그 중간 지점을 정교하게 노리는 겁니다. 이 접근이 성공하려면 커뮤니티가 이를 위한 툴링을 구축하느냐에 달려 있다고 봅니다. 예를 들어 Hugging Face의 Transformers 라이브러리를 비롯해 많은 분들이 트랜스포머를 위해 엄청난 소프트웨어 툴링을 만들어왔고, 오늘날 1천만 파라미터에서 1조 파라미터까지의 스케일 업을 사실상 사소한 일로 만들어 놓았습니다. 이는 소프트웨어 레벨에서 엄청난 작업의 결과죠. 반면 SSM, 즉 상태공간 모델에 대해서는 그런 것이 아직 존재하지 않습니다. 이들을 스케일링하기 위한 성숙한 소프트웨어 플랫폼이 없어요.
그래서 저는 트랜스포머가 SSM으로 대체되는 세계도 상상할 수 있다고 봅니다. SSM에 대한 소프트웨어 지원이 성숙해지고, 다음 세대 모델에서는 트랜스포머가 가진 컨텍스트 윈도우 제약—즉 토큰 수가 이만큼이고 그 밖에 있는 것은 전혀 모른다는—이 사라질 수 있겠죠. 그 대신 이론적으로는 무한한 컨텍스트 윈도우를 가질 수 있고, 큰 메모리 버퍼에서 지속적으로 읽고 쓰는 방식이 가능해질 겁니다. 물론…
루카스 비왈드 10:27
최근 GPT-4 릴리스에서 컨텍스트가 꽤 커진 것 같더라고요. 컨텍스트 윈도우가 그렇게까지 커진 걸 보고 좀 놀랐습니다. 그게 가능하도록 뭔가 특별한 기법을 쓰고 있다고 보시나요?
에이던 고메즈 10:40
네, ALiBi 같은 깔끔한 기법들이 있어서 자연스럽게 확장할 수 있습니다. 그래서 설령 8k 토큰의 컨텍스트 윈도우로 학습했다 하더라도, 추론 시에 그 한계를 비교적 자연스럽고 손쉽게 넘어설 수 있는 방법들이 있기 때문에 32,000 토큰에 접근 가능한 모델로 서빙할 수 있죠. 이는 트랜스포머 컨텍스트 윈도우의 제약을 완전히 없애지는 못하더라도 우회로를 제공한다는 점에서 중요한 돌파구였습니다. 그럼에도 불구하고 우리는 더 나아가야 한다고 생각하고, 메모리가 그 퍼즐의 중요한 조각이 될 것이라고 봅니다. 다만 이러한 기법 덕분에 문제의 고통은 확실히 훨씬 줄어들었습니다.
루카스 비왈드 11:21
연산을 ‘포화’시킨다는 게 정확히 무엇을 의미하는지 좀 더 설명해 주실 수 있을까요? 제 관점에서—제가 틀렸다면 바로잡아 주세요—트랜스포머가 놀라울 정도로 잘해 온 일은, 연산 자원이 커질수록 스케일이 아주 잘 따라간다는 점입니다. 마치 다른 어떤 것과도 비교하기 어려울 정도로, 연산 규모의 모든 단계에서 성능이 계속해서 향상되는 듯 보이죠. 과거에 사람들이 사용했던 다른 아키텍처들은 그렇지 않았다고 생각합니다. 그렇다면 만약 트랜스포머가 메타버스에서 ‘측도 0’ 같은 특이점이라면, 연산을 포화시키는 다른 방식들은 무엇이라고 보시나요?
에이던 고메즈 11:59
연산 자원을 끝까지 활용해 포화시키는 아키텍처들이야말로, 아주 높은 기준에서 성공에 필요한 핵심 요소라고 생각합니다.
루카스 비왈드 12:07
어떤 아키텍처가 연산 자원을 포화시키려면 무엇이 필요할까요?
에이던 고메즈 12:10
매우 많은 매멀과 불필요한 연산은 거의 없어야 하고, 아키텍처 전체가 거대한 매멀들처럼 보이도록 구성하는 것이 바람직합니다.
루카스 비왈드 12:22
그렇다면 아주 고전적인, 완전히 연결된 신경망도 그 조건을 만족한다고 볼 수 있지 않을까요? 맞죠, 그게 이상적일 텐데, 그렇다면 왜 다층 퍼셉트론은 작동하지 않았을까요? 말씀하신 조건을 충족하는 것처럼 보이는데요.
에이던 고메즈 12:37
저는 트랜스포머가 거의 MLP와 다름없다고 생각합니다. MLP에서 아주 조금만 건너뛰면 닿을 만큼 가깝죠. 그래서 겉모습도 커다란 매트릭스 연산 덩어리들의 집합처럼 보입니다. 여기에 시퀀스 길이 차원으로 한 번 더 접근을 추가해, 멀리 가로지르는 연산을 가능하게 한 것뿐이에요. 결국 가능한 한 거대한 MLP에 최대한 가깝게 자르려는 시도라고 봅니다. 그런 구조가 연산 자원을 가장 잘 포화시키니까요.
피해야 할 것은 수많은 잔잔한 연산들입니다. 예컨대 소프트맥스, 작은 활성화 함수들, 드롭아웃 레이어 같은 자잘한 요소들은 그 큰 매트릭스 연산 덩어리를 잘게 쪼개 버립니다. 게다가 레이어의 수평적 스케���링—즉 하나의 레이어를 수십 개의 가속기에 나눠 배치하는 능력—을 해치는 연산은 절대 도입하면 안 됩니다. 폭 방향 병렬성에서, 트렁크들 사이에 레이어 내부 접근이 필요해지는 순간 속도가 떨어집니다. 병렬 연산 라인들 사이에 통신이 발생하기 시작하기 때문이죠.
따라서 레이어 내 통신을 최소화하고, 병렬화 능력을 최대화해서 그대로 돌린 다음 결과만 모아오는 것이 이상적입니다. 요지는 전적으로 계산 관점의 설계라는 겁니다.
루카스 비왈드 13:48
최적화죠. 그렇죠? 그건 본질적으로 정해진 건 아니잖아요. 한편으로는 본질적일 수도 있겠지만요. 충분히 오랜 시간, 충분한 파라미터로 학습하면 거의 어떤 아키텍처라도 시간이 지날수록 성능이 개선되는 특성을 갖게 된다고 보시나요? 그리고 실제로 우리가 찾아야 하는 건 역전파를 빠르게 분산 수행할 수 있는 무언가라는 말씀이신가요?
에이던 고메즈 14:13
저는 빠르고 효율적이면서도 현재 대규모 언어 모델에서 보고 있는 성능을 낼 수 있는 아키텍처가 상당히 많다고 믿습니다. 물론 글자 그대로 MLP를 그냥 스케일 업하는 식으로는 안 되는 부분이 있습니다. 포인트와이즈로만 처리된다면 결국 단어 자루 모델이 되어 버려서, 단어들 사이의 관계를 학습할 수 없겠죠. 시퀀스 구조가 필요하고, 시퀀스 모델을 학습해야 합니다. 다만 그 요건을 해치거나 심각하게 훼손하지 않는 한, 동등하게 잘 동작하고 동등하게 확장될 수 있는 모델의 영역이 매우 넓다고 봅니다.
그동안은 주로 트랜스포머와 이를 학습하는 프레임워크 같은 소프트웨어 측면, 그리고 CUDA와 가속기에서 지원하는 루틴 같은 하드웨어 측면이 공동으로 최적화되어 왔습니다. 이 둘이 서로 피드백을 주고받아 온 지 꽤 되었죠. 그래서 현재 시점에는 트랜스포머에서 벗어나기 어려운 일종의 로컬 최소점에 갇혀 있을 수도 있습니다. 트랜스포머에 대한 소프트웨어·하드웨어 지원이 워낙 풍부하고 최적화가 강력하기 때문입니다. 그 레일에서 한 발만 벗어나도, 더 범용적인 커널 구현으로 돌아가야 해서 성능이 일부 희생됩니다. 예컨대 20% 느리게 돌게 되는데, 대형 모델이라면 그 차이가 비용으로는 수백만 달러가 될 수도 있습니다. 이런 식으로 하드웨어와 소프트웨어의 피드백 때문에 우리가 하나의 아키텍처에 고착되는 흥미로운 효과가 존재합니다.
루카스 비왈드 15:43
그렇다면 트랜스포머보다 충분히 우수해서 변화를 이끌 만한 아키텍처는 없다고 보시나요?
에이던 고메즈 15:53
시퀀스 길이 제약 같은 요소가 충분히 문제적이라서 실제로 우리를 트랜스포머에서 벗어나게 만들 수도 있다고 봅니다. 네, 그렇게 되더라도 전 놀라지 않을 겁니다. 시퀀스 길이에 대해 이차적으로 스케일링되는 것은 거대한 문제이고, 더 흥미로운 작업들을 많이 시도할수록 비로소 부딪히게 되는 유형의 문제죠. 그런데 특히 멀티모달리티와 함께 우리는 그 영역으로 들어가고 있다고 생각합니다.
루카스 비왈드 16:18
그렇다면 연산 자원이 계속 추가되는 한, 사실상 영원히 모델 성능이 꾸준히 확장될 것이라고 예측하신다고 봐도 될까요? 그 점에 동의하시나요?
에이던 고메즈 16:35
네, 꽤 예측 가능하다고 생각합니다. 데이터셋을 고정하고 아키텍처를 고정한 다음, 스케일링의 레버를 어떻게 가져갈지 정하면, 상당히 예측 가능한 스케일링 패턴, 즉 스케일링 법칙이 나타나게 됩니다.
루카스 비왈드 16:47
그리고 모델 복잡도가 커질수록 데이터 제약을 어떻게 보시나요? 아주 큰 규모의 LLM을 구축하는 데 있어서, 다음으로 부딪히게 될 제약이 데이터가 될까요?
에이던 고메즈 16:59
네, 이미 그렇습니다. 저는 대규모 언어 모델의 기술 스택을 말 그대로 각 층이 이전 층 위에 쌓여 올라가는 스택으로 봅니다. 우리는 GPT-3 같은 베이스 모델로 시작했죠. 웹에서 긁어 모은 대략 1조 토큰 정도로 학습합니다. 엄청나게 노이즈가 많지만, 아주 다양한 주제에 대해 조금씩은 배우고, 웹 전반에 걸친 지식을 대량으로 흡수합니다. 그런데 그 모델 자체로는 썩 쓸모가 없습니다. 프롬프트로 몇 샷 학습처럼 보이는 행동을 보이는 건 아주 멋지지만, 실제로 유용하게 만들기는 정말 어렵습니다.
그래서 필요한 게, Cohere에서는 이를 “Command” 모델이라고 부르고 OpenAI는 “Instruct” 모델이라고 부르는, 인간 피드백으로 학습한 지시 최적화 모델을 추가로 학습시키는 일입니다. 그러면 모델이 훨씬 더 유용한 것으로 바뀌고, 모델에 대한 UI가 달라집니다. 이제 자연어로 지시만 주면 됩니다. 첫 번째 학습 단계(원시 인터넷 데이터)에서 배운 모든 것을 활용하되, 사용자 경험이 훨씬 쾌적해지는 거죠. 이런 모델들은 훨씬 더 쓸모가 큽니다.
그다음 단계가 대화형 모델입니다. 다시 사람들의 대화 데이터를 수집해, 그 Command 모델, 즉 지시 추종 모델을 대화에 맞게 파인튜닝합니다. 이것도 사용자 경험을 크게 끌어올립니다. 사람들은 대화를 정말 좋아하니까요. 지금 우리처럼 하는 것이 가장 자연스러운 지적 모달리티이고, 인간에게 가장 자연스러운 활동이 서로 대화하는 일이니까요. 그래서 이 모달리티로 전환하면, 데이터로 구동되는 대화, 지시/명령 추종으로 전환하면, 이는 인간이 주석한 데이터에 의해 구동됩니다. 우리가 따라가고 있는 이 기술 스택의 수직적 발전은 겉보기엔 전적으로 데이터에 의해 주도됩니다. 모델링 변경은 거의 없습니다.
그렇다면 이 기술 스택에서의 수직적 모멘텀, 즉 베이스 모델, 커맨드 모델, 대화 모델 등등 위로 올라가는 모멘텀은 무엇이냐 하면, 한 층에서 다음 층으로 올라가게 만드는 것은 전부 데이터입니다.
루카스 비왈드 19:10
모델이란 무엇일까요? 지시를 따르도록 만드는 그런 특정한 인간 피드백을 받기 전의 상태라면, 그 모델과 상호작용하는 느낌은 어떤가요?
에이던 고메즈 19:21
조금은 조현병적인 느낌이에요. 아주 여기저기 산만하거든요. 원하는 대로 움직이게 만들기 어렵습니다. 지시를 주려고 하면, 전혀 예측하지 못한 방식으로 망가질 수도 있고, 단어 하나만 바꿨는데 갑자기 내가 말하는 걸 이해하고 실행할 수 있게 되기도 해요. 하지만 무엇을 만들거나 시스템을 구축하는 파트너로서는 매우 일관성이 없습니다. 아는 것도 엄청나고 아이디어도 많고, 방대한 지식 범위에서 어렴풋이 끌어올 수는 있지만, 굉장히 조직적이지 못합니다. 일관된 행동을 뽑아내기가 정말 어렵습니다.
루카스 비왈드 20:03
그럼 인간 피드백을 활용한 파인튜닝 단계에서는 구체적으로 무엇이 일어나는 건가요? 정확히 무엇을 하시는 건가요?
에이던 고메즈 20:08
그러니까 모델이 갖추길 원하는 행동의 예시를 수집하는 겁니다. 베이스 모델 바로 위 단계인 커맨드 단계에서는, 모델에 지시를 주면 모델이 그 지시에 따라 응답하는 식의 예시 쌍을 모읍니다. 이런 과정을 아주 다양한 작업에 대해 여러 번 반복하죠. 그러면 모델은 “사용자가 어떤 데이터를 주고 나에게 무엇을 하라고 말한다. 내 일은 정답으로 응답하는 것이다”라는 일반적 개념을 익히기 시작하고, 실제로 그런 식으로 동작하게 됩니다. 그 단계에 이르면 단어 배치나 단어 선택에 그리 예민하지 않고, 그런 UI가 훨씬 더 쓰기 쉽고 유용해집니다.
루카스 비왈드 20:54
그게 제대로 작동하는지 어떻게 측정했나요? 또는 그 부분이 끝났다고 어떻게 판단하나요?
에이던 고메즈 21:00
네, 그러니까 이런 모델들의 성능을 측정하고 평가하는 일은 여러 가지 이유로 엄청나게 어렵습니다. 그중 하나는 우리가 가지고 있는 많은 학술용 데이터셋이 매우 노이즈가 크고 신호가 약하다는 점입니다. 심지어 부정적 신호일 수도 있어요. 특정 학술 데이터셋에서 성과가 아주 좋다면, 오히려 우려해야 할 신호일 수 있다는 거죠. 또 다른 문제는 이 모델들이 인터넷을 이미 봤다는 것입니다. 그래서 일종의 누출이 있을 수 있어요. 테스트가 데이터에 새어 들어갔을 가능성이 있는 거죠. 그래서 제가 보기엔 유일하게 신뢰할 수 있는 측정 방법은 실제 사용자 앞에 모델을 놓는 것입니다. 사람들이 어떤 모델을 선호하는지 묻는 거예요. 두 모델을 나란히 제공하고, 둘 다와 상호작용하게 하며 동일하게 프롬프트를 넣어 보게 한 뒤, 더 선호하는 쪽을 고르게 합니다. 그게 가장 신뢰할 수 있는 지표입니다.
하지만 제가 방금 설명한 것처럼 베이스 모델에서 커맨드 모델로 올라가는 전환에 대해서는 학술 데이터셋의 성능으로도 측정할 수 있습니다. 베이스 모델을 학술 데이터셋에 던져 보고, 같은 베이스 모델을 기반으로 한 파생격인 커맨드 모델을 동일 데이터셋에 적용하면, 커맨드 모델이 훨씬—누출 같은 이슈를 떠나—압도적으로 더 좋은 성능을 냅니다.
루카스 비왈드 22:05
그럼 이 단계는 노력도 비슷한가요? 비용 면에서 베이스 모델을 학습하는 것과 비교할 만한가요? 실무적으로는 얼마나 걸리고, 비용은 어느 정도 드나요?
에이던 고메즈 22:19
정확히 해내기가 정말 어렵습니다. 물론 전부 데이터 수집이지만, 데이터 규모는 훨씬 작고, 학습 파이프라인도 베이스 모델 단계 같은 초기 단계에 비하면 훨씬 짧습니다. 이렇게 큐레이션된 데이터 체계에서는 수조 토큰 단위의 얘기를 하는 게 전혀 아니죠. 다만 선택하는 개별 토큰이 매우 중요합니다. 노이즈가 없어야 하고, 아주 세밀하게 빗질하듯 검수해 깨끗한지, 노이즈 샘플이 섞여 있지 않은지 확인해야 합니다. 이건 정말 어렵고 비용이 많이 드는 과정입니다. 많은 사람이 많은 데이터를 들여다봐야 하거든요. 비용 비교로 보면, 베이스 모델보다는 확실히 적게 듭니다. 상대 비율을 딱 잘라 말하긴 어렵지만요. 어쨌든 전반적으로 비쌉니다. 사람에게 데이터 생성을 맡기는 건 분명히 비쌉니다. 그건 정말 비용이 큽니다. 그리고 ���이터가 가치 있을수록—더 영리해야 하거나 더 까다롭거나 더 가치 있을수록—그걸 확보하는 비용은 더 올라갑니다. 예를 들어, 모델이 법률 질문에 답하는 실력에서 변호사급이 되길 원한다면, 모아야 하는 데이터는 시간당 1,000달러를 받는 변호사들에게서 나와야 할 겁니다. 그러니 비용이 극단적으로 커질 수 있습니다.
루카스 비왈드 23:38
대형 언어 모델의 성능을 보고 있으면, 자연스럽게 지수가속 곡선을 떠올리게 되고 1년 뒤에는 지금보다 훨씬 더 놀라울 거라고 기대하게 됩니다. 그런데 베이스 모델용 데이터에서 이미 한계에 부딪혔다는 게 당신의 견해라면, 그게 틀린 생각인가요? 아니면 우리는 전혀 새로운 접근이 필요해지는 임계점에 와 있는 건가요?
에이던 고메즈 24:08
저는 우리가 또 한 번의 스케일링 돌파구가 필요한 시점에 다가가고 있다고 봅니다. 정확히 얼마나 가까운지는 모르겠지만, 분명 그 시기가 오고 있고, 우리가 점점 이 모델들의 한계에 부딪히기 시작한 느낌입니다. 다양한 과제에서 평균 인간 수준 또는 그 이상으로 작동하는 범위가 너무 넓어져서, 더 이상 평균 인간을 모델 개선을 위한 데이터 소스로 의존할 수 없게 되었습니다. 당연히 모델이 평균 인간만큼 잘하게 되면, 평균 인간으로부터 데이터를 수집하는 것은 더는 가치가 없습니다. 모델 성능에 기여하지 못하기 때문이죠. 이제는 예외적으로 뛰어난 사람들, 특정 분야의 전문가나 성과 면에서 아웃라이어인 사람들에게서 데이터를 얻어야 합니다. 그리고 결국 특정 과제에서 인류의 최고 성능이라는 병목에 부딪히게 되고, 그러면 인간에게서는 더 이상 모델을 능가하는 데이터를 구할 수 없습니다. 모델이 이미 그 과제에서 최고의 인간만큼 잘하고 있기 때문입니다. 따라서 모델이 스스로 향상하고, 스스로와 상호작용하며, 스스로를 시험해 볼 수 있는 방법을 찾아야 합니다. 알파제로에서 보았던 효과처럼 말이죠. 게임 플레이 설정에서는 그 방법이 분명합니다. 모델의 두 복사본을 서로 대국하게 하면, 한쪽이 조금씩 나아지고 다른 쪽이 그것을 이겨야 하므로 자가 향상이 일어납니다. 하지만 이를 대형 언어 모델에 어떻게 적용할지는 훨씬 더 어렵습니다. 그럼에도 어느 시점에 이르면, 모델이 최상위 인간 성능에 도달하기 시작할 테고, 그때는 그러한 상호작용과 자기 향상을 가능하게 할 방법을 반드시 찾아야 합니다.
루카스 비왈드 25:42
흥미롭네요. 그러니까 이 모델들이 평균적인 사람이 못 하는 일, 아니면 제가 못 하는 일도 많이 할 수 있는 것처럼 보인다는 말씀이죠. 검증하기가 비교적 쉬운 생성 분야로는 코드 생성이 있잖아요. 그렇죠? 저는 코드 생성의 품질, 아니면 어쩌면 그 빠른 발전 속도에 정말 놀랍니다. 그리고 코드 생성에서는 적어도 정답을 맞혔는지 여부를 비교적 쉽게 알 수 있는 것처럼 보입니다. 이게 다른 영역들보다 더 다루기 쉬운 문제처럼 보이지 않나요?
에이던 고메즈 26:14
맞아요. 소프트웨어는 작성하면 실행해 볼 수 있다는 점이 좋습니다. 컴파일이 안 되면 큰 문제고, 실행은 되지만 오답을 내면 성공 여부에 대한 신호가 아주 분명하죠. 다른 영역들은 이런 신호가 훨씬 더 흐립니다. 그런 이유로 코드에는 분명 좋은 특성이 있다고 생각합니다. 평가가 더 쉬울 수도 있지만, 코드 검증 자체가 매우 어려운 문제이기도 합니다. 테스트로 잡히지 않는 미묘한 버그를 모델이 도입할 수 있고, 그걸 놓친 채 배포하면 치명적인 결과를 초래할 수 있습니다. 어떤 의미에선 “모델이 잘했는가, 못했는가”를 더 어렵지만 더 객관적으로 말할 수 있다는 점이 좋긴 합니다. 물론 그 주제 전반에는 많은 뉘앙스가 있죠.
하지만 이건 한계가 있는 환경이기도 하다고 봅니다. 코드와 소프트웨어 개발로 할 수 있는 게 많긴 하지만, 인간의 생산성, 가치 창출 같은 것을 근본적으로 바꾸려면 코드의 경계를 넘어야 합니다. 코딩과 무관한 영역의 업무도 자동화할 수 있어야 하죠. 그러니 코드는 이 모델들을 실험하고 발전시키기 위한 훌륭한 플랫폼이지만, 코드 바깥에서 할 일도 아주 많습니다.
루카스 비왈드 27:26
말씀이 일리가 있네요. Cohere에 대해서도 여쭙고 싶습니다. 맞죠, 네. 당신은 이런 모델을 만들고 제공하는 회사의 CEO이기도 하잖아요. 그렇다면 Cohere가 대형 모델을 개발·판매하는 기업들 사이에서 어떤 포지셔닝을 하고 있다고 설명하시겠어요?
에이던 고메즈 27:44
네, Cohere는 저희가 창업한 지 대략 3년 반 정도 됐습니다. GPT-3 이전, GPT-2 이후였죠. 그때부터 우리의 설립 미션은 가능한 한 많은 사람과 제품에 이 기술을 배치하는 것이었습니다. 공동 창업자인 닉과 저는 이런 종류의 생성 모델에 가장 먼저 접근한 사람들 중 하나였고, 개인적으로는 흥미롭고 설득력 있는 AI의 타임라인이 수십 년은 앞당겨졌다고 느꼈어요. 마치 미래를 미리 엿본 듯했고, 곧 매우 중요한 기술적 변곡점을 넘게 될 거라고 봤습니다. 그런데 정작 사람들에게 이 모델을 접근 가능하게 만드는 준비는 갖춰지지 않았죠. 거대한 조직 내부의 장벽 뒤에 갇혀 있었고, 개발자 손에 쥐어지지도 않았으며, 엔터프라이즈가 도입 장벽을 넘도록 지원도 받지 못하고 있었습니다.
그래서 Cohere라는 제품/회사를 만든 목적은 그 장벽을 허무는 것이었습니다. 더 많은 사람의 손에 쥐어주고, 머신러닝 전문가가 아니어도 쓸 수 있게 API를 쉽고 접근 가능하게 만들고, 엔터프라이즈 도입을 가로막는 문제들을 해결하는 것 말이죠. LLM으로 제품과 기술의 표면적이 변하기까지 이토록 시간이 걸린 이유는 의외로 평범한 이슈들—데이터 프라이버시, 모델에 대한 신뢰, 그리고 소비자가 “나는 대화로 제품과 상호작용하길 원한다”는 수요를 만들기 위한 인식 제고—때문이라고 봅니다.
이제는 시장이 그 변화를 보기 시작했고, 엔터프라이즈도 소비자가 최고의 방식으로 상호작용할 수 있게 해주는 제품을 선택한다는 걸 이해하고 있습니다. 제가 고등학교를 졸업하던 때 모바일 앱이 있는 은행을 선택했던 것과 같아요. 브라우저를 쓰거나 지점에 직접 가고 싶지 않았고, 폰으로 처리하길 원했죠. 앞으로는 지금 막 고등학교를 졸업하는 세대가, 문제를 해결하려고 전화를 걸 필요 없이 그냥 말 걸고 채팅할 수 있는 은행을 고를 겁니다. 이런 소비자 제품 선택은 그들이 사용할 수 있는 인터페이스에 의해 좌우될 거예요. 그리고 Cohere는 그 전환을 가능하게 하고, 조직들이 이를 채택하도록 가속하는 데 기여하고자 합니다. 이는 경쟁상 필수가 될 것이기 때문이죠.
그래서 우리의 비전은 모든 이가 이 기술을 도입하도록 지원하고, 그 도입을 가속하는 것입니다.
루카스 비왈드 30:29
데이터가 귀사의 인프라를 벗어나지 않도록 이 모델을 사용할 수 있는 방법을 제공하나요?
에이던 고메즈 30:36
네, 물론입니다. 저희는 클라우드에 종속되지 않는 클라우드 불가지론적 접근을 취하고 있어 특정 클라우드에 묶여 있지 않습니다. 그리고 데이터 프라이버시는 특히 고객 데이터나 내부 문서, 기밀을 다룰 때 매우 중요합니다. 저희는 고객사의 VPC 내에 배포할 수 있으며, 그 경우 고객 데이터에 대해 저희 측에서는 어떤 가시성도 갖지 않습니다. 그래서 데이터 프라이버시는 저희의 핵심 기능입니다.
루카스 비왈드 31:00
음, 보통은 특정 사용 사례 기반 API를 제공하시는 것처럼 보이는데요. 다만 공개된 GPT-3를 보면서 놀랐던 점 중 하나가, 정말 다양한—어쩌면 새롭게 가능한—사용 사례들이 쏟아진다는 것이었습니다. 이런 점을 어떻게 보고 계신가요? 모델을 더 유연하게 활용할 수 있는 방식이 있을까요? 아니면 이런 종류의 모델을 사람들이 쓰고 싶어 할 법한 거의 모든 방법에 대해 수많은 API를 계속 출시할 계획이신가요?
에이던 고메즈 31:30
그래서 저희는 일반 목적 모델, 즉 Command 계열 모델을 갖추고 있고, 약관 범위 내에서는 어떤 용도로든 사용할 수 있습니다. 매우 범용적으로, 정보 추출, 요약, 단순 대화 등 어떤 작업이든 활용할 수 있죠. 지원되지 않는 기능이 있다면 알려주세요. 다음 주에 새 버전을 출시할 때 개선할 수 있습니다. 그러니 이 기술의 범용성 자체가 큰 가치 제안이라고 봅니다. 하나의 모델로 가서 수많은 서로 다른 작업을 수행하게 할 수 있으니까요.
동시에, 특화된 엔드포인트에도 가치가 있습니다. 저희가 제공하는 summarize 엔드포인트, classify 엔드포인트, search 엔드포인트 같은 ��들이죠. 이런 특화 엔드포인트는 훨씬 더 목표가 뚜렷하고, 저희는 요약, 검색, 분류처럼 가장 인기 있는 사용 사례에만 집중할 것이기 때문에 그 수는 많지 않을 겁니다. 하지만 해당 사용 사례에 매우 맞춤화되어 있을 것입니다. 요약하자면, 매우 범용적인 Command 스타일 모델이 있는 한편, 단일 사용 사례를 겨냥한 구체적 엔드포인트도 함께 제공합니다.
루카스 비왈드 32:37
오픈 소스를 전반적으로 어떻게 바라보시며, 이러한 모델들을 더 개방하는 것에 대해서는 어떻게 생각하시나요?
에이던 고메즈 32:45
네, 저는 오픈 소스를 정말 좋아합니다. 본래 연구자 출신이고, 연구는 본질적으로 개방되어야 한다고 믿습니다. 동시에 저는 지속 가능한 비즈니스, 즉 혁신을 이어가고 경쟁력을 유지하게 해주는 경제적 엔진을 만들고자 합니다. 그런데 IP를 무료로 공개하는 것은 대개 좋지 않은 비즈니스 모델입니다. 스스로를 중개에서 배제하게 되니까요. 그래서 저희는 건강하고 지속 가능한 것을 구축하고자 하는 원칙에서 그러한 공개에 매우 신중했습니다. 평생 이 일을 계속하고 싶고, 그러기 위해서는 저희의 일에 대해 대가를 지불해 주시는 고객이 필요합니다.
다만 더 개방된 모델, 더 성능이 좋은 오픈 소스 모델들에 대해서는 강력히 지지합니다. 항상 API를 쓰고 싶어 하지 않는 개발자 부류가 있습니다. 모델의 파라미터까지 직접 내려가 이것저것 실험하고, 노트북에 모델을 압축해 올리고 싶은 분들이죠. 그런 작업을 하고 기반을 닦아가는 그룹이 아주 많다고 봅니다. 루서 카퍼스 같은 분들을 비롯해 그런 일을 하는 분들이 정말 많습니다. 그분들이 활발히 활동하는 모습을 보게 되어 무척 기쁘고, 그들이 하는 일을 진심으로 높이 평가합니다.
루카스 비왈드 33:57
최근에 스탠퍼드에서 나온 결과를 본 것 같은데요, 파코. 거기서 언어 모델의 API를 꽤 많이 쳐서, 아주 적은 비용으로 그 언어 모델을 어느 정도 재구성할 수 있었다고 하더라고요. 이런 설명이 맞나요? 그런 접근법이 고객들이 여러분의 모델을 재구축할 수도 있다는 점에서 걱정되지는 않나요?
에이던 고메즈 34:19
맞지 않는 것 같습니다. 그 결과가 다소 과장되었거나 일부에서 오해했을 수 있다고 봅니다. 그 모델의 성능 자체는 매우 인상적이지만, 본질적으로 보면 큰 모델을 작은 모델로 증류한 것에 가깝습니다. 흥미로운 지점은 작은 모델에서 어느 정도까지 흥미로운 행동을 복원할 수 있느냐일 수 있지만, 여전히 더 큰 모델이 남고, 그 유용성은 큰 모델에 비해 훨씬 좁습니다. 학습된 소수의 작업에는 매우 잘 맞을 수 있고, 특정 하위 집합 과제에서는 좋은 평가를 받을 수 있지만, 큰 모델이 지니는 일종의 마법, 즉 범용성의 상당 부분을 잃게 됩니다.
다만 15~30개 정도의 과제를 골라서 그 능력에만 초점을 좁히면, 매우 작은 모델도 큰 모델에 필적하는 성능을 낼 수 있습니다. 그 제한된 능력 범위에서는 꽤 좋은 성과를 낼 수 있죠. 이는 고무적인 사실입니다. 처음에는 거대한 범용 모델을 쓰다가도, 사용 사례와 원하는 작업이 분명해지는 순간 대폭 축소하여 훨씬 저렴한 버전의 시스템을 얻을 수 있으니까요. 그런 의미에서 흥미로운 결과라고 생각합니다.
하지만 그 스탠퍼드 결과가 대형 모델과 동일하다고 말하는 것은 공정하지 않다고 봅니다. 둘은 같지 않습니다. 휴대폰에서도 돌아갈 수 있는 작은 모델은 제한된 도메인에서는 인상적이지만, 무언가를 잃었습니다. 증류의 원천이 된 대형 모델과 비교하면 일정 부분의 범용성, 즉 지능을 잃은 것입니다.
루카스 비왈드 36:05
그러니까 대형 언어 모델을 다루며 일해 온 당신의 경험 때문에, 이런 모델들이 진짜로 흥미로워지는 시점에 대한 당신의 예상이 수십 년은 앞당겨진 것처럼 들리네요. 솔직히 제게도 그렇습니다. 그리고 AGI라는 것이 엄밀히 정의된 개념은 아니지만, 그 안에 세계에 매우 중요한 측면들이 있어서, 커튼을 앞으로 쭉 그려보면 우리 생애에 실제로 일어날 수도 있겠다는 생각이 듭니다. 그래서 여쭙고 싶은데요, 그게 당신과 당신의 일에서 최우선으로 두는 화두인가요? 저는…
에이던 고메즈 36:43
그렇다고 생각하지는 않습니다. 저는 HBO나 HCI 같은 주제에 과도한 시간을 쓰지 않습니다. 대신 모델을 어떻게 더 유용하게 만들 수 있을지에 훨씬 많은 시간을 씁니다. 그리고 그것이 AGI로 가는 결정적 경로에 있다고 봅니다. 우리는 사람들을 훨씬 더 효율적이고 생산적으로 만드는 유용한 것들을 많이 만들게 될 겁니다. AGI라는 거대한 목표는 분명 흥미롭고, 매우 눈길을 끄는 주제라 거기에 빨려들어가기 쉽습니다. 그리고 분명 당신의 일이 매우 중대한 의미를 갖는 것처럼 느끼게도 하죠. 하지만 이 기술이 엄청난 영향을 미치기 위해 AGI가 반드시 필요하다고는 보지 않습니다. 또 이 모델들을 배포하는 과정에서는, AGI 담론이 전면에 내세우는 이슈들과는 직접 맞닿지 않는 여러 다른 문제들도 많이 생길 겁니다.
그래서 저는 AGI 담론이 중요하다는 쪽에 있습니다. 우리는 거기에 시간과 사고를 투자해야 합니다. 다만 그 주제가 AI 전반에 관한 대화를 완전히 잠식해버려 산만해진 지점에 이르렀습니다. AGI 커뮤니티가 가장 크고 시급하며 규제와 속도 조절이 필요하다고 주장하는 많은 이슈들—등등등—가 솔직히 말해 과장된 면이 많다고 봅니다.
루카스 비왈드 38:18
그렇다면 지금 가장 시급하고 중요한 이슈는 무엇이라고 보시나요?
에이던 고메즈 38:23
네, 저는 이런 모델들이 공적 담론을 어떻게 바꿀 수 있는지, 그리고 우리가 한 번도 겪어 보지 못한 규모의 합성 미디어가 어떤 결과를 낳고 사회에 어떤 압력을 가할지 같은 문제들이 정말 우려스럽다고 봅니다. 그런 이슈들은 훨씬 단기적이고, 오늘날의 기술이나 길어야 향후 몇 년 안의 기술로 충분히 구현 가능한 일들입니다. 그래서 대중의 관심도 그쪽에 집중되어야 한다고 생각합니다. 그런데 그에 대한 논의는 매우 미미합니다. 종종 “페이퍼클립 최대화기”가 더 많은 페이퍼클립을 만들기 위해 우리 모두를 철로 바꿔 버린다면 어떻게 하느냐 같은 이야기가 나오는데, 분명 과장이고 공정하지 않은 비유지만, 많은 담론이 그런 톤을 띱니다. 그리고 그것들은 아주 먼 미래를 다루며, 현재 기술의 현실과 단기적 현실과는 동떨어져 있습니다.
그래서 저는 대중이 소셜 미디어에 압력을 넣어, 누가 게시하는지 검증을 구현하게 만드는 모습을 정말 보고 싶습니다. 이게 봇인지 아닌지 내가 어떻게 알 수 있냐는 거죠. 저는 정말로 그런 필터가 필요합니다. 내가 사람의 목소리를 듣고, 사람의 의견을 읽고 있다는 것을, 언어 모델이 아니라는 것을 걸러낼 수 있기를 바랍니다. 하지만 그런 일은 일어나지 않는 듯합니다. 그 대화는 매우 틈새적이고 아주 작은 커뮤니티에만 제한된 것으로 보입니다. 더 넓은 대중이 그걸 기능으로 요구하기 시작해야 한다고 생각합니다. 왜냐하면 합성 콘텐츠가 물밀듯이 쏟아져 들어올 것이기 때문입니다. 네.
루카스 비왈드 39:53
재미있는 건, 지금쯤이면 합성 콘텐츠가 물밀듯이 쏟아질 거라고 예상했는데 그렇지 않다는 점입니다. 합성 콘텐츠의 품질은 제게 매우 높게 느껴지고, 만들 수 있는 방법도 많고 비용도 꽤 저렴하잖아요. 그래서 지금 이 정도로만 머물러 있는 게 놀랍습니다. 정말로 그 큰 물결이 오긴 올지 의문이 들기도 하네요.
에이던 고메즈 40:14
네, 저는 이건 인식의 문제라고 봐요. 이미 벌어지고 있을 수도 있다고 생각합니다. 그리고 텍스트가 너무나도 매력적이어서 알아채기 어렵죠. 예를 들어, 우리가 인기 있는 트윗을 클릭해서 몇몇 답글을 읽을 때, 그중 얼마나 많은 게 기계가 생성한 것인지 체감하기가 힘들 겁니다. 왜냐하면 본능적으로 “나는 지금 이 트윗에 대해 사람들이 자신의 생각과 의견을 남긴 걸 보고 있다”고 믿고, 그걸 그냥 신뢰하니까요. 그게 바로 소셜 미디어죠.
이메일도 마찬가지예요. 쏟아지는 이메일을 읽다 보면, 누군가가 우리에게 마케팅하려고 쓴 글이라고 생각되고, 말도 아주 유려하고 자연스럽습니다. 스팸 필터도 이걸 잡아내지 못해요. 너무 설득력이 있고, 마치 딱 나를 겨냥한 것처럼 보이니까요. 게다가 Gmail 서버로 들어오는 모든 이메일을 관찰해 왔고, 이제 이건 단순히 어떤 템플릿을 복사한 게 아니라 나에게 맞춰 쓴 것처럼 보이니 인간이 썼다고 느끼지만, 사실 그렇지 않은 거죠.
그래서 이런 것들이 눈을 피해 지나가기 쉬운 이유가 바로 당신이 말한 그 지점 때문이라고 봅니다. 즉, 이 모델들은 극도로 유창하고, 매우 일관된 문장을 씁니다. 하지만 이 모델들은 사람이 아니죠. 만약 어떤 정치적 트윗에 반응해서 어떤 의견을 밀어붙이고 있다면, 우리는 그걸 원하지 않습니다. 특정 입장의 합성을 통한 증폭은 원치 않죠.
루카스 비왈드 41:39
이 모델들의 역량에서 이미 일어난 변화들을 바탕으로, 앞으로 1~2년 사이에 달라질 것 같다고 생각하는 다른 점들이 있나요? 제 관점에서 한 가지 예를 들면, 제품에 더 많은 챗 기반 인터페이스가 들어가는 모습을 상상할 수 있을 것 같습니다. 실제로 잘 동작할 때는 꽤 괜찮은 인터페이스라고 생각하거든요. 그리고 요즘은 오직 챗 인터페이스만으로도 엄청나게 인상적인 데모들이 나오기 시작하는 것 같습니다. 당신의 관점에서는, 우리가 컴퓨터와 상호작용하는 방식이 크게 바뀔 가능성이 있다고 보시나요?
에이던 고메즈 42:16
맞아요. 그러니까 꼭 기억해야 할 게, 챗GPT가 나온 11월 말은 대부분의 사람들이 그 제품을 써 보면서 인생에서 처음으로 실리콘과 설득력 있는 대화를 나눈 순간이었다는 점이에요. 그 전까지는 그런 경험을 오직 사람과만 했죠. 우리처럼 이 분야에서 모델을 만드는 사람들에게는, 마치 미지근한 물 속의 개구리처럼 매번 놀랍지 않고 늘 한 걸음의 연속처럼 느껴질 수 있어요. 하지만 대부분의 사람들에게 그건 컴퓨터와 처음으로 대화를 나눈 때였고, 인간이 실리콘 조각과 첫 대화를 한 순간이었죠. 그게 얼마나 거대한 도약인지 기억하는 게 중요하다고 생각해요. 그리고 그것이 무엇을 열어 주는지도요.
앞으로는 제품이나 기술과 상호작용하는 기본 방식이 대화가 되는 일이 훨씬 더 흔해질 거라고 봅니다. 하고 싶은 작업을 찾으려고 10단계짜리 메뉴를 타고 들어가는 대신, 에이전트와 대화를 나누면 되고, 그 에이전트는 당신이 요구한 변화를 실제로 일으킬 권한과 능력에 접근할 수 있어요. 복잡한 GUI를 배우고 온보딩하는 것보다 제품과 말로 상호작용하는 게 훨씬 편리하니까요. 저는 이 대화라는 인터페이스가 제품이라는 공간을 여는 열쇠라고 봅니다. 우리가 만든 것들, 우리가 구축한 시스템과 상호작용하는 방식을 완전히 바꿔 놓는 전환이에요. 그러니 여러분이 아직…
루카스 비왈드 43:46
대규모 자금 조달 라운드를 진행한 건가요? 저희도 상당한 금액을 유치하긴 했지만, OpenAI나 Anthropic처럼 그 규모는 아닙니다. 그들이 하는 일이 걱정을 불러일으키나요? 혹시 의식적으로 사상 최대로 연산 집약적인 모델을 만드는 ‘무기 경쟁’에는 뛰어들지 않으려는 건가요? 아니면 그 영역에 진입할 계획이 있는 건가요? 그와 관련해 어떤 생각과 계획을 갖고 계신지 궁금합니다.
에이던 고메즈 44:11
네, 그래서 저희가 자금을 많이 유치하긴 했지만 100억 달러 급은 아닙니다. 또 개인 후원자들에게 가서 돈을 모으지도 않았어요. 억만장자들과 친구를 맺고 Cohere에 수표를 써 달라고 한 것도 아닙니다. 저희의 원칙은 늘 회사를 올바른 방식으로 구축하고, 가치 창출을 입증했을 때, 그리고 기관 투자자들을 설득해 우리가 해당 마일스톤을 달성했음을 보여 줄 수 있을 때, 건전한 마일스톤에서 자금을 조달하는 것이었습니다. 다음 마일스톤을 달성하려면 이만큼의 자금이 필요하다고 말할 수 있을 때 말이죠.
그래서 한 명의 전략적 투자자나 한 명의 후원자, 한 명의 은인에게서 그럴듯하고 큰 라운드를 받는 일은 하지 않습니다. 근본적으로는 저희가 다른 방식으로 회사를 만들어 가고 있기 때문이라고 생각해요. 그렇게 하면 더 큰 독립성을 누릴 수 있다고 봅니다. 하나의 주체나 소수의 주체들에게 전적으로 얽매이면 문제가 생길 수 있거든요. 물론 그 방식이 막대한 자본을 열어 주긴 합니다. 하지만 Cohere는 100억 달러가 없어도 매우 설득력 있고 아주 똑똑한 모델을 만들 수 있다는 증거라고 생각합니다. 기민하고 자본 효율적이며, 매우 의욕적이고 유능한 팀이 있다면 그 정도의 자금은 필요 없다는 걸 보여 주는 사례라고 봅니다.
또한 저희는 그런 지름길을 택하고 싶지 않습니다. 소위 ‘영혼을 판다’는 식으로, 우리 회사의 절반을 테크 공룡에게 넘겨 자회사로 전락하는 일은 원치 않아요. 우리는 독립을 유지하고 싶습니다. 그리고 새로운 회사를, 벨피 같은—그러니까 아마도—정상적인 방식으로 만들고 싶어요. 우리가 정상적이고 건전한 방식으로 자본을 조달하는 평범한 좋은 비즈니스일 뿐인데, 업계에서 오히려 이례적으로 보인다는 게 이상하긴 합니다. 하지만 현실이 그런가 봅니다.
루카스 비왈드 45:48
하지만 그런 식으로 움직이는 사람들이 있는 세상에서, 그러니까, 저희 Weights & Biases는 더 가볍고 느리게 운영하더라도, 시장이 빠르게 커지는 현실에 맞춰 반응하려고 합니다. 물론 저희에게도 자금력이 탄탄한 경쟁자들이 있고요. 그래서 우리가—그러니까 제 느낌으로는 Weights & Biases가 있는 이 영역은 승자독식, 최소한 승자 대부분 독식에 가까운 시장 같거든요. 당신들이 있는 영역은 그렇지 않다고 보시나요? 서로 다른 일을 잘하는 다양한 파운데이션 모델이 공존하는 세상을 상상하시나요? 세상이 왜 그런 방향으로 갈 거라고 보시는지 궁금합니다.
에이던 고메즈 46:25
독점이 아니었으면 정말 좋겠어요. 네, 저는 확실히 그렇게 믿지 않습니다. 경쟁사들 말인데, 저는 그들이 훌륭하다고 생각해요. 매우 뛰어난 팀들이고, 훌륭한 모델을 만들고, 각자 자신들만의 방식과 관점, 그리고 최적화하려는 우선순위를 가지고 있죠. 우리도 우리만의 색깔이 있고, 그게 다르다고 봅니다. 그 다양성이 건강한 거예요. 여러 사람들이 서로 다른 관점을 담아 모델을 만들고 세상에 내놓아야 하고, 그다음에는 시장이 무엇을 채택할지, 누구를 최적의 파트너로 느끼는지, 누구를 가장 신뢰하는지, 누가 자신들의 성공을 가장 잘 도와줄지 선택해야 합니다. Cohere 입장에서 우리는 우리의 실력으로 그 선택을 받고 싶습니다.
그리고 우리 같은 파운데이션 모델 회사들의 최종 귀결이 승자독식일 가능성은 매우 낮다고 봐요. 출시 텀도 서로 몇 달 차이 안 나거든요. 그래서 승자독식이 될 리가 낮고, 설령 그렇다 해도 시장에는 해롭습니다. 이 모델들을 소비해야 하는 사람들에게 나쁜 구조예요. 그래서 저는 다양성이 유지되고, 여러 플레이어가 모델을 만들고 배포하는 환경이 될 거라는 데 매우 낙관적입니다.
파인튜닝에 대해서는, 특정 경우에는 “예”라고 답해야 하는 상황이 분명히 있지만, 전반적으로는 파인튜닝을 성숙한 시스템 기능으로 봅니다. 즉, 성능을 높이기 위해 할 수 있는 다른 모든 수단을 다 써 본 다음에 모델을 파인튜닝하는 게 맞아요. 시스템이 배포되고 최적화된 뒤, 더 짜낼 수 있는 성능이 파인튜닝밖에 없다는 결론에 도달했을 때 비로소 하는 것이죠. 지금은 기술 도입 곡선에서 아직 이르기 때문에, 그에 대한 강한 수요가 나타나기엔 이른 시기라고 생각합니다. 결국엔 수요가 생길 거예요. 그 사이 Cohere의 초점은 프롬프팅, 그라운딩 등 다른 방법을 통해 모델을 최대한 잘 적응하게 만드는 데 있습니다. 가중치를 커스터마이즈하지 않고도 사람들이 당겨 성능을 끌어올릴 수 있는 레버를 더 많이 제공해, 모델을 가능한 한 유연하게 만드는 거죠.
루카스 비왈드 48:29
시간이 거의 다 됐네요. 마무리하기 전에, 의외로 정말 어려웠던 한 가지를 말씀해 주실 수 있을까요? 겉보기에도 어려운 일들이 많지만, 사람들이 잘 모를 법한, 대규모 모델을 만들고 고객이 미션 크리티컬 업무에 실제로 쓰는 API를 구축하는 데서 특히 까다로운 점이 무엇인지 궁금합니다.
에이던 고메즈 48:49
의외로 어렵다고 느낀 점이 뭐가 있을까요? 많은 사람들이 훈련이 얼마나 힘든지, 그러니까 모델 자체를 돌리는 데만도 수천 대의 가속기가 필요하다는 건 잘 아는 것 같거든요. 그걸 안정적으로 유지하는 것만 해도 정말 어렵잖아요.
루카스 비왈드 49:00
돈을 그렇게 많이 쓰면 스트레스 받지 않나요?
에이던 고메즈 49:03
네, GPT 관련 글에서 ‘모델 베이비시터’ 얘기가 나왔는데, 그건 실제로 있는 역할이에요. 모델이 훈련 중에 어차피 한 번은 실패하니까, 그때 즉시 복구할 수 있도록 옆에서 지켜보는 전담 인력이 있습니다. 데이터에 대한 민감성과 그 중요성은 올해 저에게 정말 큰 충격이었어요. 웹이 아니라 사람으로부터 데이터를 수집하는 노력을 본격적으로 확장하면서요. 웹에서 데이터를 모을 때는 모델이 노이즈에 무척 강해서, 약한 휴리스틱만으로도 그럭저럭 넘어가고, 가능한 한 많이 그냥 집어넣어도 되었거든요. 그런데 사람 기반 데이터 수집 단계에 들어가자마자 상황이 달라졌습니다. 예를 하나, 두 개만 들어도 충분한데, 몇 번만 삐끗해도 모델이 원치 않는 방향으로 순식간에 쏠려버려요. 엄청나게 민감합니다. 잘못된 것을 한 번 가르치면, 모델이 그걸 고정해버리고 이후로는 그 잘못된 것을 진실처럼 믿어버리거든요.
루카스 비왈드 50:02
그건 놀랍네요. 정말 놀랍습니다. 네.
에이던 고메즈 50:05
그러니까 그 민감성 말이죠. 정말, 이 모델들이 이렇게까지 섬세할 줄은 전혀 예상하지 못했어요.
루카스 비왈드 50:12
좋아요, 마지막 질문이에요. 시간이 좀 더 있다면, 요즘 관심 있는 다른 주제가 있나요? 머신러닝과 관련해서 더 깊이 탐구해보고 싶지만 시간이 부족했던 주제가 있다면 무엇인가요?
에이던 고메즈 50:25
학습이요? 네, 아마 로보틱스와 임바디먼트에 빠져 있을 것 같아요. 정말 멋지다고 생각하거든요. 게다가 그 분야는 소비자 수요도 굉장히 강하잖아요. 모두가 상상하는, 매우 똑똑한 두뇌와 매우 유능한 몸의 결합이 어떤 모습일지, 그것이 우리 삶에 어떤 변화를 가져올지 다들 알고 있고요. 그런데 현실은 아직 꽤 멀게 느껴집니다. 그래서 그 분야에 변화를 일으키고, 함께 만들어 가는 데 기여하고 싶어요. 네, 로보틱스는 정말 끝내줍니다.
루카스 비왈드 51:01
전적으로 동의해요. 정말 맘에 들어요. 감사합니다. 고마워요. 정말 재미있었습니다.
에이던 고메즈 51:05
정말 감사합니다. 네, 정말 좋았어요.
루카스 비왈드 51:07
이 인터뷰들을 재미있게 보고 계시고 더 알아보고 싶으시다면, 설명에 있는 쇼노트 링크를 클릭해 주세요. 언급된 모든 논문과 추가 자료, 그리고 저희가 정성을 들여 제작한 전체 녹취록 링크를 확인하실 수 있습니다. 꼭 확인해 보세요.
Add a comment