제러미 하워드 — 확산 모델의 단순하지만 심오한 통찰
제러미는 디퓨전을 설명하고, 대규모 모델에 대한 견해를 공유하며, 파이썬과 줄리아의 논쟁을 다시 짚습니다. 또한 코로나19 초기 시기의 과학적 옹호 활동에 대해 이야기합니다. 이 글은 AI 번역본입니다. 오역이 있을 수 있으니 댓글로 알려 주세요.
Created on September 15|Last edited on September 15
Comment
이번 에피소드 소개
제러미 하워드는 비영리 연구 단체 fast.ai의 공동 창립자로, 인기 있는 대규모 공개 온라인 강의 ‘Practical Deep Learning for Coders’와 오픈 소스 딥러닝 라이브러리 ‘fastai’를 만든 주역입니다.
제러미는 2020년 3월에 설립된 글로벌 자원봉사 단체 #Masks4All의 공동 창립자이기도 합니다. 이 단체는 코로나19 확산을 늦추기 위해 일반 대중이 집에서 만든 마스크를 착용하도록 권장하는 활동을 펼쳤습니다. 그의 워싱턴 포스트 기고문 “간단한 DIY 마스크가 확산 곡선을 완만하게 만드는 데 도움될 수 있습니다.”는 2020년 3월 말부터 4월 초 사이에 큰 화제를 모았고, 며칠 뒤 미국 CDC가 공공장소에서 마스크 착용을 권고하도록 지침을 변경하는 데에도 관련이 있습니다.
이번 에피소드에서 제러미는 디퓨전이 어떻게 작동하는지, 그리고 연산 자원이 제한된 개인도 최첨단 대규모 모델을 어떻게 의미 있게 활용할 수 있는지를 설명합니다. 이어서 Gradient Dissent의 첫 번째 재초청 게스트로서, 제러미는 루카스와 나눴던 이전 대화를 돌아보며 머신러닝을 위한 Python 대 Julia 논쟁을 다시 짚습니다.
마지막으로, 제러미는 코로나19 초기 상황에 대한 자신의 관점과, 가장 이르고 주목받는 공공 마스크 착용 옹호자 중 한 사람으로서 겪었던 경험을 들려줍니다.
제러미와 fast.ai와 연결하기:
링크
- ""간단한 손수 제작 마스크만으로도 확산 곡선을 완만하게 만드는 데 도움이 될 수 있습니다. 우리 모두 공공장소에서 마스크를 착용해야 합니다.제러미의 화제가 된 Washington Post 기사
- “코로나19에 대한 마스크의 효과에 관한 근거 검토” (Howard 외, 2021) — 마스크 착용의 효과를 다룬 최초의 동료 심사 논문 중 하나
듣기
타임스탬프
대본
인트로
제러미:
요즘 우리가 기술 역량이 크게 도약하는 한가운데에 있다고, 들어주는 사람마다 계속 말해왔어요. 그래서 지금 그 흐름에 올라타지 않으면, 인간이 할 수 있는 일을 근본적으로 바꾸는 최전선에서 기회를 놓치게 되는 겁니다.
루카스:
현실 세계의 머신러닝을 다루는 프로그램, Gradient Dissent를 듣고 계십니다. 진행은 제가 맡았습니다, 루카스 비왈드입니다.제러미 하워드는 딥러닝을 더 많은 사람들이 쉽게 사용할 수 있도록 하는 데 전념하는 연구 기관 fast.ai의 창립 연구자입니다. fast.ai는 수많은 딥러닝 프로젝트에 활용되는 뛰어난 Python 저장소를 제공하며, 제 주변에서도 많은 사람들이 수강했고 거의 보편적으로 호평받는 훌륭한 강의들도 운영합니다. 그는 Enlitic의 CEO이자 창업자였고, Kaggle의 대표를 지냈으며, 커리어 전반에 걸쳐 다양한 놀라운 성과를 이뤄왔습니다.제러미와 이야기하면 늘 큰 영감을 받는데, 이번 인터뷰도 마찬가지입니다. 즐겁게 들어주시길 바랍니다.
확산과 생성 모델
루카스:
이 팟캐스트에 두 번 출연한 첫 번째 분이세요. 유튜브 지표를 보면 저희가 모신 게스트 중 가장 인기 있는 분이기도 합니다. 다시 모시게 되어 정말 반갑습니다.사실 저는 이런 이야기로 시작하고 싶었어요. 개인적으로 우리 인터뷰에서 가장 기억에 남는 부분은, 매일 순수하게 배움에만 시간을 따로 떼어 놓으신다는 점이었어요. 방향을 정해두지 않고, 새로운 것들을 배우는 데 시간을 쓰신다는 게 정말 놀랍다고 느꼈고, 저도 늘 더 그렇게 하고 싶다고 다짐하게 되더군요.궁금하네요. 최근에는 무엇을 배우고 계신가요?
제러미:
요즘 여가 시간은 전부 생성 모델링, 특히 Stable Diffusion을 비롯한 확산 모델링 분야에 쏟고 있습니다.
루카스:
그래서 새 강좌를 여신 거군요, 아마도. 그게 학습 과정의 일부인가요?
제러미:
맞아요. 달걀과 닭의 문제죠. 한편으로는 “학습 때문에 새 강좌를 연 거고”, 또 한편으로는 “새 강좌 때문에 학습이 이루어지는” 셈이에요.듣고자 하는 사람마다 제가 계속 말해 온 건, 지금 우리가 기술 역량이 크게 급등하는 한가운데에 있다는 느낌이라는 겁니다. 그래서 그 흐름에 동참하지 않으면, 인간이 할 수 있는 일을 근본적으로 바꾸고 있는 최전선에서 뒤처지게 됩니다.이런 기술적 전환이 일어나면 스타트업과 과학적 진보를 위한 온갖 기회가 생기고, 사회를 망칠 기회도 생깁니다. 부디 그런 위험은 어떻게 피할지 잘 찾아내고, 그런 실수를 하지 않길 바랍니다.저는 그 최전선에 서기 위해 할 수 있는 일을 꼭 해보고 싶고, 같은 일을 하려는 분들을 돕고 싶습니다.
루카스:
“급등”이라고 하실 때, 확산 모델을 구체적으로 말씀하시는 건가요, 아니면 더 폭넓게 머신러닝 전반을 말씀하시는 건가요? 그러니까…
제러미:
구체적으로는 확산 모델을 말합니다.
루카스:
흥미롭네요, 정말 흥미롭습니다.
제러미:
맞아요. 단순하지만 깊은 통찰이에요. 모델이 아무것도 없는 상태에서, 혹은 질문에 대한 프롬프트만으로 창의적이고 미학적이며 정확한 결과를 만들어 내기는 매우 어렵다는 점이죠.깊은 통찰은 이렇게 말하는 데 있습니다. “그게 어렵다는 걸 알았다면, 모델에게 그걸 곧바로 하라고 요구하지 말자는 거죠. 대신 아무것도 아닌 것보다는 조금 나은 일을 하도록 모델을 학습시키자는 겁니다. 그리고 그걸 여러 번 반복 실행하면, ‘아무것도 아닌 것보다는 조금 나은 것’을 받아서 조금 더 낫게 만들고, 또 조금 더 낫게 만들고, 그렇게 점점 더 나아지게 하는 모델을 만들자는 거예요.”모델을 여러 번 실행했을 때 매번 이전 출력물을 개선할 수만 있다면, 결국 많이 돌리기만 하면 됩니다. 확산 모델의 핵심 통찰이 바로 이���입니다.루카스, 잘 알고 있겠지만 이건 새로운 통찰이 아닙니다. 이건 “부스팅 모델”이라 불리는 모델 군에 속하는 기본 통찰과 같습니다.부스팅 모델은 이전 모델의 오류를 찾아 줄이고, 그 오류를 수정하도록 모델을 학습시키는 방식입니다. 우리는 부스팅 모델을 많이 사용합니다. 특히 그래디언트 부스팅 머신이 매우 인기 있지만, 어떤 모델이든 이전 모델의 오류를 고치도록 학습시키면 부스팅 모델로 바꿀 수 있습니다.맞아요. 이전까지 생성 모델에서는 그런 방식을 제대로 시도하지 않았죠. 이제는 그걸 잘 해낼 수 있는 전체적인 인프라가 갖춰졌습니다. 흥미로운 점은, 이 분야를 깊이 파고들다 보니 우리가 아직 그것을 최적의 방식으로 수행하는 데에는 전혀 근접하지 못했다는 걸 깨달았다는 겁니다.지금 여러분이 보고 있는 뛰어난 성과는, 1년 뒤에는 극도로 원시적인 접근법으로 여겨질 방식에 기반한 것입니다.
루카스:
그 부분에 대해 좀 더 자세히 말씀해 주실 수 있을까요?
제러미:
그럼요. 넓게 말하면, 어떤 입력에 적용했을 때 그 입력의 더 나은 버전을 반환해 주는 함수를 만들고자 하는 겁니다.예를 들어 “귀여운 테디베어 사진”을 만들고 싶다면, 아직 “정말 훌륭하고 귀여운 테디베어 사진”이 아닌 어떤 입력을 받아서, 처음 상태보다 “귀여운 테디베어 사진”에 조금 더 가깝게 바꿔 주는 함수를 원합니다. 더 나아가, 이 함수가 이전 단계에서 나온 출력을 다시 입력으로 받아 반복 실행함으로써, “귀여운 테디베어 사진”에 더욱 가까운 결과를 만들어 낼 수 있어야 합니다.겉보기보다 조금 더 어려운 이유는 분포 밖 입력 문제 때문입니다. 모델을 한 번 실행한 결과가 테디베어와 조금 더 비슷해 보이는 무언가라면, 그 출력은 다시 모델을 실행할 때 유효한 입력이 되어야 합니다. 모델이 학습을 통해 인식하도록 훈련받지 않은 것이면, 제대로 처리하지 못할 것입니다.현재 널리 쓰이는 접근법이 주로 쓰는 까다로운 방법은, 기본적으로 우리가 2018–2019년 강의에서 가르쳤던 것과 같은 방식입니다. 우리는 그것을 “쓰레기화(crap-ification)”라고 불렀습니다. 즉, 완벽하게 좋은 이미지를 받아서 일부러 엉망으로 만드는 겁니다.강의에서는 거기에 JPEG 노이즈를 추가하고, 해상도를 낮추고, 그 위에 텍스트를 겹쳐 흘려보냈습니다. 오늘날 사용되는 접근법은 사실 훨씬 더 엄격하지만, 어떤 면에서는 덜 유연합니다. 전체에 가우시안 노이즈를 뿌리는 방식이죠. 기본적으로는 모든 픽셀에 임의의 숫자를 더하거나 빼는 것입니다.핵심은 추론을 한 번 수행하는 단계—즉, 이미지를 조금 더 귀여운 테디베어처럼 만드는 단계—가 본질적으로 “최선을 다해 귀여운 테디베어를 만든 다음, 픽셀 위에 다시 한 번 잔뜩 노이즈를 뿌리되, 이전보다 조금 적은 양의 노이즈를 추가하는 것”이라는 점입니다.정의상, 그것은 최소한 분포 안에 상당히 가깝게 들어옵니다. 왜냐하면 다양한 양의 노이즈가 뿌려진 이미지를 받아 그 노이즈를 제거하는 법을 학습하도록 모델을 훈련하기 때문입니다.그래서 노이즈를 조금 덜 추가한 다음 모델을 다시 실행하고, 다시 노이즈를 약간 — 하지만 이전보다 더 적게 — 되돌려 넣고, 또 모델을 실행하고, 다시 노이즈를 약간 — 하지만 더 적게 — 넣는 식으로 계속 반복할 수 있습니다.정말 멋진 방식이죠. 다만… 이 중 많은 부분이 이론적으로 편리하기 때문이라고 할까요. 그 이론적 편의 덕분에 좋은 하이퍼파라미터를 찾을 수 있었고, 많은 세부 요소들을 꽤 잘 작동하게 만들 수 있었기에 아주 잘 통했습니다.하지만 일을 처리하는 방식은 전혀 다르게 가져갈 수도 있습니다. 지난주만 봐도 최첨단 성능을 극적으로 끌어올린 아주 중요한 논문이 두 편이나 나왔죠. 두 논문 모두 이 부스팅 단계, 확산 단계에서 매번 동일한 모델을 돌리는 방식이 아닙니다.노이즈 양에 따라 서로 다른 모델을 쓰기도 하고, 슈퍼 해상도 단계를 포함하는 경우도 있습니다. 기본적으로는 작은 것을 먼저 만든 뒤 크게 키우는 방식이며, 그 단계마다 서로 다른 모델을 사용합니다.기본적으로, 우리가 지금 목격하기 시작한 흐름은 이론적으로 편리한 방식에서 더 유연하고, 조정해야 할 하이퍼파라미터가 더 많아 손이 많이 가는 방식으로 점차 옮겨 가고 있다는 것입니다. 그 대신 사람들은 그 하이퍼파라미터를 더 오래 정교하게 튜닝하고, 더 복잡한 전문가 혼합 모델이나 앙상블을 만들어 내고 있습니다.그런 일은 앞으로 훨씬 더 많이 벌어질 것 같습니다. 그리고 가장 큰 화두는 “그럼 사람을 어떻게 루프에 넣어 가장 효과적으로 함께 쓸 수 있을까?”라는 질문일 것 같아요. 이 모델들의 목적은 무언가를 만들어내는 데 있고, 지금은 우리가 귀여운 테디베어 같은 특정한 종류의 사진을 요청할 수 있게 된 것도 거의 우연에 가까운 결과니까요.모델은 캡션에 따라 조건을 주는 ‘컨디셔닝(conditioning)’으로 학습됩니다. 하지만 그 캡션들은 HTML 웹페이지의 alt 태그에서 가져오기 때문에 틀린 경우가 많고, alt 태그는 대개 이미지에 대한 정확한 설명이 아닙니다.그러니까 전체적인 구조도… 그리고 컨디셔닝을 하는 방식 자체도, 실제로 프롬프트에 반응하는 무언가를 만들려는 시도와는 별로 상관이 없습니다. 프롬프트라는 것 자체가 약간은 우연의 산물이고, 컨디셔닝도 어느 면에서는 우연에 가깝습니다. 우리가 프롬프트를 쓸 수 있게 된 사실 자체가, 어찌 보면 우연이죠.그 결과 지금은 “ArtStation에서 트렌딩, 8K 울트라 리얼리스틱, 사려 깊은 표정을 짓는 Lukas Biewald의 초상” 같은 식의 문구를 어떻게 조합하느냐가 거대한 기술이 되었습니다. “우리가 시도해 본 다양한 프롬프트와 그에 따른 출력 예시”만 모아 놓은 책도 있을 정도예요.그걸 어떻게 맞춤화할 수 있을까요? 실제로는 루카스 비왈드가 새로운 스타트업을 만들어 가는 과정을 담은 동화책을 만들려고 하고, 여기 있는 이 특정한 형식에 맞추고 싶고, 저기 배경에는 로봇 그림을 넣고 싶습니다. 그렇다면 동일한 스타일, 동일한 캐릭터 특성, 원하는 구도를 어떻게 구현할 수 있을까요? 핵심은 인간과 기계의 상호작용에 있습니다.이제 막 어떻게 하면 되는지 이해하기 시작한 것들이 정말 많습니다. 그래서 앞으로 몇 년 안에, 지금처럼 “기계에 넘겨주고 유용하길 바라는” 방식이 아니라, 인간의 창의성을 컴퓨터가 보조하는 강력한 도구로 자리 잡게 될 것이라고 생각합니다.
루카스:
같은 접근법이 다른 도메인에도 그대로 통할까요? 아니면 이미지에는 노이스를 더하는 방식이 비교적 분명하다는 점, 그리고 우리가 가진 데이터셋의 특성 같은 무언가가 작용하는 걸까요?음, 확실히 당신이 설명한 디퓨전 방식이라면 거의 모든 도메인에 자연스럽게 적용할 수 있겠지만—
제러미:
맞습니다.
루카스:
음, 텍스트에 가우시안 노이즈를 더한다는 게 정확히 무엇을 뜻하는지 잘 모르겠네요. 아마 이런 느낌일까요…
제러미:
그래서 지난주에 텍스트용 확산 모델을 다룬 논문이 나왔습니다.단백질용 확산 모델은 이미 있습니다. 오디오용 확산 모델도 이미 있습니다. 오디오 모델 가운데 일부는 꽤 즉흥적이지만 뻔하면서도 깔끔한 접근을 씁니다. 확산으로 스펙트로그램(이미지)을 생성한 다음, 초해상도 모델과 비슷한 것을 붙이는 방식이죠. 다만 실제로 초해상도를 하는 게 아니라, 스펙트로그램을 소리로 변환합니다.그래서 네, 이런 것들은 벌써 나오기 시작했어요. 아직 여기에 투입된 자원이 많지 않아서, 완성도는 그다지 높지 않습니다. 하지만 그렇죠, 루카스, 이건 결코 이미지에만 국한된 이야기가 아닙니다. 의료에도 쓰이고, 카피라이팅에도 쓰일 거예요. 우리가 지금 생성형 텍스트 모델을 다루는 방식은, 다시 말해 일종의 행운어린 우연이라고도 할 수 있죠.제가 ULMFiT을 만들었을 때, 언어 모델을 만든 전체 이유는 그것을 미세 조정해 분류기를 만들기 위한 것이었습니다. 이후 GPT가 그 아이디어를 가져가 트랜스포머로 규모를 키웠죠. 알렉 래드퍼드가 거기서 하려던 일은 “텍스트 생성”이 아니라, 미세 조정을 통해 다른 문제들을 해결해 보려는 것이었습니다.GPT-3에서 마치 발견에 가까운 일이 있었죠. 이걸 충분히 크게 스케일하면 그럴듯하게 들리는 텍스트를 실제로 만들어내기 시작한다는 겁니다. 하지만 그 텍스트가 반드시 정확한 것은 아닙니다. 사실 아주 자주 크게 틀립니다. 그러니까… 의도적으로 텍스트 생성을 위해 설계된 접근법들, 즉 텍스트 생성에 특화된 방법론들은 아직 개선의 여지가 아주 많습니다.일반적으로 제 관점은 이렇습니다. 어려운 일을 해내려는 생성 모델이 있고, 그 모델이 그 일을 꽤 잘해냅니다. 최소한 전혀 못하는 것보다는 낫죠. 추론 과정에서 같은 절차를 여러 번 반복해서 실행할 수 있게 하면, 모델이 자신의 능력을 발휘할 기회를 더 많이 갖게 되므로 더 잘하게 됩니다.제 생각에는, 이런 다단계 추론 모델들—확산 모델일 수도 있고 아닐 수도 있지만, 일종의 부스팅된 생성 모델—은 앞으로도 계속 핵심이 될 것 같습니다. 왜냐하면 생성 모델이 아무리 좋아도, 여러 번 돌릴 방법만 찾을 수 있다면 언제나 더 나아지게 만들 수 있으니까요.
대규모 모델과 의미 있게 소통하기
루카스:
그게 제가 준비한 다른 질문으로 자연스럽게 이어지는 것 같네요. 초기 딥러닝의 정말 재미있던 점 중 하나는 모든 것이 아주 손에 잡힐 듯했다는 겁니다. 멋진 강의가 있어서, 직접 모델을 만들어 보고 어떻게 작동하는지 확인하고 이리저리 실험해 볼 수 있었죠. 아마 우리 둘 다 비슷한 학습 방식을 가지고 있는 것 같아요.그런데 솔직히 말해서, 제가 개인적으로 요즘 더 큰 모델들을 다루면서 어려워하는 점이, 이 모델들과 정말 의미 있게 소통하고 활용하는 일입니다. 여러 이미지 생성 모델을 돌려보는 건 재미있지만, 한편으로는 막막하게 느껴져요. 제대로 작동하는 걸 만들 만큼의 컴퓨팅 자원을 사는 데 제 돈을 쓸 수 있을지도 잘 모르겠고요.사실 이 팟캐스트에 재미로 그걸 해본 분이 한 분 있었어요 — 보리스 — 정말 엄청 재미있던 에피소드였고, 그걸 만드는 내내 그가 얼마나 즐거워했는지 보면서 솔직히 부럽기까지 했습니다. 그 문제를 어떻게 하면 실제로 손대고 몰입할 수 있을 만큼 다룰 수 있는 형태로 바꾸는지 궁금합니다.
제러미:
맞아요. 보리스는 우리 수료생 중 한 명이에요. fastai 커뮤니티의 일원이고, 끈기 있는 개인 한 사람이 해낼 수 있는 것이 무엇인지 보여줬죠.
루카스:
물론 구글이 그에게 컴퓨팅 자원을 십만 달러 정도는 기부했던 걸로 알아요. 그러니까 완전히…
제러미:
네, 정말 그렇습니다. 자신이 유용한 일을 하고 있다는 걸 보여줄 수만 있다면, 기부받을 수 있는 컴퓨팅 자원이 충분히 있습니다. 하지만 그렇다고 해도, 그가 주로—적어도 초반에는—하려고 했던 일은 OpenAI가 해낸 것을 재현하는 것이었어요.저는 아주 다르게 접근합니다. 지금 존재하는 가장 뛰어난 것도 실제로는 가능한 최선에는 한참 못 미친다고 항상 가정합니다. 5년에서 10년 안에 더 나은 것이 나올 것이고, 저는 늘 그것을 더 발전시킬 방법을 찾습니다.그러니까요, 루카스, 우리 새 강좌를 수강해야 해요—
루카스:
정말 그러고 싶어요.
제러미:
지금 딱 그 한가운데에 있어요. 제가 해 온 일이 바로 당신이 말한 그것이거든요. 즉, 단일 GPU와 노트북 환경에서 최첨단 이미지 생성 모델을 학습하고 직접 다뤄 보는 방법입니다.이런 모든 경우와 마찬가지로, 핵심은 더 쉽지만 동등한 문제부터 시작하는 것입니다.거의 모든 작업을 Fashion-MNIST 데이터셋으로 하고 있어요. 전 세계의 어떤 것이든, 예술 작품까지 포함해 3채널의 512x512 픽셀 이미지인 경우와 달리, Fashion-MNIST는 28x28 크기의 단일 채널 이미지로, 10가지 의류 종류 중 하나를 나타냅니다.저는 늘 이렇게 말합니다. 카글 대회든, 직장에서 하는 프로젝트든, 무엇이든 간에 가장 중요한 두 가지 단계는 “빠르게 반복하고 실험할 수 있는 신속한 피드백 루프를 만들라”와 “최종적으로 하게 될 일과 높은 상관성을 가진 테스트를 마련하라”입니다.그 두 가지가 갖춰지면 많은 아이디어를 빠르게 시도해 보고, 더 큰 데이터셋이나 더 어려운 문제 등에도 통할 가능성이 있는지 확인할 수 있습니다.알고 보니 Fashion-MNIST는 사실상… 제가 Fashion-MNIST에 대해 논문에 나온 여러 가지 접근법을 꽤 많이 재현해 봤거든요. 그런데 그 다양한 접근법의 상대적 효과가 Fashion-MNIST에서 나타나는 양상이 COCO나 ImageNet, LAION 같은 대규모 데이터셋에서의 상대적 효과와 거의 정확히 일치합니다.
루카스:
좋네요.
제러미:
하지만 저는 단일 GPU로도 모델을 학습해 대략 2분 안에 상대적인 차이를 확인할 수 있는 수준까지 만들 수 있습니다.
루카스:
와.
제러미:
그래서 저는 아주 빠르게 여러 가지를 시도해 볼 수 있습니다. 저는 모든 작은 단계를 하나하나 보여 주는 노트북을 만들기 시작했습니다. 그리고 노트북을 사용하는 것이 큰 도움이 되는데, 지금 생성 모델링 분야에서 일하는 사람들 중에는 거의 아무도 그렇게 하지 않는 것 같습니다.그들이 보통 하는 방식은 ImageNet 64픽셀이나 CIFAR 32픽셀로 하는 겁니다. 이는 512x512 LAION으로 하는 것보다는 여전히 낫지만, 그래도 시간이 많이 걸려요. 예를 들어 ImageNet 64픽셀만 해도 8 GPU 머신에서 많은 시간이 듭니다. 빠른 반복 실험 루프를 돌릴 수가 없죠.노트북에서라면 확산의 단일 이터레이션을 돌려 볼 수 있습니다. 화면에 이미지가 모두 보이기 때문에 출력이 어떻게 나오는지 바로 확인할 수 있죠. 이런 방식을 쓰지 않고 터미널을 오가며 작업한다면, 이미지를 실제로 확인할 방법이 따로 필요합니다. 게다가 보통 8 GPU 머신에 직접 앉아 있는 게 아니라 SSH로 접속하고 있을 가능성이 높죠. 그러면 이제 그 이미지들을 보여 줄 방법을 또 찾아야 합니다.참고로 터미널에서도 이미지를 표시하는 방법이 있습니다. 예를 들어 iTerm2를 쓰면 imgcat이라는 기능을 사용할 수 있습니다. 다른 터미널을 쓰는 경우에는 보통 sixel, 즉 sixel 그래픽스를 지원하기도 합니다. 하지만 이런 것들은 노트북만큼 이 종류의 작업을 탐색하기에 좋은 환경은 아닙니다.저와 같은 사람, 그리고 당신 같은 사람이 이 분야에서 활약할 기회가 정말 많다고 생각합니다. 실제로 그렇다는 걸 아는 이유는, 제가 Stable Diffusion의 핵심 구성 요소를 만든 주요 연구자 몇 분과 시간을 내어 이야기를 나누기 시작했기 때문입니다. 그리고 저는 이미 그분들이 미처 생각하지 못했던 것들을 제안하고 있어요. 제가 단일 GPU로 Jupyter Notebook에서 Fashion-MNIST로 해 본 기묘한 작은 실험들 덕분이죠.
제러미의 Stable Diffusion과 OpenAI에 대한 생각
루카스:
네, 이해돼요. 빠른 피드백 루프가 정말 중요하죠. 정말 멋지네요.전반적으로 Stable Diffusion에 대해 어떻게 생각하시는지 궁금했습니다. 지금은 2022년 11월이고, 그들이 생성 모델에 대한 인식을 대중에게 널리 알리는 데 놀라운 일을 해냈다고 생각합니다.Stable Diffusion에 대해 어떻게 생각하시나요?
제러미:
분야의 발전에 분명 큰 도움이 되었죠.일반적으로 말씀드리면, 아시다시피 저는 민주화와 접근성을 가장 중요하게 생각합니다. Stable Diffusion이 공개되기 전에는 전 세계에서 극소수만이 완전한 생성 모델에 접근할 수 있었다는 사실이 마음에 들지 않았어요. 그리고 그 외의 사람들은 기능이 축소된 버전을 돈을 내고 아주 제한적으로만 사용할 수 있었죠.문제는 웹 기반 API를 통해 이런 것들에 접근하면 극도로 제한적이라는 점입니다. 실제로 weights를 갖고 있으면, 이전에 아무도 해보지 않은 일을 공학적 측면과 예술적 측면 모두에서 마음껏 시도해 볼 수 있습니다.네, 정말 훌륭하다고 생각해요. 중요한 일이라고도 생각합니다.제 생각에는, 이런 것들과 마찬가지로 새로운 강력한 기술을 세상에 내놓으면, 많은 사람들이 그것을 당신이라면 선택하지 않았을 용도로도 사용하게 마련입니다.예를 들어 Stable Diffusion의 경우, 아주 많은 사람들이 엄청나게 많은 이미지를 생성하는 용도로 쓰면서, 그중에서도 거의 전적으로 옷을 거의 걸치지 않은 아주 젊은 여성의 애니메이션 이미지를 만들고 있는 것처럼 보입니다. 전혀 옷을 입히지 않는 쪽으로까지 가는 사람들도 분명 있을 겁니다.그런 일은 어느 기술에서나 일어나는 것 같아요. 그걸 막을 수는 없겠죠. 하지만 최소한 불법이어야 할 것들을 분명히 불법으로 규정하는 등, 적절한 법과 규제가 반드시 필요합니다. 우리가 합법이기를 원하지 않는 것들이 실제로 불법이 되도록 해야 합니다.맞아요, 분명히 엄청난 이점이 있습니다. 그리고 단백질 확산 모델이나 제약 분야 확산 모델 같은 것들은—그런 기술이 두세 개의 대형 조직만 손에 쥐고 있다면—아예 발전하지 못할 겁니다.그래서 이런 것들을 가능한 한 개방해 두는 것은 사회 전체적으로 매우 가치 있는 진전입니다. 분명히 말씀드리면, 이 모든 것은 대학에서 학습되었습니다. 우리가 지금 Stable Diffusion에 사용하는 것의 대부분은 독일의 학술 기관에서, 기부받은 하드웨어로 학습된 것입니다.
루카스:
재미있는 점은, OpenAI 같은 곳이 자사 모델에 대한 접근을 제한한 주된 이유가 윤리와 AI 관련 고려 사항이었다는 겁니다. 최소한 그들이 그렇게 말했다고 하죠.그게 잘못된 일이라는 걸 미리 알 수 있었을 거라고 보시나요? 그때 당시에도 그것에 반대하며 막으려 했을까요?
제러미:
사실 그와 관련해 GPT-3가 막 발표만 되고 아직 공개되기 전이었을 때 블로그 글을 쓴 적이 있습니다. 거의 보편적으로, 적어도 AI 커뮤니티에서는 “이거 별로다. 그냥 돈 벌려고 그러는 거다”라는 반응이었죠. 저는 그 글에서 “꼭 그런 것만은 아니다. 여기에는 진지하게 고민해야 할 지점들이 있다”라고 썼습니다.그렇다고 해서 동기가 적어도 부분적으로는 이윤 추구가 아니었다는 뜻은 아닙니다. 그랬을 가능성도 충분히 있습니다. 윤리적 고려를 그런 식으로 해석하면 이윤 동기와 완전히 맞아떨어진다는 점도 분명 편리하죠. 하지만 그렇다고 해서 그 주장들이 사실이 아니라는 의미는 아닙니다. 그리고 제 생각에는 두 가지 이유가 모두 작용했을 가능성이 큽니다.그 뒤로 OpenAI의 행태를 보면, 점점 더 노골적으로 이윤 추구 중심으로 움직여 왔습니다. 그래서 그들의 계속되는 행동 양식을 바탕으로 보면, 지금은 그때보다 해석에 덜 관대해졌습니다.돌이켜보면, 지난 몇 년 동안 기업들이 모델을 내부에만 유지한 결과는 능력 측면에서 가진 자와 가지지 못한 자 사이의 격차를 더 크게 벌리는 일에 가깝다는 느낌이 듭니다. 더 많은 연구자들에게 무언가를 하려면 API 접근 비용을 지불하도록 요구하고, 개방성은 줄어들었으며, 심지어 일종의 기만적 행태라고도 볼 수 있는 모습까지 나타났습니다.예를 들어, 지금은 유료로 접근할 수 있는 OpenAI 모델이 연구 논문에서 설명된 것과 실제로 동일하지 않다는 사실을 알고 있습니다.이제까지 수십 명의 연구자들이 여러 작업을 OpenAI 모델과 비교한 논문을 써 왔는데, 알고 보니 우리가 애초에 비교한다고 생각했던 대상과는 전혀 다른 것과 비교하고 있었다는 사실을 알게 됐습니다. 그 결과 연구자들의 수천 시간에 달하는 노력이 허비됐고, 지금 와서 보면 완전히 잘못된 정보에 기반한 논문들이 출판된 셈입니다.저는 예전보다 공개적으로 여는 것의 가치에 훨씬 더 열정적이고, 그 점에 대해서도 몇 년 전보다 훨씬 더 확신을 가지게 됐습니다.
프롬프트 엔지니어링과 대규모 언어 모델
루카스:
언어 측면, 예를 들어 대규모 언어 모델에 대해서는 어떻게 생각하시나요?예를 들어, 프롬프트 엔지니어링이 머신러닝을 수행하는 중요한 방식으로 자리 잡아 갈 거라고 보시나요? 다양한 NLP 과제에서 이런 모델들이 놀라울 정도로 뛰어난 성능을 보이고 있잖아요. 때로는 특정 과제에 맞춰 별도로 학습된 모델들보다 더 좋을 때도 있고요.
제러미:
네. 생성형 텍스트 모델은 생성형 이미지 모델보다 기회도 더 많고 위협도 더 많다고 생각합니다.말했듯이, 이들이 작동한다는 사실 자체가 어떤 면에서는 약간의 우연이에요. 현재로서는 목적에 맞게 최적화되어 있다고 보기엔 한참, 아주 많이 부족합니다.하지만 이미 놀라울 만큼 훌륭합니다. 특히 지금은 이런 종류의 작업에 관한 논문이 수십 편이나 나와 있는데, 우리가 어찌어찌하다 보니 생성 모델이 되어 버린 이 모델들에서 어떤 프롬프트가 우연히 잘 먹히는지 살펴보는 연구들—예컨대 “단계별로 생각해 보자” 같은 것들과 그 밖의 여러 기법들이 그렇죠.이제 우리가 실제로 원하는 일을 좀 더 잘 하도록 만드는 방법을 찾아가기 시작했어요. 하지만 지금까지는 정말 정말 기본적인 것들만 쓰고 있죠. 이른바 “instruction tuning” 같은 것들요.그러니까 그냥 인터넷 전체를 먹이는 대신, 실제로 올바른 정보의 예시들, 즉 해당 입력에 대해 우리가 기대하는 출력에 해당하는 예시들로 미세 조정을 해 보자는 겁니다. 25년 전에 인터넷에 누가 아무렇게나 쓴 글이 아니라요.제가 걱정하는 건… 텍스트 모델과 이미지 모델의 오남용입니다. 트위터나 페이스북 같은 플랫폼에 계정을 백만 개 만들고, 그것들이 서로 협력하도록 프로그래밍해서 시간이 지나면서 전 세계 담론에 상당한 영향을 미치게 하는 일은 전혀 어렵지 않거든요.그리고 아무도 모를 거예요.예를 들어 트위터에서는, 실제로 누가 운영하는지 아무도 모르는 계정들이고 수가 그리 많지 않더라도, 사람들이 무엇을 이야기하는지와 그것을 어떻게 이야기하는지에 매우 큰 영향을 미칠 수 있습니다.그런 계정이 백만 개 있다고 상상해 보세요. 실제로는 인간보다 더 설득력 있게 훈련된 봇들이고—이미 수년 전부터 사람들이 실제 인간보다 더 설득력 있다고 평가한 봇들이 있었죠—게다가 서로 협력하도록 훈련까지 되어 있는 겁니다. 이를테면 “정확한 방식으로 상반된 관점을 취하라”는 식으로요. 그러면 이 봇은 저 봇의 주장에 점점 설득되고, 그런 식의 일들이 이어지는 거죠.전 세계의 극히 소수만이 프로그래밍적으로 인간 사회가 어떤 주제를 어떻게 생각하게 만들지 결정하고, 그걸 실현하기 위해 돈을 써서 실행에 옮길 수도 있습니다.
루카스:
제가 기억하기로는, fast.ai의 전반적인 미션이 기본적으로 누구나 접근할 수 있도록 머신러닝에 대한 노코드 인터페이스를 만드는 것이었던 것 같아요. 그리고 프롬프트 엔지니어링이 — 효과가 있는 한에서 — 그 방향으로 나아가는 데 매우 큰 진전처럼 보이기도 합니다. 그렇지 않나요?
제러미:
맞아요. 네, 제가 말한 게 그거예요. 그래서 기회도 더 많고 위협도 더 많다고 한 거예요.기회는 엄청나게 많습니다. 예를 들어, 지난주쯤 공개된 explainpaper.com을 보세요. 우리 수강생들은 이미 활용하고 있어요. 우리 강의에서는 매주 논문 한두 편을 다룹니다. 지난주에는 숙제로 diffusion edit 논문을 다시 구현해 오라고 했어요.수강생들이 이렇게 말하더군요. “이 문단을 잘 이해 못했어요. 그래서 explainpaper.com에서 하이라이트했더니 이런 요약을 보여줬고, 이제 훨씬 더 명확해졌어요. 그다음 그 부분을 더 이해하려고 추가 정보를 요청해 봤어요.”이건 정말, 정말 가치가 큽니다.며칠 전에 트위터에서 어떤 사람이 이제는 Stack Overflow를 잘 쓰지 않는다고 하더군요. 이유는 "ask"라는 아주 작고 단순한 스크립트를 만들어서, bash 셸 REPL에서 "ask"라고 입력하고 그다음 프롬프트를 쓰면 OpenAI GPT-3로 보내서 결과를 받아오게 했기 때문이래요. 그래서 요즘은 인터넷을 검색하는 대신 그걸 주로 쓴다고 했습니다.
루카스:
와.
제러미:
맞아요. 사람들은 분명히 이걸 사용하고 있고, 앞으로 훨씬 더 좋아질 겁니다.
루카스:
패션-MNIST처럼 이미지 생성에 썼던 영리한 방법으로, 대규모 언어 모델을 작은 규모로 실험해 볼 수 있는 방식이 있을까요?
제러미:
아직은 아니에요. 아마 강의의 다른 부분에서 다루게 될 것 같네요. 정말 좋은 질문이고 생각해 볼 만한 주제입니다.
줄리아와 파이썬 다시 보기
루카스:
흥미롭네요.좋아요, 다시 다뤄야 할 질문이 하나 있어요. 지난번에 당신과의 인터뷰를 많은 사람들이 들은 이유 중 하나가, 제 생각엔 뜻밖이게도, 당신이 파이썬이 머신러닝의 미래가 아니라는 흥미로운 의견을 밝혔기 때문이었거든요.줄리아가 머신러닝의 미래일 수도 있다고 말씀하셨는데, 그게 인터넷 전반에서 큰 반향을 일으킨 것 같아요. 아마 Gradient Dissent 역사상 가장 많이 논의된 부분이 아닐까 싶습니다.그래서 궁금한데요. 그에 대해 더 생각해 보신 게 있을까요? 여전히 줄리아가 미래라고 믿으시나요? 그때는 약간은 확신이 없으셨잖아요.
제러미:
지난번에 그 이야기로 당신과 얘기했을 때는 저도 확신이 서지 않았고—
루카스:
완전히요.
제러미:
그때보다 지금은 조금 덜 낙관적이라고 말하겠습니다.줄리아의 생태계와 문화는 HPC와 대규모 연산, 국립 연구소 머신에서의 실행 같은 것에 지나치게 초점이 맞춰져 있는 느낌이에요. 엔지니어들에게는 매우 매력적인 것들이죠. 손맛도 좋고요. 하지만 그 관객층은 정말 아주 작습니다.저는 5,000개의 노드에서 뭔가를 돌릴 수 있는지에는 관심이 없어요. 그냥 제 노트북에서 돌아가면 됩니다. 그런데 아직 제 노트북에서 돌리기에도 그다지 좋지 않아요. 그리고 당신에게 보낼 수 있는 소프트웨어를 만드는 데에도 좋지 않습니다.저는 할 수가 없어요… 제가 작은 CLI 도구 같은 걸 만들었다고 해도, 시작이 너무 느려서 그런 작은 CLI 도구를 만들기에도 좋지 않거든요. 게다가 그걸 당신에게 보내서 써 보게 하려면 대체 어떻게 해야 하죠?이렇게 되는 거죠. “좋아요, 루카스. 그럼 줄리아 전체를 설치하고, REPL을 실행한 다음, 패키지 관리 모드로 들어가려면 여기에 이것을 입력하세요.” 그리고 “좋아요, 이제 이걸 설치했으니 실행할 수 있어요.” 이런 식이에요. 음, 그건 현실적으로 불가능하죠.아니면 그냥 웹사이트를 배포하는 것만으로도 괜히 번거롭고 신경 쓸 일이 많고, 필요한 것 이상으로 자원을 씁니다.그 잠재력은 여전히 있어요. 하지만… 지난 몇 년 사이에 더 분명해진 또 하나는, 그들의 타입 디스패치에 대한 거대한 실험이죠… 그 모든 것을 제대로 작동하게 만드는 일이 제가 생각했던 것보다 더 어렵다는 겁니다. 왜냐하면 여전히 제대로, 완전히 잘 돌아간다고 보긴 어렵거든요.제대로 작동하게 만들려고 노력하는 건 참 훌륭한 일이에요. 그건 방대한 연구 프로젝트니까요. 다만 기묘한 자잘한 엣지 케이스가 정말 많고, 그 모든 것을 매끄럽게 돌아가게 하는 일은 믿기 어려울 만큼 어렵습니다.제 생각에는… 파이썬을 대체할 무언가가 필요하긴 한데, 아마 아직 존재하지 않을 수도 있습니다. 다만 부분적으로는… 우리가 지금 보고 있는 건… 모두가 파이썬을 대체해야 한다는 걸 알고 있다는 점이죠. 그래서 대신 벌어지고 있는 일은, 파이썬을 사용해서 파이썬이 아닌 산출물을 만들어내고 있다는 겁니다. 가장 분명한 예가 JAX죠.JAX는 파이썬, 혹은 파이썬의 부분집합을 사용하며, 라이브러리 형태로 작성된 일종의 내장 DSL을 제공합니다. 이는 XLA 프로그램으로 표현 가능한 것만 만들 수 있게 해 주고, 그런 다음 XLA가 이를 컴파일해 TPU에서 빠르게 실행되도록 합니다. 그 방식은 꽤 잘 작동합니다.그런데 연구나 해킹, 학습 같은 용도로는 매우 어렵습니다. 실제로 돌아가는 건 파이썬이 전혀 아니거든요. 그래서 그 코드를 프로파일링하고 디버깅하는 등 작업을 하는 게 극도로 어렵습니다. 노트북 환경에서 깔끔하게 실행하기도 매우 힘들고요.디퓨전 모델을 작업하는 우리 작은 팀에서는 다들 JAX를 쓰고 싶어 해요. 그런데 시도할 때마다 항상… 왜냐하면 제가 쓰��� 건 처음 14번은 늘 틀리거든요.그리고 파이썬이라면, 아시다시피 제가 저지른 어리석은 실수들을 다 찾아내면서 한 번, 두 번… 열네 번쯤 고쳐가며 더 나아지게 만들 수 있어요. 한 줄씩 실행해 보고, 값을 확인하고, 그림도 보면서요. 그런데 JAX에서는, 망가진 코드를 대체 어떻게 고쳐야 할지 정말 모르겠어요. 어렵습니다.
루카스:
하지만 그런 유연성이 본질적으로 언어의 성능을 높이는 것과 충돌한다고 보지는 않으시나요? 이건 지난번에도 다뤘던 내용 같아요.
제러미:
파이썬용이에요. 제 생각에도 파이썬용입니다.파이썬에서는 그 유연성이 실제로 파이썬 코드로 바로 실행할 수 있다는 점을 의미합니다. 지금 PyTorch가 나아가는 방향을 보면 TorchDynamo라는 걸로 작업하고 있는데… 기본적으로 nvFuser와 인터페이스할 수 있고, OpenAI의 컴파일러 비슷한 것인 Triton과도 인터페이스할 수 있죠. 정확히 뭐라고 불러야 할지는 잘 모르겠어요.분명 PyTorch도 JAX와 같은 방향으로 가고 있습니다. 즉, 빠르게 실행하고 싶다면 TorchDynamo 같은 것을 쓰게 될 겁니다. 최종적으로 어떤 이름이 될지는 모르지만요. 그것은 이미 PyTorch 트리에 통합되어 있습니다. 우리가 가는 방향이 분명하죠. 그리고 결국에는… 아마 Triton을 쓰게 될 겁니다.그래서 결국에는… Triton은 정말 놀라워요. 엄청 멋지고, 정말 훌륭하죠. 하지만 여전히 컴파일된 코드를 실행하는 방식으로 귀결됩니다. 여러분이 작성한 코드 그대로가 아니라, 그 변형된 버전이 돌아가는 거예요. 그래서 손대고 해킹하기가 더 어려워집니다.이게 어떻게 작동하는지 살펴보면, 애초에 이런 방식으로 동작하도록 설계된 언어로 작성된 소프트웨어 세계가 따로 있습니다. 이들은 컴파일 언어입니다. C++, Swift, Rust 같은 언어들이죠. 이런 언어들의 장점 중 하나는 컴파일러에 전달할 수 있는 플래그를 제공한다는 점입니다.디버거에서 실행하려면 -d 플래그를, 최적화된 버전을 실행하려면 -o 플래그를 전달하면 됩니다. 요컨대, 실제로 실행되는 코드가 당신이 작성한 실제 코드 라인과 얼마나 가깝게 동작할지를 선택할 수 있다는 뜻입니다.그래서 디버깅할 때는 실제로… 속도는 느려지지만, 여러분이 작성한 그 코드 라인 그대로가 실행되도록 할 수 있죠. 그리고 우리는 그런 것을 원한다고 봅니다. “그래, 파이썬처럼 보이고, 파이썬과 꽤 호환되고, 여전히 파이썬으로 실행할 수도 있지만, 최적화된 방식으로도 돌릴 수 있다”는 식의 무언가요. 아마도 우리가 제공할 수 있는 이런 타입 힌트를 더 잘 활용하는 무언가일 수도 있겠죠.제 생각도 그래요. 앞으로는 파이썬과 비슷한 언어들이 계속 등장할 겁니다. 점점 순수한 파이썬과는 덜 닮아 보이게 될 수도 있지만, 백엔드 선형대수 가속기와 컴파일러와 점점 더 잘 맞물리도록 설계된 언어들이요.
루카스:
지금 당장 그런 느낌을 주는 언어가 있나요?
제러미:
아니요, 전부 기본적으로 내장형 DSL이에요. TVM이나 Halide 같은 것들이죠.이런 작업에 필요한 백엔드를 제공하는 역할을 하는 MLIR 프로젝트가 있습니다. 크리스 랫너는 새로운 회사를 세웠는데, 아마도 이런 종류의 일을 위해 우리가 필요로 하는 것을 만드는 데 그 어떤 곳보다 유리한 위치에 있을 겁니다. 그는 MLIR을 만든 주역입니다.지금으로서는 저에게 아주 큰 미개척 영역처럼 느껴져요.
초기 코로나19 시기의 제러미의 과학 옹호 활동
루카스:
흥미롭네요.좋아요, 완전히 다른 주제로 넘어가 볼게요. 지난번에 이걸 다루지 못했다는 게 아직도 믿기지 않는데, 아마 한창 그 한복판에 있었던 것 같아요. 저를 포함해 전 세계의 많은 사람들이, 코로나19 초기 시기에 당신이 마스크 착용을 옹호하는 모습을 지켜봤다고 생각합니다.이 주제에 대해 가장 주목받은 글들을 몇 편 쓰셨던 걸로 알아요. 프리프린트에서도 두 번째로 인기 있었던 글이 있었죠. 그 이야기를 당신의 관점에서 들려주실 수 있을까요? 다른 사람들이 놓치고 있던 점은 무엇이었는지, 그리고 그 문제에 대해 어떻게 다르게 접근하셨는지도 궁금합니다.
제러미:
저는 정말 이해가 안 돼요, 루카스. 왜 — 그리고 지금도 왜 그런지 — 모든 사람에게 그게 꽤나 자명하게 보이지 않는지 모르겠어요. 다들 뭘 놓치고 있고, 왜 그런 걸까요?제 입장에서 보면… 음, 좋아요, 다시 말해볼게요.그러니까 2020년 2월, 그러니까 2월 중순에서 말쯤이었죠. 제가 샌프란시스코 대학교에서 가르칠 강의를 앞두고 있었어요. 그 무렵에 이른바 중국 바이러스라는 것에 대한 얘기가 점점 더 많이 들려오기 시작했습니다.그다음에 일어난 일은 이 바이러스가 이탈리아를 강타했다는 거예요. 중국에서 무슨 일이 벌어지는지보다 이탈리아에서 무슨 일이 벌어지는지에 대한 영어 정보가 훨씬 더 많아졌죠. 그래서 갑자기 상황을 훨씬 쉽게 파악할 수 있게 됐습니다. 특히 많은 이탈리아 의사들이 실제로 트위터 같은 곳에 있었기 때문에, 무슨 일이 일어나는지 직접 읽을 수 있었거든요.수많은 사람들이 “이건 재앙이다”, “이탈리아 의사회 회장이 방금 코로나19로 사망했다”, “병상도 턱없이 부족하다”라고 말하고 있었습니다. 뉴욕에서도 막 감지가 되기 시작했다는 걸 알고 있었어요.저는 이렇게 생각했죠. “아, 이게 여기에도 올 가능성이 꽤 있어 보이네. 그럼 우리 강의는 어떻게 되는 거지?” 전혀 이타적인 생각은 아니었어요. 그냥, 우리 강의를 그대로 계속 할 수 있을까 싶었죠.아내와 저는 강의를 어떻게 해야 할지 알아보려고 관련 자료를 찾아 읽기 시작했어요. 그렇게 조사하다 보니, 이게 전 세계적 팬데믹이 될 것이고 몇 주 안에 샌프란시스코를 휩쓸 거라는 게 너무도 분명했습니다. 그래서 이틀 안에 강의 등록자 전원에게 이메일을 보내고 블로그 글을 올려, 현장 강의는 하지 않겠다고, 온라인으로 진행하겠다고 알렸습니다.이건 우리 대학—아니, 아마 어느 대학에서도—그런 결정을 내리기 훨씬 전이었어요. 그것도 다시 말하지만, 저는 이미 이상하다고 생각했죠. “그래, 아직 여기 온 건 아니지만, 분명히 올 텐데. 그런데 왜 사람들은 안 올 것처럼 행동하는 거지?” 하고요.그래서 레이첼과 저는 결국 긴 블로그 글을 썼어요. “그래, 이건 우리 강의만의 문제가 아니구나” 하는 생각이 들었거든요. 샌프란시스코에 있는 친구들이 지금 하고 있는 일들을 보면, 나중에 돌아봤을 때 “그건 끔찍한 결정이었어. 나와 내 공동체를 위험에 빠뜨렸으니까”라고 생각할 게 뻔하다고 확신했어요.그래서 우리는 이렇게 말했어요. 우리가 아는 게 많지 않았기 때문에, 그냥 “데이터 과학자의 관점에서 지금까지 데이터에서 보이는 걸 말씀드리겠다. 적어도 초기에는 지수적으로 증가하는 것처럼 보인다. 이게 롬바르디에서 미친 영향이 이렇다. 뉴욕에서의 초기 영향은 이렇다. 이런 류 현상의 수학이 이렇게 작동한다. 단순한 예측이 아니라, 여기서 무슨 일이 일어날지에 대한 거의 확실성에 가깝다”라고요.그 글이 큰 주목을 받았어요. 우리 스스로 어떻게 피해갈 수 있을지 전혀 알지 못했죠. 우리는 걱정했습니다. 역사적으로 전 세계적 팬데믹이 일어나면 폭력 사태로 이어질 수 있고, 사회적 불화 같은 일이 벌어지기도 하니까요. 그래서 잠시 샌프란시스코를 떠나기로 했습니다.그리고 또… 언젠가는 봉쇄가 있을 게 분명했어요. 그러니까, 왜 없겠어요?다시 말하지만, 우리 친구들 중 누구도 이런 일이 벌어질 거라고 믿지 않는 듯했어요. 정말… 저는 이상하다고 느꼈습니다. 너무나 명백해 보였거든요. 그리고 실제로 일주일이나 이주일쯤 뒤에 봉쇄가 있었습니다.저희는 딸이 다니는 학교에 “아, 아마 봉쇄가 있을 것 같아요”라고 미리 알렸어요. 그랬더니 학습을 방해한다는 식의 꽤 언짢은 이메일이 돌아왔죠. 결국 샌프란시스코에서는 학교가 1년 동안 문을 닫았습니다.그래서 우리는 “어떻게 하면 코로나에 걸리지 않을 수 있을까?” 하고 고민했죠. 아마 코로나에 걸리고 싶지는 않았으니까요. 코로나에 걸리면 안 좋을 수 있어 보였거든요. 그러던 중에, 일부 SARS 계열 바이러스는 장기적인 영향이 있을 수도 있다는 이야기를 하는 사람들의 말을 듣기 시작했습니다.그래서 저는 전파 양상을 살펴보기 시작했어요. 그러다 보니 중국 주변에 코로나의 직격탄을 피한 나라들이 여럿 있다는 걸 알게 됐죠. 특히 홍콩은 우한과 기차로 바로 이어져 있는데도 말이에요. 그게 정말 놀라웠습니다.그때 몽골, 대만, 홍콩이 모두 전 국민 마스크 정책을 시행하거나 문화적으로 모두가 마스크를 쓰고 있다는 걸 알게 됐어요. 그러고는 “아, 이거 이상하네”라고 생각했죠. 저는 마스크가 좀 이상한 물건이라고 여겼거든요. 왜인지 차이나타운에 가면 사람들이 마스크를 쓰고 있고, 그냥 원래 그런가 보다, 좀 특이하네 싶은 정도였어요. 별로 주의 깊게 보지도 않았습니다.그런데 이게 호흡기 감염이라는 사실을 알게 되면서 점점 이해가 되기 시작했어요. 저는 워싱턴 포스트에 체코 공화국에서 특히 대중이 스스로 마스크를 쓰기로 결정했는데, 그 배경에는 인기 과학 유튜버의 영향이 크게 작용했다는 내용을 썼습니다.기본적으로 사흘에서 나흘 만에 온 나라가 모두에게 돌아갈 만큼의 마스크를 만들어냈고, 대통령은 그 점이 자랑스럽다고 공개적으로 말했어요. 또다시 그들의 감염 추이는 다른 나라들과 반대로 가고 있었는데, 그게 흥미롭다고 느꼈습니다. 그래서 그에 관해 글을 하나 썼죠.과학 정책 쪽에서 정부의 최고위직에 있었던 사람과 이야기를 나눴는데, 마스크 문제는 어떻게 돌아가고 있냐고 물었습니다. 그는 “그에 대해 매우 설득력 있는 과학적 근거가 있다고 생각하는 사람은 거의 없다”고 말했어요. 사람들이 마스크를 쓰도록 설득하고 싶다면, 더 나은 과학적 근거를 찾아야 한다고 했습니다.그래서 제가 아는 가장 똑똑한 과학 연구자 18명, 레كس 프리드먼부터 제이넵 투페키까지 — 제이넵의 경우는 과학자가 아니라 사회학 연구자이긴 하지만 — 모두에게 연락해 “증거를 정리하는 데 함께해 주시겠어요?”라고 물었습니다. 그게 우리가 논문을 쓰게 된 출발점이었습니다.기본적으로 모두가 동의했고, 다들 함께하겠다고 했습니다.그러다 보니 갑자기 저자 그룹이 엄청 커졌고, 그래서 슬랙 채널을 하나 만들었죠. 우리 중 누구도 처음부터 강한 의견을 가진 사람은 거의 없었어요. 하지만 세계 최고 수준의 에어로졸 과학자가 한 분 있었는데, 이게 그의 전문 분야다 보니 아마 가장 뚜렷한 견해를 갖고 있었죠. 그는 “자, 에어로졸이 뭔지 제가 설명해 드릴게요”라고 했습니다.그다음에 정말 놀라운 논문들이 몇 편 나왔어요. 레이저 산란 광 챔버 같은 장치를 써서 공중에 떠 있는 호흡기 입자를 실제로 영상으로 촬영한 연구였죠. ‘부유한다’는 표현이 딱 맞아요. 그 영상에서 입자들이 최대 한 시간까지 공기 중에 떠 있는 것이 확인됐습니다. 그리고 누군가 마스크를 쓰면 그런 입자들이 나타나지 않는다는 것도 보여줬어요.그때 저는 “궁금하고 관심 있다”에서 “100% 확신한다”로 완전히 돌아섰습니다.왜냐하면 이런 거랑 비슷하거든요. 누군가가 “루카스, 약속할게. 이 공을 저 벽에 던지면 튀어 나오지 않을 거야. 벽을 관통할 거야.”라고 말하는 상황이요. 그러면 당신은 “음, 제러미, 잘 모르겠는데… 그래도 한번 해볼게.”라고 하겠죠. 그리고 공을 벽에 던졌는데, 공이 튀어 나오면 이렇게 말할 거예요. “제러미, 당신의 정리에 대해 내가 확신하건대 틀렸어.”마스크도 딱 그랬어요.공중에 떠 있는 이런 입자에 대해 마스크가 호흡기 보호를 제공하지 못한다고 말하는 사람들이 있었죠. 그런데 이 입자들이 마스크를 통과하지 않는다는 영상이 나온 거예요. 저는 “알겠어요, 그럼 됐네요. 무작위 대조 시험은 필요 없어요. 증거가 영상으로 있잖아요. 작동하는 사진이 여기 있어요.”라고 생각했습니다.저는 사람들에게 이렇게 말하는 데 올인했어요. “아니요, 우리를 감염시키는 걸 막아 주는 게 실제로 있어요. 그러니까 그걸 써야 합니다.” 모두가 “아, 작동하는 영상이 있네. 그렇다면 효과가 있겠구나.”라고 당연히 받아들이지 않는 게 정말 이상하다고 느꼈습니다.정말 엄청나게 답답한 경험이었어요. 마스크를 연구하는 일에서도, 정치적 옹호 활동에서도 즐기는 건 하나도 없습니다. 전자는 지루하고, 후자는 스트레스가 크죠. 하지만 수백만 명의 생명을 구할 수 있음이 너무도 명백한 일 — 게다가 장기적인 피해가 얼마나 클지 모를 문제도 피할 수 있는 일 — 이라면, 거기에 행동하는 것은 윤리적으로 절대적으로 요구된다고밖에 볼 수 없습니다.세계 각국의 지도자들, 정치인들, 유명인사 등 온갖 사람들과 이야기를 나눴습니다. 그런데 관할 지역마다 대화가 완전히 처음부터 다시였어요. 예를 들어 “남아프리카공화국 사람들과 얘기해 보세요. ‘우리는 마스크를 믿지 않아요.’” 또 “런던 사람들과 얘기해 보세요. ‘우리는 마스크를 믿지 않아요.’ 호주 사람들과 얘기해 보세요. ‘우리는 마스크를 믿지 않아요.’ 플로리다 사람들과 얘기해 보세요. ‘우리는 마스크를 믿지 않아요.’” 이런 식이었죠.그런데 한 가지 끔찍한 사실을 알게 됐습니다. 사람들이 자기 지역이 코로나로 크게 타격을 받아 병원이 가득 차기 전까지는 마스크를 믿지 않기로 마음먹었다는 거예요. 그러다 상황이 악화되면 저한테 다시 연락해서 “제러미, 그 마스크 얘기 좀 더 해 주세요.”라고 말하곤 했습니다.그건 정말 분통 터지는 일이었어요. 당연히 정답은 이거니까요. “두 달 전에 마스크 의무화를 했더라면 이런 일은 일어나지 않았을 겁니다. 이제는 너무 늦었어요. 마스크가 R 값을 조금 낮출 수는 있지만, 이미 팬데믹이 전면화된 뒤에는 그걸 되돌릴 만큼 충분하진 않거든요.”솔직히 말해, 그 과정 때문에 정말 번아웃이 왔어요. 어떤 면에서는 성과도 있었지만, 결국 팬데믹은 일어났죠. 그리고 지금도 여전히 어이가 없습니다. 특히 이제는 고품질 의료용 마스크가 널리 보급되어 있는데도 말이에요. 수요가 너무 낮아서 공장들이 문을 닫고 있을 정도니까요.저는 코로나에 걸린 적이 한 번도 없어요. 실내에서는 항상 고품질 마스크를 착용한 제 지인들 가운데 코로나에 걸린 사람은 정말 한 명도 없었습니다. 반대로 그렇게 하지 않은 사람들은 전부 코로나에 걸렸어요.어느 순간엔 이렇게 말하게 되죠. “그래, 내가 할 수 있는 건 다 했어. 이제 각자 알아서 해.”
루카스:
그럼 실내에서는 항상 마스크를 계속 착용하시나요?
제러미:
그럼요. 네.
루카스:
무엇이 바뀌면… 실내에서 마스크를 벗으실 건가요?
제러미:
아마 이렇게 묻는 질문과 같은 답일 거예요. “언제 깨끗한 물 마시기를 멈출 건가요?” 저는 계속 깨끗한 물을 마시고 싶습니다.저희는 결정했죠… 그러니까, 기억해 보세요. 존 스노의 실험 이후에도 대도시들이 깨끗한 물 인프라에 투자하기까지는 수십 년이 걸렸습니다. 아마도 몇 년이 지나면 우리는 깨끗한 공기 인프라에도 투자하게 될 겁니다.중국은 이미 그렇게 했습니다. 지금은 거의 모든 공공 건물에 HEPA 필터가 설치되어 있고, 거의 모든 공공 건물에 자외선 살균 장치도 도입하고 있습니다.바라건대 언젠가는 서방도 똑같이 하게 될 것이고, 그러면 “이제 나는 깨끗한 공기의 환경에 있구나” 하고 생각하면서 굳이 스스로 공기를 정화할 필요가 없게 될 겁니다.그게 한 가지 방법이겠죠. 또 다른 방법은… 역시 중국이 우리보다 한발 앞서 있습니다. 그들은 아마 훨씬 더 효과적인 비강 백신을 보유하고 있어요. 우리가 언젠가 그걸 도입하게 되면, 전파를 상당히 줄이는 데 실제로 큰 도움이 될 거라고 봅니다. 주사형 백신은 전파 억제에는 그다지 큰 영향을 주지 못합니다.그러니까 실내 공간에서도 꽤 안전하게 지낼 수 있게 해 줄 기술들이 분명히 있습니다.
루카스:
그런데 야외에서는 마스크를 쓰지 않는 건가요? 그게…
제러미:
아니요, 그러니까 그건 딱 잘라 말할 수 있는 엄격한 규칙은 아니에요.예를 들어, 최근에 생일 파티에 갔는데 노래방 콘셉트였어요. 야외였지만 아이들이 전부 노래를 부르고 있었고, 서로 바짝 붙어 있었고요. 그래서 사람 밀도가 높은 상태에서 비말과 에어로졸이 많이 발생하는 활동이 이루어지고 있었기 때문에, 우리 가족은 마스크를 썼습니다.네, 전반적으로 말하면, 야외에서는 공기 중 입자가 훨씬 더 빨리 확산되기 때문에 크게 걱정하지 않습니다.
루카스:
알겠습니다.그 이야기에서 흥미로운 점은, 아마 비교적 폭넓은 과학적 합의는 있었지만 그걸 공개적으로 옹호할 준비가 된 사람은 거의 없었다는 거일까요? 그게 당시 상황을 더 잘 요약한 표현인가요?만약 그 모든 과학자들을 한자리에 모았고, 그들이 정말로 당신이 말한 것에 모두 동의했다면…
제러미:
불행히도 그렇지 않았습니다.일어난 일은 지역별로 극도로 양극화되었다는 것입니다. 이 문제를 실제로 이해한 사람들은 에어로졸 과학자들이었고, 에어로졸 과학 커뮤니티는 사실상 100% 같은 결론에 합의하고 있었습니다. “말하기와 호흡은 에어로졸을 생성하는 활동이다. 이 전염이 에어로졸을 통해 이루어진다는 증거가 매우 많다. 공기 중에 떠 있는 비말핵에서 마스크가 그것들이 폐로 들어가는 것을 막아 준다는 증거도 충분하다.”그런 것들은 그 커뮤니티에서는 거의 다 이해되고 있었습니다. 하지만 문제는, 루카스, 서구권에서는 스페인 독감 이후로 정말로 큰 호흡기 팬데믹을 겪은 적이 없었다는 점입니다. 그래서 우리 감염병 커뮤니티 누구도 그에 대한 경험이나 배경이 없었습니다.저는 많은 시간을 들여 옹호 활동을 했습니다. WHO에서 대응을 총괄하던 사람들, 즉 WHO의 감염 관리 그룹 구성원들과 직접 대화하는 일도 포함해서요. 그런데 그분들 대부분은 접촉 전파를 중심으로 형성된 감염병 배경을 가진 사람들이었습니다.손 씻기가 효과가 있는 유형의 전파를 염두에 둔 접근이었죠. 그러니까 그분들은 완전히 다른 관점에서 출발했고, 각기 다른 종류의 질병을 다른 방식으로 다뤄 온 수십 년의 경험을 가지고 있었습니다.그분들은 배우고 이해하려 최선을 다하고 있었습니다. 하지만 일부에게는 그 과정이 매우 어려운 경험이었죠. 특히 존 콘리는 비말 매개가 아닌 접촉 매개, 즉 물체 표면을 통한 전파에 상당한 금전적 이해관계가 있었습니다. 그가 그렇게 믿을 이해관계를 가진 탓에, 이 질병이 공기를 통해 호흡기 입자로 전파되고 호흡기 보호가 필요하다는, 즉 호흡기 감염이라는 사실을 받아들이는 것이 그에게는 매우 어려웠습니다.그게 큰 도전이었습니다. 서로 다른 과학 집단 사이의 세계관 차이 때문이었죠. 에어로졸 과학자들은, 사실 WHO의 감염 보호위원회—감염 관리든 뭐라고 불렸든—그 어디에도 한 명도 포함되어 있지 않았습니다.WHO와 이야기해 보니, 다양성이 전혀 없다는 점이 눈에 띄었습니다. 모두가 똑같은 학문적 배경을 가졌고, 사물을 바라보는 방식도 같았으며, 서로를 매우 잘 알고 있었습니다.그분들에게는 또… WHO에 관여하는 일이 경력에서 매우 강력한 지위 신호가 되기 때문에, 모두가 그런 자리에 초대받기를 원합니다. 그러다 보니 위원회의 다른 사람들 모두에게 ‘나는 좋은, 괜찮은 사람’이라고 생각되길 강하게 바라게 됩니다. 그게 진짜 단일 문화를 만들어 버립니다. 그래서 그 점도 문제의 큰 부분이었습니다.그 모든 일이… WHO가 어떻게 돌아가는지 보면서, 이전보다 훨씬 더 냉소적으로 변하게 만들었습니다. 그리고 우리의 그 큰 논문조차, 게재까지의 과정이 그랬죠. 원고를 쓴 때부터 출판될 때까지 1년이 걸렸습니다.출판됐을 때쯤에는 사실상 너무 늦었습니다. 아시다시피, 그걸 게재하는 과정은 과학보다는 정치가 훨씬 더 크게 작용했죠.합리성과 데이터, 정확성과 엄격함에 매우 초점을 맞춘다고 생각해 온 시스템들이… 막상 들여다보니 상당 부분이 정치와 인맥, 그런 것들에 관한 것이었다는 사실을 알게 되어 실망스러웠습니다. 그 모든 일이 있기 전까지는 제가 아마 꽤나 순진했겠죠.
루카스:
제 느낌으로는 지금 시점에서는 대체로 사람들이 마스크가 코로나19 확산을 줄인다고 믿는 것 같습니다. 다만 정확히 어느 정도 효과가 있는지는 잘 모르겠어요… 말씀하시는 걸 들어보면 효과가 정말 매우 크다는 뜻으로 들립니다.하지만 거기에 당신이 한몫했지 않았나 싶어요. 아니면 그냥… 제가 트위터에서 당신을 팔로우해서, 당신이 그 얘기하는 걸 지켜봐서 그렇게 느끼는 걸지도 모르죠. 잘은 모르겠는데, 이제는 주류가 된 것처럼 보여요…
제러미:
네, 그러니까, 제가 전 세계적으로 Masks4All 그룹을 이끌었습니다. 그 일을 가장 실질적으로 추진한 그룹이 우리였어요. 맞습니다.
루카스:
그래도 성공적이었던 것 같아요. 그러니까, 저는 그냥… 당신은 그렇게 생각하지 않나요…?
제러미:
그럭저럭 성공적이었어요.예를 들어 샌프란시스코에 있다면 호주에 있을 때보다 더 성공적으로 보일 거예요. 호주에서는… 가끔 마스크 의무화가 시행되면 지시받은 대로 모두가 착용합니다. 그 외의 때에는 강력히 권고되지만 아무도 하지 않죠. 그런데 샌프란시스코에서는 학교에 따라 학생들의 약 30% 정도가 마스크를 쓰고 있다고 들었습니다.확실히… 점점 사라지고 있어요. 그리고 사람들도 — 많은 사람들, 어쩌면 대부분 — 적어도 호주에서 제가 보기에는 마스크를 쓰고는 있지만, 좋은 마스크는 구하기가 정말 쉬운데도 효과가 별로 없는 마스크를 쓰는 경우가 많아요.그리고 많은 사람들이 잘 모르는 게, 고품질 N95 호흡기를 구하면 끈이 닳을 때까지 원할 때마다 여러 번 착용해도 된다는 점이에요. 많은 분들은 “한 번만 쓸 수 있다”라고 생각하죠. 꼭 맞춤 적합성 테스트를 해야 한다고 생각하는 분들도 많고요. 착용하고 벗는 과정이 아주 복잡한 절차라고 생각하는 분들도 많습니다.잘못된 정보가 정말 많아요. 그래서 실제로 고품질 마스크를 쓰는 사람의 수가… 제게는 놀랄 만큼 적게 느껴집니다. 모두가 실내에서는 언제나 그런 마스크를 착용한다면, 저는 우리가 아마… 특히 실내 공간에 HEPA 필터까지 갖춘다면, 바이러스 문제를 끝낼 수 있을 거라고 생각해요. 사라질 거라고 봅니다. 호흡성 바이러스가 전파되려면 호흡기 입자의 흐름이 이어져야 하는데, 그 흐름을 끊어 버리면 어떻게 계속 퍼질 수 있겠어요?네. 중국에서도요. 제가 보는 사진들은 전부 사람들이 수술용 마스크를 쓰고 있더라고요. 그게 저한테는 좀 이상하게 느껴져요.
아동 교육 개선 방안 연구
루카스:
흥미롭네요.자, 시간이 거의 다 되었고 저희는 항상 두 가지 질문으로 마무리하거든요. 그런데 당신은 조금 특별한 게스트라서, 이 질문들이 당신의 세계관에 정확히 얼마나 맞을지 모르겠네요. 저희가, 그러니까 제가 사람들에게 꼭 묻는 게 있어요. 만약 전혀 다른 주제를 연구할 추가 시간이 있다면, 무엇을 해보고 싶으신가요?당신은 이런 이야기의 끝없는 샘 같아요. 아직 시간을 내어 깊이 들여다보지 못했지만 관심 있는 주제들은 무엇인가요?
제러미:
음, 저는 조금 다른 방식으로 답할게요. 저는 무언가를 연구하고 싶어지면 매번 그냥 곧바로 해버립니다.
루카스:
좋아요.
제러미:
가장 최근에 제가 오랜 시간 연구한 주제는 아동 교육입니다.우리 딸은 학교 첫해를 놓쳤습니다. 샌프란시스코에서는 코로나 때문에 학교가 문을 닫았거든요. 캘리포니아에서 말하는 전환 유치원에 해당하는 해였어요.그러다 우리가 호주로 오게 되었고, 여기에서 처음으로 일반 학교에 1년 동안 다녔어요. 바로 1학년으로 들어갔죠. 아이는 학교를 즐거워했어요. 가는 것도 늘 신나 했고, 학교에 있는 것도 행복해했어요.그런데 놀랍게도, 교실에서 대면으로 보냈던 그해보다 그 이전 해에 Zoom과 여러 앱을 통해 이것저것 하던 때에 훨씬 더 크게 성장한 느낌이 들었어요.대신 아이는 대면 학교에서 보낸 1년 뒤에 훨씬 더 완벽주의적으로 변했고, 회복탄력성은 크게 떨어졌어요. 그게 제게는 정말 이상하게 느껴졌습니다. 그전 환경보다 학교가 훨씬 더 건강한 환경일 거라고 생각했거든요.그래서 저는 이 문제를 정말 꼼꼼히 들여다보기 시작했고, 교육 관련 학술 논문들을 많이 찾아 읽었습니다. 그 과정에서 상당히 넓은 학계 일부에서는, 혹은 매우 강력한 데이터가, 학교가 대부분의 아이들이 진정으로 성장하거나 최소한 학교 학습에 온전히 집중하기에 그다지 훌륭한 장소가 아닐 수 있다는 점에 대체�� 동의하고 있다는 사실을 알고 큰 충격을 받았습니다.사실, 과외를 받은 아이들은 이전 배경과 상관없이 학업 성취도가 가장 높은 최상위권에 속합니다. 올바른 과외만 제공된다면 모든 아이가 정말 높은 성과를 낼 수 있는 것처럼 보입니다.우리 딸은 첫해에 앱을 쓰고, 줌으로 수업을 듣고, 이런저런 활동을 했어요. 그런 것들은 선생님이 아이가 어느 속도로 가야 한다고 생각하는 기준에 묶여 있지 않고, 대신 컴퓨터가 시간이 지남에 따라 난이도를 동적으로 조절해 줍니다. 그래서 정말 신기하게도, 아이는 몇 달 동안 이런 앱들을 하더니 수학이 사실상 4학년이나 5학년 수준까지 올라갔어요. 일반적인 수업보다 훨씬 더 효과적이더군요.저희는 “아이가 정말 지루해하지 않게 하려면 어떻게 해야 할까?” 하는 고민도 했습니다. 그래서 교육을 깊이 파고들어 조사해 보니, 일반 학교에서 이루어지는 방식과는 완전히 다른, 가르치고 배우는 흥미로운 다양한 방법들이 있다는 것을 알게 되었어요.결국 우리는 아이를 학교에서 빼고, 대신 홈스쿨링 환경에서 이런 더 학습 중심의 접근을 적용하기로 했습니다. 이는 전반적으로 더 나은 사회적 결과, 더 나은 정서적 결과—정신 건강 측면에서도 더 나은 결과—그리고 더 나은 학습 성과로 이어지는 듯했습니다.인류에게 정말 중요해 보이는, 아이들은 어떻게 배워야 하는가에 관한 방대한 연구 세계를 알게 된 것이 제게는 꽤 흥미로웠어요. 그런데도 다시금, 우리가 아이들을 보내는 기관들이 그런 연구를 대체로 외면하고 있는 듯한 느낌이 듭니다.
루카스:
제가 요약을 제대로 이해했는지 확인하고 싶은데요. 핵심은 과외가 실제로 아이들에게 지식을 가르치는 데 있어 학교보다 훨씬 더 효과적이라는 말씀이시죠? 맞나요?
제러미:
그것도 한 부분이겠죠. 하지만 그건 시작점 중 하나일 뿐이고, 다른 요소들도 많습니다. 맞아요, 학교에서 성적이 꽤 안 좋았을 아이들도 최상위권이 될 수 있습니다. 이는 거의 모든 아이가 매우 큰 성취를 이룰 수 있다는 일종의 존재 증명이라고 할 수 있어요.하지만 우리에게 또 흥미로운 데이터 포인트가 있었어요. 아이패드를 쥐여 주고, 수학과 읽기 앱 몇 가지, 그리고 반대편에서 줌으로 지켜봐 줄 사람을 붙여 줬더니, 아이가 엄청나게 즐거워했고 제가 생각했던 것보다 훨씬 더 빠르게 배웠습니다. 그런데 실제로 학교에 가자, 1년 내내 거의 아무것도 배우지 못했고, 결국 회복탄력성도 훨씬 떨어지게 되었죠.학교에서 일반적으로 가르치는 방식과는 특히 잘 맞지 않는, 특정한 학습 방식들이 있습니다.예를 들어, 우리가 이전에 안키와 반복 간격 학습에 대해 이야기했을 수도 있어요. 제 딸은 매일 안키를 합니다. 정말로, 카드로 만들어 두거나 스스로 꼭 알고 싶다고 결심한 것이라면, 배우는 모든 것을 영원히 기억하더라고요.일반 학교에서는 이런 걸 하기가 꽤 어렵습니다. 전 학년이 모두 안키를 해야 하거든요. 그래야 5학년이 되었을 때도 1학년이나 2학년 때 만든 카드가 계속 돌아오니까요.하지만 학교에서는 매년… 예를 들어 호주만 해도 7학년과 8학년 수학 커리큘럼이 거의 전부 초등 과정의 복습으로 이루어져 있어요. 아이들이 이미 배운 걸 많이 잊었을 거라고 가정하고, 다시 보여줘야 한다고 보기 때문이죠.예를 들어 “간격 반복 학습을 어떻게 도입할 수 있을까요?” 같은 질문이죠. 영국의 일부 학교에서는 이를 “회상 연습”이라고 부르는 방법으로 시도해 왔습니다. 전 영국 전역에서 학업 성적이 가장 높았던 것으로 알고 있는 미케일라 학교라는 곳이 있는데, 그 학교에서도 이런 방식과 유사한 것을 하고 있습니다.여기저기서 이런 연구 결과를 도입하려는 학교가 몇 군데 있긴 합니다. 하지만 그런 학교들은 어디까지나 예외적인 편이에요.
경영진의 동의와 지원의 중요성
루카스:
좋아요.마지막으로… 이 질문이 당신께 꼭 맞을지는 모르겠어요. 저희 회사도 그렇고, 이 인터뷰 역시 머신러닝이 현실 세계에서 실제로 작동하게 만드는 데 초점을 맞추고 있다 보니, 늘 이렇게 묻곤 합니다. 연구 단계의 무언가를 실제 목적을 위해 제대로 작동하도록 옮겨가는 과정에서 겪은 가장 어려운 점은 무엇이었나요?그게 당신께 꼭 들어맞지는 않을지 모르지만, 제 질문을 유용한 방식으로 해석하는 데 아주 능숙하신 것 같아요. 그래서 가장 추상적인 형태로 질문을 드려 보겠습니다.
제러미:
그러니까, 현실 세계로 가져오려고 시도했던 프로젝트가 정말 많았어요.
루카스:
물론이죠, 맞아요. 응.
제러미:
어려워요.믿기 어렵겠지만 저는 벌써 25년 넘게 머신러닝 프로젝트를 해오고 있습니다. 초창기에는 정말 힘들었어요. 관리자들이 데이터의 힘을 전혀 믿지 않았거든요.제가 이게 정말 가치 있을 수 있다고 말하면, 그들은 늘 “데이터를 활용해서 성공한 기업의 모범 사례를 하나라도 들 수 있나요?”라고 되묻곤 했어요. 그런데 그런 사례가 전혀 없었죠. 그게 힘들었어요.
루카스:
응.
제러미:
그런데 이후에 Google이 등장했어요. 그 덕분에 데이터를 적극적으로 활용하려고 정말 열심히 노력하는 한 회사를 가리켜 보여줄 수 있게 됐고, 실제로 그 때문에 엄청난 가치를 지니게 되었죠.요즘은 그 부분이 훨씬 쉬워졌죠. 그런데 안타깝게도 제 답은, 많은 회사들에 대해서는 아예 시도조차 하지 않기로 사실상 포기했다는 겁니다.제가 그렇게 하려고 노력했어요… 특히 싱귤래리티 대학에 있었을 때는 학생들의 대부분이 대기업 임원들이었거든요. 우리는 그들에게 더 데이터 중심이 되도록 설득하려고 했고, 그중 일부는 정말 그걸 진지하게 받아들였죠. 그러고 나서는 그분들이 저를 부사장 그룹이나 임원 그룹에 초대해서 강연해 달라고 했습니다.많은 대기업이 더 데이터 중심이 되려고 하고, 머신러닝을 도입하려고 노력하는 걸 봤습니다. 하지만 성공하는 곳은 보지 못했습니다. 문제는 경영진 전체가 그 분야를 전문으로 하는 사람들이 아니었다는 점이었습니다. 그들은 그런 역량이 뛰어나서 승진한 사람이 아니었습니다.현장에는 매우 똑똑하고 데이터 중심적인 사람들이 비즈니스 애널리스트급에 포진해 있었지만, 경영진은 그들 중 누가 제대로 이해하고 말하는지 알 방법이 없었고, 전달받는 내용을 선별하고 검증할 수단도 없었습니다. 승진 시스템은 전부 경력, 자격 같은 요소에 기반해 있었고, 분석 역량은 고려되지 않았습니다.그래서 그런 유형의 회사들에 대해서는 결국 이렇게 생각하게 됐습니다. “레거시 기업이 데이터 중심 회사로 바뀌는 건 불가능할지도 모르겠다.” 그래서 요즘에는 이미 데이터 중심적이고 분석에 대한 이해가 깊은 창업자들이 세운 스타트업에 제 관심을 온전히 집중하고 있습니다.우리가 보고 있는 것은, 점점 더 가장 가치 있는 기업들—특히 미국에서 가장 가치 있는 기업들—이 사실상 모두 ‘테크 스타트업’ 출신이라는 점입니다. 물론 이제 더 이상 스타트업은 아니지만, 모두 엔지니어와 데이터 중심적인 사람들이 만든 회사들이죠.임팩트를 내고 싶은 데이터 사이언티스트라면, 그 일을 경영진이 제대로 이해하고 가치 있게 여기는 회사에 몸담을 수 있도록 하는 것이 가장 중요하다고 생각합니다.
아웃트로
루카스:
흥미롭네요.이야기 정말 즐거웠습니다. 아주 재미있었어요. 감사합니다—
제러미:
루카스, 당신도요.
루카스:
제 다양한 질문에 답해 주셔서 감사합니다. 당신과 이야기하면 늘 큰 영감을 받습니다. 정말 감사드립니다.이 인터뷰를 재미있게 보셨고 더 알아보고 싶으시다면, 설명란에 있는 쇼 노트 링크를 클릭해 주세요. 언급된 모든 논문 링크, 추가 자료, 그리고 정성껏 제작한 전체 대본을 확인하실 수 있어요. 꼭 한번 살펴보세요.
보너스: Weights & Biases
제러미:
Weights & Biases에서는 요즘 어떻게 지내세요? 늘 좋은 얘기만 듣습니다. 다들 정말 좋아하더라고요.사실 고백하자면, 며칠 전에 친구랑—아마 타니쉬크였던 것 같은데—이 학습률이 왜 이런지, 제대로 작동하고 있는지 이야기하고 있었어요. 그때 그가 이렇게 말하더라고요. “자, 학습률 그래프가 여기 있어.”그래서 제가 “와, 정말 빠르고 훌륭하네. 이거 어디서 나온 거야?”라고 했더니, 그가 “Weights & Biases야. 거기에 자동으로 기록돼.”라고 하더라고요.
루카스:
맞아요! 오, 이런. 아직 녹음 중인가요? 그걸 그대로…
제러미:
Weights & Biases 팀을 먼저 봤어야 했나 봐요. 저는 아직 “plot.plot(x = …)” 같은 걸 하고 있었는데, 그는 벌써 그걸 디스코드 채팅에 붙여 넣었더라고요.
루카스:
좋아요. 덕분에 기분이 정말 좋아졌어요. 고마워요.
제러미:
고마워, 친구.
Add a comment