구글, FLAN으로 굽기: NLP를 위한 향상된 제로샷 학습
Google Research는 FLAN을 통해 NLP의 제로샷 러닝 성능을 개선했습니다. 그런데 FLAN이 무엇일까요? 이 글은 AI로 번역된 기사입니다. 오역이 있을 수 있으니 댓글로 알려주세요.
Created on September 15|Last edited on September 15
Comment

이 글의 주요 대상은 SEO 전문가이지만, 머신러닝 초급 실무자에게도 흥미로울 수 있습니다.
섹션
이 보고서를 시작하기 전에, 여러분이 아마도 하고 있을 가장 분명한 질문들부터 답해 보겠습니다:
Google FLAN이란 무엇인가?
FLAN은 다음의 약자입니다 에미세 조정됨 엘에이언어 엔그리고 자연어 지시문을 사용하여 자연어 처리(NLP) 모델의 제로샷 학습을 개선하는 방법을 설명합니다 ("지시문 튜닝) 사전 학습, 미세 조정, 프롬프트 활용을 통해서입니다.
이 마지막 항목은 제가 그동안 접해 본 적이 없어서, 과정의 일부로서 특히 흥미롭습니다.
시작하기 전에 참고하면 도움이 될 만한 이 글과 관련된 중요한 링크들을 소개합니다.
계속하기 전에 잠깐 곁길로 가서, 일부 여러분이 가지고 있을 법한 질문에 답해 보겠습니다. 이 질문을 이해하는 것이 이번 발전의 중요성을 파악하는 데 결정적이기 때문입니다.
제로샷 학습이란 무엇인가?
제로샷 학습은 어떤 과제에 대해 별도의 학습을 전혀 받지 않았더라도, 다른 유형의 과제들로 학습된 모델이 그 과제에 적용될 수 있는 능력을 가리키는 기계 학습 용어이다.
우리 목적에서 제로샷이 중요한 이유는, 그 개념의 주도적 개발자가 바로 Google이기 때문이다.
Google 검색 결과는 주로 다음 분야에 집중된 머신러닝 기법에 의해 크게 영향을 받습니다. NLP 분야한 과제에서 얻은 학습 내용을 다른 과제에 옮겨 적용해 그 새로운 과제의 진전을 가속하는 능력은 매우 중요하다.
사전 학습, 파인튜닝, 프롬프트는 어떻게 될까?
다음으로 넘어가기 전에 이해해 두면 도움이 되는 핵심 개념들은 다음과 같습니다:
- 사전 학습사람과 마찬가지로 기계도 한 분야에서 얻은 지식을 다른 학습 영역으로 옮겨 적용할 수 있다(그런 능력이 활성화되어 있다는 전제하에 — 여기서 컴퓨터만을 지칭하는 것은 아니다). 새로운 과제에 대비한 사전 학습에서는, 한 과제에서 학습된 모델이 새로운 과제에 적용될 수 있는 새로운 파라미터를 인식하도록 가르치고, 공통되는 파라미터에 대해서는 새로운 초기 가중치로 학습시키게 된다. 결국 감성 분석은 번역과는 다른 방식으로 단어 순서에 가중치를 둘 것이지만, 두 과제에 공통으로 관여하는 파라미터도 일부 존재한다.
- 파인튜닝파인튜닝은 기본적으로 우리가 새롭지만 다른 모델을 학습시키려는 대상 도메인에서 이미 학습된 모델의 가중치를 가져와, 그 가중치로 새 모델을 초기화하는 것이다. 예를 들어 감성 분석에 사용하려는 모델이 있고, 이를 새로 학습하려고 하는데, 이전에는 독해 과제로 학습된 모델이 있다고 하자. 이 경우 우리가 학습하려는 도메인에서 이미 학습된 이전 모델의 가중치로 새 모델을 초기화해 파인튜닝을 수행한다.
- 프롬프트 입력: 머신러닝에서 프롬프트란, 시���템이 답변할 수 있는 형태로 만들기 위해 진술문에 텍스트 조각을 덧붙이는 것을 말한다. 예를 들어 “그는 그 식당에 다시는 가지 않았다.”라는 리뷰가 있을 때, 그 감성을 판단하고자 한다면 텍스트에 “음식은 _______였다.”를 추가하고, 해당 질문에 답하도록 학습된 시스템이 리뷰의 감성을 판별하도록 할 수 있다.
이제, 다시 FLAN으로 돌아가 보자
FLAN이 왜 중요한지 살펴보기 전에, 모델이 어떻게 학습되는지와 그 결과부터 이해하는 것이 중요하다.
독자 여러분께 부탁드리고 싶은 점이 있습니다. 아래에서 제가 언급하는 도메인과 과제를 문자 그대로만 이해하지 말고, 이를 더 크거나 다른 규모로 어떻게 적용할 수 있을지까지 함께 생각해 주세요. 특히 SEO 종사자라면, 발명가인 Google을 모든 것을 긁어모아 색인하는 거대한 스크래핑 머신으로 떠올려 보세요. 때로는 그렇게 모아 둔 것을 어떻게 활용할지 그다음에야 고민하기도 합니다.
이제 FLAN에 관한 기술적인 내용을 살펴보려 합니다. 무엇인지, 어떻게 학습되었는지, 결과는 어떠한지 등을 다룰 것입니다.
FLAN이 풀고자 하는 문제
많은 머신러닝 모델은 학습에 오랜 시간이 걸리고 비용도 매우 많이 든다. 특히 해당 과제와 유사한 사전 학습 모델이 없는 경우에는 더욱 그렇다.
문제를 더욱 악화시키는 요소로, 학습 데이터를 구축하는 일도 시간과 비용이 많이 든다.
이제 우리의 목표는 다른 도메인에서 학습한 모델을 개발해 빠르게 재사용할 수 있도록 하고, 이상적으로는 새로운 과제에 추가 학습 데이터가 거의 없거나 전혀 필요하지 않도록 하는 것이다.
앞서 설명했듯이, 추가 학습 데이터가 거의 없거나 전혀 필요하지 않은 요구사항을 제로샷이라고 하며, FLAN은 바로 이를 목표로 설계되었다.
전체 흐름이 어떻게 전개되는지 살짝 맛보기로 보여 드리면 이렇습니다:

결국 FLAN은 25개 과제 중 19개에서 GPT-3 제로샷 모델을 능가했다.
FLAN 설정
이 논문에서 FLAN이 기본적으로 어떻게 설정되었는지 이해하려면, 논문 자체의 설명을 직접 참조하는 것이 가장 좋습니다:
우리는 1,370억 개의 파라미터를 가진 사전 학습 언어 모델을 사용하고, 자연어 지시문으로 표현된 60개가 넘는 NLP 과제의 혼합에 대해 모델을 미세 조정하는 방식으로 인스트럭션 튜닝을 수행한다. 이렇게 얻어진 모델을 우리는 다음과 같이 부른다 에미세 조정됨 엘에이언어 엔et, 또는 FLAN."

각 작업마다 지시 튜닝용 템플릿을 열 가지씩 작성했습니다.
논문에는 지시 튜닝 템플릿의 예시가 다음과 같이 제시되어 있습니다:

열 가지 템플릿 중 7개는 해당 과제의 핵심 전제를 그대로 따랐고(예: 리뷰 7개를 보고 긍정/부정을 판별), 3개는 과제를 “뒤집어” 시스템이 예를 들어 부정적인 리뷰를 생성하도록 지시했습니다.
자연어 지시를 통해 이를 수행하는 좋은 예시는 논문에서 다음과 같이 제시됩니다:
"Brown 등(2020)이 지적했듯이, GPT-3가 NLI에서 어려움을 겪는 한 가지 이유는 비지도 학습 데이터에서 NLI 예제가 자연스럽게 등장할 가능성이 낮아, 문장 이어쓰기 형태로는 어색하게 표현되기 때문일 수 있습니다. 반면 FLAN에서는 NLI를 “<premise>가 <hypothesis>를 의미하나요?”라는 보다 자연스러운 질문 형태로 제시하여 훨씬 더 높은 성능을 얻었습니다."
기술적 교육 세부사항
이 실험에서는 1,370억 개의 파라미터를 가진 트랜스포머 언어 모델을 사용했습니다.
사전 학습 데이터의 약 90%는 영어였습니다(편향을 알아두면 좋습니다).
이들이 사용한 데이터셋은 GPT-3의 학습 세트만큼 깨끗하지 않았기 때문에, 제로샷과 퓨샷 성능이 다소 떨어질 것으로 예상했습니다.
지시 튜닝 파이프라인은 여러 데이터세트를 섞고 각 데이터세트에서 예시를 무작위로 샘플링했습니다. 과제별 학습 데이터 규모가 크게 달랐기 때문에(예를 들어 번역 데이터는 다른 과제보다 훨씬 많음) 사용되는 학습 예시 수를 3만 개로 제한했습니다.
참고: 이 섹션의 일부는 제 이해 범위를 넘어가므로, 더 자세한 내용이 필요하시다면 위에 링크된 논문의 4쪽을 참고하시길 권합니다.
결과는? FLAN이 뛰어나다
요약하면, FLAN은 25개의 제로샷 과제 중 19개에서 GPT-3를 능가했습니다.
세부 내용은 다음과 같습니다…
자연어 추론
이러한 과제에서는 모델에 전제와 가설이 주어지며, 가설이 참인지 아닌지를 판별해야 합니다.
결과는 다음과 같습니다:

FLAN은 모든 NLI 과제에서 강력한 성능을 보였으며, GPT-3의 제로샷 설정을 능가했을 뿐만 아니라 퓨샷에서도 앞섰고, 놀랍게도 한 과제에서는 감독 학습된 BERT까지도 능가했습니다.
독해 및 오픈 도메인 QA
독해 과제에서는 제공된 정보를 바탕으로 질문에 답하도록 모델에 요구합니다.
결과

다시 한 번, FLAN은 대부분의 과제에서 GPT-3의 퓨샷 설정까지도 능가합니다.
상식 추론 및 지시어 해소
상식 추론에서는 우리가 일상에서 마주치는 다양한 상황의 유형에 대해 모델이 그럴듯한 가정을 하도록 요구합니다.

보시다시피 FLAN은 이러한 유형의 과제에서 뛰어나지 않습니다.
번역
번역은 설명이 굳이 필요 없다고 생각합니다. 혹시 필요하다��, 이 정도면 충분하겠죠:

FLAN은 모든 제로샷 설정에서 GPT-3보다 뛰어나지만, 퓨샷에서는 그렇지 않습니다.
절제 실험
제가 가장 먼저 가졌던 질문부터 시작해 보겠습니다:
절제 실험이란 무엇인가?
머신러닝에서 절제 실험은 간단히 말해 실험의 특정 요소(예: 피처)를 제거한 뒤 모델을 다시 실행하여, 그 요소가 결과에 얼마나 기여하는지를 더 잘 파악하는 방법입니다.
FLAN 절제 실험
가장 먼저 수행한 실험은 NLI, 오픈 도메인 QA, 상식 추론을 평가 클러스터로 제외하고, 남은 7개 클러스터를 사용해 인스트럭션 튜닝을 진행한 것이었습니다.
결과는 다음과 같습니다:

클러스터를 추가할수록 성능은 꾸준히 향상되었고, 그 추세가 멈출 기미는 보이지 않았습니다. 더 많은 클러스터가 추가될수록 모델은 더욱 강력해지는 것으로 보입니다.
스케일링 법칙
두 번째로 수행한 절제 실험은 데이터 스케일링에 관한 것으로, 모델 규모를 키울수록 성능이 어떻게 향상되는지를 평가한 것입니다.
그 결과는 다음과 같았습니다:

여기서 볼 수 있듯이, 모델 규모는 두 가지 시나리오 모두에 영향을 미칩니다. 하나는 인스트럭션 튜닝 중에 해당 작업들을 본 경우이고, 다른 하나는 보지 않은 경우입니다. 하지만 흥미로운 점은, 보류된 작업에서 성능을 묻자 작은 규모의 모델에서는 튜닝하지 않은 모델이 오히려 튜닝한 모델보다 더 좋은 성능을 보인다는 것입니다.
생각해 보면 당연한 결과입니다. 모델을 어떤 작업에 맞춰 튜닝하면 그 작업에서는 자연스럽게 더 잘합니다. 하지만 한 가지 작업으로 학습된 모델이 새로운 작업에 지식을 적용하려면 시간이 조금 걸리고, 그 과정에서 학습된 가중치를 잘못 적용하는 일도 생길 수 있습니다.
요약하면: 오래된 모델도 새 요령을 배울 수 있습니다. 다만 그 요령을 파악할 시간을 조금만 주면 됩니다.
FLAN과 SEO에 미치는 영향
이 논문의 연구 내용은 MUM에 관한 글을 읽는 것과는 성격이 다르지만, 그 영향은 매우 큽니다.
잠시만 생각해 보세요. 한 도메인에서 학습한 뒤, 그 능력을 바탕으로 다른 도메인에서 정확도를 획기적으로 끌어올릴 수 있는 구글스러운 시스템을.
뉴스처럼 방대한 도메인에서 얻은 지식을 가져와, 그것을 바탕으로 당신의 식당 리뷰에 담긴 감성을 더 정확하게 파악하도록 학습시키는 모습을 상상해 보세요.
구글이 번역에서 익힌 능력을 전혀 다른 작업에도 활용해, Google Assistant를 통해 집 관리까지 도와줄 수 있다고 상상해 보세요.
아니면 이런 기법으로 작업 기반 모델들이 서로에게서 학습할 수 있게 되었다고 상상해 보세요.
이런 방식의 강점은 막강합니다. 한 도메인에서 얻은 학습을 추가 학습을 거의 거치지 않고도 다른 도메인으로 더 신뢰성 있게, 더 효율적으로 이전할 수 있는 능력이야말로 향후 몇 년간 이들 시스템이 비약적으로 도약하는 원동력이 될 것입니다.
그렇다면 SEO 담당자인 당신에게 이것이 직접적인 영향을 미칠까요? 아마 그렇지 않을 겁니다. 다만 거의 끊임없는 알고리즘 업데이트와, 세상과 그 속에서 당신의 웹사이트가 차지하는 위치에 대한 이해도가 비약적으로 향상되는 것을 “영향”으로 본다면 얘기는 달라집니다.
논문에서 제시한 모델과 기법들은 아직 진행 중인 작업입니다. 이런 유형의 시스템이 Google의 중요한 부분에 실제로 도입되려면 최소한 1년은 더 걸릴 것으로 봅니다.
그렇다 해도, 그들이 얼마나 빠르게 진척하고 있는지 내가 쉽게 과소평가하고 있을 수도 있습니다. 당신에게 주어진 시간은 어쩌면 내일까지일지도 모릅니다.
아, 그리고 원한다면 누구나 이 기술에 접근할 수 있습니다.
크레딧
이 글을 쓰는 데 참고로 유용했던 자료들:
Add a comment