Skip to main content

컨텍스트 내 학습 설문: 논문 리뷰

LLM에서 인컨텍스트 러닝을 조망하는 조감도. 이 기사는 AI 번역본입니다. 오역이 의심되면 댓글로 알려 주세요.
Created on September 15|Last edited on September 15
이 블로그 글에서 저는 인컨텍스트 러닝 서베이MOE 컴퓨테이셔널 언어학 국가중점실험실, Shanghai AI Lab, 캘리포니아 대학교에서 발표한 논문.

우리는 살펴보겠습니다



인컨텍스트 러닝이란 무엇인가?

인컨텍스트 러닝 (ICL) 모델의 가중치를 변경하지 않은 채로, 프롬프트 앞에 시연/예시 묶음을 붙여 넣어 모델이 그로부터 학습한 내용을 시험 예시에 즉석에서 적용하도록 하는 방식입니다.
인컨텍스트 러닝에는 몇 가지 고유한 장점이 있습니다:
  • 학습 없이 사용하는 프레임워크
  • 해석 가능한 인터페이스(제공하는 예시는 모두 자연어로 작성됨)
  • 사람이 유추로 학습하는 방식과 매우 유사하다

인컨텍스트 러닝은 사전 학습 단계에서 잘 작동하며, 프롬프트 템플릿과 예시, 표현 방식, 예시의 순서에 매우 민감하다는 것이 입증되었습니다. 사전 학습과 ICL 추론 사이에 모델 파라미터를 소폭 조정하거나 추가 파라미터를 도입하는 워밍업 학습 기간은 ICL 능력을 강화하는 것을 목표로 합니다.

인컨텍스트 학습 수행


지도 인컨텍스트 러닝인컨텍스트 학습 데이터 구성과 멀티태스크 학습 구축
MetaICL 은(는) 요약하면 사전 학습 이후에도 모델을 지속적으로 튜닝하여 추론 시점에 새로운 작업을 더 쉽게 익히도록 하는 메타 학습 프레임워크입니다. 또 다른 논문 사용한다 상징적 튜닝은(는) 분류 과제의 레이블(예: 긍정/부정)을 인컨텍스트 입력-레이블 쌍에서 임의의 기호(예: foo/bar)로 바꾸는 방법이다. 이에 따라 모델은 감성 분석을 함께 학습하고 인컨텍스트 지식을 활용하게 된다. 지시어 튜닝은 지도 학습 접근 방식으로, 모델의 ICL 능력을 향상시킨다.
자기지도 학습 방법 역시 LLM의 인컨텍스트 학습 능력을 강화하기 위해 존재한다. 이 두 패러다임이 공유하는 핵심 아이디어는 사전 학습과 추론 시 ICL을 활용하는 것 사이의 간극을 메우려는 데 있다. 인컨텍스트 학습과 지시어 튜닝은 모두 모델의 문맥 학습 능력을 향상시키며, 사전 학습 이후에 큰 성능 향상의 여지가 있음을 시사한다. 저자들은 사전 학습 이후, 추론 전에 워밍업 단계를 포함할 것을 제안한다. 두 패러다임 모두에서 워밍업 단계의 성능은 빠르게 정체되며, 이는 워밍업에 필요한 데이터가 소량에 불과함을 보여준다.

데몬스트레이션 설계

논문의 데몬스트레이션 설계 섹션은 인컨텍스트 학습을 위한 데몬스트레이션과 예시를 어떻게 설계해야 하는지(예: 순서, 예시의 종류, 예시 자체의 내용, 형식과 개수)를 다룬다. 저자들은 이 섹션을 데몬스트레이션 구성과 데몬스트레이션 선택의 두 부분으로 나눈다.
다음과 같은 다양한 비지도 학습 방법들이 개발되었다.
  • KATE이는 예시들 간 문장 임베딩을 기반으로 샘플을 선택하는 k-NN 방식이며, 다른 연구에서는 언어 모델을 사용해 데몬스트레이션을 생성한다.
  • EPR 입력과 연결해 스코어링 LM에 넣었을 때 높은 점수를 내는 후보 데몬스트레이션을 양성 예시로 라벨링하기 위해 2단계 검색 방법과 스코어링 LM을 사용한다. 예시의 순서에 대해서는, GlobalE와 LocalE 프롬프트 예시의 특정 순열을 점수화하기 위해 사용되는 두 가지 엔트로피 지표의 조합이다. APE자동 프롬프트 엔지니어는 주어진 작업에 대한 프롬프트를 자동으로 생성하는 방법이다. 그리고 물론, 사고 사슬 (CoT)는 추론 시에 모델이 최종 답에 도달하기 전에 중간 단계를 통해 추론하도록 유도하는 데 사용된다. 더 많은 프롬프트 엔지니어링 방법은 내 다른 자료에 있다. 기사!
셀프 애스크 입력에 기반해 모델이 질문을 생성하고, 그 질문에 스스로 답한 뒤, 그 답변을 다시 모델의 문맥으로 주입하도록 유도하는 프롬프트 기법이다.

저자들은 다섯 가지 핵심 결론을 제시한다:
  • 데모 선택 연구는 대부분 인스턴스 수준에 머물러 있어(즉, 주어진 예시 집합을 최적으로 배열하는 방법에 집중하며), 코퍼스 수준의 선택은 충분히 탐구되지 않았다.
  • LLM의 출력 점수 및 확률 분포는 인스턴스 선택에서 핵심적인 역할을 한다
  • 순열 공간은 k!이며 모든 가능성을 고려하는 것은 현실적이지 않다.
  • CoT는 모델의 추론 능력을 향상시키며, CoT 프롬프트 능력을 개선하는 방법을 이해하려는 연구는 매우 유망한 방향이다.
  • LLM을 사용해 예시를 생성할 수 있으므로 템플릿을 만드는 데 인간의 수작업이 필요 없다.

점수화 함수

이 절을 이해하려면 두 개의 방정식을 살펴봐야 한다.
P(yjx)fM(yj,C,x)P(y_j | x) \triangleq f_{\mathcal{M}}(y_j, C, x)

위에서 다음과 같이 말합니다:
후보 출력의 확률 yjy_j 입력에 대한 (클래스 레이블 또는 자유 형식 텍스트) xx 정의에 따라 점수화 함수와 같다 ff 일부 사전 학습된 언어 모델의 경우 M\mathcal{M} 입력을 포함하여 yjy_j, C={I,s(x1,y1),...,s(xk,yk)}C = \{I, s(x_1, y_1), ..., s(x_k, y_k)\}  (선택적 지시사항 II 따라서 kk 자연어로 작성된 입력-출력 쌍/예시)와 입력 xx.
y^=argmaxyjYP(yjx)\hat{y} = \underset{y_j \in Y}{argmax} P(y_j | x)

위에서 다음과 같이 말합니다:
y^\hat{y} 와 같다 yjy_j ( YY) 위의 점수 함수를 최대화하는
기본적으로, ff 출력의 가능성을 추정하는 것은 yjy_j 에게 컨텍스트와 입력이 주어지고 xx. y^\hat{y} 가장 가능성이 높은 출력입니다. 이러한 기능이 있으면 우리 모델이 인컨텍스트 러닝에서 얼마나 잘 수행하는지 정량화하는 데 도움이 되는 이유를 이해할 수 있습니다.

이들 서로 다른 방법에서 얻을 수 있는 핵심 교훈은, 민감도를 완화하고 편향을 줄이는 점수 함수를 만드는 데 여전히 할 일이 많다는 것입니다. 한마디로, 인컨텍스트 러닝의 성능을 정확하게 보정하는 일은 쉽지 않습니다. 이 분야는 아직 매우 신생 단계이며, 표준 지표도 확립되지 않았습니다.

위에는 인컨텍스트 러닝에 영향을 미치는 요인들을 정리한 표가 있습니다.
이들은 사전 학습 단계에서 다음과 같은 결론을 도출했습니다:
  • 도메인 출처가 말뭉치 크기보다 더 중요하다
  • 다운스트림 작업과 관련된 말뭉치가 반드시 ICL 능력을 향상시키는 것은 아니다
  • 낮은 퍼플렉서티가 더 나은 ICL을 의미하지는 않는다
  • ICL의 발현 능력은 일정한 사전 학습 단계 수와 모델 규모에 도달한 뒤에 나타난다
추론 단계에서:
  • 입력과 레이블의 서식이 중요하다
  • 레이블 공간의 노출(예시로 사용하는 레이블 선택)
  • 입력 분포
  • 예시의 순서
  • 쿼리 임베딩과 가까운 임베딩을 가진 예시들
여러 연구가 인컨텍스트 러닝이 왜 작동하는지 탐구한 결과의 핵심 요점은 다음과 같다:
  • 지금까지의 대부분 연구는 단순한 모델에만 한정되어 있다
  • 아마도 그래디언트 기반 방법에서의 추가 연구가 유망할 수 있다
ICL 벤치마크.
인컨텍스트 러닝의 성능을 평가하는 일은 어렵다.
  • 전통적인 평가 과제는 퓨샷 설정에 맞게 조정되어야 한다
  • OpenICL ICL을 평가하기 위한 초기 시도이다
인컨텍스트 러닝이 엄청난 성공을 거두었기 때문에 자연어 처리또한 컴퓨터 비전과 같은 다른 분야에도 적용되었다. SegGPT 다양한 분할 과제를 통합하는 GPT 모델을 사용하며 기타 연구 확산 모델과 LLM의 인컨텍스트 러닝 기능을 결합했다. Flamingo 그리고 Kosmos-1 LLM을 활용하는 멀티모달 모델의 예시들이다. VALL-E X는 음성 LLM의 한 예로, 다국어 간 텍스트-투-스피치 합성과 음성-대-음성 번역 과제에서 강력한 성능을 보여준다.
저자들은 NLP에서의 인컨텍스트 러닝 전략에 관한 발견들이 다른 모달리티에 직접적으로 적용될 수 없다고 지적한다.
전반적으로 ICL은 데이터 엔지니어링(레이블 생성), 모델 보강(리트리버), 지식 업데이트 분야에서 큰 잠재력을 지닌다. 특히 버그 해결을 위해 ChatGPT를 사용할 때 인컨텍스트 문서를 여러 번 함께 제공해야 했던 경험이 있을 정도다.
인컨텍스트 러닝에 대해서는 아직 밝혀야 할 것이 많다. 예시의 구성 요소들(데모 자체, 개수 등)에 따라 성능이 무작위 추측 수준에서 SOTA까지 크게 출렁일 수 있기 때문이다. 이는 여전히 매우 새로운 능력이며, 인컨텍스트 러닝의 성능을 정량화하고 이해하기 위한 황금 표준도 아직 마련되지 않았다. 그냥 작동 방식이다. 또한 효율성의 문제도 있다. 프롬프트에서 점점 더 긴 컨텍스트를 사용할수록 추론에 걸리는 시간은 더욱 늘어난다.

결론

여기까지가 제 요약의 마무리입니다: "인컨텍스트 러닝 서베이. 재미있게 읽으셨길 바랍니다. 그리고 제가 쓴 다른 글들도 꼭 확인해 주세요. 프롬프트 엔지니어링LLM 서베이감사합니다! 👋

참고문헌




이 글은 AI로 번역된 기사입니다. 오역이 의심되면 댓글로 알려주세요. 원문 보고서는 다음 링크에서 확인할 수 있습니다: 원문 보고서 보기