Skip to main content

LLM 시대의 설문 논문 개요 살펴보기

ChatGPT 이후의 LLM을 다룬 실무형 서베이 가이드를 함께 훑어보고, LLM 연구의 향하는 바를 이해해 봅시다! 이 글은 AI로 번역되었습니다. 오역이 의심되는 부분이 있으면 댓글로 알려 주세요.
Created on September 15|Last edited on September 15


실무에서 LLM의 힘을 활용하기: ChatGPT를 넘어서는 설문 리뷰


이 주제에서 LLM 관련 서베이 논문을 하나 이미 다뤘습니다. 블로그 포스트하지만 여기서 몇 가지를 더 다루겠습니다! 자, 시작해 봅시다.

모델 실무 가이드

위 도표(이 논문의 핵심 도식)는 인코더 전용, 인코더-디코더, 디코더 전용 트랜스포머 기반 모델들의 공개 시점을 보여 줍니다. 유명한 논문에서 소개된 그 아키텍처를 바탕으로 이렇게나 많은 연구가 진행되었다는 게 믿기지 않을 정도입니다. 어텐션은 전부다 논문. 저자들은 몇 가지 흥미로운 관찰을 덧붙입니다:
  • 디코더 전용 모델의 인기는 폭발적으로 증가하고 있으며, 인코더 전용 모델은 점차 사라지고 있습니다.
  • OpenAI는 LLM 업계에서 지배적입니다
  • Meta는 LLM과 관련된 연구와 모델을 꾸준히 오픈 소스로 공개하고 있습니다
  • GPT-3의 도입 이후 상업적 활용을 염두에 둔 클로즈드 소스 모델이 더 많이 등장했습니다
  • 인코더-디코더 모델은 유망할 수 있습니다
세 가지 범주 각각에 해당하는 인기 LLM 목록은 아래 표에 정리했습니다.

저자들은 2가지 내용을 설명합니다 스타일 LLM의
  • BERT-스타일: 물었다 언어 마스킹 언어 모델링(MLM): 문장의 일부 단어를 마스킹한 뒤, 언어 모델이 빈칸을 채우도록 학습하는 방식
  • GPT-스타일: GPT-3로 촉발된 자기회귀 언어 모델의 급부상

데이터 실용 가이드

논문 전반에서 저자들은 일종의 발견에 해당하는 몇 가지 주석을 덧붙인다.
주석 1
  • LLM > 미세 조정된 LM(저자들은 매개변수 200억 미만 모델을 LLM으로 보지 않는다) — 분포 밖 데이터에서
  • 주석 데이터가 제한적이면 LLM이 미세 조정된 LM보다 유리하다. 주석 데이터가 충분하다면 목표와 상황에 따라 두 방식 모두 효과적일 수 있다.
  • 다운스트림 작업에는 유사한 데이터로 사전 학습된 모델을 선택하는 것이 바람직하다(전이 학습과 유사).
저자들은 주석 데이터 가용성에 대해 세 가지 시나리오를 검토한다:
  • 주석 데이터가 없을 때: LLM을 제로샷으로 사용하는 것이 가장 적합하다
  • 주석 데이터가 적을 때: LLM을 사용하여 맥락 내 학습; 다만 LMs(LLM이 아닌)도 최소한의 데이터로 미세 조정하는 기법들이 존재한다
  • 주석 데이터가 풍부할 때: 미세 조정된 LM도 충분히 현실적인 선택이며, 물론 LLM도 동일하게 유효하다. 다만 두 접근법 모두 데이터 가용성과는 별개의 장단점이 존재한다.
저자들은 테스트·사용자 데이터가 종종 분포 밖일 때에도 LLM이 상당히 잘 작동한다고 지적한다. 의사결정 흐름도를 간단히 요약하는 좋은 방법은 무엇일까? 마침 저자들이 직접 제공해 두었다!


NLP 작업을 위한 실용 가이드

주석 2
미세 조정된 언어 모델은 일반적으로 개체명 인식(NER)과 같은 전통적인 자연어 이해(NLU) 작업에서 더 좋은 성능을 보이지만, LLM도 도움이 될 수 있다.
이는 다음과 같은 근거로 확인할 수 있다:
  • 감성 분석: IMDB와 SST에서는 미세 조정된 LM과 LLM의 성능이 동등하다
  • 유해성 탐지: CivilComments에서 미세 조정된 LM이 LLM보다 우수하다
  • 자연어 추론(NLI) RTE와 SNLI: 미세 조정된 LM > LLM, CB에서는 LLM = 미세 조정된 LM
  • 질의응답(QA): SQuADv2와 QuAC에서는 미세 조정된 LM이 LLM보다 우수하다
  • 개체명 인식(NER): 미세 조정된 LM >> LLM, CoNLL-2003"
요약하면, 주석 데이터가 충분하고 테스트·사용자 데이터가 학습 데이터와 분포가 크게 다르지 않은 전통적 벤치마크에서는 미세 조정된 LM이 일반적으로 LLM보다 더 뛰어나다. 저자들은 LLM의 성능 저하가 부분적으로 프롬프트 구성 방식에 기인한다고 지적한다.
그러나 LLM이 뛰어난 NLP 과제도 여전히 있다. 분포 이동에 취약한 잡종 텍스트 분류와 적대적 NLI에서는 LLM이 더 강한 일반화 능력을 보인다.
자연어 생성 다음의 두 범주를 포함한다:
  • 입력 텍스트를 새로운 기호 시퀀스로 변환하기(문단 요약과 같은 과제별 생성; 모델은 요약만 생성함)
  • 개방형 생성
비고 3
LLM은 일반화 능력과 창의성이 뛰어나기 때문에 자연어 생성 분야에서 우위를 점하고 있다.
요약 과제에서 XSUM 그리고 CNN/DailyMail, 브리오 그리고 페가수스 LLM보다 더 잘 수행하며, ROUGE 평가 지표로는 측정되지만, 인간 평가에서는 여전히 미세튜닝된 모델 출력보다 LLM의 출력을 선호하는 경향이 있다. 이는 데이터셋에 인간 판단 기준에 부합하는 모범 요약문(예시)이 부족하다는 점을 반영할 수도 있다.
  • LLM은 기계 번역(MT)에서 충분한 성능을 보이며, 사전학습에 다국어 데이터를 더 많이 포함하면 성능을 더욱 향상시킬 수 있다
  • 자원이 풍부한 MT 시나리오에서는 미세튜닝된 LM이 LLM을 약간 앞선다
  • 저자원 MT 시나리오에서는 미세튜닝된 LM이 LLM을 현저하게 앞선다
주석 4
  • LLM은 지식 집약적 과제에서 강력한 성능을 보인다
  • 학습된 지식과 맞지 않거나 문맥적 지식이 필요한 경우에는 성능이 떨어진다
이는 다음과 같은 근거로 확인할 수 있다:
  • 클로즈드북 QA: LLM이 미세튜닝된 LM을 앞서는 NaturalQuestions, WebQuestions, TriviaQA
  • 그러나 데이터셋이 작동하는 경우에는 대해 모델이 이미 알고 있는 지식(혹은 LLM이 아직 그 지식을 학습하지 못한 경우)만으로는 미세튜닝된 LM에 비해 성능이 뒤처진다
  • 대안으로는 검색 증강이 있는데, 이는 본질적으로 모델이 필요한 정보를 검색해 올 수 있는 ‘메모리 뱅크’ 형태의 데이터베이스이다
비고 5
  • 지수적 규모 확대로 모델은 상식 추론과 산술 추론에서 더욱 능숙해진다
  • 창발적 능력
  • 일부 경우에는 규모를 키워도 모델 성능이 향상되지 않는다
산술 추론에서는 두 자리 수 덧셈 능력이 약 130억 개 파라미터 규모에서 뚜렷해지는 것으로 보고되었다. 일부 벤치마크(GSM8K, SVAMP, AQuA)에서는 LLM이 과제 특화 방법과 견줄 만한 성능을 보이며, GPT-4는 모든 다른 방법을 능가하는 성과를 입증했다. 또한 Chain-of-Thought 프롬프트는 모델 성능 향상에 기여하는 것으로 나타났다.
창발적 능력 사전학습된 언어 모델에는 없던 능력이 LLM에서 새롭게 나타나는 현상을 말한다. 이러한 능력은 예기치 않은 경우가 많으며, 모델이 더 다양한 과제를 수행하도록 해준다. 예로, 저자들은 GPT-3가 단어를 철자 재배열로 복원하거나, 뒤집힌 형태에서 원래 단어를 써내는 능력을 들었다.
The 역스케일링 현상 은 모델의 규모 확장이 성능 저하와 맞물리는 지점이다. The U자형 현상 모델 성능이 개선되다가 한차례 하락을 거친 뒤 다시 향상되는 지점을 말한다.
주석 6
  • LLM의 사전학습과 다른 과제에서는 파인튜닝된 모델이 여전히 유효하다
  • LLM은 NLP 과제에서 품질 평가에 활용될 수 있다
다음 섹션에서는 잘못된 형식의 입력 데이터, 불명확한 과제 정의, 암묵적 의도의 오해(예: 사용자가 원하는 바를 틀리게 설명하거나 표현이 어색한 경우)에 취약할 수 있는 ‘현실 세계’ 과제를 다룹니다.
주석 7
  • 현실 세계에서는 LLM이 파인튜닝된 LM보다 훨씬 뛰어나지만, LLM 평가는 여전히 미해결 과제다
정렬 튜닝과 인스트럭션 튜닝과 같은 능력은 현실 세계에서 LLM의 성능을 더욱 끌어올린다.
주석 8
  • 비용과 엄격한 지연 시간이 문제라면, PEFT(매개변수 효율적 파인튜닝)를 적용한 파인튜닝 모델이 더 낫다
  • 과제별 데이터셋에서는 LLM이 여전히 일부 지름길 학습 문제를 보인다
  • LLM의 안전 문제는 출력이 개방형인 만큼 최우선 과제다
몇 가지 통계:"
  • GPT-1은 1억 1,700만 개의 파라미터, GPT-2는 15억 개, GPT-3는 1,750억 개의 파라미터를 갖는다
  • T5 110억 파라미터 모델을 한 번 학습하는 데 130만 달러가 들었다
  • GPT-3 1750억 파라미터 모델을 한 번 학습하는 데 약 460만 달러가 들었다
  • PaLM은 약 두 달 동안 3.4GWh를 소비했다
  • OpenAI는 Microsoft 및 Azure와 협력하여 CPU 코어 28만 5천 개와 최고급 GPU 1만 개로 구성된 대규모 슈퍼컴퓨터를 활용했다
  • LLM은 단일 컴퓨터에 올리기에는 너무 커서, API를 통해 서비스 형태로 제공된다
  • PEFT는 훨씬 적은 비용으로 모델을 학습하는 데 사용할 수 있으며, 대표적인 방법으로 Low Rank Adaptation(LoRA), Prefix Tuning, P-Tuning이 있다
  • LLM에서는 정확도와 견고성이 상관관계를 보이지만, 작업별 데이터로 LLM을 파인튜닝하면 과매개변수화와 과적합이 발생할 수 있다
  • LLM은 사회적 편견을 지속시킨다
  • LLM은 레이블 편향에 취약하며, 제로샷 상황에서도 지름길 추론을 하곤 한다
  • LLM은 의도적이든 비의도적이든 유해한 콘텐츠를 생성할 수 있으며, 환각을 일으켜 거짓 정보를 만들어낼 수 있다
결론으로, 저자들은 다음과 같은 관심 영역을 몇 가지 제시한다:
  • 벤치마크와 실제 데이터셋 모두에서 모델을 평가하기
  • LLM의 모델 및 안전 정렬 문제
  • 성능 스케일링 예측

2017년부터 2023년까지의 대규모 언어 모델 연구에 대한 서지계량학적 검토

이번 설문 리뷰의 두 번째 논문인 만큼, 첫 번째 논문에서 이미 다룬 내용을 반복하지 않도록 최선을 다하겠습니다. 이번 글에서는 특히 흥미로운 결과들을 중심으로 조명하겠습니다. 그럼 시작하겠습니다!

이들이 출판물을 수집하는 워크플로우는 위에 제시되어 있다. 이들은 Web of Science (WoS) Core Collection에서 다음 검색식을 사용해 논문 제목과 주제를 기반으로 출판물을 검색했다.

이 검색식으로 2017년부터 2023년 사이에 약 5.7천 편의 출판물을 확보했다. 이후 BERTopic을 사용했다.
  • SBERT를 사용해 제목과 초록을 임베딩 벡터로 인코딩하기
  • UMAP으로 차원 축소하기
  • k-평균을 사용한 클러스터링
  • 단어 빈도 세기를 위한 Bag of Words(BoW)
  • c-TF-IDF(클래스 기반 TF-IDF)를 사용하여 주제 키워드의 차이를 추출하기
그들은 …를 했다 엄청나게 많음 제가 방금 나열한 것보다 훨씬 더 많은 일을 했고, 솔직히 말해 그 모든 것을 다 이해하진 못했습니다! 하지만 그들이 만들어낸 결과는 분명히 이해합니다!
그들은 5개 범주로 분류된 200개 주제로 범위를 좁혔습니다:
  • 알고리즘과 NLP 과제
  • 의료 및 공학 적용 분야
  • 사회 및 인도주의 적용 분야
  • 비판적 연구
  • 인프라
2018년 이후, 특히 ChatGPT 등장 이후로 출판 빈도가 폭발적으로 증가했습니다. 대부분의 출판물은 알고리즘과 NLP 과제에 관한 것입니다.
뚜렷하게 구분되는 클러스터는 보이지 않습니다. 인프라는 분산 컴퓨팅, 하드웨어, 그리고 가속기에 초점을 맞춥니다.
(a) 일반적인 NLP 개념과 과제를 보여줍니다. (b)는 사전학습과 NLP 기법에 초점을 맞춘 것으로 보입니다. (c)는 가짜 뉴스와 혐오 발언 같은 기사에 집중합니다.
대부분의 논문은 북미, 아시아 태평양, 유럽에서 출판되었습니다. 저자들은 미국과 중국이 알고리즘과 NLP 과제 연구의 최전선에 있다고 밝혔습니다.
대학은 LLM 연구에서 큰 역할을 하지만, 대형 테크 기업들도 자체적으로 중요한 기여자로 성장했습니다.
이 논문에는 흥미로운 발견이 많았습니다! 대부분의 설문 논문은 연구의 기술적 측면을 다루지만, 이 논문은 더 큰 그림에서의 추세—연구 분야 전체의 흐름, 전반적인 방향성, 그리고 실제 세계에서의 존재감—을 짚어냅니다.

결론

자, 이렇게 해서 두 편의 설문 논문을 정리해 보았습니다. 한 편은 LLM 연구 전반을 다루고, 다른 한 편은 2017년부터 2023년까지 지난 6년간의 LLM 연구 트렌드를 짚었습니다! 유익하셨기를 바랍니다. 읽어 주셔서 감사합니다! 👋

참고문헌

이것도 함께 확인해 보세요 블로그 포스트 여기서는 또 다른 설문 논문을 다룹니다!
실무에서 LLM의 힘을 활용하기: ChatGPT를 넘어서는 설문 리뷰
2017년부터 2023년까지의 대규모 언어 모델 연구에 대한 서지계량학적 검토


이 기사는 AI로 번역되었습니다. 오역이 의심되는 부분이 있으면 댓글로 알려주세요. 원문 보고서 링크는 다음과 같습니다: 원문 보고서 보기