Skip to main content

대규모 언어 모델(LLM) 가이드

LLM의 역사와 획기적인 GPT 시리즈, 그 작동 원리를 알아보고 인간 피드백 기반 강화학습과 같은 최신 발전도 살펴보세요. 이 글은 AI가 번역한 기사입니다. 오역 가능성이 있으면 댓글로 알려주세요.
Created on September 15|Last edited on September 15
이 글에서는 대규모 언어 모델(LLM)의 놀라운 세계와, 인간과 유사한 언어를 이해하고 생성하는 뛰어난 능력을 자세히 살펴보겠습니다. 또한 GPT와 그 후속 모델과 같은 중요한 이정표를 중심으로 이들 모델의 역사와 발전 과정을 논의하겠습니다.
또한 다양한 유형의 LLM, 그 활용 분야, 그리고 최신 모델의 토대를 이루는 Transformer 아키텍처의 작동 방식도 살펴보겠습니다. 더 나아가 인간 피드백 기반 강화학습과 같은 최첨단 발전을 검토하고, 이것이 AI 성능을 어떻게 향상시키는지 알아보겠습니다.
이 글을 다 읽고 나면 대규모 언어 모델, 그 막대한 잠재력, 그리고 이 획기적 기술이 맞이할 흥미로운 미래에 대해 깊이 있게 이해하게 될 것입니다.
다음 내용을 다룹니다:

목차



시작해 봅시다!

대규모 언어 모델이란?

대규모 언어 모델이라고 하면, 사람처럼 말을 할 수 있는 소프트웨어를 뜻합니다. 이 모델들은 매우 놀라운데, 문맥을 파악하고 일관된 답변을 만들어낼 뿐 아니라 마치 실제 사람이 말하는 듯한 느낌을 주기도 합니다.
이러한 언어 모델은 방대한 텍스트 데이터를 분석해 언어 사용의 패턴을 학습함으로써 작동합니다. 이렇게 학습한 패턴을 바탕으로 사람이 말하거나 글로 쓸 법한 문장과 거의 구분하기 어려운 텍스트를 생성합니다.
가상 비서와 대화를 나눠 보았거나 AI 고객 지원 에이전트와 상호작용해 본 적이 있다면, 알지 못한 채 대규모 언어 모델과 상호작용했을 수도 있습니다! 이 모델은 챗봇, 번역, 콘텐츠 생성 등 매우 폭넓은 분야에 활용됩니다.
가장 인상적인 대규모 언어 모델 중 일부는 OpenAI가 개발했습니다. 예를 들어 GPT‑3 모델은 무려 1750억 개의 파라미터 그리고 다음과 같은 작업을 수행할 수 있습니다 요약, 질문 응답, 심지어 창작 글쓰기까지도 가능합니다! 아직 이런 모델이 얼마나 뛰어날 수 있는지 확신이 서지 않는다면, 직접 ChatGPT를 사용해 보시길 권합니다.

최초의 대규모 언어 모델은 무엇이었을까?

앞서 언급했듯이, 대규모 언어 모델을 이야기할 때 우리는 본질적으로 사람과 유사한 언어를 생성하는 데 뛰어난 소프트웨어를 의미합니다. 사람들의 관심을 본격적으로 끌어모은 첫 번째 모델은 GPT(사전 학습된 생성형 트랜스포머) 에서 개발한 모델 OpenAI 2018년에. 잘 알려진 ChatGPT는 기본적으로 GPT-3.5입니다.
GPT 모델을 특별하게 만든 점은 트랜스포머 아키텍처를 사용한 최초의 언어 모델 중 하나였다는 것입니다. 트랜스포머는 텍스트 데이터에서 장기 의존성을 파악하는 데 매우 뛰어난 신경망으로, 모델이 맥락에 맞고 일관성 높은 언어를 생성할 수 있게 해 주었습니다. 이를 통해 1억 1,700만 개의 파라미터, GPT 모델은 자연어 ���리 분야의 판도를 바꿔 놓았습니다.
그 이후로 우리는 다음과 같은 더 크고 더 인상적인 언어 모델들이 개발되는 모습을 보았습니다 GPT-2, GPT-3, 그리고 BERT이들 모델은 GPT 모델보다 더 정교하고 인간에 가까운 텍스트를 생성할 수 있습니다. 그러나 GPT 모델이 더 이상 가장 크거나 최고는 아닐지라도, 여전히 언어 모델의 역사에서 중요한 이정표이며 자연어 처리 분야에 큰 영향을 미쳤습니다.

대규모 언어 모델의 유형은 무엇일까요?

대규모 언어 모델에는 여러 유형이 있으며, 각자 고유한 강점과 약점이 있습니다.

오토인코더 기반 모델

대규모 언어 모델의 한 유형은 오토인코더 기반 모델로, 입력 텍스트를 더 낮은 차원의 표현으로 인코딩한 뒤 그 표현을 바탕으로 새로운 텍스트를 생성합니다. 이러한 모델은 특히 텍스트 요약이나 콘텐츠 생성과 같은 작업에 뛰어납니다.

시퀀스-투-시퀀스 모델

대규모 언어 모델의 또 다른 유형은 시퀀스-투-시퀀스 모델로, 입력 시퀀스(예: 문장)를 받아 출력 시퀀스(예: 다른 언어로의 번역)를 생성합니다. 이러한 모델은 기계 번역과 텍스트 요약에 자주 사용됩니다.

트랜스포머 기반 모델

트랜스포머 기반 모델은 또 다른 인기 있는 대규모 언어 모델 유형입니다. 이들 모델은 텍스트 데이터의 장기 의존성을 이해하는 데 뛰어난 신경망 아키텍처를 사용하므로, 텍스트 생성, 언어 번역, 질문 응답 등 광범위한 언어 작업에 유용합니다.

재귀 신경망 모델

재귀 신경망 모델은 문장의 구문 구조를 나타내는 파스 트리와 같은 구조화된 데이터를 처리하도록 설계되었습니다. 이러한 모델은 감정 분석과 자연어 추론과 같은 작업에 유용합니다.

계층적 모델

마지막으로, 계층적 모델은 문장, 문단, 문서처럼 서로 다른 세분화 수준의 텍스트를 처리하도록 설계되었습니다. 이러한 모델은 문서 분류와 토픽 모델링과 같은 작업에 사용됩니다.

대규모 언어 모델은 어떻게 작동할까?

가장 널리 알려진 대규모 언어 모델(LLM) 아키텍처는 트랜스포머 아키텍처입니다. 전형적인 트랜스포머 모델은 입력 데이터를 처리할 때 네 가지 주요 단계를 거치며, 아래에서 각 단계를 살펴보겠습니다.
먼저 모델은 단어 임베딩을 통해 단어를 고차원 벡터 표현으로 변환합니다. 그다음 데이터는 여러 트랜스포머 층을 거쳐 처리됩니다. 이 층들 내부에서는 셀프 어텐션 메커니즘이 시퀀스 내 단어들 사이의 관계를 파악하는 데 핵심적인 역할을 합니다. 마지막으로 트랜스포머 층의 처리가 끝나면, 모델은 학습된 문맥을 바탕으로 시퀀스에서 가장 가능성이 높은 다음 단어나 토큰을 예측하여 텍스트를 생성합니다.
좀 더 깊이 들어가 볼까요?
GPT-2 아키텍처 (출처)

1- 워드 임베딩

대규모 언어 모델을 구축할 때, 단어 임베딩 매우 중요한 첫 단계입니다. 이는 비슷한 단어들이 서로 가까이 모이도록, 단어를 고차원 공간의 벡터로 표현하는 과정을 의미합니다. 이렇게 하면 모델이 단어의 의미를 이해하고 그 이해를 바탕으로 예측을 수행할 수 있습니다.
출처
다른 예를 들어 보겠습니다. “cat”과 “dog”이라는 단어를 생각해 봅시다. 보통 이 두 단어는 “cat”과 “burgers” 같은 또 다른 단어 쌍과 비교했을 때 서로 더 가깝게 위치합니다. 두 단어 모두 보통 털이 복슬복슬하고 친근한 반려동물이라는 점에서 유사합니다. 워드 임베딩에서는 이러한 단어들이 벡터 공간에서 서로 가까운 위치의 벡터로 표현됩니다. 이렇게 하면 모델이 두 단어가 비슷한 의미를 가지며 유사한 맥락에서 사용될 수 있음을 파악할 수 있습니다. 그렇다면 워드 임베딩 과정은 어떻게 수행될까요?
워드 임베딩을 만드는 과정은 뉴스 기사나 책과 같은 대규모 텍스트 코퍼스에 대해 신경망을 학습시키는 것에서 시작합니다. 학습 동안 네트워크는 문장 안에서 어떤 단어 앞뒤에 오는 단어들을 바탕으로, 특정 단어가 주어진 문맥에서 등장할 확률을 예측하는 법을 익힙니다. 이렇게 학습된 벡터는 코퍼스 내 서로 다른 단어들 사이의 의미론적 관계를 포착합니다. “King”, “Queen”, “Man”, “Woman” 같은 단어들에도 유사한 방식이 적용됩니다.
출처
워드 임베딩이 만들어지면, 이를 입력으로 사용해 번역, 요약과 같은 특정 언어 과제에 맞춰 학습된 더 큰 신경망에 투입할 수 있습니다. 텍스트 분류 또는 기계 번역워드 임베딩을 사용하면 모델이 단어의 의미를 더 잘 파악하고, 그 이해를 바탕으로 더 정확한 예측을 수행할 수 있습니다.

2- 위치 인코딩

위치 인코딩 은 모델이 단어가 문장 내에서 어느 위치에 있는지 파악하도록 돕는 데 초점을 맞춥니다. 단어의 의미나 “고양이”와 “개”처럼 서로 얼마나 비슷한지 같은 관계는 다루지 않습니다. 대신 위치 인코딩은 오로지 단어의 순서를 추적하는 역할을 합니다. 예를 들어 “The cat is on the mat” 같은 문장을 다른 언어로 번역할 때 “cat”이 “mat”보다 앞에 온다는 사실을 아는 것이 매우 중요합니다. 단어 순서는 번역, 요약, 질문에 답하기 같은 작업에서 특히 중요합니다.
학습 단계에서는 신경망이 방대한 텍스트 말뭉치를 입력받아 그 데이터를 바탕으로 예측을 수행하도록 학습됩니다. 예측 출력과 실제 출력 간의 차이를 최소화하기 위해, 네트워크의 뉴런 가중치는 역전파 알고리즘을 사용해 반복적으로 조정됩니다.

3- 트랜스포머

고급 대규모 언어 모델은 다음과 같은 특정 아키텍처를 활용합니다 트랜스포머. 트랜스포머 레이어는 전통적인 신경망 레이어 뒤에 오는 별도의 레이어로 생각하면 됩니다. 실제로 트랜스포머 레이어는 전통적인 레이어에 추가로 덧붙이는 형태로 자주 사용됩니다 신경망 자연어 텍스트에서 장기 의존성을 더 잘 모델링할 수 있도록 LLM의 능력을 향상시키는 아키텍처.
트랜스포머 레이어는 입력 시퀀스를 순차적으로가 아니라 전체를 병렬로 처리하여 동작합니다. 이 레이어는 자기어텐션 메커니즘과 피드포워드 신경망이라는 두 가지 핵심 구성 요소로 이루어져 있습니다.
트랜스포머 아키텍처 (출처)
The 자기어텐션 이 메커니즘은 예측에 얼마나 중요한지에 따라 시퀀스의 각 단어에 가중치를 부여할 수 있게 합니다. 이를 통해 모델은 단어들 사이의 거리가 멀더라도 그 관계를 포착할 수 있습니다.
출처
따라서 자기어텐션 레이어가 시퀀스 처리를 마치면, 위치별 피드포워드 레이어가 입력 시퀀스의 각 위치를 받아 서로 독립적으로 처리합니다.
각 위치마다 완전연결 레이어가 해당 위치의 토큰(단어 또는 서브워드)의 벡터 표현을 입력으로 받습니다. 이 벡터 표현은 바로 앞선 자기어텐션 레이어의 출력입니다.
이 문맥에서 완전연결 레이어는 입력 벡터 표현을 모델이 단어들 사이의 복잡한 패턴과 관계를 더 잘 학습할 수 있도록 적합한 새로운 벡터 표현으로 변환하는 역할을 합니다.
학습 중에는, 트랜스포머 레이어의 가중치 예측된 출력과 실제 출력의 차이를 줄이기 위해 반복적으로 업데이트됩니다. 이는 전통적인 신경망 레이어의 학습 과정과 유사한 역전파 알고리즘을 통해 수행됩니다.
트랜스포머에 대해 더 알고 싶다면 이 글을 확인해 보세요.

4- 텍스트 생성

종종 LLM 모델이 수행하는 마지막 단계로, 학습과 미세조정이 완료된 후에는 프롬프트나 질문에 대해 매우 정교한 텍스트를 생성할 수 있습니다. 보통 모델은 몇 단어, 한 문장, 또는 전체 문단이 될 수 있는 시드 입력으로 “프라이밍”됩니다. 그러면 LLM은 학습된 패턴을 활용해 일관되고 문맥에 맞는 응답을 생성합니다.
텍스트 생성 오토리그레션이라 불리는 기법에 의존하며, 이는 모델이 앞서 생성한 단어들을 바탕으로 출력 시퀀스의 각 단어(또는 토큰)를 한 번에 하나씩 생성하는 방식입니다. 모델은 학습 과정에서 습득한 파라미터를 사용하여 다음 단어(또는 토큰)의 확률 분포를 계산하고, 그중 가장 가능성이 높은 선택지를 다음 출력으로 선택합니다.
출처

인간 주도 강화학습으로 AI 성능 강화하기

출처
대규모 언어 모델(LLM) 분야에서 가장 흥미로운 발전 중 하나는 …의 도입입니다. 인간 피드백을 통한 강화학습(RLHF)이 최첨단 기법은 LLM이 인간의 피드백을 통해 학습하고 개선되도록 하여, 다양한 활용 분야에서 더욱 역동적이고 강력한 도구가 되게 합니다.
일반적으로 RLHF는 인간이 기계 학습 모델에 지속적으로 제공하는 피드백 형태를 의미합니다. 이 피드백은 명시적일 수도, 암묵적일 수도 있습니다. LLM의 경우 모델이 잘못된 답을 반환하면 사용자가 이를 수정하여 모델의 전반적인 성능을 향상시킬 수 있습니다.
예를 들어, LLM이 문법적으로 맞지 않거나 의미적으로 적절하지 않은 텍스트를 생성했을 때, 인간은 생성된 텍스트의 어느 부분이 옳고 그른지 표시하는 방식으로 LLM에 피드백을 제공할 수 있습니다. 사용자는 모델이 이해하지 못하는 특정 단어의 의미를 설명하거나 정의해 줄 수도 있습니다. 그러면 LLM은 이 피드백을 활용해 자신의 파라미터를 조정하고, 원하는 결과에 더 부합하는 텍스트를 생성하도록 성능을 향상시킬 수 있습니다.

대규모 언어 모델의 예시

BERT

출처
BERT는 Google이 개발한 사전 학습 딥러닝 모델로, Transformers의 양방향 인코더 표현을 의미하며 자연어를 이해하고 생성하도록 설계되었습니다.
BERT는 양방향 트랜스포머 아키텍처를 활용하여, 입력 텍스트를 앞뒤 양 방향으로 처리함으로써 문맥과 단어 간 관계를 더 잘 이해할 수 있습니다.
BERT는 질의응답, 감성 분석, 개체명 인식, 텍스트 분류 등 다양한 작업에 활용됩니다. 스탠퍼드 질의응답 데이터셋(SQuAD)과 GLUE(General Language Understanding Evaluation) 벤치마크를 포함한 여러 기준 평가에서 최첨단 성과를 달성했습니다.
비교 기준으로, BERT 베이스는 1억 1천만 개의 파라미터반면 두 모델 중 더 정교한 BERT 라지는 3억 4천5백만 개의 파라미터.

GPT-4

출처
긴 기대 끝에, OpenAI가 GPT 시리즈의 최신 혁신을 공개했습니다: GPT-4, Generative Pre-trained Transformer 4의 약자입니다. 이 획기적인 대규모 언어 모델은 전작들을 압도하는 놀라운 규모와 성능으로 앞서 나갑니다. 100조 개의 파라미터, 이전보다 상당히 발전한 1750억 개의 파라미터GPT-3.
GPT-4의 핵심 강점은 GPT-3와 마찬가지로 방대한 텍스트 말뭉치에 대한 광범위한 사전 학습에 있습니다. 이를 통해 매우 다양한 언어적 특징과 관계를 학습할 수 있습니다. 그 결과 GPT-4는 비교적 적은 예시만으로도 특정 자연어 처리 작업에 맞게 미세 조정할 수 있어, 폭넓은 응용 분야에서 뛰어난 효율성과 범용성을 갖춘 도구로 활용됩니다.
GPT-4의 역량을 제대로 이해하려면, OpenAI가 개발에 활용했던 언어 모델인 GPT-3보다 500배 더 강력하다는 사실을 떠올려 보세요. ChatGPT이는 AI 분야에서 눈에 띄는 도약으로, 더 사람에 가까우면서도 정확한 응답을 가능하게 하여 우리가 인공지능과 상호작용하고 그 혜택을 누리는 방식을 혁신적으로 바꿔 놓을 것입니다.

대규모 언어 모델의 미래

대규모 언어 모델의 미래에서 정말 흥미로운 점이 뭔지 아시나요? 이 모델들은 사람의 말을 이해하고 응답하는 능력이 점점 더 좋아질 거예요. 머지않아 휴대전화나 아주 작은 기기처럼 거의 모든 장치에서 효율적으로 사용할 수 있게 될 것입니다. 게다가 의학이나 법처럼 특정 분야에 특화된 전문가 수준의 모델들도 등장할 텐데, 정말 멋지죠.
하지만 이것만으로 끝나지 않습니다. 이러한 언어 모델은 텍스트뿐만 아니라 이미지와 음성도 처리할 수 있게 될 것이며, 전 세계의 다양한 언어와도 함께 작동할 것입니다. 게다가 이러한 AI 모델이 공정하고 책임 있게 동작하도록 하기 위한 노력도 계속되고 있어, 더 개방적이고 편향이 줄어든 방향으로 발전할 것입니다.
요약하자면, 이러한 언어 모델은 우리에게 놀라운 파트너가 되어 온갖 작업을 도와주고, 수많은 방식으로 우리의 삶을 한층 더 편리하게 만들어 줄 것입니다.




이 글은 AI로 번역된 기사입니다. 오역이 의심되는 부분이 있으면 댓글로 알려 주세요. 원문 링크는 다음과 같습니다: 원문 보고서 보기