Skip to main content

지도 학습 쉽게 이해하기

이 글에서는 지도 학습이 무엇인지, 어떻게 작동하는지, 그리고 가장 자주 사용되는 활용 사례가 무엇인지까지 자세히 살펴봅니다. 이 글은 AI 번역본입니다. 오역이 의심되는 부분이 있다면 댓글로 알려주세요.
Created on September 15|Last edited on September 15
지도 학습은 종양 탐지부터 소셜 미디어에서의 혐오 발언 방지에 이르기까지 수많은 분야에 적용되는 머신 러닝의 핵심 패러다임입니다.
이 글에서는 지도 학습의 개념, 작동 원리, 그리고 머신러닝 실무자들이 이를 어떻게 활용하는지까지 자세히 살펴보며 종합적으로 이해해 보겠습니다.
다음 내용을 다룹니다:

목차



시작해 봅시다!

지도 학습이란 무엇인가?

지도 학습은 레이블이 있는 입력 데이터를 사용해 모델을 학습시키고, 그 결과 학습된 모델이 다양한 출력(결과)을 예측할 수 있도록 하는 머신러닝의 한 하위 분야입니다. 지도 학습의 개념은 처음에 인간의 학습 과정에서 영감을 받아 도출되었습니다.
예를 들어, 엄마가 아이에게 고양이와 개를 구분하는 법을 가르친다고 생각해 보세요. 엄마는 두 동물의 이미지를 보여 주며 각각을 어떻게 구분하는지 가르칠 수 있습니다. 만약 이미지만 보여 주고 거기서 멈춘다면(즉, 어떤 이미지가 어떤 동물인지 알려 주지 않는다면) 이는 비지도 학습의 예입니다. 반대로 각 이미지를 확인해 주며 “이건 고양이야, 이건 개야”라고 알려 준다면, 이것이 우리가 말하는 지도 학습입니다.
출처
지도 학습 알고리즘은 매우 다양하지만, 공통적으로 레이블이 있거나 미리 정의된 이미지로부터 학습합니다(예: “고양이” 또는 “개”라는 레이블이 붙은 사진).

지도 학습의 유형

회귀

회귀는 연속형 값을 예측하는 데 사용되는 지도 학습의 한 유형으로, 범위가 사실상 무한한 수치형 변수를 다룹니다.
회귀 모델의 고전적인 예는 부동산 가격을 예측하는 것입니다. 이러한 모델은 이론적으로 가능한 어떤 가격이든 제한 없이 예측할 수 있습니다. 필요하다면 소수점 이하 30번째 자리까지도 가격을 예측할 수 있습니다.

분류

머신러닝에서 널리 사용되는 지도 학습 분류 모델은 데이터 포인트를 클래스나 범주와 같은 이산 값으로 분류합니다.
분류 모델의 예로는 앞서 언급한 고양이와 개 분류가 있습니다. 이 경우 모델은 두 동물의 레이블이 붙은 수천 장의 이미지로 학습하며, 이상적으로는 두 클래스의 비율이 비교적 균형을 이루는 것이 좋습니다. 그런 다음 모델은 두 결과 중 하나(고양이 또는 개)만을 예측할 수 있으며, 이산 값을 반환합니다.
현실의 여러 상황에서 분류 모델은 사건이 발생했는지(참) 여부처럼 불리언 값을 예측합니다. 분류 모델이 반드시 이진 분류에만 국한되는 것은 아니라는 점에 유의해야 합니다. 앞서의 고양이/개 모델을 새나 채소 등 다른 범주까지 식별하도록 학습시킬 수도 있습니다. 이를 위해서는 충분한 학습 데이터를 확보하면 됩니다.

대표적인 지도 학습 알고리즘

선형 회귀


출처
선형 회귀는 아마도 가장 기본적인 머신러닝 모델입니다. 이름에서 알 수 있듯이, 선형 회귀 모델은 입력 특성과 출력 특성 사이의 선형 관계를 학습합니다. 앞선 예로 돌아가서, 위 그래프에서 X축을 시간, Y축을 주택 가격이라고 가정해 봅시다. 선형 회귀 모델은 앞으로 어느 시점이든 주어진 시간에서의 주택 가치를 예측합니다.
선형 회귀는 매우 단순하다는 장점이 있지만, 복잡하고 비선형적인 관계 패턴은 예측할 수 없습니다. 여기서 비선형 관계란, Y 특성이 X 특성에 따라 항상 일정하게 증가하거나 감소하는 것이 아니라는 것을 의미합니다.
선형 회귀 방정식(출처)
선형 회귀 알고리즘은 위의 공식을 사용하며, 각 변수/입력 X에 계수/가중치 B를 부여합니다.
다항 회귀는 더 복잡한 문제를 더 잘 다룰 수 있으므로 선형 회귀의 향상된 확장 버전으로 볼 수 있습니다. 이 모델에서는 특성들 사이에 더 높은 차수의 다항식 관계를 구성합니다. 선형 회귀와 다항 회귀는 모두 연속값을 반환합니다.
다항 회귀 방정식(출처)
다항 회귀 알고리즘에서도 유사한 공식을 사용하지만, 이 경우에는 변수에 지수 승이 적용될 수 있습니다.

로지스틱 회귀

출처
로지스틱 회귀는 사실 회귀 모델이 아니라 분류 모델입니다. 로지스틱 회귀 모델은 객체를 서로 다른 클래스에 분류하기 위해 사용되는 이산 값을 반환합니다. 로지스틱 회귀는 선형 회귀와 유사한 알고리즘을 따르지만, 선형 회귀와 달리 최적의 곡선을 그리기 위해 로지스틱 함수를 사용합니다.
로지스틱 회귀 방정식(출처)
로지스틱 회귀는 위의 공식을 활용해 주어진 점들을 분류합니다. 이 공식에서 좌변은 사건이 발생할 확률을 나타내고, 우변은 선형 회귀 방정식입니다.

서포트 벡터 머신

서포트 벡터 머신(SVM)은 지도 학습 알고리즘으로, 회귀와 분류 문제를 모두 처리할 수 있습니다. 다만 회귀보다는 분류에 더 자주 사용됩니다.
처음에 SVM 알고리즘은 모든 데이터 포인트를 하나의 그래프에 표시합니다. 그런 다음 최적의 직선을 그어 데이터 포인트를 여러 범주로 분리합니다.
출처
두 개 이상의 특성이 사용되는 경우, SVM 알고리즘은 데이터를 고차원 공간에 표현합니다. 더 이상 2차원 직선만으로는 데이터를 분리할 수 없으므로, 초평면이 필요합니다.
출처
2차원 서포트 벡터 머신 모델에서 초평면 방정식은 다음과 같이 정의됩니다 w.x+b=0w.x+b=0위의 경우에서 어떤 점의 값이 음수이면 왼쪽 그룹(파란색)에 속하고, 양수이면 오른쪽 그룹(보라색)에 속합니다.

K-최근접 이웃

출처
K-최근접 이웃(KNN) 알고리즘은 보다 직관적인 방식으로 데이터 포인트를 분류하는 지도 학습 분류 알고리즘입니다. 모델은 사용 가능한 모든 데이터 포인트를 그래프에 표시하고, 각 데이터 포인트의 라벨 값에 따라 해당 클래스에 군집화(분류)합니다. 이후 사용자는 변수 K의 정수 값을 지정합니다.
모델이 새 데이터 포인트의 소속 클래스를 평가할 때, 먼저 기존 그래프에 해당 포인트를 표시하고 그 위치에서 가장 가까운 K개의 이웃 포인트를 탐색합니다. 그런 다음 가장 가까운 포인트가 가장 많이 속한 클래스로 해당 포인트의 클래스를 판별합니다.
K-최근접 이웃 거리 방정식(출처)
K-최근접 이웃 알고리즘은 위의 공식을 사용하여 새로 추가된 포인트와 다른 모든 포인트 사이의 거리를 계산합니다. 실제 거리값에 따라 각 포인트에 가중치를 부여하는 변형 KNN 알고리즘도 있다는 점에 유의하세요. 이는 예를 들어 KNN(k=2)에서 서로 다른 두 클래스의 포인트가 새 포인트에 가장 가깝게 선정되더라도, 더 가까운 포인트가 더 높은 가중치를 받아 동률을 깨게 됨을 의미합니다.

의사결정나무

의사결정나무는 지도 학습 기반의 분류 머신러닝 모델입니다. 이름에서 알 수 있듯, 의사결정나무 모델은 뒤집힌 트리 형태의 자료 구조를 활용해 데이터를 분류합니다. 루트 노드는 가장 일반적인 값을 담습니다. 트리의 더 깊은 수준으로 내려갈수록 클래스는 점점 덜 일반적이고 더 구체적으로 세분화되며, 최종적으로 잎 노드(트리의 마지막 레벨의 노드)에 도달합니다. 잎 노드의 값이 곧 모델이 예측한 값이 됩니다.
예를 들어 어떤 동물을 분류하고 싶다고 해봅시다. 의사결정나무는 먼저 그 동물이 포유류인지, 파충류인지, 곤충인지와 같은 기준에서 시작해 점차 ��� 세분화된 범주로 가지를 뻗어 나갈 수 있습니다. 주어진 동물의 특정 특징에 대한 질문에 답함으로써, 우리는 어느 가지를 따라 내려갈지 선택할 수 있습니다. 또한 의사결정나무는 회귀 문제에도 사용할 수 있으며, 이 경우 나무는 연속형 변수를 출력한다는 점도 주목할 만합니다.

신경망

출처
신경망 모델은 처음에는 인간의 두뇌에서 영감을 받아, 최종 값을 예측하기 위해 네트워크와 유사한 구조를 사용하는 딥러닝 기법입니다. 신경망 모델은 회귀와 분류 문제 모두에 사용할 수 있어 매우 범용적입니다.
간단한 신경망은 보통 약 네 개의 계층으로 구성되며, 각 계층은 입력으로 데이터를 받아 출력을 생성하고 이 출력이 다음 계층의 입력으로 전달됩니다. 마지막 계층의 최종 값은 단일 값일 것으로 기대됩니다. 신경망은 더 복잡한 머신러닝 방식으로, 각 노드에 대해 정해진 수의 노드와 층, 그리고 가중치를 활용합니다.
신경망 손실 함수(출처)
손실 함수는 목표 값과 예측 값을 비교하여 모델의 성능을 최적화합니다. 모델의 핵심 목표는 이 두 값 사이의 손실을 최소화하는 것이며, 이를 통해 보다 정확한 예측을 달성합니다.

지도학습은 어디에 사용되나요?

자연어 처리에서의 지도학습

자연어 처리 자연어 처리(NLP)는 인간 언어의 이해와 번역에 초점을 둔 머신러닝의 하위 분야입니다.
지도학습과 비지도학습 NLP 모델이 모두 존재하지만, 두 모델 모두 일반적으로 텍스트나 오디오 형식의 데이터를 통해 학습됩니다.
이 방식으로 해결하는 NLP 문제 예시:"

의미 분석(감성 분석)

의미 분석 주어진 문장의 의미(감정)를 파악하는 과정입니다.
여기서 간단한 예로 “비가 올 때가 싫다.”라는 문장을 들 수 있습니다. 이 문장은 부정적인 감정 표현을 담고 있습니다. 모델은 “싫다”와 같은 핵심 단어를 바탕으로 이러한 감정을 추론할 수 있습니다.
출처
많은 사람들이 생각하는 것과 달리, 의미 분석은 다양한 산업에서 광범위하게 활용됩니다. 잘 알려진 소셜 미디어를 예로 들어 보겠습니다. Facebook은 게시물에 의미 분석을 적용해 혐오 발언을 탐지하고 차단합니다.

스팸 이메일 필터링

출처
이미 사전에 분류된 수천 건의 스팸 이메일로 학습하면, 머신러닝 모델은 새로 도착한 이메일이 스팸 범주에 해당하는지 예측할 수 있습니다. 예를 들어 모델은 “당첨되셨습니다”, “경품을 받으세요”와 같은 키워드에 주목해 스팸 이메일을 식별할 수 있습니다.
스팸 필터링이 100% 정확할 수 없다는 것은 두말할 필요도 없습니다. 일부 스팸 메일은 여전히 사용자의 편지함을 통과할 수 있습니다. 하지만 이러한 모델은 상당히 정교하며, 이미 오랜 기간 사용되어 왔습니다. 이런 모델이 없다면 여러분의 받은편지함은 지금과는 전혀 다른 모습일 것이고, 꽤 끔찍할 것입니다.

언어 번역

가장 유명한 번역 제공업체로 잘 알려진 Google의 Google Translate가 있고, 요즘 번역 앱은 전 세계의 최대 100개 언어까지 번역할 수 있습니다. 모델은 두 개 이상의 언어로 학습되며, 각 언어에는 미리 정의된 단어 의미가 포함됩니다.

컴퓨터 비전에서의 지도 학습

컴퓨터 비전 은 지도 학습을 활용하는 또 다른 인공지능 분야의 예입니다. 컴퓨터 비전은 이미지와 동영상과 같은 시각적 표현에서 의미 있는 데이터를 추출하도록 컴퓨터를 가능하게 합니다. 그로부터 얻은 통찰에 따라 후속 행동이 결정됩니다. 컴퓨터 비전에서 지도 학습이 사용되는 몇 가지 예시는 다음과 같습니다:

종양 탐지 및 진단

출처
이미지 분석 범주에 속하는 종양 진단은 생명을 구하는 AI 적용 사례입니다. 이미지 분석 모델은 사전에 라벨이 지정된 수만 장의 암 관련 이미지를 통해 학습합니다. 모델에 입력되는 각 이미지마다 종양이 명확히 표시된 라벨이 포함되어 있어, 이 모델은 지도 학습 방식에 해당합니다.
이미지 진단은 단일 질환을 탐지하는 데에도, 예를 들어 서로 다른 종양 유형처럼 복수의 질환을 탐지하고 구분하는 데에도 사용할 수 있습니다.

자율 주행

출처
자율 주행 차량은 사람의 개입 없이 주변 환경을 감지할 수 있는 차량으로, 이렇게 감지한 정보를 바탕으로 사람과 유사한 주행 능력을 구현하기 위한 행동을 수행할 수 있습니다.
자율 주행의 핵심 과제는 차량에 인간과 유사한 시각 능력을 갖추게 하는 것입니다. 즉, 자율 주행 차량이 다른 차량, 보행자, 도로, 신호등 등 다양한 객체를 감지하고 서로 구분할 수 있도록 하는 것입니다.
이러한 모델을 학습시키려면, 앞서 언급한 객체들이 미리 라벨링되어 있는 다양한 종류의 비디오 구간이 필요합니다. 예를 들어, 특정 비디오 구간은 운전자의 시점에서 촬영된 것으로 간주되며, 차량은 노란색과 같은 지정된 색으로 식별됩니다.
반면 보행자는 주황색, 자전거는 빨간색처럼 서로 다른 색으로 식별됩니다.
출처

결론

지도 학습은 현재 가장 널리 사용되는 머신러닝의 하위 분야 중 하나입니다. 암성 종양 진단을 돕고, 받은편지함에서 스팸 메일을 걸러내며, 인터넷 전역의 소셜 미디어에서 혐오 표현을 식별하고 제거하는 데 이르기까지, 올바른 모델과 데이터만 갖추면 지도 학습은 이미 세상을 더 나은 방향으로 바꾸어 왔습니다. 그리고 앞으로 수십 년 동안 그 영향은 계속될 것입니다.

이 글은 AI로 번역되었습니다. 오역이 의심되는 부분은 댓글로 알려 주세요. 원문 보고서 링크는 다음과 같습니다: 원문 보고서 보기