Skip to main content

비지도 학습 소개

이 글은 비지도 학습을 정의하고 가장 널리 알려진 알고리즘을 다루며, 컴퓨터 비전과 자연어 처리에서의 비지도 학습 예시를 제공합니다. 이 글은 AI 번역본입니다. 오역 가능성이 있다면 댓글로 알려주세요.
Created on September 15|Last edited on September 15

소개

이 글에서는 비지도 학습을 다룹니다. 지도 학습과 달리, 비지도 학습은 레이블이 없는 데이터로부터 패턴을 학습하는 머신러닝 알고리즘의 한 종류입니다. 우리는 비지도 학습을 견고하게 정의하고, 가장 널리 알려진 알고리즘을 살펴본 뒤, 다음 분야에서의 예시를 제공합니다. 컴퓨터 비전 그리고 자연어 처리 (NLP).
다음 내용을 다룹니다:

목차



바로 시작해 봅시다!

비지도 학습이란 무엇일까요?

비지도 학습은 레이블(태그)이 없는 데이터로 모델을 학습시키는 기계 학습의 한 분야입니다. 비지도 학습의 핵심 아이디어는, 무엇을 찾아야 하는지 미리 식별하거나 분류하지 않고도 모델이 주어진 데이터셋에서 숨겨진 통찰과 패턴을 스스로 발견하도록 하는 것입니다.
비지도 학습에서는 모델에게 어떤 출력값을 내야 하는지 지정하지 않은 채로 데이터를 제공합니다. 이렇게 하면 모델은 데이터셋을 목적에 맞게 자유롭게 탐색하고 조작할 수 있습니다.
비지도 학습을 더 잘 이해하기 위해, 엄마가 아이에게 두 동물(개와 고양이)을 구분하도록 가르치는 상황을 생각해 봅시다. 엄마는 아이에게 두 동물의 이미지를 여러 장 보여 주고, 아이는 새 이미지를 각 동물로 완전히 분류할 수 있을 때까지 두 동물의 특징을 스스로 정리합니다. 이후 아이는 개를 범주 1, 고양이를 범주 2로 분류할 수 있습니다. 주의할 점은, 엄마가 이미지에 라벨을 붙이지 않았기 때문에 아이는 어느 이미지가 어떤 동물인지 사전에 알지 못했다는 것입니다. 대신 아이는 코의 모양, 꼬리 길이, 크기 등 두 동물의 특징을 관찰하여 범주를 구분했습니다.
출처

비지도 머신 러닝 모델은 어떻게 작동할까요?

비지도 머신 러닝 모델은 세 단계로 작동합니다. 필요한 데이터를 수집하고, 레이블이 없는 데이터를 이해하도록 모델을 학습시킨 뒤, 주어진 입력 집합에 대해 모델의 성능을 평가합니다.
각 단계를 떼어 놓고 살펴보겠습니다:

1단계: 필요한 데이터 수집

일반적으로 비지도 머신 러닝 모델을 위한 데이터는 보다 원시적인 형태여서 비정형인 경우가 많습니다. 비지도 데이터셋은 레이블이 있는 데이터셋이나 지도 학습용 데이터셋보다 훨씬 크지만, 별도의 라벨링이나 전처리가 필요하지 않기 때문에 보통 수집 비용은 더 저렴합니다.

2단계: 모델 학습

일부 비지도 머신 러닝 알고리즘에서 보게 되듯이, 지도 학습 알고리즘과 달리 이러한 알고리즘은 레이블이 없는 데이터를 입력으로 받아 그 의미를 파악하려고 합니다. 이는 모든 데이터 포인트를 주어진 클러스터로 군집화하거나, 숨겨진 패턴과 추세를 발견하는 방식으로 이루어질 수 있습니다.

3단계: 모델 평가

모델이 최고 수준의 정확한 결과를 내는지 확인하려면, 서로 다른 다양한 입력 변수에 대해 의도적으로 모델의 출력을 테스트해야 합니다. 그런 다음 최종 성능을 개선하기 위해 모델의 하이퍼파라미터를 튜닝할 수 있습니다.

비지도 학습의 유형

클러스터링

클러스터링은 유사성과 차이를 기준으로 라벨이 없는 데이터를 여러 그룹(또는 ‘클러스터’)으로 분류하는 작업입니다. 가장 비슷한 특성을 가진 데이터 포인트들은 함께 묶입니다. 가장 잘 알려진 비지도 클러스터링 알고리즘으로는 K-Means 클러스터링과 계층적 클러스터링이 있습니다.

연관 규칙

연관 규칙은 변수들 사이의 관계를 발견하기 위해 사용되는 비지도 머신 러닝 기법입니다. 연관 학습은 장바구니 분석에서 흔히 사용되며, 알고리즘이 두 제품 사이의 관계를 파악하거나 특정 연관성을 ���도록 합니다. 예를 들어, 제품 A를 구매한 고객의 90퍼센트는 제품 B도 함께 구매합니다. 이러한 숨겨진 인사이트와 패턴은 마케팅에 매우 유용하며, 기업의 매출 증대에 큰 도움을 줍니다.

대표적인 비지도 학습 알고리즘

K-평균 클러스터링

출처
K-평균 클러스터링은 데이터를 K개의 클러스터로 묶는 비지도 머신 러닝 알고리즘입니다. K 매개변수의 값에 따라 생성되는 클러스터의 개수가 달라집니다. 예를 들어 K = 2이면 데이터는 두 개의 클러스터로만 나뉩니다.
K-평균 클러스터링 알고리즘은 크게 세 단계로 나눌 수 있습니다. 첫 번째 단계에서는 각 K개의 클러스터에 대해 임의의 초기 중심 위치를 선택합니다. 두 번째 단계에서는 모든 데이터 포인트를 가장 가까운 K개의 중심점 중 하나에 할당하여 K개의 클러스터를 형성합니다. 세 번째 단계에서는 각 포인트와 그에 해당하는 클러스터 중심 사이의 총 거리를 최소화하기 위해, 이전보다 더 정확한 위치의 새로운 K개의 중심점을 재계산하여 갱신합니다.
이 알고리즘은 이전 반복에서 어떤 클러스터에도 더 이상 개선이 없을 때까지 두 번째와 세 번째 단계를 계속 반복합니다. 알고리즘의 주요 목적은 관측된 데이터 포인트와 가장 잘 맞는 K개의 중심점을 찾는 것입니다.
K-평균 클러스터링 손실 함수(출처)
여기서 µ [j]는 j번째 클러스터를 의미하고, ρ i[j]는 데이터 포인트 i가 클러스터 j에 속하는지를 나타내는 불리언 지시 변수입니다 (출처). 이런 클러스터링 알고리즘의 한 가지 문제는 K 매개변수의 올바른 값을 정확하게 정하는 일이 매우 어렵다는 점입니다. 대부분의 경우 모델은 서로 다른 점들을 한데 묶거나, 유사한 점들을 서로 다른 클러스터로 분리하여 작은 범위의 오차를 유발합니다.

계층적 클러스터링

계층적 클러스터링은 데이터 포인트를 유사한 그룹으로 묶는 또 다른 비지도 학습 알고리즘입니다. 그렇다면 이런 알고리즘은 어떻게 동작할까요? 먼저, 알고리즘은 각 데이터 포인트를 하나의 클러스터로 시작합니다. 다음으로, 각 데이터 포인트에 대해 자신과 가장 가까운 데이터 포인트(또는 클러스터)를 찾습니다. 그다음, 가장 가까운 두 데이터 포인트 또는 클러스터를 병합하여 더 큰 클러스터를 만듭니다.
알고리즘은 모든 데이터 포인트가 하나의 클러스터로 묶일 때까지 반복을 계속합니다. 그다음 알고리즘은 덴드로그램(아래 이미지의 왼쪽에 표시됨)을 그려, 어떤 포인트들이 특정 클러스터를 이루는지 보여 줍니다. 두 클러스터 간의 거리를 측정하여 유사도를 확인할 수 있습니다. 클러스터 사이의 거리가 가까울수록 두 클러스터는 더 유사합니다.
출처
계층적 클러스터링에는 두 가지 유형이 있습니다. 첫 번째는 하향식이 아니라 상향식(병합적) 클러스터링 알고리즘으로, 위에서 설명한 알고리즘입니다. 이 알고리즘은 트리의 맨 아래에서 시작해 위로 올라가면서 데이터 포인트들을 묶어 클러스터를 형성합니다. 반면, 상위에서 하위로 내려오는 분할적(분해적) 클러스터링 알고리즘도 있습니다. 이 알고리즘은 트리의 맨 위에서 모든 데이터 포인트가 하나의 클러스터로 묶인 상태로 시작해, 아래로 내려가면서 클러스터를 더 작은 클러스터들로 나눕니다.

오토인코더(신경망)

지도 학습과 마찬가지로, 신경망은 레이블이 없는 데이터로도 학습할 수 있습니다. 오토인코더는 인코더와 디코더 층이라는 두 가지 주요 구성 요소로 이루어져 있습니다. 인코더 층은 주어진 입력을 받아 해당 데이터를 효율적으로 압축하고 인코딩하는 방법을 학습합니다. 이후 디코더는 인코딩된 데이터 표현을 복원하여 모델의 출력을 생성합니다.
인코딩-디코딩 과정의 핵심 동기는, 디코더가 내부 코드로부터 이미지를 최소한의 오류로 복원할 수 있다면 그 사실이 이미지를 표현하는 데 내부 표현(코드)만으로 충분하다는 것을 의미한다는 점입니다. 즉, 그 코드는 이미지의 가장 중요한 특징들을 나타냅니다. 이는 특징 추출 방법으로 볼 수 있습니다. 비지도 학습을 활용한 디지털 병리 전체 슬라이드 이미지의 일반화된 분류.
오토인코더 신경망의 계층(출처)
인코더 부분에서는 합성곱 계층의 공간 해상도가 병목 지점에 도달할 때까지 점점 더 작아집니다. 병목 지점은 가장 많이 압축된 합성곱 계층이며, 인코더와 디코더 구간 사이의 중간 계층이기도 합니다. 오토인코더는 이미지에서 노이즈를 제거하는 데 유용합니다.
오토인코���에는 여러 가지 손실 함수가 있습니다. 첫 번째는 MSE 손실 함수로, 복원된 이미지와 원본 이미지 사이의 차이를 제곱해 계산합니다.
출처
구조적 유사도 지수(SSIM)는 MSE보다 더 복잡하며, 모델의 성능을 측정하는 데 사용할 수 있는 두 번째 손실 함수입니다.
출처


비지도 학습은 무엇에 사용되나요?

비지도 학습은 매우 다양한 용도로 활용됩니다. 대표적으로 데이터에서 의미 있는 군집과 패턴을 찾고, 특징을 추출하며, 탐색적 분석 전반에 사용됩니다. 따라서 그 활용 범위는 암 진단부터 대출 적격자 선별에 이르기까지, 그 이상으로 넓게 확장됩니다.
NLP와 컴퓨터 비전에서 어떻게 활용되는지 살펴보겠습니다:

자연어 처리에서의 비지도 학습

자연어 처리(NLP)는 컴퓨터 과학의 한 분야, 더 구체적으로는 인공지능 또는 AI—컴퓨터가 인간과 유사한 방식으로 텍스트와 음성 언어를 이해할 수 있도록 하는 데 관한 분야.”[IBM, 자연어 처리(NLP)]
지도 학습에서의 자연어 처리의 경우, 미리 정의된 키워드 집합이 모델에 입력으로 제공되지만, 비지도 학습에서는 키워드가 주어지지 않습니다. 대신 모델이 사용자 도움 없이 스스로 이러한 단어를 추출할 수 있어야 합니다. 그렇다면 비지도 NLP의 활용 사례에는 무엇이 있을까요?

1. 텍스트 감성 분석

출처
감성 분석은 문장이 담고 있는 의미에 따라 서로 다른 문장들을 군집화하는 과정이다. 감성 분석에서는 문장이 특정 주제에 대한 작성자의 태도에 따라 긍정, 중립, 부정으로 라벨링될 수 있다. 예를 들어 “나는 비를 사랑한다”라는 문장을 보자. 이 문장은 작성자가 비라는 특정 주제에 대해 긍정적인 감성 태도를 가지고 있음을 보여준다. 주어진 문장의 감성 의미는 love, hate, like, dislike 등의 키워드 목록을 사용해 식별할 수 있다.TowardsDataScience, 비지도 감성 분석]
감성 분석은 실제 응용에서 매우 유용하며, 소셜 미디어 앱에 폭넓게 적용되어 인터넷 전반의 혐오 발언을 탐지하고 제거하는 데 활용된다.

2. 음성 인식

출처
음성 인식은 기계 학습 모델이 사람의 음성에서 의미를 추출하는 능력을 말한다. 이러한 모델은 사람의 음성 녹음을 입력으로 받아 디코딩하여 그 안의 관련 정보를 모두 추출한다. 지도 학습 기반의 음성 인식 모델은 높은 정밀도를 제공하지만, 비지도 학습을 활용한 음성 인식은 이전에 본 적 없는 데이터셋에서도 정확한 예측을 생성할 수 있게 해준다. Apple의 Siri와 Amazon의 Alexa는 가장 널리 사용되는 음성 인식 애플리케이션의 대표적인 예이다.

3. 인공지능 챗봇

출처
요즘 거의 모든 기업과 공공 부문에서 AI 챗봇이 적극적으로 도입되고 있다. 이러한 챗봇은 사용자에게 사람과 유사한 상호작용을 제공하고, 질문에 답하며, 도우미 역할 등을 수행할 수 있다. Lyft, Spotify, Starbucks와 같은 일부 기업은 자사 서비스에 챗봇을 접목하고 있다.
챗봇에는 세 가지 세대가 존재한다. 1세대는 서면 규칙에 기반했다. 프로그래머가 특정 질문 목록에 대해 특정 답변 목록을 미리 제공하는 방식이었다. 2세대로 넘어오면서 챗봇에는 인공지능이 접목되었고, 지도 학습부터 도입되었다. 이러한 챗봇은 대규모의 라벨링된 사용자 대화 데이터로 학습되었으며, 그 결과 훨씬 더 역동적인 응답 메커니즘을 제공할 수 있었다. 짐작했겠지만, 세 번째이자 최신 세대의 챗봇은 비지도 학습을 통합해 모델을 학습한다. 이들 모델은 라벨이 없는 훨씬 더 큰 데이터셋으로 훈련된다. 3세대 챗봇은 1세대의 모든 장점을 유지하면서도, 더 까다롭고 복잡한 상황을 처리할 수 있는 추가적인 여유를 갖춘다. [Rulia, 챗봇 기술의 세 가지 세대]

컴퓨터 비전에서의 비지도 학습

컴퓨터 비전은 이미지와 동영상과 같은 시각적 데이터 표현으로부터 유용한 정보를 추출할 수 있도록 하는 기계 학습의 하위 분야이다. 컴퓨터 비전의 목표는 컴퓨터가 인간의 시각과 유사한 방식으로 세상을 볼 수 있게 하는 데 있다.
컴퓨터 비전에서의 지도 방식 이미지 분석과 달리, 비지도 학습에서는 라벨이 없는 이미지로 모델을 학습한다. 이미지 속 모든 이상 징후를 모델이 스스로 탐지해야 한다. 일반적으로 지도 학습 모델이 더 우수한 성능을 보이지만, 찾고자 하는 이상이 식별하기 매우 어려운 경우에는 예외가 발생할 수 있다. 그렇다면 비지도 컴퓨터 비전은 어디에 활용될 수 있을까?

1. 암 진단

출처
컴퓨터 비전의 비지도 학습을 활용하면 컴퓨터가 특정 의료 스캔에서 비정상적인 이상 징후를 인식할 수 있다. 모델에는 처음에 건강한 경우와 암이 있는 경우가 섞여 있는 대량의 라벨이 없는 이미지가 제공된다. 그런 다음 모델은 다양한 이미지를 비교·분석하여 이미지 간의 차이를 정확히 감지한다. 그 결과, 이후에는 특정 스캔에 종양이 포함되어 있는지 여부를 판별할 수 있다. 여러 종류의 종양이 존재하는 상황에서도 모델은 스스로 각 종양 형태를 구분하고 라벨을 부여할 수 있다. 처음부터 각 종양 유형을 명시적으로 구분해 주지 않았기 때문에, 모델은 각 유형을 식별하기 위해 숫자 라벨을 할당한다는 점을 유의해야 한다.

2. X선 진단

출처
암 진단 모델과 마찬가지로, X선 진단 모델에도 다수의 X선 스캔이 입력된다. 그러면 모델이 이미지 내의 모든 비정상 소견을 감지할 수 있다. 이러한 모델은 의사가 놓칠 수 있는 미세한 이상을 포착하는 데 뛰어나다. AI를 활용해 심장, 폐, 흉막, 종격동, 뼈, 횡격막의 이상을 탐지할 수 있다.
이 모델은 아직 개발 초기 단계임을 염두에 두어야 한다. 따라서 X선 영상 판독에는 여전히 의사의 확인이 필요하다.

결론

오랫동안 이어져 온 질문, 지도 학습과 비지도 학습 중 어느 쪽이 더 우수한가에 대한 답은? 상황에 따라 다릅니다.
일부 머신러닝 실무자는 사용과 구현이 더 쉽고 대부분의 경우 더 정확한 결과를 내는 지도 학습 알고리즘을 선호할 수 있지만, 비지도 학습에도 과적합에 더 강하고 복잡하거나 비정형 데이터에 더 적합하다는 장점이 있음을 유념할 필요가 있다.
어떤 경우에는 사용자가 주어진 데이터셋에서 숨겨진 인사이트를 어디서부터 찾아야 할지 알기 어려워 비지도 학습 접근법이 매우 유용하다. 또한 지도 학습용 데이터셋은 비지도 학습용 데이터셋보다 규모는 훨씬 작은 편이지만, 수집과 관리가 훨씬 더 어렵다. 각 데이터 포인트를 개별적으로 확인하고 라벨을 달아야 하기 때문이다. 이런 과정은 몇 달, 심지어 몇 년이 걸릴 수도 있다. 반면 비지도 데이터는 명확한 구조가 없고 라벨링이 필요하지 않다.
따라서 지도 학습을 사용할지 비지도 학습을 사용할지는 당면한 문제의 특성에 크게 좌우된다.


이 글은 AI로 번역된 기사입니다. 오역이 의심되면 댓글로 알려주세요. 원문 보고서는 다음 링크에서 확인할 수 있습니다: 원문 보고서 보기