시퀀스 분류의 잠재력을 여는 가이드

이 글에서는 시퀀스 분류의 기본 개념, 활용 분야, 그리고 LSTM의 사용 방법을 다루며, TensorFlow 기반 구현 예제도 함께 제공합니다. 이 글은 AI 번역본입니다. 오역 가능성이 있다면 댓글로 알려 주세요.
Mostafa Ibrahim
Created on September 15|Last edited on September 15
Comment
﻿
﻿출처﻿
소개시퀀스 분류에 관한 이 글에 오신 것을 환영합니다! 오늘은 이 기본 기법의 핵심 개념을 살펴보고, 다양한 시퀀스 분류 모델의 유형과 그 활용 사례를 개괄적으로 소개하겠습니다.
다음 내용을 다룹니다: 
목차소개시퀀스 분류란 무엇인가? 시퀀스 분류 모델의 세 가지 유형은 무엇인가요?시퀀스 분류의 활용 분야데이터의 공간 분류란 무엇인가? 순차 분류를 위한 LSTM 사용 방법소실 기울기 문제와 LSTM이 시퀀스 분류에 적합한 이유TensorFlow를 활용한 시퀀스 분류 튜토리얼결론
﻿
시퀀스 분류란 무엇인가? 시퀀스 분류는 연속된 데이터에서 다양한 유형을 이해하고 분류하도록 기계를 학습시키는 기법입니다. 문장의 각 구성 요소에 레이블을 붙이거나 시계열의 특정 지점들을 표시하는 일을 떠올리면 비슷합니다. 
예를 들어, 자연어 처리, 시퀀스 분류 모델은 텍스트에서 사람, 위치, 조직과 같은 개체명을 인식하도록 학습될 수 있습니다. 또한 문장 속 단어가 명사, 동사, 형용사인지 식별하는 데에도 사용할 수 있습니다. 
시퀀스 분류는 음성 인식에도 활용될 수 있으며, 오디오 클립에서 발화된 서로 다른 단어를 식별하는 데 사용할 수 있습니다. 모델은 레이블이 지정된 시퀀스 데이터셋으로 학습한 뒤, 새롭게 보지 못한 시퀀스에 대해 예측을 수행합니다. 달리 말하면, 새로운 미지의 예시에 일반화하는 것이 목표인 지도 학습 문제입니다. 
이 글의 뒷부분에서 다룰 시퀀스 분류의 일반적인 기법으로는 다음과 같은 것들이 있습니다 순환 신경망 (RNN), 장단기 메모리(LSTM) 네트워크, 그리고 합성곱 신경망(CNN).
시퀀스 분류 모델의 세 가지 유형은 무엇인가요?
일대일 시퀀스 분류 모델일대일은 입력과 출력 시퀀스의 길이가 같고, 입력이 단일 출력 클래스에 매핑되는 시퀀스 분류 모델입니다. 이 유형의 모델은 일반적으로 다음과 같은 경우에 사용됩니다. 이미지 분류, 입력이 이미지이고 출력이 그 이미지가 속한 클래스 또는 레이블인 경우에 해당합니다.
예를 들어, 이미지 분류 모델은 고양이 사진을 입력으로 받아 출력으로 클래스 레이블 “고양이” 또는 “개”를 반환할 수 있습니다. 이 모델은 입력이 이미지이고 출력이 해당 이미지의 클래스 레이블인 대규모 라벨링된 이미지 데이터셋으로 학습됩니다.
﻿출처﻿
일대일 시퀀스 분류 모델은 텍스트-텍스트 분류, 오디오-오디오 분류 등 다른 입력/출력 쌍에도 적용할 수 있습니다. 이러한 모델은 일반적으로 합성곱 신경망(CNN) 또는 이와 유사한 유형의 딥러닝 모델로 구현됩니다. CNN은 입력 이미지에서 특징을 추출한 뒤, 완전 연결층을 사용해 해당 특징을 출력 클래스 레이블로 매핑합니다.
일대다 시퀀스 분류 모델일대다 시퀀스 분류 모델은 다음과 같은 작업에 흔히 사용됩니다. 개체명 인식이 모델은 문장이나 텍스트 조각을 입력으로 받아, 입력 텍스트의 각 단어마다 하나씩 클래스 레이블의 시퀀스를 출력으로 생성합니다. 
예를 들어, 개체명 인식 모델은 “Barack Obama was born in Hawaii”라는 문장을 입력으로 받아 “Barack Obama”에는 “Person”, “Hawaii”에는 “Location”이라는 클래스 레이블을 출력할 수 있습니다.
﻿출처﻿
이러한 모델은 일반적으로 대규모 라벨링된 텍스트 데이터셋으로 학습되며, 입력은 문장이나 텍스트 조각��고 출력은 클래스 레이블의 시퀀스입니다. 순환 신경망(RNN)이나 BERT와 같은 트랜스포머 기반 모델을 사용하는 등 여러 구현 방식이 있습니다. 이들 모델은 입력 텍스트에서 단어의 문맥을 포착하고, 그 문맥을 활용해 올바른 클래스 레이블을 할당할 수 있습니다.
다대다 시퀀스 분류 모델다대다 시퀀스 분류 모델은 다음과 같은 작업에서 흔히 사용되는 모델 유형입니다. 기계 번역 그리고 이미지 캡셔닝이 모델은 단어 시퀀스나 이미지를 입력으로 받아, 이미지에 대해 설명하거나 입력을 다른 언어로 번역하는 단어 시퀀스를 출력으로 생성합니다.
예를 들어, 기계 번역 모델은 독일어 문장을 입력으로 받아 동일한 문장을 영어로 번역해 출력할 수 있습니다. 이미지 캡셔닝 모델은 이미지를 입력으로 받아 그 이미지의 내용을 설명하는 문장을 출력할 수 있습니다.
인코더–디코더 기계 번역 모델(출처)
이러한 모델은 일반적으로 대규모의 레이블링된 시퀀스 데이터셋으로 학습되며, 입력과 출력이 모두 시퀀스입니다. 모델은 보통 인코더–디코더 아키텍처로 구현되는데, 이는 두 가지 주요 구성 요소로 이루어집니다. 입력 시퀀스를 처리해 고정 길이 표현으로 압축하는 인코더와, 압축된 표현으로부터 출력 시퀀스를 생성하는 디코더입니다. 인코더와 디코더는 순환 신경망(RNN)이나 트랜스포머 기반 모델로 구현할 수 있습니다.
시퀀스 분류의 활용 분야시퀀스 분류의 활용 분야에는 다음이 포함됩니다: 
﻿감성 분석텍스트에서 표현된 감정이나 정서를 판별하는 작업으로, 예를 들어 긍정, 부정, 중립과 같은 범주를 구분합니다.
﻿텍스트 요약: 주된 아이디어를 유지하면서 주어진 텍스트를 더 짧게 만드는 작업.
﻿음성 인식음성을 텍스트로 변환하는 작업.
﻿유전자 주석: 유전자의 서열, 구조, 발현 패턴을 바탕으로 기능적 역할을 부여하는 작업.
﻿이미지 캡셔닝이미지에 대한 자연어 설명을 생성하는 작업.
앞서 언급된 시퀀스 분류의 다른 예시는 다음과 같습니다:
﻿기계 번역텍스트를 한 언어에서 다른 언어로 번역하는 작업.
﻿개체명 인식(NER): 텍스트에서 사람, 장소, 조직과 같은 개체명을 식별하고 분류하는 작업.
데이터의 공간 분류란 무엇인가? ﻿공간 분류 특성이나 속성에 따라 서로 다른 영역이나 위치를 분류하는 데 사용되는 방법입니다. 이는 라벨이 지정된 공간 데이터셋으로 모델을 학습한 뒤, 그 모델을 사용해 새로운 미라벨 공간 데이터를 분류하는 기계 학습의 한 유형입니다.
예를 들어 이미지 분류(특히 의미론적 분할)에서는 이미지의 각 픽셀을 색상, 형태, 질감과 같은 특징에 근거해 “사람”, “자동차”, “나무”와 같은 특정 클래스로 라벨링하는 것이 목표입니다. 또 다른 예로는 지리공간 데이터가 있는데, 여기서는 지도상의 서로 다른 영역을 그 속성에 따라 “주거”, “상업”, “농업”과 같은 토지 이용 클래스로 지정하는 것이 목표입니다.
아래 예시에서는 각 지리적 지역(국가)이 주민 행복도의 주어진 비율에 따라 0에서 3까지의 범위로 분류됩니다.
﻿출처﻿﻿﻿
공간 분류에는 다음과 같은 다양한 기법과 알고리즘을 사용할 수 있습니다. 의사결정나무, 랜덤 포레스트, 서포트 벡터 머신, 그리고 CNN이는 이미지 분류 작업에서 널리 사용됩니다. 이러한 모델은 이미지, 지리공간 데이터, 원격탐사 데이터를 포함한 다양한 유형의 데이터에 적용할 수 있으며, 이를 통해 지리 정보를 이해하고 해석할 수 있습니다.
순차 분류를 위한 LSTM 사용 방법﻿장단기 메모리(LSTM) 네트워크는 순차 분류 작업에 사용할 수 있는 순환 신경망의 한 종류입니다. 아래 단계들은 아래 튜토리얼 섹션에서 실험을 단계별로 안내하는 내용을 참조합니다. 
순차 분류에 LSTM을 사용하기 위한 첫 번째 단계는 데이터를 전처리하는 것입니다. 일반적으로 여기에는 다음 작업이 포함됩니다. 토크나이제이션 데이터셋에서(예시 모델의 3단계), 이어서 다음을 수행합니다. 시퀀스 패딩 (4단계), 마지막으로 텍스트를 다음과 같은 숫자 표현으로 변환합니다. 워드 임베딩 또는 원-핫 인코딩 (5단계). 이는 모델이 입력 데이터를 이해하고 처리할 수 있도록 해 줍니다.
다음으로 LSTM 모델을 설계합니다. 일반적으로 입력층, 하나 이상의 LSTM 층, 그리고 출력층으로 구성합니다. 입력층은 단어의 숫자 표현을 입력으로 받아 LSTM 층에 전달합니다. 
LSTM 층은 입력 시퀀스를 처리하여 입력 시퀀스의 문맥을 포착하는 은닉 상태를 생성합니다. 그런 다음 출력층이 이 은닉 상태를 받아 가능한 클래스 레이블에 대한 확률 분포를 생성합니다(예시 모델의 7단계).
﻿출처﻿
그다음 모델은 감독 학습 알고리즘을 사용해 레이블이 있는 데이터셋으로 학습됩니다. 모델에는 입력 시퀀스와 해당하는 클래스 레이블이 주어지며, 분류 오류를 최소화하도록 모델의 가중치를 조정합니다.
학습이 끝나면 LSTM 모델은 새롭고 레이블이 없는 시퀀스를 분류할 수 있습니다. 이를 위해 입력층과 LSTM 층을 거쳐 처리한 다음, 출력층을 사용해 클래스 레이블을 생성합니다.
﻿출처﻿
LSTM은 CNN 같은 다른 아키텍처나 BERT 같은 트랜스포머 기반 모델과 결합해 성능을 향상시킬 수 있다는 점도 주목할 만합니다.
소실 기울기 문제와 LSTM이 시퀀스 분류에 적합한 이유LSTM 네트워크는 이전 시점의 정보를 기억하고 유지할 수 있어 입력 시퀀스의 문맥을 이해하고 더 정확한 예측을 수행할 수 있으므로 시퀀스 분류 작업에 매우 적합합니다. 또한 전통적인 RNN에서 발생하는 소실 기울기 문제를 메모리 셀을 통해 완화하여 정보를 더 오랜 기간 유지할 수 있으므로, 긴 시퀀스도 효과적으로 처리할 수 있습니다. 
그렇다면 정확히 무엇일까요? 소실 기울기 문제소실 기울기 문제는 전통적인 순환 신경망(RNN)과 시퀀스 데이터를 다룰 때 발생하는 까다로운 이슈입니다. 본질적으로 이것은 학습 중 네트워크의 파라미터를 갱신하는 데 사용되는 가중치의 기울기가 역전파 과정에서 네트워크를 거슬러 올라가며 매우 작아지고, 결국에는 “소실”될 수 있다는 사실을 가리킵니다.
﻿출처﻿
이는 가중치 행렬의 고유값이 작고, 학습 과정에서 기울기가 네트워크를 따라 전파될 때 그 행렬로 반복적으로 곱해지기 때문에 발생합니다. 그 결과 입력 시퀀스의 장기 의존성을 학습하고 유지하기가 극도로 어려워지는데, 이는 자연어 처리와 같은 많은 작업에서 매우 중요합니다.
예를 들어 영화 리뷰의 감성 분석 작업에서는 리뷰의 장기적 문맥이 전체 감정을 결정할 수 있습니다. 하지만 전통적인 RNN은 소실 기울기 문제 때문에 이러한 장기 의존성과 전체 감정을 제대로 포착하는 데 어려움을 겪습니다.
이 문제를 극복하기 위해 LSTM(Long Short-Term Memory)와 GRU(Gated Recurrent Unit) 같은 아키텍처가 도입되었으며, 이들은 더 정교한 게이팅 메커니즘을 통해 기울기의 흐름을 더 잘 보존하고 제어할 수 있게 해줍니다. 그 결과 네트워크가 장기 의존성을 더욱 효과적으로 학습할 수 있습니다.
TensorFlow를 활용한 시퀀스 분류 튜토리얼이 튜토리얼에서는 우리는 …를 구축해 보겠습니다 감성 분석 영화 리뷰를 대상으로 한 모델입니다. 이 모델은 관람객이 작성한 리뷰를 입력으로 받아, 긍정 리뷰(즉, 긍정 감성)인지 부정 리뷰(즉, 부정 감성)인지 분류합니다. 
1단계: 필요한 라이브러리 불러오기이 단계에서는 TensorFlow 라이브러리와 함께 신경망의 Embedding, LSTM, Dense 레이어를 불러옵니다. 이 레이어들은 이후 모델을 구축할 때 사용됩니다. 또한 유용하고 중요한 함수로 Tokenizer, pad_sequences, one-hot 인코더가 있으며, 예제에서 더 자세히 설명하겠습니다.
import tensorflow as tf
from tensorflow.keras.layers import Embedding, LSTM, Dense
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from scipy.sparse import csr_matrix
import numpy as np
import pandas as pd
﻿
2단계: 데이터셋 생성 또는 다운로드간단히 하기 위해 직접 데이터셋을 만들겠습니다. 이 데이터셋은 두 부분으로 구성됩니다. 첫 번째는 실제 영화 리뷰가 담긴 텍스트 배열이고, 다른 하나는 레이블 배열입니다. 레이블 배열에는 0(부정) 또는 1(긍정) 값이 저장되며, 텍스트 배열에서 해당 인덱스의 감성을 나타냅니다.
 텍스트 목록을 만드세요: 
texts = ["I love this movie", "I hate this movie", "This movie is okay", "I cannot recommend this movie", "This is the best film I have ever seen", "I enjoyed this film", "This movie was terrible", "I did not like this movie", "This was a great cinematic experience", "I am disappointed with this film", "I was moved by this film", "This was a boring movie", "I would recommend this movie", "I would not recommend this movie", "This is a must-see film", "I was thrilled by this movie", "This was a letdown", "I was impressed by this film", "This was a mediocre movie", "This was a terrible film", "I was captivated by this movie", "I was underwhelmed by this film", "This was a good movie", "This was a great film", "I was excited by this movie", "This was a terrible movie", "I was underwhelmed by this movie"]
레이블 목록을 만드세요: 
labels = [1,0,1,0,1,1,0,0,1,0,1,0,1,0,1,1,0,1,0,0,1,0,1,1,1,0,0]
 데이터프레임을 만드세요: 
df = pd.DataFrame({'text': texts, 'label': labels})
데이터프레임을 셔플하세요: 
df = df.sample(frac=1).reset_index(drop=True)
3단계: 데이터셋 토크나이즈하기토크나이제이션은 문장이나 텍스트를 토큰이라 불리는 더 작은 단위로 분해하는 과정입니다. 단어, 구, 문자 수준에서 수행할 수 있습니다. 예를 들어, 문장 “I love ice cream”을 ["I", "love", "ice", "cream"]과 같은 토큰으로 나누는 것을 말합니다.
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)
4단계: 입력 시퀀스 패딩하기시퀀스 패딩은 데이터셋의 모든 입��� 시퀀스가 동일한 길이를 갖도록 하는 기법입니다. 이를 위해 더 짧은 시퀀스에 패딩 토큰을 추가하여 데이터셋에서 가장 긴 시퀀스의 길이에 맞춥니다. 
max_length = max([len(s) for s in sequences])
sequences = pad_sequences(sequences, maxlen=max_length)
5단계: 레이블 원-핫 인코딩하기원-핫 인코딩은 단어 또는 레이블과 같은 범주형 데이터를 이진 값의 벡터로 표현하는 방법입니다. 각 고유한 단어 또는 레이블에는 고유한 벡터가 할당되며, 해당 단어 또는 레이블에 대응하는 인덱스를 제외한 나머지 모든 요소는 0입니다.
encoder = OneHotEncoder()
labels = np.array(labels)
y = encoder.fit_transform(labels.reshape(-1, 1))
6단계: 데이터를 학습용과 테스트용으로 분할하고 리셰이프하기y = y.toarray()
x_train, x_test, y_train, y_test = train_test_split(sequences, labels, test_size=0.2, shuffle=True, random_state=42)
y_train = y_train.reshape(-1, 1)
y_test = y_test.reshape(-1, 1)
﻿
7단계: 모델 정의하기model = tf.keras.Sequential()
임베딩 레이어 추가하기
신경망에서 임베딩 레이어는 보통 모델의 첫 번째 레이어입니다. 이 레이어는 단어를 연속적인 벡터 공간에서 표현하는 데 사용되며, 각 단어는 고정 크기의 실수 벡터로 나타납니다. 이를 통해 모델은 입력 데이터의 단어 의미와 문맥을 이해하고, 그 정보를 예측에 활용할 수 있습니다. 
vocab_size = len(tokenizer.word_index) + 1
embedding_dim=150
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=max_length))
LSTM 레이어 추가하기
LSTM은 순환 신경망의 한 종류로, 이전 입력을 더 오랜 기간 기억할 수 있으며 앞서 언급한 기울기 소실 문제를 효과적으로 방지합니다.
model.add(LSTM(units=64))
시그모이드 활성화 함수를 사용하는 밀집 레이어 추가하기
 밀집 레이어(완전 연결 레이어라고도 함)는 입력과 가중치의 내적을 수행한 뒤, 그 결과에 활성화 함수를 적용합니다.
model.add(Dense(units=1, activation='sigmoid'))
 모델 컴파일하기
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
훈련 데이터에 모델을 학습시키기
model.fit(x_train, y_train, epochs=10, batch_size=32)
8단계: 테스트 데이터로 모델 평가하기테스트 손실과 정확도 변수를 출력하여 모델 평가하기
test_loss, test_acc = model.evaluate(x_test, y_test)
print('Test Loss: {}'.format(test_loss))
print('Test Accuracy: {}'.format(test_acc))
9단계: 모델 테스트하기비교를 위한 부정 감정
test_sentence = "I hate this movie, this movie was terrible"
test_sequence = tokenizer.texts_to_sequences([test_sentence])
test_sequence = pad_sequences(test_sequence, maxlen=max_length)
test_pred = model.predict(test_sequence)
test_pred = np.round(test_pred)
print(test_pred)
출력: 1, 즉 긍정
여기서 출력은 0(부정)이어야 했지만, 모델이 작은 데이터셋으로 학습되었기 때문에 이런 오류가 발생할 수 있습니다. 이러한 오류를 해결하려면 다음과 같은 훨씬 더 큰 데이터셋으로 모델을 학습시키세요. IMDB 영화 리뷰 데이터셋 Kaggle에 있습니다. 이 데이터셋에는 50,000개의 영화 리뷰가 포함되어 있습니다.
비교를 위해 추가적인 긍정 감정을 더하세요.
test_sentence2 = "This is the best film ever"
test_sequence2 = tokenizer.texts_to_sequences([test_sentence2])
test_sequence2 = pad_sequences(test_sequence2, maxlen=max_length)
test_pred2 = model.predict(test_sequence2)
test_pred2 = np.round(test_pred2)
print(test_pred2)
출력: 1, 즉 긍정(정답)
결론요약하면, 시퀀스 분류는 텍스트, 오디오, 시계열과 같은 순차 데이터를 이해하고 분류하는 데 강력한 기법입니다. 시퀀스 분류 모델은 크게 세 가지 유형이 있습니다: 일대일(One-to-One), 일대다(One-to-Many), 다대다(Many-to-Many). 
일대일(One-to-One) 모델은 입력과 출력의 길이가 같을 때 사용되며, 일대다(One-to-Many) 모델은 하나의 입력에서 여러 출력 클래스를 생성하고, 다대다(Many-to-Many) 모델은 여러 입력에서 여러 출력 클래스를 생성합니다. 
이러한 모델은 자연어 처리, 음성 인식, 시계열 예측 등 매우 다양한 분야에서 사용됩니다. 딥러닝과 신경망의 발전으로 시퀀스 분류는 더욱 효과적이고 효율적으로 수행되고 있습니다. 
이는 순차 데이터를 이해하고 예측하는 데 매우 강력한 도구이며, 앞으로도 다양한 산업에서 중요한 역할을 계속 수행할 것입니다.
﻿
﻿
 이 글은 AI로 번역되었습니다. 오역이 있을 경우 댓글로 알려주세요. 원문 보고서는 아래 링크에서 확인하실 수 있습니다: 원문 보고서 보기﻿
﻿
Add a comment