KR101929509B1

KR101929509B1 - 형태소 합성 장치 및 방법

Info

Publication number: KR101929509B1
Application number: KR1020180111140A
Authority: KR
Inventors: 서정연; 홍태석; 김주애; 박영민; 서민영; 허광호
Original assignee: 서강대학교 산학협력단
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2018-12-14

Abstract

형태소 합성 장치로서, 입력 문장을 구성하는 제1 형태소 및 제2 형태소를 추출하고, 상기 제1 형태소에 대한 제1 품사 정보 및 상기 제2 형태소에 대한 제2 품사 정보를 결정하고, 상기 제1 형태소, 상기 제2 형태소, 상기 제1 품사 정보 및 상기 제2 품사 정보에 벡터화 알고리즘을 적용하여 제1 형태소 임베딩 벡터, 제2 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터 및 제2 품사 정보 임베딩 벡터를 각각 생성하는 전처리부, 상기 제1 형태소 임베딩 벡터, 상기 제1 품사 정보 임베딩 벡터, 상기 제2 형태소 임베딩 벡터, 상기 제2 품사 정보 임베딩 벡터 순으로 제1 GRU(Gated Recurrent Unit)에 입력하여 상기 입력 문장에 대한 컨텍스트 벡터를 생성하는 인코딩부, 상기 컨텍스트 벡터 및 문장의 시작을 알리는 개시 임베딩 벡터를 제2 GRU에 입력하여 제1 음절을 출력하고, 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 제2 음절을 출력하는 디코딩부, 그리고 상기 제1 음절 및 상기 제2 음절을 이용하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 문장 생성부를 포함한다.

Description

형태소 합성 장치 및 방법{DEVICE AND METHOD FOR COMPOSING MORPHEME}

본 발명은 형태소 합성 장치 및 방법에 관한 것이다.

최근 자연어 처리 분야에서 심층 신경망(DNN, Deep Neural Network) 알고리즘을 활용한 연구가 활발히 진행되고 있으며, 특히 문장 생성이 요구되는 기계 번역 또는 자연어 생성 등의 분야에서는 순환 신경망(RNN, Recurrent Neural Network) 알고리즘을 기반으로 하는 시퀀스 투 시퀀스(Seq2Seq, Sequence to Sequence) 모델이 주로 적용되고 있다. Seq2Seq 모델은 시간적 순서가 있는 연속되는 입력에 대해 상응하는 또 다른 연속되는 출력을 생성하는 모델이다.

이러한 작업에서 한국어 문장을 출력할 때, 음절, 어절 또는 형태소 단위로 한국어 문장을 출력할 수 있다. 그러나, 음절 단위의 출력은 순환 신경망의 길이가 지나치게 길어지고 표현력이 낮아지고, 어절 단위의 출력은 데이터 희소성이 문제가 되어 높은 성능을 제공하지 못하는 문제가 있으므로, 형태소 단위로 출력하는 것이 단순하게 음절 또는 어절 단위로 출력하는 것보다 더 높은 정확도를 제공할 수 있다.

한편, 형태소 단위로 한국어 문장을 출력하는 경우에도 출력된 한국어 문장이 최종적인 자연어 문장이 아니기 때문에, 형태소 합성 모델이 필요하다. 기존의 형태소 합성 모델은 말뭉치에서 규칙을 자동 또는 수동으로 구축하였다. 하지만 이러한 규칙 기반 모델은 미리 정의되지 않은 규칙에 대해서는 전혀 대응을 하지 못하는 문제가 있다.

본 발명이 해결하고자 하는 과제는 Seq2Seq 모델을 이용한 형태소 합성 장치 및 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 형태소 합성 장치는 입력 문장을 구성하는 제1 형태소 및 제2 형태소를 추출하고, 상기 제1 형태소에 대한 제1 품사 정보 및 상기 제2 형태소에 대한 제2 품사 정보를 결정하고, 상기 제1 형태소, 상기 제2 형태소, 상기 제1 품사 정보 및 상기 제2 품사 정보에 벡터화 알고리즘을 적용하여 제1 형태소 임베딩 벡터, 제2 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터 및 제2 품사 정보 임베딩 벡터를 각각 생성하는 전처리부, 상기 제1 형태소 임베딩 벡터, 상기 제1 품사 정보 임베딩 벡터, 상기 제2 형태소 임베딩 벡터, 상기 제2 품사 정보 임베딩 벡터 순으로 제1 GRU(Gated Recurrent Unit)에 입력하여 상기 입력 문장에 대한 컨텍스트 벡터를 생성하는 인코딩부, 상기 컨텍스트 벡터 및 문장의 시작을 알리는 개시 임베딩 벡터를 제2 GRU에 입력하여 제1 음절을 출력하고, 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 제2 음절을 출력하는 디코딩부, 그리고 상기 제1 음절 및 상기 제2 음절을 이용하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 문장 생성부를 포함한다.

상기 제1 형태소는 상기 입력 문장에서 상기 제2 형태소보다 앞에 위치한다.

상기 인코딩부는 상기 제1 형태소 임베딩 벡터를 상기 제1 GRU에 입력하여 제1 은닉 값을 결정하고, 상기 제1 은닉 값과 상기 제1 품사 정보 임베딩 벡터를 상기 제1 GRU에 입력하여 제2 은닉 값을 결정하고, 상기 제2 은닉 값과 상기 제2 형태소 임베딩 벡터를 상기 제1 GRU에 입력하여 제3 은닉 값을 결정하고, 상기 제3 은닉 값과 상기 제2 품사 정보 임베딩 벡터를 상기 제1 GRU에 입력하여 상기 컨텍스트 벡터를 생성한다.

상기 디코딩부는 상기 컨텍스트 벡터 및 상기 개시 임베딩 벡터를 상기 제2 GRU에 입력하여 제4 은닉 값을 결정하고 상기 제1 음절을 출력하며, 상기 제4 은닉 값 및 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 상기 제2 음절을 출력한다.

상기 문장 생성부는 문장의 끝을 알리는 종료 음절이 출력되는 경우, 상기 종료 음절의 이전에 출력된 상기 제1 음절 및 상기 제2 음절을 순차적으로 연결하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성한다.

본 발명의 일 실시예에 따른 형태소 합성 장치가 입력 문장에 포함된 형태소들이 합성된 문장을 생성하는 방법은 입력 문장을 수신하고, 상기 입력 문장을 구성하는 제1 형태소 및 제2 형태소를 추출하고, 상기 제1 형태소에 대한 제1 품사 정보 및 상기 제2 형태소에 대한 제2 품사 정보를 결정하는 단계, 상기 제1 형태소, 상기 제2 형태소, 상기 제1 품사 정보 및 상기 제2 품사 정보에 벡터화 알고리즘을 적용하여 제1 형태소 임베딩 벡터, 제2 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터 및 제2 품사 정보 임베딩 벡터를 각각 생성하는 단계, 상기 제1 형태소 임베딩 벡터, 상기 제1 품사 정보 임베딩 벡터, 상기 제2 형태소 임베딩 벡터, 상기 제2 품사 정보 임베딩 벡터 순으로 제1 GRU에 입력하여 상기 입력 문장에 대한 컨텍스트 벡터를 생성하는 단계, 상기 컨텍스트 벡터 및 문장의 시작을 알리는 개시 임베딩 벡터를 제2 GRU에 입력하여 제1 음절을 출력하고, 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 제2 음절을 출력하는 단계, 그리고 상기 제1 음절 및 상기 제2 음절을 이용하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 단계를 포함한다.

상기 입력 문장에 대한 컨텍스트 벡터를 생성하는 단계는 상기 제1 형태소 임베딩 벡터를 상기 제1 GRU에 입력하여 제1 은닉 값을 결정하는 단계, 상기 제1 은닉 값과 상기 제1 품사 정보 임베딩 벡터를 상기 제1 GRU에 입력하여 제2 은닉 값을 결정하는 단계, 상기 제2 은닉 값과 상기 제2 형태소 임베딩 벡터를 상기 제1 GRU에 입력하여 제3 은닉 값을 결정하는 단계, 그리고 상기 제3 은닉 값과 상기 제2 품사 정보 임베딩 벡터를 상기 제1 GRU에 입력하여 상기 컨텍스트 벡터를 생성하는 단계를 포함한다.

상기 제1 음절 및 상기 제2 음절을 출력하는 단계는 상기 컨텍스트 벡터 및 상기 개시 임베딩 벡터를 상기 제2 GRU에 입력하여 제4 은닉 값을 결정하고 상기 제1 음절을 출력하는 단계, 그리고 상기 제4 은닉 값 및 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 상기 제2 음절을 출력하는 단계를 포함한다.

상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 단계는 문장의 끝을 알리는 종료 음절이 출력되는 경우, 상기 종료 음절의 이전에 출력된 상기 제1 음절 및 상기 제2 음절을 순차적으로 연결하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성한다.

본 발명에 따르면, 형태소 합성 규칙을 정의하지 않고 심층 신경망 알고리즘 기반의 형태소 합성 모델을 이용하여 한국어 형태소를 합성하는바, 형태소 합성 규칙을 정의하는 번거로움이 없고, 규칙이 정의되지 않은 상황에서도 한국어 형태소 합성이 가능하다.

도 1은 한 실시예에 따른 형태소 합성 장치를 설명하는 도면이다.
도 2 및 도 3은 한 실시예에 따른 형태소 합성 장치가 입력 문장에 포함된 형태소들이 합성된 문장을 생성하는 예시적인 방법을 도시한 도면이다.
도 4는 형태소 합성 장치가 시퀀스 투 시퀀스 모델에 기반한 형태소 합성 모델을 학습시키는 방법을 설명하는 도면이다.
도 5는 한 실시예에 따른 형태소 합성 장치가 입력 문장에 포함된 형태소들이 합성된 문장을 생성하는 방법을 설명하는 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 한 실시예에 따른 형태소 합성 장치를 설명하는 도면이다.

도 1을 참고하면, 형태소 합성 장치(1000)는 전처리부(100), 인코딩부(200), 디코딩부(300) 및 문장 생성부(400)를 포함한다.

전처리부(100)는 입력 문장을 구성하는 제1 형태소 및 제2 형태소를 추출하고, 제1 형태소에 대한 제1 품사 정보 및 제2 형태소에 대한 제2 품사 정보를 결정하고, 제1 형태소, 제2 형태소, 제1 품사 정보 및 제2 품사 정보에 벡터화 알고리즘을 적용하여 제1 형태소 임베딩 벡터, 제2 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터 및 제2 품사 정보 임베딩 벡터를 각각 생성한다.

구체적으로, 전처리부(100)는 사용자로부터 입력 문장을 수신하고, 형태소 데이터베이스(미도시)를 이용하여 입력 문장을 구성하는 모든 형태소인 제1 형태소 및 제2 형태소들을 추출한다. 이 경우, 제1 형태소는 입력 문장에서 제2 형태소보다 앞에 위치한다.

전처리부(100)는 추출한 형태소들 각각의 품사 정보를 결정한다.

전처리부(100)는 각각의 형태소들에 대해 체언, 용언, 관형사, 부사, 감탄사, 조사, 어미, 접사, 어근, 부호 또는 한글 이외 중 어느 하나로 품사를 결정할 수 있다.

또한, 전처리부(100)는 형태소가 체언인 경우, 일반 명사, 고유 명사, 의존 명사, 수사 또는 대명사 중 어느 하나로 결정할 수 있다.

또한, 전처리부(100)는 형태소가 용언인 경우, 동사, 형용사, 보조 용언, 긍정 지정사 또는 부정 지정사, 부사인 경우 일반 부사 또는 접속 부사 중 어느 하나로 결정할 수 있다.

또한, 전처리부(100)는 형태소가 조사인 경우, 주격 조사, 보격 조사, 관형격 조사, 목적격 조사, 부사격 조사, 호격 조사, 인용격 조사, 보조사 또는 접속 조사 중 어느 하나로 결정할 수 있다.

또한, 전처리부(100)는 형태소가 어말 어미인 경우, 종결 어미, 연결 어미, 명사형 전성 어미 또는 관형형 전성 어미 중 어느 하나로 결정할 수 있다.

또한, 전처리부(100)는 형태소가 접미사인 경우, 명사 파생 접미사, 동사 파생 접미사 또는 형용사 파생 접미사 중 어느 하나로 결정할 수 있다.

또한, 전처리부(100)는 형태소가 부호의 경우, 마침표, 물음표, 느낌표, 쉼표, 가운뎃점, 콜론, 빗금, 따옴표, 괄호표, 줄표, 줄임표, 붙임표 또는 기타기호 중 어느 하나로 결정할 수 있다.

또한, 전처리부(100)는 형태소가 한글 이외의 경우 외국어, 한자 또는 숫자 중 어느 하나로 결정할 수 있다.

한편, 띄어쓰기로 인한 공란의 경우, 형태소에 해당하지 않으나 이후 형태소들을 합성한 문장에서 표현되어야 하므로 별도로 구분하고 품사 정보는 띄어쓰기로 결정할 수 있다.

형태소 데이터베이스는 말뭉치를 구성하는 문장들에 대해 각각의 문장을 구성하는 형태소들을 정의하고, 정의된 형태소들의 품사 및 특정 품사의 세부 품사를 구분한 정보를 저장한 데이터베이스를 지칭한다.

전처리부(100)는 형태소들 및 형태소들 각각의 품사 정보에 벡터화 알고리즘을 적용하여 임베딩 벡터들을 각각 생성한다. 벡터화 알고리즘을 이용하여 단어를 벡터화하는 방법은 이미 공지된 기술로 본 명세서에서는 자세한 설명을 생략한다.

인코딩부(200)는 제1 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터, 제2 형태소 임베딩 벡터, 제2 품사 정보 임베딩 벡터 순으로 제1 GRU(Gated Recurrent Unit)에 입력하여 입력 문장에 대한 컨텍스트 벡터를 생성한다.

구체적으로, 인코딩부(200)는 제1 형태소 임베딩 벡터를 제1 GRU에 입력하여 제1 은닉 값(hidden state)을 결정하고, 제1 은닉 값과 제1 품사 정보 임베딩 벡터를 제1 GRU에 입력한다.

수학식 1에서, σ는 시그모이드(sigmoid) 함수이고, [.]_j는 벡터의 j번째 값을 의미한다. x 및 h_(t-1)는 각각 입력과 은닉 값이고, W 및 U는 학습되는 인자들이다. 인코딩부(200)는 수학식 1을 이용하여 은닉 값을 결정하며, 최종적으로 결정되는 은닉 값은 수학식 2와 같다.

인코딩부(200)는 제1 은닉 값과 제1 품사 정보 임베딩 벡터를 제1 GRU에 입력하여 제2 은닉 값을 결정하고, 제2 은닉 값과 제2 형태소 임베딩 벡터를 제1 GRU에 재차 입력하여 제3 은닉 값을 결정한다. 이후, 인코딩부(200)는 제3 은닉 값과 제2 품사 정보 임베딩 벡터를 제1 GRU에 입력하며, 입력 문장을 통해 결정된 임베딩 벡터 중 제2 품사 정보 임베딩 벡터가 마지막 입력이므로, 제3 은닉 값과 제2 품사 정보 임베딩 벡터를 제1 GRU에 입력하여 출력된 벡터가 입력 문장에 대한 컨텍스트 벡터에 해당한다.

디코딩부(300)는 컨텍스트 벡터 및 문장의 시작을 알리는 개시 임베딩 벡터를 GRU에 입력하여 제1 음절을 출력하고, 제1 음절의 임베딩 벡터를 제2 GRU에 입력하여 제2 음절을 출력한다.

구체적으로, 디코딩부(300)는 인코딩부(200)로부터 컨텍스트 벡터를 수신하고, 컨텍스트 벡터 및 개시 임베딩 벡터를 제2 GRU에 입력하여 제4 은닉 값을 결정하고 제1 음절을 출력한다.

이 경우, 디코딩부(300)는 출력 레이어로서, 소프트맥스 분류기(Softmax Classifier)를 이용하여 출력 가능한 음절들에 대한 확률 분포를 출력하고, 가장 높은 확률 분포를 가진 음절을 제1 음절로서 출력할 수 있다.

또한, 디코딩부(300)는 제4 은닉 값 및 제1 음절의 임베딩 벡터를 제2 GRU에 입력하여 제2 음절을 출력한다.

문장 생성부(400)는 제1 음절 및 제2 음절을 이용하여 제1 형태소 및 제2 형태소가 합성된 문장을 생성한다.

구체적으로, 문장 생성부(400)는 문장의 끝을 알리는 종료 음절이 출력되는 경우, 종료 음절 이전에 출력된 제1 음절 및 제2 음절을 순차적으로 연결하여 제1 형태소 및 제2 형태소가 합성된 문장을 생성하고, 합성된 문장을 출력한다.

도 2 및 도 3은 한 실시예에 따른 형태소 합성 장치가 입력 문장에 포함된 형태소들이 합성된 문장을 생성하는 예시적인 방법을 도시한 도면이다.

도 2를 참고하면, 사용자로부터 입력 문장 "이루어지고 있다."를 수신한 경우, 전처리부(100)는 입력 문장을 형태소 데이터베이스에서 검색하여 형태소 단위인 "이루어지", "고", " ", "있", "다", "."로 구분할 수 있다.

또한, 전처리부(100)는 형태소 데이터베이스에서 정의된 바와 같이, 구분한 형태소들 각각의 품사 정보를 결정할 수 있다. 예를 들면, 전처리부(100)는 형태소 "이루어지"에 대해 동사로, "고"에 대해 연결 어미로, " "에 대해 띄어쓰기로, "있"에 대해 보조 용언으로, "다"에 대해 종결 어미로, "."에 대해 마침표로 각각 품사 정보를 결정할 수 있다.

전처리부(100)는 입력 문장을 복수의 형태소들로 구분하고 복수의 형태소들 각각의 품사 정보를 결정한 이후 형태소를 품사 정보와 매핑할 수 있다.

전처리부(100)는 형태소들 및 품사 정보에 벡터화 알고리즘을 적용하여 형태소들 및 품사 정보에 대한 임베딩 벡터를 각각 생성한다.

이 경우, 하나의 형태소가 복수의 음절로 구성된 경우, 전처리부(100)는 복수의 음절들 각각의 임베딩 벡터를 생성한다. 예를 들면, 전처리부(100)는 형태소 "이루어지"의 임베딩 벡터를 생성하는 경우, "이"의 임베딩 벡터, "루"의 임베딩 벡터, "어"의 임베딩 벡터 및 "지"의 임베딩 벡터를 생성할 수 있다.

도 3을 참고하면, 인코딩부(200)는 입력 문장에 위치한 순서대로 형태소 및 형태소에 대응하는 품사 정보의 임베딩 벡터를 제1 GRU에 입력한다.

예를 들면, 인코딩부(200)는 형태소 "이"의 임베딩 벡터를 제1 GRU에 입력하여 은닉 값을 결정할 수 있다. 이 경우 형태소 "이루어진"전체가 품사 정보 "동사"이므로, 인코딩부(200)는 형태소 "루"의 임베딩 벡터, "어"의 임베딩 벡터 및 "진"의 임베딩 벡터를 순차적으로 입력하여 은닉 값을 결정하고, 이후 품사 정보인 "동사"의 임베딩 벡터 및 이전 은닉 값을 제1 GRU에 입력하여 은닉 값을 순차적으로 결정할 수 있다. 인코딩부(200)는 상기 과정을 순차적으로 적용하여 입력 문장 "이루어지고 있다."의 임베딩 벡터인 컨텍스트 벡터를 생성할 수 있다.

디코딩부(300)는 인코딩부(200)로부터 수신한 컨텍스트 벡터 및 개시 명령어 "SOS"의 임베딩 벡터를 제2 GRU에 입력하여 은닉 값을 결정하고 음절 "이"를 출력할 수 있다. 이후, 디코딩부(300)는 음절 "이"의 임베딩 벡터 및 이전 은닉 값을 제2 GRU에 입력하여 은닉 값을 결정하고 음절 "뤄"를 출력할 수 있다.

상기 과정을 순차적으로 적용하여 문장의 끝을 알리는 종료 음절인 "EOS"가 출력되는 경우, 문장 생성부(400)는 "EOS" 가 출력되기 이전의 음절들 "이", "뤄", "지", "고", " ", "있", "다", "."를 순차적으로 연결하여 형태소 "이루어지", "고", " ", "있", "다", "."가 합성된 문장인 "이뤄지고 있다."를 생성할 수 있다.

한편, 인코딩부(200) 및 디코딩부(300)는 시퀀스 투 시퀀스(Seq2Seq, Sequence to Sequence) 모델에 기반하며, 인코딩부(200) 및 디코딩부(300)를 형태소 합성 모델로 지칭할 수 있다. 도 1 내지 도 3에서 설명한 형태소 합성을 위해, 형태소 합성 모델은 학습 데이터를 통해 학습되어야 하며, 이하 형태소 합성 장치(1000)가 형태소 합성 모델을 학습하는 방법을 설명한다.

도 4는 형태소 합성 장치가 시퀀스 투 시퀀스 모델에 기반한 형태소 합성 모델을 학습시키는 방법을 설명하는 도면이다.

도 4를 참고하면, 형태소 합성 장치(1000)는 입력값 및 입력값에 대응하는 목표값으로 구성된 학습 데이터를 수신한다(S100).

구체적으로, 학습 데이터의 입력값은 복수의 형태소들 및 상기 복수의 형태소들 각각의 품사 정보로 구성되고, 목표값은 복수의 형태소들이 합성된 문장으로 구성된다.

예를 들면, 학습 데이터의 입력값은 "이", "루", "어", "지", "동사", "고", "연결어미", " ", "띄어쓰기", "있", "보조용언", "다", "종결어미", ".", "마침표"일 수 있고, 목표값은 "이", "뤄", "지", "고", " ", "있", "다", ".", "EOS"일 수 있다.

입력값은 형태소 및 형태소에 대응하는 품사 정보가 순차적으로 위치하며, 입력값에서 복수의 형태소들 및 각각의 품사 정보는 임베딩 벡터 형태로 구현될 수 있으며, 하나의 형태소가 복수의 음절들로 구성된 경우 복수의 음절들 각각이 임베딩 벡터 형태로 구현될 수 있다.

형태소 합성 장치(1000)는 입력값의 임베딩 벡터를 시퀀스 투 시퀀스 모델의 인코더에 입력한다(S110).

구체적으로, 형태소 합성 장치(1000)는 입력값에 포함된 복수의 형태소들 및 복수의 형태소들 각각의 품사 정보에 벡터화 알고리즘을 적용하여 복수의 형태소들의 임베딩 벡터 및 각각의 품사 정보의 임베딩 벡터를 생성한다.

또한, 형태소 합성 장치(1000)는 복수의 형태소들의 임베딩 벡터 및 복수의 형태소들 각각의 품사 정보의 임베딩 벡터를 교차하여 인코더에 입력한다.

예를 들면, 형태소 합성 장치(1000)는 "이"의 임베딩 벡터, "루"의 임베딩 벡터, "어"의 임베딩 벡터,"지"의 임베딩 벡터 형태소 및 형태소 "이루어지"의 품사 정보인 "동사"의 임베딩 벡터를 인코더에 순차적으로 입력할 수 있다.

형태소 합성 장치(1000)는 인코더의 출력이 시퀀스 투 시퀀스 모델의 디코더에 입력되면, 목표값이 상기 디코더의 출력으로 결정되도록 시퀀스 투 시퀀스 모델의 가중치를 결정한다.

구체적으로, 형태소 합성 장치(1000)는 인코더의 출력으로 입력값의 임베딩 벡터인 컨텍스트 벡터를 생성하고(S120), 컨텍스트 벡터를 디코더에 입력하여 목표값 "이", "뤄", "지", "고", "SPACE", "있", "다", ".", "EOS"가 출력으로 결정되도록 가중치를 결정한다(S130).

이 경우, 인코더 및 디코더는 GRU(Gated Recurrent Unit)로 구현될 수 있다.

도 5는 한 실시예에 따른 형태소 합성 장치가 입력 문장에 포함된 형태소들이 합성된 문장을 생성하는 방법을 설명하는 도면이다.

도 5에서, 도 1 내지 도 4와 동일한 내용은 자세한 설명을 생략한다.

도 5를 참고하면, 형태소 합성 장치(1000)는 입력 문장을 수신하고(S200), 입력 문장을 구성하는 제1 형태소 및 제2 형태소를 추출하고, 제1 형태소에 대한 제1 품사 정보 및 상기 제2 형태소에 대한 제2 품사 정보를 결정한다(S210).

형태소 합성 장치(1000)는 벡터화 알고리즘을 적용하여 제1 형태소 임베딩 벡터, 제2 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터 및 제2 품사 정보 임베딩 벡터를 각각 생성한다(S220).

이 경우, 제1 형태소는 입력 문장에서 제2 형태소보다 앞에 위치한다.

형태소 합성 장치(1000)는 제1 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터, 제2 형태소 임베딩 벡터, 제2 품사 정보 임베딩 벡터 순으로 제1 GRU(Gated Recurrent Unit)에 입력하고, 생성되는 은닉 값들을 이용하여 입력 문장에 대한 컨텍스트 벡터를 생성한다(S230).

구체적으로, 형태소 합성 장치(1000)는 제1 형태소 임베딩 벡터를 제1 GRU에 입력하여 제1 은닉 값을 결정하고, 제1 은닉 값과 제1 품사 정보 임베딩 벡터를 제1 GRU에 입력하여 제2 은닉 값을 결정하고, 제2 은닉 값과 제2 형태소 임베딩 벡터를 제1 GRU에 입력하여 제3 은닉 값을 결정하고, 제3 은닉 값과 제2 품사 정보 임베딩 벡터를 제1 GRU에 입력하여 컨텍스트 벡터를 생성한다.

형태소 합성 장치(1000)는 컨텍스트 벡터 및 문장의 시작을 알리는 개시 임베딩 벡터를 제2 GRU에 입력하여 제1 음절을 출력하고, 제1 음절의 임베딩 벡터를 제2 GRU에 입력하여 제2 음절을 출력한다(S240).

구체적으로, 형태소 합성 장치(1000)는 컨텍스트 벡터 및 개시 임베딩 벡터를 제2 GRU에 입력하여 제4 은닉 값을 결정하고 제1 음절을 출력하며, 제4 은닉 값 및 제1 음절의 임베딩 벡터를 제2 GRU에 입력하여 제2 음절을 출력한다.

형태소 합성 장치(1000)는 제1 음절 및 제2 음절을 연결하여 제1 형태소 및 제2 형태소가 합성된 문장을 생성한다(S250).

구체적으로, 형태소 합성 장치(1000)는 문장의 끝을 알리는 종료 음절이 출력되는 경우, 종료 음절의 이전에 출력된 제1 음절 및 제2 음절을 연결하여 제1 형태소 및 제2 형태소가 합성된 문장을 생성한다.

본 발명에 따르면, 형태소 합성 규칙을 정의하지 않고 심층 신경망 알고리즘 기반의 형태소 합성 모델을 이용하여 한국어 형태소를 분석하고 합성하는바, 형태소 합성 규칙을 정의하는 번거로움이 없고, 규칙이 정의되지 않은 상황에서도 한국어 형태소 분석 및 합성이 가능하다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

형태소 합성 장치로서,
입력 문장을 구성하는 제1 형태소 및 제2 형태소를 추출하고, 상기 제1 형태소에 대한 제1 품사 정보 및 상기 제2 형태소에 대한 제2 품사 정보를 결정하고, 상기 제1 형태소, 상기 제2 형태소, 상기 제1 품사 정보 및 상기 제2 품사 정보에 벡터화 알고리즘을 적용하여 제1 형태소 임베딩 벡터, 제2 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터 및 제2 품사 정보 임베딩 벡터를 각각 생성하는 전처리부,
상기 제1 형태소 임베딩 벡터, 상기 제1 품사 정보 임베딩 벡터, 상기 제2 형태소 임베딩 벡터, 상기 제2 품사 정보 임베딩 벡터 순으로 제1 GRU(Gated Recurrent Unit)에 입력하여 상기 입력 문장에 대한 컨텍스트 벡터를 생성하는 인코딩부,
상기 컨텍스트 벡터 및 문장의 시작을 알리는 개시 임베딩 벡터를 제2 GRU에 입력하여 제1 음절을 출력하고, 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 제2 음절을 출력하는 디코딩부, 그리고
상기 제1 음절 및 상기 제2 음절을 이용하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 문장 생성부를 포함하고,
상기 인코딩부는
상기 제1 형태소 임베딩 벡터를 상기 제1 GRU에 입력하여 제1 은닉 값을 결정하고, 상기 제1 은닉 값과 상기 제1 품사 정보 임베딩 벡터를 상기 제1 GRU에 입력하여 제2 은닉 값을 결정하고, 상기 제2 은닉 값과 상기 제2 형태소 임베딩 벡터를 상기 제1 GRU에 입력하여 제3 은닉 값을 결정하고, 상기 제3 은닉 값과 상기 제2 품사 정보 임베딩 벡터를 상기 제1 GRU에 입력하여 상기 컨텍스트 벡터를 생성하는 형태소 합성 장치.
제1항에서,
상기 제1 형태소는 상기 입력 문장에서 상기 제2 형태소보다 앞에 위치하는 형태소 합성 장치.
삭제
형태소 합성 장치로서,
입력 문장을 구성하는 제1 형태소 및 제2 형태소를 추출하고, 상기 제1 형태소에 대한 제1 품사 정보 및 상기 제2 형태소에 대한 제2 품사 정보를 결정하고, 상기 제1 형태소, 상기 제2 형태소, 상기 제1 품사 정보 및 상기 제2 품사 정보에 벡터화 알고리즘을 적용하여 제1 형태소 임베딩 벡터, 제2 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터 및 제2 품사 정보 임베딩 벡터를 각각 생성하는 전처리부,
상기 제1 형태소 임베딩 벡터, 상기 제1 품사 정보 임베딩 벡터, 상기 제2 형태소 임베딩 벡터, 상기 제2 품사 정보 임베딩 벡터 순으로 제1 GRU(Gated Recurrent Unit)에 입력하여 상기 입력 문장에 대한 컨텍스트 벡터를 생성하는 인코딩부,
상기 컨텍스트 벡터 및 문장의 시작을 알리는 개시 임베딩 벡터를 제2 GRU에 입력하여 제1 음절을 출력하고, 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 제2 음절을 출력하는 디코딩부, 그리고
상기 제1 음절 및 상기 제2 음절을 이용하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 문장 생성부를 포함하고,
상기 디코딩부는
상기 컨텍스트 벡터 및 상기 개시 임베딩 벡터를 상기 제2 GRU에 입력하여 제4 은닉 값을 결정하고 상기 제1 음절을 출력하며, 상기 제4 은닉 값 및 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 상기 제2 음절을 출력하는 형태소 합성 장치.
형태소 합성 장치로서,
입력 문장을 구성하는 제1 형태소 및 제2 형태소를 추출하고, 상기 제1 형태소에 대한 제1 품사 정보 및 상기 제2 형태소에 대한 제2 품사 정보를 결정하고, 상기 제1 형태소, 상기 제2 형태소, 상기 제1 품사 정보 및 상기 제2 품사 정보에 벡터화 알고리즘을 적용하여 제1 형태소 임베딩 벡터, 제2 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터 및 제2 품사 정보 임베딩 벡터를 각각 생성하는 전처리부,
상기 제1 형태소 임베딩 벡터, 상기 제1 품사 정보 임베딩 벡터, 상기 제2 형태소 임베딩 벡터, 상기 제2 품사 정보 임베딩 벡터 순으로 제1 GRU(Gated Recurrent Unit)에 입력하여 상기 입력 문장에 대한 컨텍스트 벡터를 생성하는 인코딩부,
상기 컨텍스트 벡터 및 문장의 시작을 알리는 개시 임베딩 벡터를 제2 GRU에 입력하여 제1 음절을 출력하고, 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 제2 음절을 출력하는 디코딩부, 그리고
상기 제1 음절 및 상기 제2 음절을 이용하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 문장 생성부를 포함하고,
상기 문장 생성부는
문장의 끝을 알리는 종료 음절이 출력되는 경우, 상기 종료 음절의 이전에 출력된 상기 제1 음절 및 상기 제2 음절을 순차적으로 연결하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 형태소 합성 장치.
형태소 합성 장치가 입력 문장에 포함된 형태소들이 합성된 문장을 생성하는 방법으로서,
입력 문장을 수신하고, 상기 입력 문장을 구성하는 제1 형태소 및 제2 형태소를 추출하고, 상기 제1 형태소에 대한 제1 품사 정보 및 상기 제2 형태소에 대한 제2 품사 정보를 결정하는 단계,
상기 제1 형태소, 상기 제2 형태소, 상기 제1 품사 정보 및 상기 제2 품사 정보에 벡터화 알고리즘을 적용하여 제1 형태소 임베딩 벡터, 제2 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터 및 제2 품사 정보 임베딩 벡터를 각각 생성하는 단계,
상기 제1 형태소 임베딩 벡터, 상기 제1 품사 정보 임베딩 벡터, 상기 제2 형태소 임베딩 벡터, 상기 제2 품사 정보 임베딩 벡터 순으로 제1 GRU에 입력하여 상기 입력 문장에 대한 컨텍스트 벡터를 생성하는 단계,
상기 컨텍스트 벡터 및 문장의 시작을 알리는 개시 임베딩 벡터를 제2 GRU에 입력하여 제1 음절을 출력하고, 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 제2 음절을 출력하는 단계, 그리고
상기 제1 음절 및 상기 제2 음절을 이용하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 단계를 포함하고,
상기 입력 문장에 대한 컨텍스트 벡터를 생성하는 단계는
상기 제1 형태소 임베딩 벡터를 상기 제1 GRU에 입력하여 제1 은닉 값을 결정하는 단계,
상기 제1 은닉 값과 상기 제1 품사 정보 임베딩 벡터를 상기 제1 GRU에 입력하여 제2 은닉 값을 결정하는 단계,
상기 제2 은닉 값과 상기 제2 형태소 임베딩 벡터를 상기 제1 GRU에 입력하여 제3 은닉 값을 결정하는 단계, 그리고
상기 제3 은닉 값과 상기 제2 품사 정보 임베딩 벡터를 상기 제1 GRU에 입력하여 상기 컨텍스트 벡터를 생성하는 단계
를 포함하는 문장 생성 방법.
제6항에서,
상기 제1 형태소는 상기 입력 문장에서 상기 제2 형태소보다 앞에 위치하는 문장 생성 방법.
삭제
형태소 합성 장치가 입력 문장에 포함된 형태소들이 합성된 문장을 생성하는 방법으로서,
입력 문장을 수신하고, 상기 입력 문장을 구성하는 제1 형태소 및 제2 형태소를 추출하고, 상기 제1 형태소에 대한 제1 품사 정보 및 상기 제2 형태소에 대한 제2 품사 정보를 결정하는 단계,
상기 제1 형태소, 상기 제2 형태소, 상기 제1 품사 정보 및 상기 제2 품사 정보에 벡터화 알고리즘을 적용하여 제1 형태소 임베딩 벡터, 제2 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터 및 제2 품사 정보 임베딩 벡터를 각각 생성하는 단계,
상기 제1 형태소 임베딩 벡터, 상기 제1 품사 정보 임베딩 벡터, 상기 제2 형태소 임베딩 벡터, 상기 제2 품사 정보 임베딩 벡터 순으로 제1 GRU에 입력하여 상기 입력 문장에 대한 컨텍스트 벡터를 생성하는 단계,
상기 컨텍스트 벡터 및 문장의 시작을 알리는 개시 임베딩 벡터를 제2 GRU에 입력하여 제1 음절을 출력하고, 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 제2 음절을 출력하는 단계, 그리고
상기 제1 음절 및 상기 제2 음절을 이용하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 단계를 포함하고,
상기 제1 음절 및 상기 제2 음절을 출력하는 단계는
상기 컨텍스트 벡터 및 상기 개시 임베딩 벡터를 상기 제2 GRU에 입력하여 제4 은닉 값을 결정하고 상기 제1 음절을 출력하는 단계, 그리고
상기 제4 은닉 값 및 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 상기 제2 음절을 출력하는 단계
를 포함하는 문장 생성 방법.
형태소 합성 장치가 입력 문장에 포함된 형태소들이 합성된 문장을 생성하는 방법으로서,
입력 문장을 수신하고, 상기 입력 문장을 구성하는 제1 형태소 및 제2 형태소를 추출하고, 상기 제1 형태소에 대한 제1 품사 정보 및 상기 제2 형태소에 대한 제2 품사 정보를 결정하는 단계,
상기 제1 형태소, 상기 제2 형태소, 상기 제1 품사 정보 및 상기 제2 품사 정보에 벡터화 알고리즘을 적용하여 제1 형태소 임베딩 벡터, 제2 형태소 임베딩 벡터, 제1 품사 정보 임베딩 벡터 및 제2 품사 정보 임베딩 벡터를 각각 생성하는 단계,
상기 제1 형태소 임베딩 벡터, 상기 제1 품사 정보 임베딩 벡터, 상기 제2 형태소 임베딩 벡터, 상기 제2 품사 정보 임베딩 벡터 순으로 제1 GRU에 입력하여 상기 입력 문장에 대한 컨텍스트 벡터를 생성하는 단계,
상기 컨텍스트 벡터 및 문장의 시작을 알리는 개시 임베딩 벡터를 제2 GRU에 입력하여 제1 음절을 출력하고, 상기 제1 음절의 임베딩 벡터를 상기 제2 GRU에 입력하여 제2 음절을 출력하는 단계, 그리고
상기 제1 음절 및 상기 제2 음절을 이용하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 단계를 포함하고,
상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 단계는
문장의 끝을 알리는 종료 음절이 출력되는 경우, 상기 종료 음절의 이전에 출력된 상기 제1 음절 및 상기 제2 음절을 순차적으로 연결하여 상기 제1 형태소 및 상기 제2 형태소가 합성된 문장을 생성하는 문장 생성 방법.