KR20180077691A

KR20180077691A - 문장 추상화 장치 및 방법

Info

Publication number: KR20180077691A
Application number: KR1020160182291A
Authority: KR
Inventors: 노형종; 이연수; 이준엽; 장정선
Original assignee: 주식회사 엔씨소프트
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2018-07-09
Also published as: US20180189272A1

Abstract

문장 추상화 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 문장 추상화 방법은, 자연어로 구성된 복수의 문장을 입력받는 단계, 재귀 신경망(Recurrent Neural Network) 모델을 이용하여 상기 복수의 문장 각각에 대한 문장 벡터(sentence vector)를 생성하는 단계, 상기 문장 벡터를 이용하여 상기 복수의 문장을 하나 이상의 클러스터(cluster)로 분류하는 단계 및 상기 복수의 문장 중 동일한 클러스터로 분류된 문장들에 대해 동일한 문장 아이디(ID)를 생성하는 단계를 포함한다.

Description

문장 추상화 장치 및 방법{APPARATUS AND METHOD FOR SENTENCE ABSTRACTION}

본 발명의 실시예들은 자연어 문장을 추상화된 표현으로 변환하기 위한 기술과 관련된다.

자연어 생성(Natural Language Generation, NLG) 기술은 컴퓨터를 이용하여 다양한 데이터로부터 사람이 이해할 수 있는 자연어를 생성하는 기술이다.

자연어 생성 기술을 이용한 종래 문서 생성 방식은 일반적으로 어떠한 문장을 어떠한 순서를 배치할 것인지를 결정하고, 결정된 순서에 따라 실제 문장을 생성하여 배치시키게 된다. 그러나, 이러한 과정은 일반적으로 미리 설정된 규칙에 기반하여 이루어지는 것이 일반적이나, 모든 경우에 대해 규칙을 생성하는 것은 매우 어려운 일이며, 생성된 규칙에 대한 오류를 검증하는 것 역시 시간과 노동력이 많이 필요한 작업이다.

본 발명의 실시예들은 문장 추상화 장치 및 방법을 제공하기 위한 것이다.

본 발명의 일 실시예에 따른 문장 추상화 방법은, 하나 이상의 프로세서들 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되며, 자연어로 구성된 복수의 문장을 입력받는 단계, 재귀 신경망(Recurrent Neural Network) 모델을 이용하여 상기 복수의 문장 각각에 대한 문장 벡터(sentence vector)를 생성하는 단계, 상기 문장 벡터를 이용하여 상기 복수의 문장을 하나 이상의 클러스터(cluster)로 분류하는 단계 및 상기 복수의 문장 중 동일한 클러스터로 분류된 문장들에 대해 동일한 문장 아이디(ID)를 생성하는 단계를 포함한다.

상기 재귀 신경망 모델은, 입력된 문장으로부터 은닉 상태 벡터(hidden state vector)를 생성하는 인코더(encoder)와 상기 은닉 상태 벡터로부터 상기 입력된 문장에 대응되는 문장을 생성하는 디코더(decoder)로 구성된 인코더-디코더 구조의 재귀 신경망 모델일 수 있다.

상기 문장 벡터는, 상기 인코더에 의해 생성된 상기 복수의 문장 각각에 대한 은닉 상태 벡터일 수 있다.

상기 재귀 신경망 모델은, LSTM(Latent Short Term Memory) 유닛 또는 GRU(Gated Recurrent Unit)를 은닉 계층 유닛으로 이용할 수 있다.

상기 분류하는 단계는, 상기 복수의 문장 각각에 대한 문장 벡터 사이의 유사도에 기초하여 상기 복수의 문장을 상기 하나 이상의 클러스터로 분류할 수 있다.

본 발명의 일 실싱예에 따른 문장 추상화 장치는, 자연어로 구성된 복수의 문장을 입력받는 입력부, 재귀 신경망(Recurrent Neural Network) 모델을 이용하여 상기 복수의 문장 각각에 대한 문장 벡터(sentence vector)를 생성하는 문장 벡터 생성부, 상기 문장 벡터를 이용하여 상기 복수의 문장을 하나 이상의 클러스터(cluster)로 분류하는 클러스터링부 및 상기 복수의 문장 중 동일한 클러스터로 분류된 문장들에 대해 동일한 문장 아이디(ID)를 생성하는 아이디 생성부를 포함한다.

상기 클러스터링부는, 상기 복수의 문장 각각에 대한 문장 벡터 사이의 유사도에 기초하여 상기 복수의 문장을 상기 하나 이상의 클러스터(cluster)로 분류할 수 있다.

본 발명의 실시예들에 따르면, 동일 또는 유사한 자연어 문장들을 동일한 아이디를 이용한 추상화된 형태로 표현할 수 있고, 이를 통해 하나 이상의 문장으로 구성된 문단 또는 문서를 각 문단 또는 문서에 포함된 문장들의 아이디 시퀀스로 표현 가능하게 되며, 이는 자연어 문장들로 이루어진 문서 생성 시 문서 또는 문단을 구성할 문장들의 배치를 결정하기 위한 심층 학습(deep learning) 기반 모델의 학습을 위한 학습 데이터로 이용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 문장 추상화 장치의 구성도
도 2는 본 발명의 일 실시예에 따른 인코더-디코더 구조의 재귀 신경망 모델을 이용한 문장 벡터 생성 과정을 나타낸 도면
도 3은 본 발명의 일 실시예에 따른 문장 아이디 생성의 일 예를 나타낸 도면
도 4는 본 발명의 일 실시예에 따른 문장 추상화 방법의 순서도
도 10은 본 발명의 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

도 1은 본 발명의 일 실시예에 따른 문장 추상화 장치의 구성도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 입력부(110), 문장 벡터 생성부(120), 클러스터링부(130) 및 아이디 생성부(140)를 포함한다.

입력부(110)는 복수의 자연어 문장을 입력받는다.

문장 벡터 생성부(120)는 재귀 신경망(Recurrent Neural Network) 모델을 이용하여 입력된 문장들 각각에 대한 문장 벡터(sentence vector)를 생성한다.

이때, 본 발명의 일 실시예에 따르면, 재귀 신경망 모델은 하나의 문장을 입력 받아 고정된 길이의 은닉 상태 벡터를 생성하는 인코더와 생성된 은닉 상태 벡터로부터 문장을 생성하는 디코더로 구성된 인코더-디코더 구조의 재귀 신경망 모델일 수 있다.

구체적으로, 문장 벡터 생성부(120)는 재귀 신경망 모델의 인코더를 이용하여, 입력된 각 문장들에 대한 은닉 상태 벡터를 생성하고, 생성된 은닉 상태 벡터를 각 문장에 대한 문장 벡터로 이용할 수 있다.

도 2는 본 발명의 일 실시예에 따른 인코더-디코더 구조의 재귀 신경망 모델을 이용한 문장 벡터 생성 과정을 나타낸 도면이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 재귀 신경망 모델은 입력된 문장에 포함된 단어들을 기 설정된 차원의 임베딩 벡터(embedding vector)(X₁, X₂, X_T)로 변환한 후, 변환된 임베딩 벡터(X₁, X₂, X_T)를 은닉 상태 벡터(C)로 변환하는 인코더(210)와 은닉 상태 벡터(C)로부터 각각 특정 단어에 대응되는 기 설정된 차원의 임베딩 벡터(Y₁, Y₂, Y_T')를 생성하는 디코더(220)로 구성될 수 있다.

한편, 문장 벡터 생성부(120)는 입력부(110)로 재귀 신경망 모델의 인코더(210)를 이용하여 입력된 각 문장에 대한 은닉 상태 벡터(C)를 생성할 수 있으며, 이는 각 문장에 대한 문장 벡터에 해당한다.

한편, 본 발명의 일 실시예에 따르면, 재귀 신경망 모델은 미리 수집된 복수의 문장들을 이용하여 학습될 수 있다. 이때, 학습을 위해 예를 들어, 동일한 두 문장을 입출력 쌍으로 하는 학습 데이터를 이용할 수 있으나, 반드시 이에 한정되는 것은 아니며, 동일한 의미를 가지는 두 개의 문장(예를 들어, 동일한 의미를 가지는 한국어 문장과 영어 문장 또는 동일한 내용에 대한 서술 형식이 상이한 두 문장)을 입출력 쌍으로 하는 학습 데이터를 이용할 수도 있다.

한편, 본 발명의 일 실시예에 따르면, 재귀 신경망 모델은 재귀 신경망의 인코더(210)와 디코더(220)의 은닉 층(hidden layer) 유닛(unit)으로 LSTM(Latent Short Term Memory) 유닛 또는 GRU(Gated Recurrent Unit)를 이용하는 재귀 신경망 모델일 수 있다.

클러스터링부(130)는 문장 벡터 생성부(120)에서 생성된 문장 벡터를 이용하여, 입력된 문장들을 하나 이상의 클러스터로 분류한다.

구체적으로, 본 발명의 일 실시예에 따르면, 클러스터링부(130)는 문장 벡터 사이의 유사도에 기반하여 입력된 문장들을 하나 이상의 클러스터로 분류할 수 있다.

예를 들어, 클러스터링부(130)는 문장 벡터 사이의 코사인 유사도(cosine similarity)를 이용한 K-평균 클러스터링(K-mean clustering) 알고리즘을 이용하여 입력된 문장들을 k의 클러스터로 분류할 수 있다.

다른 예로, 클러스터링부(130)는 분류할 클러스터의 수를 정하지 않은 점진적 클러스터링(incremental clustering) 방식을 이용하여 입력된 문장들을 하나 이상의 클러스터로 분류할 수 있다.

한편, 입력된 문장들에 대한 클러스터링 방식은 반드시 상술한 예에 한정되는 것은 아니므로, K-평균 클러스터링, 점진적 클러스터링 외에도 다양한 방식의 클러스터링 기법이 이용될 수 있다.

아이디 생성부(140)는 동일한 클러스터로 분류된 문장들에 대해 동일한 문장 아이디를 생성할 수 있다.

구체적으로, 도 3은 본 발명의 일 실시예에 따른 문장 아이디 생성의 일 예를 나타낸 도면이다.

도 3에 도시된 예와 같이 입력된 문장들이 클러스터링부(130)에 의해 두 개의 클러스터(310, 320)으로 분류된 것으로 가정하면, 아이디 생성부(140)는 각 클러스터에 포함된 문장들에 대해 동일한 문장 아이디(330, 340)를 생성할 수 있다.

즉, 도시된 예에서, Cluster 1(310)으로 분류된 문장들에 대해서는 문장 아이디 C1(330)이 생성되며, Cluster 2(320)으로 분류된 문장들에 대해서는 문장 아이디 C2(340)이 생성될 수 있다.

한편, 본 발명의 실시예에서, 문장 아이디의 생성 방식은 특정한 방식으로 한정되는 것은 아니며, 임의의 텍스트로 구성된 아이디를 생성하는 방식, 미리 생성된 아이디들 중 하나를 할당하는 방식, 각 클러스터에 포함된 문장들로부터 추출된 단어를 이용하여 아이디를 생성하는 방식 등 다양한 방식이 이용될 수 있다.

한편, 일 실시예에서, 도 1에 도시된 문장 추상화 장치(100)는 하나 이상의 프로세서 및 그 프로세서와 연결된 컴퓨터 판독 가능 기록 매체를 포함하는 컴퓨팅 장치 상에서 구현될 수 있다. 컴퓨터 판독 가능 기록 매체는 프로세서의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 컴퓨팅 장치 내의 프로세서는 각 컴퓨팅 장치로 하여금 본 명세서에서 기술되는 예시적인 실시예에 따라 동작하도록 할 수 있다. 예를 들어, 프로세서는 컴퓨터 판독 가능 기록 매체에 저장된 명령어를 실행할 수 있고, 컴퓨터 판독 가능 기록 매체에 저장된 명령어는 프로세서에 의해 실행되는 경우 컴퓨팅 장치로 하여금 본 명세서에 기술되는 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

도 4는 본 발명의 일 실시예에 따른 문장 추상화 방법의 순서도이다.

도 4에 도시된 방법은 예를 들어, 도 1에 도시된 문장 추상화 장치(100)에 의해 수행될 수 있다.

한편, 도 4에 도시된 순서도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.

도 4를 참조하면, 우선, 문장 추상화 장치(100)는 자연어로 구성된 복수의 문장을 입력받는다(410).

이후, 문장 추상화 장치(100)는 재귀 신경망 모델을 이용하여, 입력된 문장들 각각에 대한 문장 벡터를 생성한다(420).

구체적으로, 문장 추상화 장치(100)는 재귀 신경망 모델의 인코더를 이용하여, 입력된 각 문장들에 대한 은닉 상태 벡터를 생성하고, 생성된 은닉 상태 벡터를 각 문장에 대한 문장 벡터로 이용할 수 있다.

또한, 본 발명의 일 실시예에 따르면, 재귀 신경망 모델은 재귀 신경망의 인코더와 디코더의 은닉 층 유닛으로 LSTM 유닛 또는 GRU를 이용하는 재귀 신경망 모델일 수 있다.

이후, 문장 추상화 장치(100)는 생성된 문장 벡터를 이용하여, 입력된 문장들을 하나 이상의 클러스터로 분류한다(430).

이때, 본 발명의 일 실시예에 따르면, 문장 추상화 장치(100)는 문장 벡터 사이의 유사도에 기반하여 입력된 문장들을 하나 이상의 클러스터로 분류할 수 있다.

이후, 문장 추상화 장치(100)는 동일한 클러스터로 분류된 문장들에 대해 동일한 문장 아이디(ID)를 생성한다(440).

도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 본 발명의 실시예들에 따른 문장 추상화 장치(100)일 수 있다. 컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 구현되어 컴퓨팅 장치(12)와 연결될 수도 있다.

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100: 문장 추상화 장치
110: 입력부
120: 문장 벡터 생성부
130: 클러스터링부
140: 아이디 생성부
210: 인코더
220: 디코더

Claims

하나 이상의 프로세서들, 및
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
자연어로 구성된 복수의 문장을 입력받는 단계;
재귀 신경망(Recurrent Neural Network) 모델을 이용하여 상기 복수의 문장 각각에 대한 문장 벡터(sentence vector)를 생성하는 단계;
상기 문장 벡터를 이용하여 상기 복수의 문장을 하나 이상의 클러스터(cluster)로 분류하는 단계; 및
상기 복수의 문장 중 동일한 클러스터로 분류된 문장들에 대해 동일한 문장 아이디(ID)를 생성하는 단계를 포함하는 문장 추상화 방법.
청구항 1에 있어서,
상기 재귀 신경망 모델은, 입력된 문장으로부터 은닉 상태 벡터(hidden state vector)를 생성하는 인코더(encoder)와 상기 은닉 상태 벡터로부터 상기 입력된 문장에 대응되는 문장을 생성하는 디코더(decoder)로 구성된 인코더-디코더 구조의 재귀 신경망 모델인 문장 추상화 방법.
청구항 2에 있어서,
상기 문장 벡터는, 상기 인코더에 의해 생성된 상기 복수의 문장 각각에 대한 은닉 상태 벡터인 문장 추상화 방법.
청구항 2에 있어서,
상기 재귀 신경망 모델은, LSTM(Latent Short Term Memory) 유닛 또는 GRU(Gated Recurrent Unit)를 은닉 계층 유닛으로 이용하는 문장 추상화 방법.
청구항 1에 있어서,
상기 분류하는 단계는, 상기 복수의 문장 각각에 대한 문장 벡터 사이의 유사도에 기초하여 상기 복수의 문장을 상기 하나 이상의 클러스터로 분류하는 문장 추상화 방법.
자연어로 구성된 복수의 문장을 입력받는 입력부;
재귀 신경망(Recurrent Neural Network) 모델을 이용하여 상기 복수의 문장 각각에 대한 문장 벡터(sentence vector)를 생성하는 문장 벡터 생성부;
상기 문장 벡터를 이용하여 상기 복수의 문장을 하나 이상의 클러스터(cluster)로 분류하는 클러스터링부; 및
상기 복수의 문장 중 동일한 클러스터로 분류된 문장들에 대해 동일한 문장 아이디(ID)를 생성하는 아이디 생성부를 포함하는 문장 추상화 장치.
청구항 6에 있어서,
상기 재귀 신경망 모델은, 입력된 문장으로부터 은닉 상태 벡터(hidden state vector)를 생성하는 인코더(encoder)와 상기 은닉 상태 벡터로부터 상기 입력된 문장에 대응되는 문장을 생성하는 디코더(decoder)로 구성된 인코더-디코더 구조의 재귀 신경망 모델인 문장 추상화 장치.
청구항 7에 있어서,
상기 문장 벡터는, 상기 인코더에 의해 생성된 상기 복수의 문장 각각에 대한 은닉 상태 벡터인 문장 추상화 장치.
청구항 7에 있어서,
상기 재귀 신경망 모델은, LSTM(Latent Short Term Memory) 유닛 또는 GRU(Gated Recurrent Unit)를 은닉 계층 유닛으로 이용하는 문장 추상화 장치.
청구항 6에 있어서,
상기 클러스터링부는, 상기 복수의 문장 각각에 대한 문장 벡터 사이의 유사도에 기초하여 상기 복수의 문장을 상기 하나 이상의 클러스터로 분류하는 문장 추상화 장치.