KR102630668B1

KR102630668B1 - 입력 텍스트를 자동으로 확장하는 시스템 및 방법

Info

Publication number: KR102630668B1
Application number: KR1020160165135A
Authority: KR
Inventors: 정의석; 강병옥; 박기영; 박전규; 송화전; 이성주; 이윤근; 전형배
Original assignee: 한국전자통신연구원
Priority date: 2016-12-06
Filing date: 2016-12-06
Publication date: 2024-01-30
Also published as: US20180157640A1; KR20180064808A; US10402494B2

Abstract

본 발명에 따른 입력 텍스트의 자동 확장 방법은 복수의 문서로 구성된 입력 텍스트를 입력받는 단계; 상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계; 상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하는 단계; 상기 인코더의 출력을 상기 시퀀스 투 시퀀스 모델의 디코더의 출력으로 설정하여 상기 입력에 대응하는 문장을 생성하는 단계 및 상기 생성된 문장에 기초하여 확장 텍스트를 생성하는 단계를 포함한다.

Description

입력 텍스트를 자동으로 확장하는 시스템 및 방법{SYSTEM AND METHOD FOR EXPANDING INPUT TEXT AUTOMATICALLY}

본 발명은 입력 텍스트를 자동으로 확장하는 시스템 및 방법에 관한 것이다.

신경망에 기반한 시퀀스 투 시퀀스 학습 알고리즘에 대한 기초연구는 기계 번역 분야에서 처음 적용되었다. 즉, 2014년도에 공개된 논문(Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to sequence learning with neural networks." Advances in neural information processing systems. 2014)에서는 입력 문장과 번역 문장의 쌍에 대하여 입력 문장에 대한 LSTM(Long Short Term Memory) 인코더와 번역 문장에 대한 LSTM 디코더를 학습하는 접근 방법이 처음 제시되었다. 이는 새로운 입력 문장을 인코더를 통해 문장 임베딩(sentence embedding)을 하고, 해당 임베딩 값을 디코더의 입력으로 하여 번역 문장을 생성하는 end-2end 접근 방법이다.

이러한 접근 방법은 최근 챗본(chat-bot) 구축을 위한 대화 모델 학습에 활용되고 있다. 또한, 이러한 접근 방법은 영화 대본 스크립트의 다이얼로그 시퀀스를 인코더, 디코더에 대입하였을 때, 특정 질문에 대하여 답변할 수 있는 대응 문장을 생성하는데 활용될 수도 있다.

그러나 종래 기술의 경우 번역 문장 쌍, 질문 답변 쌍과 같은 학습 데이터가 존재해야만 하고, 일반 텍스트에 있어 인코더 및 디코더에 대응되는 학습 문장을 제공할 수 있는 방법이 없다는 문제가 있다.

이와 같은 문제점을 해소하기 위하여, 어휘 체인망 기술을 도입하여 시퀀스 투 시퀀스 모델의 입력 및 출력을 생성하는 기술이 필요한 실정이다.

이와 관련하여, 미국등록특허공보 US 7,805,288호(발명의 명칭: Corpus expansion system and method thereof)는 코퍼스 확장을 위하여 시드를 확장하고, 확장된 시드를 활용하여 코퍼스 확장 시스템을 구축하는 기술을 개시하고 있다.

본 발명의 실시예는 어휘 체인망 기술과 시퀀스 투 시퀀스 모델을 활용하여 입력 텍스트를 자동으로 확장할 수 있는 시스템 및 방법을 제공한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 입력 텍스트의 자동 확장 방법은 복수의 문서로 구성된 입력 텍스트를 입력받는 단계; 상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계; 상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하는 단계; 상기 인코더의 출력을 상기 시퀀스 투 시퀀스 모델의 디코더의 출력으로 설정하여 상기 입력에 대응하는 문장을 생성하는 단계 및 상기 생성된 문장에 기초하여 확장 텍스트를 생성하는 단계를 포함한다.

또한, 본 발명의 제 2 측면에 따른 입력 텍스트를 자동으로 확장하는 텍스트 확장 시스템은 외부 디바이스와 데이터를 송수신하는 통신모듈, 상기 입력 텍스트로부터 확장 텍스트를 생성하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 복수의 문서로 구성된 입력 텍스트를 입력받으면, 상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하고, 상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더에 입력하고, 상기 시퀀스 투 시퀀스 모델의 디코더의 출력으로 상기 입력에 대응하는 문장을 생성하며, 상기 생성된 문장에 기초하여 상기 확장 텍스트를 생성한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 문장 체인 추출을 이용한 텍스트 코퍼스 확장 기술을 통해, 음성 인식과 기계 번역의 언어 모델링을 통한 성능 개선의 효과를 기대할 수 있다.

또한, 문서 요약에 사용되는 어휘 체인망 추출 기술을 심층 신경망 기반 N-hop 모델에 기반한 문장 체인 자동 추출 기술로 확장함에 따라, 요약 시스템 성능 개선의 효과를 기대할 수 있다.

도 1은 본 발명의 일 실시예에 따른 텍스트 확장 시스템을 개략적으로 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 텍스트 확장 시스템의 블록도이다.
도 3은 텍스트 확장 시스템의 활용 예시도이다.
도 4는 본 발명의 일 실시예에 따른 입력 텍스트의 자동 확장 방법의 순서도이다.
도 5는 시퀀스 투 시퀀스 모델의 개념도이다.
도 6은 학습 텍스트로부터 문장 체인을 추출하는 내용을 설명하기 위한 순서도이다.
도 7은 입력 텍스트로부터 시퀀스 투 시퀀스 모델을 통하여 확장 텍스트를 생성하는 과정을 설명하기 위한 순서도이다.
도 8은 N-hop 모델의 개념도이다.
도 9는 N-hop 모델의 학습 과정을 설명하기 위한 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 발명은 입력 텍스트를 자동으로 확장할 수 있는 텍스트 확장 시스템 및 방법에 관한 것이다.

이하에서는 도 1 내지 도 3을 참조하여 본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)에 대하여 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)을 개략적으로 설명하기 위한 도면이다. 도 2는 본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)의 블록도이다. 도 3은 텍스트 확장 시스템(100)의 활용 예시도이다.

본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)은 어휘 체인망 기술과 시퀀스 투 시퀀스 모델에 기초하여 입력 텍스트를 자동으로 확장할 수 있다.

이러한 텍스트 확장 시스템(100)은 외부 디바이스(200~400)와 네트워크(network)를 통해 연결될 수 있다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

외부 디바이스(200~400)는 음성 인식기(a) 또는 기계 번역기(b) 그 자체로 구현되거나, 또는 이러한 기능을 실행시키기 위한 어플리케이션이 저장된 단말일 수 있다. 이러한 외부 디바이스(200~400)는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치, 즉 PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

한편, 본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)은 도 2에 도시된 바와 같이 구성될 수 있다.

본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)은 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.

통신모듈(110)은 외부 디바이스(200~400)와 데이터를 송수신한다. 이와 같은 통신모듈(110)은 유선 통신모듈 및 무선 통신모듈을 모두 포함할 수 있다. 유선 통신모듈은 전력선 통신 장치, 전화선 통신 장치, 케이블 홈(MoCA), 이더넷(Ethernet), IEEE1294, 통합 유선 홈 네트워크 및 RS-485 제어 장치로 구현될 수 있다. 또한, 무선 통신모듈은 WLAN(wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, 무선 USB 기술 및 무선 HDMI 기술 등으로 구현될 수 있다.

메모리(120)에는 입력 텍스트로부터 확장 텍스트를 생성하기 위한 프로그램이 저장된다. 또한, 메모리(120)에는 언어 모델(D1), 생성된 시퀀스 투 시퀀스 모델(D4), 어휘 체인 후보 리스트, 문장 체인 리스트 등의 데이터베이스가 저장된다. 이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.

예를 들어, 메모리(120)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.

프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킨다.

프로세서(130)는 프로그램을 실행시킴에 따라, 도 3에 도시된 바와 같이 입력 텍스트(P1)를 입력받으면 텍스트 자동 확장 과정(S310)을 통해 확장 텍스트(P2)를 생성한다.

이와 같이 생성된 확장 텍스트(P2)는 언어 모델 생성 절차(S320)를 통해 언어 모델(D1)로 생성될 수 있으며, 생성된 언어 모델(D1)은 음성 인식 기술(A)과 기계 번역 기술(B)에 활용될 수 있다.

음성 인식 기술(A)의 경우 음성 인식기(a)가 사용자의 발성(P3)을 입력받으면, 언어 모델(D1)과 기 구축된 음향 모델(D2)에 기초하여 음성 인식 결과(P4)를 출력할 수 있다. 그리고 기계 번역 기술(B)의 경우 기계 번역기(b)가 입력 문장(P5)을 입력받으면, 언어 모델(D1)과 기 구축된 번역 모델(D3)에 기초하여 번역 문장(P6)을 출력할 수 있다.

참고로, 본 발명의 실시예에 따른 도 1 내지 도 3에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.

그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.

구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.

이하에서는 도 4 내지 도 9를 참조하여, 본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)에서 입력 텍스트를 자동으로 확장하는 방법에 대하여 구체적으로 설명하도록 한다.

도 4는 본 발명의 일 실시예에 따른 입력 텍스트의 자동 확장 방법의 순서도이다. 도 5는 시퀀스 투 시퀀스 모델의 개념도이다. 도 6은 학습 텍스트로부터 문장 체인을 추출하는 내용을 설명하기 위한 순서도이다. 도 7은 입력 텍스트로부터 시퀀스 투 시퀀스 모델을 통하여 확장 텍스트를 생성하는 과정을 설명하기 위한 순서도이다.

본 발명의 일 실시예에 따른 자동 확장 방법은 먼저, 복수의 문장들로 구성된 복수의 문서를 포함하는 학습 텍스트(P7)를 입력받으면, 학습 텍스트(P7)로부터 문서 내부 문장 체인 추출 과정을 통해 문장 체인을 추출한다(S410). 이때, 문장 체인은 하나의 문서에 대한 세 개의 관련 문장을 포함하는 집합으로 구성된 것일 수 있다. 문장 체인을 추출하는 과정에 대해서는 도 6에서 구체적으로 설명하도록 한다.

여기에서 문서 내부 문장 체인 추출 과정(S410)은 문서 내부를 구성하는 문장들을 대상으로 문장 체인을 추출하는 과정이고, 문서 외부 문장 체인 추출 과정(S430)은 서로 다른 문서 간의 문장 체인을 추출하여 시퀀스 투 시퀀스 모델의 입력으로 설정하여 새로운 문장을 생성하는 과정을 의미한다.

다음으로, 추출된 문장 체인에 기초하여 시퀀스 투 시퀀스 모델(D4)을 생성한다(S420). 즉, 추출된 문장 체인에 포함된 세 개의 관련 문장 중 두 개의 문장을 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하고, 나머지 하나의 문장을 디코더의 출력으로 설정한 다음, 입력 및 출력으로 설정된 문장을 학습하여 시퀀스 투 시퀀스 모델(D4)을 생성할 수 있다.

예를 들어, 세 개의 관련 문장을 ‘A’, ‘B’, ‘C’라 하면, 문장 ‘A’와 문장 ‘B’를 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하고, 문장 ‘C’를 시퀀스 투 시퀀스 모델의 디코더의 출력으로 설정할 수 있다.

시퀀스 투 시퀀스 모델의 생성 단계는 학습 단계에 해당하며, 이를 기반으로 입력 텍스트(P1)에 대하여 확장 텍스트(P2)를 생성할 수 있다.

복수의 문서로 구성된 입력 텍스트(P1)를 입력받으면, 입력 텍스트(P1)에 대하여 문서 외부 문장 체인 추출 과정을 진행하여 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출한다(S430). 즉, 서로 의미적 연관성이 있으나 서로 다른 문서에 존재하는 문장 쌍 (A, B)를 추출한다.

다음으로, 추출된 문장 쌍을 시퀀스 투 시퀀스 모델(D4)의 인코더의 입력으로 설정하고, 인코더의 출력을 시퀀스 투 시퀀스 모델(D4)의 디코더의 출력으로 설정하여 입력에 대응하는 문장을 생성한다(S440).

예를 들어, 입력 문장 쌍 (A, B)를 인코더의 입력으로 설정하고, 해당 인코더의 출력을 입력으로 하여 디코더의 출력으로 다수의 문장 ‘C’를 생성할 수 있다.

이와 같이 생성된 문장에 기초하여 확장 텍스트(P2)를 생성할 수 있다. 이때, 생성된 문장 중 일부만을 선택하여 확장 텍스트(P2)에 반영할 수도 있다.

이러한 문장 쌍을 추출하여 확장 텍스트(P2)를 생성하는 내용은 후술하는 도 7을 통해 구체적으로 설명하도록 한다.

한편, 도 5를 참조하면 시퀀스 투 시퀀스 모델의 생성 단계(S420)에서는 문장 ‘A’와 문장 ‘B’, 그리고 문장 ‘C’를 입력으로 하여 학습이 진행되고, 시퀀스 투 시퀀스 모델에 기반하여 텍스트를 생성하는 단계(S440)에서는 문장 ‘A’와 문장 ‘B’를 입력으로 하여 문장 ‘C’가 생성된다. 이때, P8은 LSTM(Long Short Term Memory)이나 GRU(Gated Recurrent Unit)와 같은 순환형 신경망(RNN, Recurrent Neural Network) 유형일 수 있다.

이하에서는 도 6을 참조하여 학습 텍스트로부터 문장 체인을 추출하는 과정에 대하여 구체적으로 설명하도록 한다.

학습 텍스트로부터 문장 체인을 추출하는 단계는 학습 텍스트에 포함된 복수의 문서 각각에 대하여 순차적으로 문장 체인을 추출하게 된다. 즉, 하나의 문서에 대하여 문장 체인을 추출하면 이후 다음 문서에 대하여 순차적으로 문장 체인을 추출한다.

먼저, 복수의 문서 중 어느 하나의 문서(D={s₁, s₂, s₃,…, s_|D|})에 포함된 어느 하나의 문장(s_i={w_i1, w_i2,…,w_i| _si _|})에 대한 어휘 체인을 추출한다(S610, S620). 이때, 문장에 포함된 어휘들은 워드 임베딩을 통해 벡터값으로 설정되며, 이에 따라 어휘들은 문맥간의 유사도에 기초하여 벡터 공간 상에서 그 위치가 결정될 수 있다. 즉, 유사한 문맥을 가진 어휘들은 벡터 공간 상에서 서로 근접한 거리에 위치하게 된다.

어휘 체인 추출 단계는 먼저, 문장에 포함된 어휘 중 어느 하나의 어휘와 벡터 공간 상에서 최단 거리에 위치하는 어휘를 검출하여 부분 어휘 체인을 생성한다(S630). 이는 단어 W_ij와 최단 거리에 위치하는 어휘 W_km을 검출하는 것으로서, 아래 식 1과 같이 기술될 수 있다.

[식 1]

이때, k는 문장 인덱스를 의미하는데, k>i는 현재 기준 문장 이후의 문장을 의미한다. 그리고 m은 k번째 문장의 m번째 어휘를 의미한다. 함수 d는 두 어휘 벡터값들의 거리값을 리턴하는 함수이다.

부분 어휘 체인이 생성되고 나면 어휘 체인의 세 번째 어휘를 찾는 과정이 진행된다. 위 과정을 통해 검출된 부분 어휘 체인(w_ij, w_km)과 벡터 공간 상에서 최단 거리에 위치하는 어휘(W_np)를 검출하여 어휘 체인으로 추출할 수 있으며, 이는 아래 식 2와 같이 기술될 수 있다(S640).

[식 2]

여기에서 n은 n>k로 두번째 선택된 문장 이후의 문장 인덱스를 의미하며, P는 n번째 문장의 p번째 어휘 인덱스를 의미한다. 그리고 함수 g는 세 어휘의 벡터값의 거리값을 리턴하는 함수로서, 식 3과 같이 일반화되어 기술될 수 있다.

[식 3]

이와 같은 과정을 통해 추출된 어휘 체인 (w_ij, w_km, w_np)은 어휘 체인 후보 리스트(C_i)에 저장된다(S650).

이와 같이 추출된 (w_ij, w_km, w_np)은 문장 인덱스 (I, k, n)에 속하는 어휘들로 구성된 (문장 i의 j번째 어휘, 문장 k의 m번째 어휘, 문장 n의 p번째 어휘)로 구성된 것이다. 즉, 해당 어휘 체인 (w_ij, w_km, w_np)은 문장 (s_i, s_k, s_n)의 특정 자질이라 할 수 있으며, 상술한 식 3에 의해 거리값을 가질 수 있다.

다음으로, 하나의 문장에 포함된 모든 어휘에 대하여 어휘 체인이 추출되었는지 여부를 판단하며(S660), 이후 문장 S_i의 다음 어휘에 대하여 어휘 체인을 추출하기 위해 워드 인덱스를 증가시킨 이후 다시 S630 단계로 돌아간다.

하나의 문장에 포함된 모든 어휘에 대하여 어휘 체인이 추출되면, 어휘 체인 후보 리스트에 포함된 어휘 체인에 대응되는 하나 이상의 문장 체인을 추출하여 문장 체인 리스트(SC)에 저장한다(S670).

이를 위해, 어휘 체인 후보 리스트에 포함된 어휘 체인 중 기 설정된 판단 기준에 기초한 우선 순위에 기초하여 선정된 어휘 체인에 대응되도록 문장 체인을 정렬하여 문장 체인 리스트에 저장할 수 있다.

예를 들어, 어휘 체인 후보 리스트(C_i) 중 최적값을 가진 어휘 체인 (w_ij, w_km, w_np)을 선정하고, 랭킹에 따른 하나 이상의 문장 체인 {s_i, s_k, s_n}을 문장 체인 리스트(SC)에 저장할 수 있다.

이때, 최적값은 상술한 식 3에 따른 어휘 간의 거리값에 기초하여 결정될 수 있다. 즉, 해당 거리값 g(w_ij, w_km, w_np)가 가장 작은 경우, 최적값을 갖는 어휘 체인 (w_ij, w_km, w_np)으로 선정하고, 이를 통해 문장 체인 {s_i, s_k, s_n}이 도출될 수 있다.

다음으로, 하나의 문서에 포함된 모든 문장에 대하여 문장 체인이 추출되었는지 여부를 판단하며(S680), 이후 다음 문장에 대한 인덱스를 증가시킨뒤 다시 S620 단계로 돌아간다.

이와 같은 과정을 반복 수행하여 모든 문장에 대해 문장 체인이 추출되면, 문서에 대응하는 문장 체인 리스트를 출력한다(S690). 이때, 문장 체인 스코어가 낮은 문장 체인은 필터링하는 과정을 더 포함할 수도 있다.

이하에서는 도 7을 참조하여 입력 텍스트로부터 시퀀스 투 시퀀스 모델을 통하여 확장 텍스트를 생성하는 과정을 설명하도록 한다.

입력 텍스트는 복수의 문서들로 구성되어 있으며, 복수의 문서들은 각각 복수의 문장들로 구성되어 있다(S710). 이와 같이 입력 텍스트를 구성하는 복수의 문장들에 대하여 셔플링 과정을 수행한 다음(S720), 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 랜덤하게 복수 개 추출한다(S730).

그리고 문장 쌍을 구성하는 두 문장의 어휘들의 거리값에 기초하여 복수 개의 문장 쌍들을 정렬한다(S740).

복수 개의 문장 쌍들이 정렬되면, 정렬된 문장 쌍을 정렬 순서에 기초하여 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정한다. 즉, Top 1으로 정렬된 문장 쌍을 먼저 인코더의 입력으로 설정하며, Top n으로 정렬된 문장 쌍까지를 대상으로 진행할 수 있다.

이와 같이 인코더의 입력으로 설정되면, 인코더의 출력을 디코더의 출력으로 설정하여 입력에 대응하는 문장이 생성되며(S750), 생성된 문장은 텍스트 확장 후보 리스트에 저장한다(S760).

다음으로, 생성된 문장을 텍스트 확장 후보 리스트에 저장한 뒤, 이를 복수의 문장에 포함시켜 셔플링하는 단계 S720을 Top-n을 대상으로 할 때까지 다시 반복하여 수행한다.

최종적으로 기 생성된 언어 모델과의 유사도에 기초하여 텍스트 확장 후보 리스트를 필터링한 뒤, 필터링된 텍스트 확장 후보 리스트를 확장 텍스트로 생성할 수 있다(S770).

한편, 본 발명의 일 실시예에 따른 입력 텍스트의 자동 확장 방법은 문장 체인 추출 모델에 대하여 신경망 모델을 도입한 N-hop 모델을 통해 어휘 체인망 기술을 확장할 수 있다. 즉, 본 발명의 일 실시예는 N-hop 모델을 통해 어휘 체인망에 기반한 문장 체인망을 모델링할 수 있는바, 이하 도 8 및 도 9를 참조하여 설명하도록 한다.

도 8은 N-hop 모델의 개념도이다. 도 9는 N-hop 모델의 학습 과정을 설명하기 위한 순서도이다.

구체적으로 N-hop 모델은 도 6에서 설명한 두 어휘간의 거리를 산출하는 함수 d와 세 어휘간의 거리를 산출하는 함수 g를 대체할 수 있다. 함수 d와 함수 g는 어휘 임베딩을 이용한 어휘 체인 생성 방법에 활용되는데 반면, N-hop 모델은 문장을 대상으로 바로 문장 체인 생성을 진행할 수 있다.

또한, N-hop 모델의 학습을 위한 학습 데이터로 도 6의 과정에 따라 생성된 문장 체인이 이용될 수 있다.

이와 같은 N-hop 모델은 도 6의 S630 내지 S670 과정 및 도 7의 S740 단계를 대체하여 텍스트 확장 방법에 적용될 수 있다.

도 8 및 도 9를 참조하면, N-hop 모델은 3단계로 학습이 진행될 수 있다.

먼저, 문장 임베딩을 위해 순환형 신경망 언어 모델을 학습한다(S910). 이때, 순환형 신경망 언어 모델은 LSTM 또는 GRU 중 어느 하나일 수 있다. 도 8에서의 도면부호 801, 802, 811은 동일한 순환형 신경망 언어 모델을 의미하며, 이를 이용하여 문장 임베딩을 수행할 수 있다.

다음으로, 1-hop 모델을 학습한다(S920). 즉, 문장 쌍을 구성하는 두 문장을 포함하는 문장 체인(A={S1, S2})과 문장 체인에 대응하는 문장 체인 반례(B={S1, S2’})를 이용하여, 문장 체인 및 문장 체인 반례를 분류할 수 있는 1-hop 모델을 학습한다.

이와 같이 학습된 1-hop 모델은 임베딩된 문장을 P1 레이어(803)와 H1 레이어(804)를 통해 깊은 신경망 모델로 구성하고, O1 레이어(805)를 통해 문장 체인 여부를 결정하는 결과값을 도출할 수 있다.

이러한 1-hop 모델은 도 7의 S740 단계에 적용될 수 있는바, 1-hop 모델에 기초하여 복수 개의 문장 쌍들을 정렬할 수 있게 된다.

다음으로, 2-hop 모델을 학습한다(S930). 즉, 세 개의 관련 문장을 포함하는 문장 체인(A={S1, S2, S3})과 문장 체인에 대응하는 문장 체인 반례(B={S1, S2, S3’} )를 이용하여, 문장 체인 및 문장 체인 반례를 분류할 수 있는 2-hop 모델을 학습한다.

이와 같이 학습된 2-hop 모델은 1-hop 모델의 H1 레이어(804)의 출력값 및 문장 쌍에 포함되지 않은 임베딩된 문장(S3)을 P2 레이어(812)의 입력으로 하고, H2 레이어(813) 및 O2 레이어(814)를 통해 문장 체인 여부를 결정하는 결과값을 도출할 수 있다.

여기에서 P1 레이어(803), P2 레이어(812), H1 레이어(804), H2 레이어(813)는 뉴럴 네트워크에서 사용되는 FC(Full Connect Layer)이고, O1 레이어(805)와 O2 레이어(814)는 확률값을 도출할 수 있는 소프트맥스(softmax) 레이어를 의미한다.

P1 레이어(803)는 두 문장을 임베딩하는 두 개의 RNN(801, 802) 결과를 입력으로 하고, H1 레이어(804)의 입력값으로 변환하는 역할을 한다. 그리고 P2 레이어(812)는 H1 레이어(804)의 출력값과 세 번째 문장(S3)의 RNN(811)의 출력값을 입력으로 하고, H2 레이어(813)의 입력값으로 변환하는 역할을 한다.

H1 레이어(804)의 출력값은 O1 레이어(805)의 입력으로 하여 두 문장(S1, S2)의 유사도 확률값 (score(S1, S2))을 출력하고, H2 레이어(813)의 출력값을 O2 레이어(814)의 입력으로 처리하여 세 문장(S1, S2, S3)의 유사도 확률값 (score(S1, S2, S3))을 출력하게 된다.

한편, 상술한 설명에서, 단계 S410 내지 S930은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 3에서 이미 기술된 내용은 도 4 내지 도 9의 입력 텍스트의 자동 확장 방법에도 적용될 수 있다.

이와 같은 본 발명의 일 실시예 중 어느 하나에 의하면, 문장 체인 추출을 이용한 텍스트 코퍼스 확장 기술을 통해, 음성 인식과 기계 번역의 언어 모델링을 통한 성능 개선의 효과를 기대할 수 있다.

한편, 본 발명의 일 실시예는 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 텍스트 확장 시스템
110: 통신모듈
120: 메모리
130: 프로세서
200, 300, 400: 외부 디바이스

Claims

통신모듈, 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하는 텍스트 확장 시스템에 의해 수행되는 방법에 있어서,
복수의 문서로 구성된 입력 텍스트를 입력받는 단계;
상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계;
상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하는 단계;
상기 인코더의 출력을 상기 시퀀스 투 시퀀스 모델의 디코더의 출력으로 설정하여 상기 입력에 대응하는 문장을 생성하는 단계 및
상기 생성된 문장에 기초하여 확장 텍스트를 생성하는 단계를 포함하는 입력 텍스트의 자동 확장 방법.
제 1 항에 있어서,
복수의 문장들로 구성된 복수의 문서를 포함하는 학습 텍스트를 입력받는 단계;
상기 학습 텍스트로부터 문장 체인을 추출하는 단계 및
상기 추출된 문장 체인에 기초하여 상기 시퀀스 투 시퀀스 모델을 생성하는 단계를 더 포함하되,
상기 문장 체인은 하나의 문서에 대한 세 개의 관련 문장을 포함하는 집합으로 구성된 것인 입력 텍스트의 자동 확장 방법.
제 2 항에 있어서,
상기 학습 텍스트로부터 문장 체인을 추출하는 단계는,
상기 학습 텍스트에 포함된 복수의 문서 각각에 대하여 순차적으로 문장 체인을 추출하는 것인 입력 텍스트의 자동 확장 방법.
제 3 항에 있어서,
상기 학습 텍스트로부터 문장 체인을 추출하는 단계는,
상기 복수의 문서 중 어느 하나의 문서에 포함된 어느 하나의 문장에 대한 어휘 체인을 추출하는 단계;
상기 추출된 어휘 체인을 어휘 체인 후보 리스트에 저장하는 단계;
상기 하나의 문장에 포함된 모든 어휘에 대하여 어휘 체인이 추출되었는지 여부를 판단하는 단계;
상기 모든 어휘에 대하여 어휘 체인이 추출된 경우, 상기 어휘 체인 후보 리스트에 포함된 어휘 체인에 대응되는 하나 이상의 문장 체인을 추출하여 문장 체인 리스트에 저장하는 단계;
상기 하나의 문서에 포함된 모든 문장에 대하여 문장 체인이 추출되었는지 여부를 판단하는 단계 및
상기 모든 문장에 대하여 문장 체인이 추출된 경우, 상기 문서에 대응하는 문장 체인 리스트를 출력하는 단계를 포함하는 입력 텍스트의 자동 확장 방법.
제 4 항에 있어서,
상기 문장에 포함된 어휘들은 워드 임베딩을 통해 벡터값으로 설정되되,
상기 어휘들은 문맥간의 유사도에 기초하여 벡터 공간 상에서의 위치가 결정되는 것인 입력 텍스트의 자동 확장 방법.
제 5 항에 있어서,
상기 어휘 체인을 추출하는 단계는,
상기 문장에 포함된 어휘 중 어느 하나의 어휘와 상기 벡터 공간 상에서 최단 거리에 위치하는 어휘를 검출하여 부분 어휘 체인을 생성하는 단계 및
상기 부분 어휘 체인과 상기 벡터 공간 상에서 최단 거리에 위치하는 어휘를 검출하여 상기 어휘 체인으로 추출하는 단계를 포함하는 것인 입력 텍스트의 자동 확장 방법.
제 4 항에 있어서,
상기 문장 체인을 추출하여 문장 체인 리스트에 저장하는 단계는,
상기 어휘 체인 후보 리스트에 포함된 어휘 체인 중 기 설정된 판단 기준에 기초한 우선 순위에 기초하여 선정된 어휘 체인에 대응되도록 상기 문장 체인을 정렬하여 상기 문장 체인 리스트에 저장하는 것인 입력 텍스트의 자동 확장 방법.
제 2 항에 있어서,
상기 시퀀스 투 시퀀스 모델을 생성하는 단계는,
상기 학습 텍스트에 포함된 복수의 문서 중 어느 하나의 문서에 대한 문장 체인을 선택하는 단계;
상기 문장 체인에 포함된 세 개의 관련 문장 중 두 개의 문장을 상기 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하고, 나머지 하나의 문장을 디코더의 출력으로 설정하는 단계 및
상기 입력 및 출력으로 설정된 문장을 학습하여 상기 시퀀스 투 시퀀스 모델을 생성하는 단계를 포함하는 자동 확장 방법.
제 1 항에 있어서,
상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계는,
상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 랜덤하게 복수 개 추출하는 단계 및
상기 문장 쌍을 구성하는 두 문장의 어휘들의 거리값에 기초하여 상기 복수 개의 문장 쌍들을 정렬하는 단계를 포함하는 것인 입력 텍스트의 자동 확장 방법.
제 9 항에 있어서,
상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더에 입력하는 단계는,
상기 정렬된 문장 쌍을 정렬 순서에 기초하여 상기 인코더의 입력으로 설정하는 것인 입력 텍스트의 자동 확장 방법.
제 10 항에 있어서,
상기 생성된 문장에 기초하여 확장 텍스트를 생성하는 단계는,
상기 생성된 문장을 텍스트 확장 후보 리스트에 저장하는 단계;
기 생성된 언어 모델과의 유사도에 기초하여 상기 텍스트 확장 후보 리스트를 필터링하는 단계 및
상기 필터링된 텍스트 확장 후보 리스트를 상기 확장 텍스트로 생성하는 단계를 포함하는 것인 입력 텍스트의 자동 확장 방법.
제 11 항에 있어서,
상기 입력 텍스트에 포함된 복수의 문장을 셔플링하는 단계를 더 포함하되,
상기 생성된 문장은 상기 텍스트 확장 후보 리스트에 저장한 뒤, 상기 복수의 문장에 포함시켜 셔플링하는 것인 입력 텍스트의 자동 확장 방법.
제 2 항에 있어서,
상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계는,
미리 학습된 순환형 신경망 언어 모델(Recurrent Neural Network Language Model)에 기초하여 상기 추출된 문장 쌍들을 임베딩하여 벡터로 표현하는 단계 및
상기 문장 쌍을 구성하는 두 문장을 포함하는 문장 체인 및 상기 문장 체인에 대응하는 문장 체인 반례를 이용하여, 상기 문장 체인 및 문장 체인 반례를 분류 가능한 1-hop 모델을 학습하는 단계를 포함하되,
상기 1-hop 모델은 상기 임베딩된 문장을 P1 레이어와 H1 레이어를 통해 깊은 신경망 모델(Deep Neural Network Model)로 구성하고, O1 레이어를 통해 문장 체인 여부를 결정하는 결과값을 도출하는 것인 입력 텍스트의 자동 확장 방법.
제 13 항에 있어서,
상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계는,
상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 랜덤하게 복수 개 추출하는 단계 및
상기 1-hop 모델에 기초하여 상기 복수 개의 문장 쌍들을 정렬하는 단계를 더 포함하는 것인 입력 텍스트의 자동 확장 방법.
제 13 항에 있어서,
상기 세 개의 관련 문장을 포함하는 문장 체인 및 상기 문장 체인에 대응하는 문장 체인 반례를 이용하여, 상기 문장 체인 및 문장 체인 반례를 분류 가능한 2-hop 모델을 학습하는 단계를 더 포함하되,
상기 2-hop 모델은 상기 1-hop 모델의 H1 레이어의 출력값 및 상기 문장 쌍에 포함되지 않은 임베딩된 문장을 P2 레이어의 입력으로 하고, H2 레이어 및 O2 레이어를 통해 문장 체인 여부를 결정하는 결과값을 도출하는 것인 입력 텍스트의 자동 확장 방법.
제 13 항에 있어서,
상기 순환형 신경망 언어 모델은 LSTM 또는 GRU 중 어느 하나인 것인 입력 텍스트의 자동 확장 방법.
입력 텍스트를 자동으로 확장하는 텍스트 확장 시스템에 있어서,
외부 디바이스와 데이터를 송수신하는 통신모듈,
상기 입력 텍스트로부터 확장 텍스트를 생성하기 위한 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되,
상기 프로세서는 상기 프로그램을 실행시킴에 따라, 복수의 문서로 구성된 입력 텍스트를 입력받으면, 상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하고,
상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더에 입력하고, 상기 시퀀스 투 시퀀스 모델의 디코더의 출력으로 상기 입력에 대응하는 문장을 생성하며, 상기 생성된 문장에 기초하여 상기 확장 텍스트를 생성하는 것인 텍스트 확장 시스템.
제 17 항에 있어서,
상기 프로세서는 상기 통신모듈을 통해 복수의 문장들로 구성된 복수의 문서를 포함하는 학습 텍스트를 입력받으면, 상기 학습 텍스트로부터 문장 체인을 추출하고, 상기 추출된 문장 체인에 기초하여 상기 시퀀스 투 시퀀스 모델을 생성하되,
상기 문장 체인은 하나의 문서에 대한 세 개의 관련 문장을 포함하는 집합으로 구성된 것인 텍스트 확장 시스템.
제 18 항에 있어서,
상기 프로세서는 상기 학습 텍스트를 구성하는 어느 하나의 문서에 포함된 어느 하나의 문장에 대한 어휘 체인을 추출하여 어휘 체인 후보 리스트에 저장하고,
상기 하나의 문장에 포함된 모든 어휘에 대하여 어휘 체인이 추출된 경우, 상기 어휘 체인 후보 리스트에 포함된 어휘 체인에 대응되는 하나 이상의 문장 체인을 추출하여 문장 체인 리스트에 저장하며,
상기 하나의 문서에 포함된 모든 문장에 대하여 문장 체인이 추출된 경우, 상기 문서에 대응하는 문장 체인 리스트를 출력하는 것인 텍스트 확장 시스템.
제 18 항에 있어서,
상기 프로세서는 상기 학습 텍스트에 포함된 복수의 문서 중 어느 하나의 문서에 대한 문장 체인을 선택하고, 상기 문장 체인에 포함된 세 개의 관련 문장 중 두 개의 문장을 상기 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하고, 나머지 하나의 문장을 디코더의 출력으로 설정하며, 상기 입력 및 출력으로 설정된 문장을 학습하여 상기 시퀀스 투 시퀀스 모델을 생성하는 것인 텍스트 확장 시스템.