KR102630668B1 - 입력 텍스트를 자동으로 확장하는 시스템 및 방법 - Google Patents

입력 텍스트를 자동으로 확장하는 시스템 및 방법 Download PDF

Info

Publication number
KR102630668B1
KR102630668B1 KR1020160165135A KR20160165135A KR102630668B1 KR 102630668 B1 KR102630668 B1 KR 102630668B1 KR 1020160165135 A KR1020160165135 A KR 1020160165135A KR 20160165135 A KR20160165135 A KR 20160165135A KR 102630668 B1 KR102630668 B1 KR 102630668B1
Authority
KR
South Korea
Prior art keywords
sentence
chain
text
sequence
vocabulary
Prior art date
Application number
KR1020160165135A
Other languages
English (en)
Other versions
KR20180064808A (ko
Inventor
정의석
강병옥
박기영
박전규
송화전
이성주
이윤근
전형배
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160165135A priority Critical patent/KR102630668B1/ko
Priority to US15/439,416 priority patent/US10402494B2/en
Publication of KR20180064808A publication Critical patent/KR20180064808A/ko
Application granted granted Critical
Publication of KR102630668B1 publication Critical patent/KR102630668B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 입력 텍스트의 자동 확장 방법은 복수의 문서로 구성된 입력 텍스트를 입력받는 단계; 상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계; 상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하는 단계; 상기 인코더의 출력을 상기 시퀀스 투 시퀀스 모델의 디코더의 출력으로 설정하여 상기 입력에 대응하는 문장을 생성하는 단계 및 상기 생성된 문장에 기초하여 확장 텍스트를 생성하는 단계를 포함한다.

Description

입력 텍스트를 자동으로 확장하는 시스템 및 방법{SYSTEM AND METHOD FOR EXPANDING INPUT TEXT AUTOMATICALLY}
본 발명은 입력 텍스트를 자동으로 확장하는 시스템 및 방법에 관한 것이다.
신경망에 기반한 시퀀스 투 시퀀스 학습 알고리즘에 대한 기초연구는 기계 번역 분야에서 처음 적용되었다. 즉, 2014년도에 공개된 논문(Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to sequence learning with neural networks." Advances in neural information processing systems. 2014)에서는 입력 문장과 번역 문장의 쌍에 대하여 입력 문장에 대한 LSTM(Long Short Term Memory) 인코더와 번역 문장에 대한 LSTM 디코더를 학습하는 접근 방법이 처음 제시되었다. 이는 새로운 입력 문장을 인코더를 통해 문장 임베딩(sentence embedding)을 하고, 해당 임베딩 값을 디코더의 입력으로 하여 번역 문장을 생성하는 end-2end 접근 방법이다.
이러한 접근 방법은 최근 챗본(chat-bot) 구축을 위한 대화 모델 학습에 활용되고 있다. 또한, 이러한 접근 방법은 영화 대본 스크립트의 다이얼로그 시퀀스를 인코더, 디코더에 대입하였을 때, 특정 질문에 대하여 답변할 수 있는 대응 문장을 생성하는데 활용될 수도 있다.
그러나 종래 기술의 경우 번역 문장 쌍, 질문 답변 쌍과 같은 학습 데이터가 존재해야만 하고, 일반 텍스트에 있어 인코더 및 디코더에 대응되는 학습 문장을 제공할 수 있는 방법이 없다는 문제가 있다.
이와 같은 문제점을 해소하기 위하여, 어휘 체인망 기술을 도입하여 시퀀스 투 시퀀스 모델의 입력 및 출력을 생성하는 기술이 필요한 실정이다.
이와 관련하여, 미국등록특허공보 US 7,805,288호(발명의 명칭: Corpus expansion system and method thereof)는 코퍼스 확장을 위하여 시드를 확장하고, 확장된 시드를 활용하여 코퍼스 확장 시스템을 구축하는 기술을 개시하고 있다.
본 발명의 실시예는 어휘 체인망 기술과 시퀀스 투 시퀀스 모델을 활용하여 입력 텍스트를 자동으로 확장할 수 있는 시스템 및 방법을 제공한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 입력 텍스트의 자동 확장 방법은 복수의 문서로 구성된 입력 텍스트를 입력받는 단계; 상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계; 상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하는 단계; 상기 인코더의 출력을 상기 시퀀스 투 시퀀스 모델의 디코더의 출력으로 설정하여 상기 입력에 대응하는 문장을 생성하는 단계 및 상기 생성된 문장에 기초하여 확장 텍스트를 생성하는 단계를 포함한다.
또한, 본 발명의 제 2 측면에 따른 입력 텍스트를 자동으로 확장하는 텍스트 확장 시스템은 외부 디바이스와 데이터를 송수신하는 통신모듈, 상기 입력 텍스트로부터 확장 텍스트를 생성하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 복수의 문서로 구성된 입력 텍스트를 입력받으면, 상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하고, 상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더에 입력하고, 상기 시퀀스 투 시퀀스 모델의 디코더의 출력으로 상기 입력에 대응하는 문장을 생성하며, 상기 생성된 문장에 기초하여 상기 확장 텍스트를 생성한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 문장 체인 추출을 이용한 텍스트 코퍼스 확장 기술을 통해, 음성 인식과 기계 번역의 언어 모델링을 통한 성능 개선의 효과를 기대할 수 있다.
또한, 문서 요약에 사용되는 어휘 체인망 추출 기술을 심층 신경망 기반 N-hop 모델에 기반한 문장 체인 자동 추출 기술로 확장함에 따라, 요약 시스템 성능 개선의 효과를 기대할 수 있다.
도 1은 본 발명의 일 실시예에 따른 텍스트 확장 시스템을 개략적으로 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 텍스트 확장 시스템의 블록도이다.
도 3은 텍스트 확장 시스템의 활용 예시도이다.
도 4는 본 발명의 일 실시예에 따른 입력 텍스트의 자동 확장 방법의 순서도이다.
도 5는 시퀀스 투 시퀀스 모델의 개념도이다.
도 6은 학습 텍스트로부터 문장 체인을 추출하는 내용을 설명하기 위한 순서도이다.
도 7은 입력 텍스트로부터 시퀀스 투 시퀀스 모델을 통하여 확장 텍스트를 생성하는 과정을 설명하기 위한 순서도이다.
도 8은 N-hop 모델의 개념도이다.
도 9는 N-hop 모델의 학습 과정을 설명하기 위한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 발명은 입력 텍스트를 자동으로 확장할 수 있는 텍스트 확장 시스템 및 방법에 관한 것이다.
이하에서는 도 1 내지 도 3을 참조하여 본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)에 대하여 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)을 개략적으로 설명하기 위한 도면이다. 도 2는 본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)의 블록도이다. 도 3은 텍스트 확장 시스템(100)의 활용 예시도이다.
본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)은 어휘 체인망 기술과 시퀀스 투 시퀀스 모델에 기초하여 입력 텍스트를 자동으로 확장할 수 있다.
이러한 텍스트 확장 시스템(100)은 외부 디바이스(200~400)와 네트워크(network)를 통해 연결될 수 있다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
외부 디바이스(200~400)는 음성 인식기(a) 또는 기계 번역기(b) 그 자체로 구현되거나, 또는 이러한 기능을 실행시키기 위한 어플리케이션이 저장된 단말일 수 있다. 이러한 외부 디바이스(200~400)는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치, 즉 PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)은 도 2에 도시된 바와 같이 구성될 수 있다.
본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)은 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.
통신모듈(110)은 외부 디바이스(200~400)와 데이터를 송수신한다. 이와 같은 통신모듈(110)은 유선 통신모듈 및 무선 통신모듈을 모두 포함할 수 있다. 유선 통신모듈은 전력선 통신 장치, 전화선 통신 장치, 케이블 홈(MoCA), 이더넷(Ethernet), IEEE1294, 통합 유선 홈 네트워크 및 RS-485 제어 장치로 구현될 수 있다. 또한, 무선 통신모듈은 WLAN(wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, 무선 USB 기술 및 무선 HDMI 기술 등으로 구현될 수 있다.
메모리(120)에는 입력 텍스트로부터 확장 텍스트를 생성하기 위한 프로그램이 저장된다. 또한, 메모리(120)에는 언어 모델(D1), 생성된 시퀀스 투 시퀀스 모델(D4), 어휘 체인 후보 리스트, 문장 체인 리스트 등의 데이터베이스가 저장된다. 이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.
예를 들어, 메모리(120)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.
프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킨다.
프로세서(130)는 프로그램을 실행시킴에 따라, 도 3에 도시된 바와 같이 입력 텍스트(P1)를 입력받으면 텍스트 자동 확장 과정(S310)을 통해 확장 텍스트(P2)를 생성한다.
이와 같이 생성된 확장 텍스트(P2)는 언어 모델 생성 절차(S320)를 통해 언어 모델(D1)로 생성될 수 있으며, 생성된 언어 모델(D1)은 음성 인식 기술(A)과 기계 번역 기술(B)에 활용될 수 있다.
음성 인식 기술(A)의 경우 음성 인식기(a)가 사용자의 발성(P3)을 입력받으면, 언어 모델(D1)과 기 구축된 음향 모델(D2)에 기초하여 음성 인식 결과(P4)를 출력할 수 있다. 그리고 기계 번역 기술(B)의 경우 기계 번역기(b)가 입력 문장(P5)을 입력받으면, 언어 모델(D1)과 기 구축된 번역 모델(D3)에 기초하여 번역 문장(P6)을 출력할 수 있다.
참고로, 본 발명의 실시예에 따른 도 1 내지 도 3에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
이하에서는 도 4 내지 도 9를 참조하여, 본 발명의 일 실시예에 따른 텍스트 확장 시스템(100)에서 입력 텍스트를 자동으로 확장하는 방법에 대하여 구체적으로 설명하도록 한다.
도 4는 본 발명의 일 실시예에 따른 입력 텍스트의 자동 확장 방법의 순서도이다. 도 5는 시퀀스 투 시퀀스 모델의 개념도이다. 도 6은 학습 텍스트로부터 문장 체인을 추출하는 내용을 설명하기 위한 순서도이다. 도 7은 입력 텍스트로부터 시퀀스 투 시퀀스 모델을 통하여 확장 텍스트를 생성하는 과정을 설명하기 위한 순서도이다.
본 발명의 일 실시예에 따른 자동 확장 방법은 먼저, 복수의 문장들로 구성된 복수의 문서를 포함하는 학습 텍스트(P7)를 입력받으면, 학습 텍스트(P7)로부터 문서 내부 문장 체인 추출 과정을 통해 문장 체인을 추출한다(S410). 이때, 문장 체인은 하나의 문서에 대한 세 개의 관련 문장을 포함하는 집합으로 구성된 것일 수 있다. 문장 체인을 추출하는 과정에 대해서는 도 6에서 구체적으로 설명하도록 한다.
여기에서 문서 내부 문장 체인 추출 과정(S410)은 문서 내부를 구성하는 문장들을 대상으로 문장 체인을 추출하는 과정이고, 문서 외부 문장 체인 추출 과정(S430)은 서로 다른 문서 간의 문장 체인을 추출하여 시퀀스 투 시퀀스 모델의 입력으로 설정하여 새로운 문장을 생성하는 과정을 의미한다.
다음으로, 추출된 문장 체인에 기초하여 시퀀스 투 시퀀스 모델(D4)을 생성한다(S420). 즉, 추출된 문장 체인에 포함된 세 개의 관련 문장 중 두 개의 문장을 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하고, 나머지 하나의 문장을 디코더의 출력으로 설정한 다음, 입력 및 출력으로 설정된 문장을 학습하여 시퀀스 투 시퀀스 모델(D4)을 생성할 수 있다.
예를 들어, 세 개의 관련 문장을 ‘A’, ‘B’, ‘C’라 하면, 문장 ‘A’와 문장 ‘B’를 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하고, 문장 ‘C’를 시퀀스 투 시퀀스 모델의 디코더의 출력으로 설정할 수 있다.
시퀀스 투 시퀀스 모델의 생성 단계는 학습 단계에 해당하며, 이를 기반으로 입력 텍스트(P1)에 대하여 확장 텍스트(P2)를 생성할 수 있다.
복수의 문서로 구성된 입력 텍스트(P1)를 입력받으면, 입력 텍스트(P1)에 대하여 문서 외부 문장 체인 추출 과정을 진행하여 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출한다(S430). 즉, 서로 의미적 연관성이 있으나 서로 다른 문서에 존재하는 문장 쌍 (A, B)를 추출한다.
다음으로, 추출된 문장 쌍을 시퀀스 투 시퀀스 모델(D4)의 인코더의 입력으로 설정하고, 인코더의 출력을 시퀀스 투 시퀀스 모델(D4)의 디코더의 출력으로 설정하여 입력에 대응하는 문장을 생성한다(S440).
예를 들어, 입력 문장 쌍 (A, B)를 인코더의 입력으로 설정하고, 해당 인코더의 출력을 입력으로 하여 디코더의 출력으로 다수의 문장 ‘C’를 생성할 수 있다.
이와 같이 생성된 문장에 기초하여 확장 텍스트(P2)를 생성할 수 있다. 이때, 생성된 문장 중 일부만을 선택하여 확장 텍스트(P2)에 반영할 수도 있다.
이러한 문장 쌍을 추출하여 확장 텍스트(P2)를 생성하는 내용은 후술하는 도 7을 통해 구체적으로 설명하도록 한다.
한편, 도 5를 참조하면 시퀀스 투 시퀀스 모델의 생성 단계(S420)에서는 문장 ‘A’와 문장 ‘B’, 그리고 문장 ‘C’를 입력으로 하여 학습이 진행되고, 시퀀스 투 시퀀스 모델에 기반하여 텍스트를 생성하는 단계(S440)에서는 문장 ‘A’와 문장 ‘B’를 입력으로 하여 문장 ‘C’가 생성된다. 이때, P8은 LSTM(Long Short Term Memory)이나 GRU(Gated Recurrent Unit)와 같은 순환형 신경망(RNN, Recurrent Neural Network) 유형일 수 있다.
이하에서는 도 6을 참조하여 학습 텍스트로부터 문장 체인을 추출하는 과정에 대하여 구체적으로 설명하도록 한다.
학습 텍스트로부터 문장 체인을 추출하는 단계는 학습 텍스트에 포함된 복수의 문서 각각에 대하여 순차적으로 문장 체인을 추출하게 된다. 즉, 하나의 문서에 대하여 문장 체인을 추출하면 이후 다음 문서에 대하여 순차적으로 문장 체인을 추출한다.
먼저, 복수의 문서 중 어느 하나의 문서(D={s1, s2, s3,…, s|D|})에 포함된 어느 하나의 문장(si={wi1, wi2,…,wi| si |})에 대한 어휘 체인을 추출한다(S610, S620). 이때, 문장에 포함된 어휘들은 워드 임베딩을 통해 벡터값으로 설정되며, 이에 따라 어휘들은 문맥간의 유사도에 기초하여 벡터 공간 상에서 그 위치가 결정될 수 있다. 즉, 유사한 문맥을 가진 어휘들은 벡터 공간 상에서 서로 근접한 거리에 위치하게 된다.
어휘 체인 추출 단계는 먼저, 문장에 포함된 어휘 중 어느 하나의 어휘와 벡터 공간 상에서 최단 거리에 위치하는 어휘를 검출하여 부분 어휘 체인을 생성한다(S630). 이는 단어 Wij와 최단 거리에 위치하는 어휘 Wkm을 검출하는 것으로서, 아래 식 1과 같이 기술될 수 있다.
[식 1]
Figure 112016119583266-pat00001
이때, k는 문장 인덱스를 의미하는데, k>i는 현재 기준 문장 이후의 문장을 의미한다. 그리고 m은 k번째 문장의 m번째 어휘를 의미한다. 함수 d는 두 어휘 벡터값들의 거리값을 리턴하는 함수이다.
부분 어휘 체인이 생성되고 나면 어휘 체인의 세 번째 어휘를 찾는 과정이 진행된다. 위 과정을 통해 검출된 부분 어휘 체인(wij, wkm)과 벡터 공간 상에서 최단 거리에 위치하는 어휘(Wnp)를 검출하여 어휘 체인으로 추출할 수 있으며, 이는 아래 식 2와 같이 기술될 수 있다(S640).
[식 2]
Figure 112016119583266-pat00002
여기에서 n은 n>k로 두번째 선택된 문장 이후의 문장 인덱스를 의미하며, P는 n번째 문장의 p번째 어휘 인덱스를 의미한다. 그리고 함수 g는 세 어휘의 벡터값의 거리값을 리턴하는 함수로서, 식 3과 같이 일반화되어 기술될 수 있다.
[식 3]
Figure 112016119583266-pat00003
이와 같은 과정을 통해 추출된 어휘 체인 (wij, wkm, wnp)은 어휘 체인 후보 리스트(Ci)에 저장된다(S650).
이와 같이 추출된 (wij, wkm, wnp)은 문장 인덱스 (I, k, n)에 속하는 어휘들로 구성된 (문장 i의 j번째 어휘, 문장 k의 m번째 어휘, 문장 n의 p번째 어휘)로 구성된 것이다. 즉, 해당 어휘 체인 (wij, wkm, wnp)은 문장 (si, sk, sn)의 특정 자질이라 할 수 있으며, 상술한 식 3에 의해 거리값을 가질 수 있다.
다음으로, 하나의 문장에 포함된 모든 어휘에 대하여 어휘 체인이 추출되었는지 여부를 판단하며(S660), 이후 문장 Si의 다음 어휘에 대하여 어휘 체인을 추출하기 위해 워드 인덱스를 증가시킨 이후 다시 S630 단계로 돌아간다.
하나의 문장에 포함된 모든 어휘에 대하여 어휘 체인이 추출되면, 어휘 체인 후보 리스트에 포함된 어휘 체인에 대응되는 하나 이상의 문장 체인을 추출하여 문장 체인 리스트(SC)에 저장한다(S670).
이를 위해, 어휘 체인 후보 리스트에 포함된 어휘 체인 중 기 설정된 판단 기준에 기초한 우선 순위에 기초하여 선정된 어휘 체인에 대응되도록 문장 체인을 정렬하여 문장 체인 리스트에 저장할 수 있다.
예를 들어, 어휘 체인 후보 리스트(Ci) 중 최적값을 가진 어휘 체인 (wij, wkm, wnp)을 선정하고, 랭킹에 따른 하나 이상의 문장 체인 {si, sk, sn}을 문장 체인 리스트(SC)에 저장할 수 있다.
이때, 최적값은 상술한 식 3에 따른 어휘 간의 거리값에 기초하여 결정될 수 있다. 즉, 해당 거리값 g(wij, wkm, wnp)가 가장 작은 경우, 최적값을 갖는 어휘 체인 (wij, wkm, wnp)으로 선정하고, 이를 통해 문장 체인 {si, sk, sn}이 도출될 수 있다.
다음으로, 하나의 문서에 포함된 모든 문장에 대하여 문장 체인이 추출되었는지 여부를 판단하며(S680), 이후 다음 문장에 대한 인덱스를 증가시킨뒤 다시 S620 단계로 돌아간다.
이와 같은 과정을 반복 수행하여 모든 문장에 대해 문장 체인이 추출되면, 문서에 대응하는 문장 체인 리스트를 출력한다(S690). 이때, 문장 체인 스코어가 낮은 문장 체인은 필터링하는 과정을 더 포함할 수도 있다.
이하에서는 도 7을 참조하여 입력 텍스트로부터 시퀀스 투 시퀀스 모델을 통하여 확장 텍스트를 생성하는 과정을 설명하도록 한다.
입력 텍스트는 복수의 문서들로 구성되어 있으며, 복수의 문서들은 각각 복수의 문장들로 구성되어 있다(S710). 이와 같이 입력 텍스트를 구성하는 복수의 문장들에 대하여 셔플링 과정을 수행한 다음(S720), 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 랜덤하게 복수 개 추출한다(S730).
그리고 문장 쌍을 구성하는 두 문장의 어휘들의 거리값에 기초하여 복수 개의 문장 쌍들을 정렬한다(S740).
복수 개의 문장 쌍들이 정렬되면, 정렬된 문장 쌍을 정렬 순서에 기초하여 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정한다. 즉, Top 1으로 정렬된 문장 쌍을 먼저 인코더의 입력으로 설정하며, Top n으로 정렬된 문장 쌍까지를 대상으로 진행할 수 있다.
이와 같이 인코더의 입력으로 설정되면, 인코더의 출력을 디코더의 출력으로 설정하여 입력에 대응하는 문장이 생성되며(S750), 생성된 문장은 텍스트 확장 후보 리스트에 저장한다(S760).
다음으로, 생성된 문장을 텍스트 확장 후보 리스트에 저장한 뒤, 이를 복수의 문장에 포함시켜 셔플링하는 단계 S720을 Top-n을 대상으로 할 때까지 다시 반복하여 수행한다.
최종적으로 기 생성된 언어 모델과의 유사도에 기초하여 텍스트 확장 후보 리스트를 필터링한 뒤, 필터링된 텍스트 확장 후보 리스트를 확장 텍스트로 생성할 수 있다(S770).
한편, 본 발명의 일 실시예에 따른 입력 텍스트의 자동 확장 방법은 문장 체인 추출 모델에 대하여 신경망 모델을 도입한 N-hop 모델을 통해 어휘 체인망 기술을 확장할 수 있다. 즉, 본 발명의 일 실시예는 N-hop 모델을 통해 어휘 체인망에 기반한 문장 체인망을 모델링할 수 있는바, 이하 도 8 및 도 9를 참조하여 설명하도록 한다.
도 8은 N-hop 모델의 개념도이다. 도 9는 N-hop 모델의 학습 과정을 설명하기 위한 순서도이다.
구체적으로 N-hop 모델은 도 6에서 설명한 두 어휘간의 거리를 산출하는 함수 d와 세 어휘간의 거리를 산출하는 함수 g를 대체할 수 있다. 함수 d와 함수 g는 어휘 임베딩을 이용한 어휘 체인 생성 방법에 활용되는데 반면, N-hop 모델은 문장을 대상으로 바로 문장 체인 생성을 진행할 수 있다.
또한, N-hop 모델의 학습을 위한 학습 데이터로 도 6의 과정에 따라 생성된 문장 체인이 이용될 수 있다.
이와 같은 N-hop 모델은 도 6의 S630 내지 S670 과정 및 도 7의 S740 단계를 대체하여 텍스트 확장 방법에 적용될 수 있다.
도 8 및 도 9를 참조하면, N-hop 모델은 3단계로 학습이 진행될 수 있다.
먼저, 문장 임베딩을 위해 순환형 신경망 언어 모델을 학습한다(S910). 이때, 순환형 신경망 언어 모델은 LSTM 또는 GRU 중 어느 하나일 수 있다. 도 8에서의 도면부호 801, 802, 811은 동일한 순환형 신경망 언어 모델을 의미하며, 이를 이용하여 문장 임베딩을 수행할 수 있다.
다음으로, 1-hop 모델을 학습한다(S920). 즉, 문장 쌍을 구성하는 두 문장을 포함하는 문장 체인(A={S1, S2})과 문장 체인에 대응하는 문장 체인 반례(B={S1, S2’})를 이용하여, 문장 체인 및 문장 체인 반례를 분류할 수 있는 1-hop 모델을 학습한다.
이와 같이 학습된 1-hop 모델은 임베딩된 문장을 P1 레이어(803)와 H1 레이어(804)를 통해 깊은 신경망 모델로 구성하고, O1 레이어(805)를 통해 문장 체인 여부를 결정하는 결과값을 도출할 수 있다.
이러한 1-hop 모델은 도 7의 S740 단계에 적용될 수 있는바, 1-hop 모델에 기초하여 복수 개의 문장 쌍들을 정렬할 수 있게 된다.
다음으로, 2-hop 모델을 학습한다(S930). 즉, 세 개의 관련 문장을 포함하는 문장 체인(A={S1, S2, S3})과 문장 체인에 대응하는 문장 체인 반례(B={S1, S2, S3’} )를 이용하여, 문장 체인 및 문장 체인 반례를 분류할 수 있는 2-hop 모델을 학습한다.
이와 같이 학습된 2-hop 모델은 1-hop 모델의 H1 레이어(804)의 출력값 및 문장 쌍에 포함되지 않은 임베딩된 문장(S3)을 P2 레이어(812)의 입력으로 하고, H2 레이어(813) 및 O2 레이어(814)를 통해 문장 체인 여부를 결정하는 결과값을 도출할 수 있다.
여기에서 P1 레이어(803), P2 레이어(812), H1 레이어(804), H2 레이어(813)는 뉴럴 네트워크에서 사용되는 FC(Full Connect Layer)이고, O1 레이어(805)와 O2 레이어(814)는 확률값을 도출할 수 있는 소프트맥스(softmax) 레이어를 의미한다.
P1 레이어(803)는 두 문장을 임베딩하는 두 개의 RNN(801, 802) 결과를 입력으로 하고, H1 레이어(804)의 입력값으로 변환하는 역할을 한다. 그리고 P2 레이어(812)는 H1 레이어(804)의 출력값과 세 번째 문장(S3)의 RNN(811)의 출력값을 입력으로 하고, H2 레이어(813)의 입력값으로 변환하는 역할을 한다.
H1 레이어(804)의 출력값은 O1 레이어(805)의 입력으로 하여 두 문장(S1, S2)의 유사도 확률값 (score(S1, S2))을 출력하고, H2 레이어(813)의 출력값을 O2 레이어(814)의 입력으로 처리하여 세 문장(S1, S2, S3)의 유사도 확률값 (score(S1, S2, S3))을 출력하게 된다.
한편, 상술한 설명에서, 단계 S410 내지 S930은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 3에서 이미 기술된 내용은 도 4 내지 도 9의 입력 텍스트의 자동 확장 방법에도 적용될 수 있다.
이와 같은 본 발명의 일 실시예 중 어느 하나에 의하면, 문장 체인 추출을 이용한 텍스트 코퍼스 확장 기술을 통해, 음성 인식과 기계 번역의 언어 모델링을 통한 성능 개선의 효과를 기대할 수 있다.
또한, 문서 요약에 사용되는 어휘 체인망 추출 기술을 심층 신경망 기반 N-hop 모델에 기반한 문장 체인 자동 추출 기술로 확장함에 따라, 요약 시스템 성능 개선의 효과를 기대할 수 있다.
한편, 본 발명의 일 실시예는 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 텍스트 확장 시스템
110: 통신모듈
120: 메모리
130: 프로세서
200, 300, 400: 외부 디바이스

Claims (20)

  1. 통신모듈, 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하는 텍스트 확장 시스템에 의해 수행되는 방법에 있어서,
    복수의 문서로 구성된 입력 텍스트를 입력받는 단계;
    상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계;
    상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하는 단계;
    상기 인코더의 출력을 상기 시퀀스 투 시퀀스 모델의 디코더의 출력으로 설정하여 상기 입력에 대응하는 문장을 생성하는 단계 및
    상기 생성된 문장에 기초하여 확장 텍스트를 생성하는 단계를 포함하는 입력 텍스트의 자동 확장 방법.
  2. 제 1 항에 있어서,
    복수의 문장들로 구성된 복수의 문서를 포함하는 학습 텍스트를 입력받는 단계;
    상기 학습 텍스트로부터 문장 체인을 추출하는 단계 및
    상기 추출된 문장 체인에 기초하여 상기 시퀀스 투 시퀀스 모델을 생성하는 단계를 더 포함하되,
    상기 문장 체인은 하나의 문서에 대한 세 개의 관련 문장을 포함하는 집합으로 구성된 것인 입력 텍스트의 자동 확장 방법.
  3. 제 2 항에 있어서,
    상기 학습 텍스트로부터 문장 체인을 추출하는 단계는,
    상기 학습 텍스트에 포함된 복수의 문서 각각에 대하여 순차적으로 문장 체인을 추출하는 것인 입력 텍스트의 자동 확장 방법.
  4. 제 3 항에 있어서,
    상기 학습 텍스트로부터 문장 체인을 추출하는 단계는,
    상기 복수의 문서 중 어느 하나의 문서에 포함된 어느 하나의 문장에 대한 어휘 체인을 추출하는 단계;
    상기 추출된 어휘 체인을 어휘 체인 후보 리스트에 저장하는 단계;
    상기 하나의 문장에 포함된 모든 어휘에 대하여 어휘 체인이 추출되었는지 여부를 판단하는 단계;
    상기 모든 어휘에 대하여 어휘 체인이 추출된 경우, 상기 어휘 체인 후보 리스트에 포함된 어휘 체인에 대응되는 하나 이상의 문장 체인을 추출하여 문장 체인 리스트에 저장하는 단계;
    상기 하나의 문서에 포함된 모든 문장에 대하여 문장 체인이 추출되었는지 여부를 판단하는 단계 및
    상기 모든 문장에 대하여 문장 체인이 추출된 경우, 상기 문서에 대응하는 문장 체인 리스트를 출력하는 단계를 포함하는 입력 텍스트의 자동 확장 방법.
  5. 제 4 항에 있어서,
    상기 문장에 포함된 어휘들은 워드 임베딩을 통해 벡터값으로 설정되되,
    상기 어휘들은 문맥간의 유사도에 기초하여 벡터 공간 상에서의 위치가 결정되는 것인 입력 텍스트의 자동 확장 방법.
  6. 제 5 항에 있어서,
    상기 어휘 체인을 추출하는 단계는,
    상기 문장에 포함된 어휘 중 어느 하나의 어휘와 상기 벡터 공간 상에서 최단 거리에 위치하는 어휘를 검출하여 부분 어휘 체인을 생성하는 단계 및
    상기 부분 어휘 체인과 상기 벡터 공간 상에서 최단 거리에 위치하는 어휘를 검출하여 상기 어휘 체인으로 추출하는 단계를 포함하는 것인 입력 텍스트의 자동 확장 방법.
  7. 제 4 항에 있어서,
    상기 문장 체인을 추출하여 문장 체인 리스트에 저장하는 단계는,
    상기 어휘 체인 후보 리스트에 포함된 어휘 체인 중 기 설정된 판단 기준에 기초한 우선 순위에 기초하여 선정된 어휘 체인에 대응되도록 상기 문장 체인을 정렬하여 상기 문장 체인 리스트에 저장하는 것인 입력 텍스트의 자동 확장 방법.
  8. 제 2 항에 있어서,
    상기 시퀀스 투 시퀀스 모델을 생성하는 단계는,
    상기 학습 텍스트에 포함된 복수의 문서 중 어느 하나의 문서에 대한 문장 체인을 선택하는 단계;
    상기 문장 체인에 포함된 세 개의 관련 문장 중 두 개의 문장을 상기 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하고, 나머지 하나의 문장을 디코더의 출력으로 설정하는 단계 및
    상기 입력 및 출력으로 설정된 문장을 학습하여 상기 시퀀스 투 시퀀스 모델을 생성하는 단계를 포함하는 자동 확장 방법.
  9. 제 1 항에 있어서,
    상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계는,
    상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 랜덤하게 복수 개 추출하는 단계 및
    상기 문장 쌍을 구성하는 두 문장의 어휘들의 거리값에 기초하여 상기 복수 개의 문장 쌍들을 정렬하는 단계를 포함하는 것인 입력 텍스트의 자동 확장 방법.
  10. 제 9 항에 있어서,
    상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더에 입력하는 단계는,
    상기 정렬된 문장 쌍을 정렬 순서에 기초하여 상기 인코더의 입력으로 설정하는 것인 입력 텍스트의 자동 확장 방법.
  11. 제 10 항에 있어서,
    상기 생성된 문장에 기초하여 확장 텍스트를 생성하는 단계는,
    상기 생성된 문장을 텍스트 확장 후보 리스트에 저장하는 단계;
    기 생성된 언어 모델과의 유사도에 기초하여 상기 텍스트 확장 후보 리스트를 필터링하는 단계 및
    상기 필터링된 텍스트 확장 후보 리스트를 상기 확장 텍스트로 생성하는 단계를 포함하는 것인 입력 텍스트의 자동 확장 방법.
  12. 제 11 항에 있어서,
    상기 입력 텍스트에 포함된 복수의 문장을 셔플링하는 단계를 더 포함하되,
    상기 생성된 문장은 상기 텍스트 확장 후보 리스트에 저장한 뒤, 상기 복수의 문장에 포함시켜 셔플링하는 것인 입력 텍스트의 자동 확장 방법.
  13. 제 2 항에 있어서,
    상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계는,
    미리 학습된 순환형 신경망 언어 모델(Recurrent Neural Network Language Model)에 기초하여 상기 추출된 문장 쌍들을 임베딩하여 벡터로 표현하는 단계 및
    상기 문장 쌍을 구성하는 두 문장을 포함하는 문장 체인 및 상기 문장 체인에 대응하는 문장 체인 반례를 이용하여, 상기 문장 체인 및 문장 체인 반례를 분류 가능한 1-hop 모델을 학습하는 단계를 포함하되,
    상기 1-hop 모델은 상기 임베딩된 문장을 P1 레이어와 H1 레이어를 통해 깊은 신경망 모델(Deep Neural Network Model)로 구성하고, O1 레이어를 통해 문장 체인 여부를 결정하는 결과값을 도출하는 것인 입력 텍스트의 자동 확장 방법.
  14. 제 13 항에 있어서,
    상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하는 단계는,
    상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 랜덤하게 복수 개 추출하는 단계 및
    상기 1-hop 모델에 기초하여 상기 복수 개의 문장 쌍들을 정렬하는 단계를 더 포함하는 것인 입력 텍스트의 자동 확장 방법.
  15. 제 13 항에 있어서,
    상기 세 개의 관련 문장을 포함하는 문장 체인 및 상기 문장 체인에 대응하는 문장 체인 반례를 이용하여, 상기 문장 체인 및 문장 체인 반례를 분류 가능한 2-hop 모델을 학습하는 단계를 더 포함하되,
    상기 2-hop 모델은 상기 1-hop 모델의 H1 레이어의 출력값 및 상기 문장 쌍에 포함되지 않은 임베딩된 문장을 P2 레이어의 입력으로 하고, H2 레이어 및 O2 레이어를 통해 문장 체인 여부를 결정하는 결과값을 도출하는 것인 입력 텍스트의 자동 확장 방법.
  16. 제 13 항에 있어서,
    상기 순환형 신경망 언어 모델은 LSTM 또는 GRU 중 어느 하나인 것인 입력 텍스트의 자동 확장 방법.
  17. 입력 텍스트를 자동으로 확장하는 텍스트 확장 시스템에 있어서,
    외부 디바이스와 데이터를 송수신하는 통신모듈,
    상기 입력 텍스트로부터 확장 텍스트를 생성하기 위한 프로그램이 저장된 메모리 및
    상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램을 실행시킴에 따라, 복수의 문서로 구성된 입력 텍스트를 입력받으면, 상기 복수의 문서 중 서로 다른 문서에 존재하는 문장 쌍을 추출하고,
    상기 추출된 문장 쌍을 시퀀스 투 시퀀스 모델의 인코더에 입력하고, 상기 시퀀스 투 시퀀스 모델의 디코더의 출력으로 상기 입력에 대응하는 문장을 생성하며, 상기 생성된 문장에 기초하여 상기 확장 텍스트를 생성하는 것인 텍스트 확장 시스템.
  18. 제 17 항에 있어서,
    상기 프로세서는 상기 통신모듈을 통해 복수의 문장들로 구성된 복수의 문서를 포함하는 학습 텍스트를 입력받으면, 상기 학습 텍스트로부터 문장 체인을 추출하고, 상기 추출된 문장 체인에 기초하여 상기 시퀀스 투 시퀀스 모델을 생성하되,
    상기 문장 체인은 하나의 문서에 대한 세 개의 관련 문장을 포함하는 집합으로 구성된 것인 텍스트 확장 시스템.
  19. 제 18 항에 있어서,
    상기 프로세서는 상기 학습 텍스트를 구성하는 어느 하나의 문서에 포함된 어느 하나의 문장에 대한 어휘 체인을 추출하여 어휘 체인 후보 리스트에 저장하고,
    상기 하나의 문장에 포함된 모든 어휘에 대하여 어휘 체인이 추출된 경우, 상기 어휘 체인 후보 리스트에 포함된 어휘 체인에 대응되는 하나 이상의 문장 체인을 추출하여 문장 체인 리스트에 저장하며,
    상기 하나의 문서에 포함된 모든 문장에 대하여 문장 체인이 추출된 경우, 상기 문서에 대응하는 문장 체인 리스트를 출력하는 것인 텍스트 확장 시스템.
  20. 제 18 항에 있어서,
    상기 프로세서는 상기 학습 텍스트에 포함된 복수의 문서 중 어느 하나의 문서에 대한 문장 체인을 선택하고, 상기 문장 체인에 포함된 세 개의 관련 문장 중 두 개의 문장을 상기 시퀀스 투 시퀀스 모델의 인코더의 입력으로 설정하고, 나머지 하나의 문장을 디코더의 출력으로 설정하며, 상기 입력 및 출력으로 설정된 문장을 학습하여 상기 시퀀스 투 시퀀스 모델을 생성하는 것인 텍스트 확장 시스템.
KR1020160165135A 2016-12-06 2016-12-06 입력 텍스트를 자동으로 확장하는 시스템 및 방법 KR102630668B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160165135A KR102630668B1 (ko) 2016-12-06 2016-12-06 입력 텍스트를 자동으로 확장하는 시스템 및 방법
US15/439,416 US10402494B2 (en) 2016-12-06 2017-02-22 System and method for automatically expanding input text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160165135A KR102630668B1 (ko) 2016-12-06 2016-12-06 입력 텍스트를 자동으로 확장하는 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20180064808A KR20180064808A (ko) 2018-06-15
KR102630668B1 true KR102630668B1 (ko) 2024-01-30

Family

ID=62243905

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160165135A KR102630668B1 (ko) 2016-12-06 2016-12-06 입력 텍스트를 자동으로 확장하는 시스템 및 방법

Country Status (2)

Country Link
US (1) US10402494B2 (ko)
KR (1) KR102630668B1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102186326B1 (ko) * 2017-09-28 2020-12-04 한국과학기술원 구조 정보 선행 학습을 통한 딥러닝 관계 추출 시스템 및 이를 이용한 딥러닝 관계 추출 성능 향상 방법
GB2568233A (en) * 2017-10-27 2019-05-15 Babylon Partners Ltd A computer implemented determination method and system
US10599769B2 (en) 2018-05-01 2020-03-24 Capital One Services, Llc Text categorization using natural language processing
CN108874789B (zh) * 2018-06-22 2022-07-01 腾讯科技(深圳)有限公司 语句的生成方法、装置、存储介质和电子装置
CN108920599B (zh) * 2018-06-27 2021-08-27 北京计算机技术及应用研究所 一种基于知识本体库的问答系统答案精准定位和抽取方法
CN109033094A (zh) * 2018-07-18 2018-12-18 五邑大学 一种基于序列到序列神经网络模型的文言文白话文互译方法及系统
KR102540774B1 (ko) 2018-12-04 2023-06-08 한국전자통신연구원 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치
CN109800421A (zh) * 2018-12-19 2019-05-24 武汉西山艺创文化有限公司 一种游戏剧本生成方法及其装置、设备、存储介质
CN109670180B (zh) * 2018-12-21 2020-05-08 语联网(武汉)信息技术有限公司 向量化译员的翻译个性特征的方法及装置
KR102217248B1 (ko) * 2019-02-21 2021-02-18 주식회사 와이즈넛 텍스트 문서 요약을 위한 자질 추출 및 학습 방법
KR102279164B1 (ko) * 2019-03-27 2021-07-19 네이버 주식회사 인공지능 모델을 이용한 이미지 편집 방법 및 장치
CN109977220B (zh) * 2019-04-09 2024-01-30 中通服公众信息产业股份有限公司 一种基于关键句和关键字的反向生成摘要的方法
CN110717342B (zh) * 2019-09-27 2023-03-14 电子科技大学 一种基于transformer的距离参量对齐翻译方法
US11538465B1 (en) * 2019-11-08 2022-12-27 Suki AI, Inc. Systems and methods to facilitate intent determination of a command by grouping terms based on context
US11217227B1 (en) 2019-11-08 2022-01-04 Suki AI, Inc. Systems and methods for generating disambiguated terms in automatically generated transcriptions including instructions within a particular knowledge domain
CN113468883B (zh) * 2020-03-30 2024-04-30 株式会社理光 位置信息的融合方法、装置及计算机可读存储介质
US20230289524A1 (en) * 2022-03-09 2023-09-14 Talent Unlimited Online Services Private Limited Articial intelligence based system and method for smart sentence completion in mobile devices
CN114925660B (zh) * 2022-05-23 2023-07-28 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置
CN114912448B (zh) * 2022-07-15 2022-12-09 山东海量信息技术研究院 一种文本扩展方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120011428A1 (en) 2007-10-17 2012-01-12 Iti Scotland Limited Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document
US20130110493A1 (en) 2011-10-31 2013-05-02 Electronics and Telecommunications Research Insti tute Method for establishing paraphrasing data for machine translation system
US20150121290A1 (en) 2012-06-29 2015-04-30 Microsoft Corporation Semantic Lexicon-Based Input Method Editor
US20160042053A1 (en) 2014-08-07 2016-02-11 Cortical.Io Gmbh Methods and systems for mapping data items to sparse distributed representations

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000046701A1 (en) * 1999-02-08 2000-08-10 Huntsman Ici Chemicals Llc Method for retrieving semantically distant analogies
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
CN1940915B (zh) 2005-09-29 2010-05-05 国际商业机器公司 训练语料扩充系统和方法
US7603351B2 (en) * 2006-04-19 2009-10-13 Apple Inc. Semantic reconstruction
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
KR100961717B1 (ko) * 2008-09-16 2010-06-10 한국전자통신연구원 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
US8805840B1 (en) * 2010-03-23 2014-08-12 Firstrain, Inc. Classification of documents
WO2012044218A1 (en) * 2010-10-01 2012-04-05 Saab Ab A method and an apparatus for image-based navigation
US20130103695A1 (en) * 2011-10-21 2013-04-25 Microsoft Corporation Machine translation detection in web-scraped parallel corpora
CN104346406B (zh) 2013-08-08 2018-05-22 北大方正集团有限公司 训练语料扩充装置和训练语料扩充方法
US10885089B2 (en) * 2015-08-21 2021-01-05 Cortical.Io Ag Methods and systems for identifying a level of similarity between a filtering criterion and a data item within a set of streamed documents
SG11201707668WA (en) * 2015-03-17 2017-10-30 Agency Science Tech & Res Bioinformatics data processing systems
US10431205B2 (en) * 2016-04-27 2019-10-01 Conduent Business Services, Llc Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network
US10169454B2 (en) * 2016-05-17 2019-01-01 Xerox Corporation Unsupervised ontology-based graph extraction from texts
US11550751B2 (en) * 2016-11-18 2023-01-10 Microsoft Technology Licensing, Llc Sequence expander for data entry/information retrieval

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120011428A1 (en) 2007-10-17 2012-01-12 Iti Scotland Limited Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document
US20130110493A1 (en) 2011-10-31 2013-05-02 Electronics and Telecommunications Research Insti tute Method for establishing paraphrasing data for machine translation system
US20150121290A1 (en) 2012-06-29 2015-04-30 Microsoft Corporation Semantic Lexicon-Based Input Method Editor
US20160042053A1 (en) 2014-08-07 2016-02-11 Cortical.Io Gmbh Methods and systems for mapping data items to sparse distributed representations

Also Published As

Publication number Publication date
US20180157640A1 (en) 2018-06-07
KR20180064808A (ko) 2018-06-15
US10402494B2 (en) 2019-09-03

Similar Documents

Publication Publication Date Title
KR102630668B1 (ko) 입력 텍스트를 자동으로 확장하는 시스템 및 방법
US11145292B2 (en) Method and device for updating language model and performing speech recognition based on language model
KR102417045B1 (ko) 명칭을 강인하게 태깅하는 방법 및 시스템
KR102565274B1 (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
CN106469552B (zh) 语音识别设备和方法
CN103189860B (zh) 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法
CN111159990B (zh) 一种基于模式拓展的通用特殊词识别方法及系统
CN109032375A (zh) 候选文本排序方法、装置、设备及存储介质
CN112017645B (zh) 一种语音识别方法及装置
US10224023B2 (en) Speech recognition system and method thereof, vocabulary establishing method and computer program product
JP6946842B2 (ja) モデル学習装置、変換装置、方法、及びプログラム
CN109522550A (zh) 文本信息纠错方法、装置、计算机设备和存储介质
KR20230016794A (ko) 언어 모델을 이용한 데이터 생성 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
CN106384587B (zh) 一种语音识别方法及系统
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
CN106502988B (zh) 一种目标属性抽取的方法和设备
JP5975938B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP7466784B2 (ja) グラフベースの時間的分類を用いたニューラルネットワークの訓練
JP2021503104A (ja) 自動音声認識装置及び方法
US9704482B2 (en) Method and system for order-free spoken term detection
Dai et al. LatticeBART: Lattice-to-Lattice Pre-Training for Speech Recognition
Kobori et al. Robust comprehension of natural language instructions by a domestic service robot
KR20210115645A (ko) 복수의 언어에 대한 음성 인식을 수행하는 음성 처리 서버, 방법 및 컴퓨터 프로그램
CN112749565A (zh) 基于人工智能的语义识别方法、装置和语义识别设备
KR20210133667A (ko) 코퍼스 구축 서비스 제공 서버 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant