KR102194424B1

KR102194424B1 - 문장 복원 방법 및 장치

Info

Publication number: KR102194424B1
Application number: KR1020180164170A
Authority: KR
Inventors: 신성현; 정태식
Original assignee: 주식회사 엘지유플러스
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2020-12-23
Also published as: KR20200075465A

Abstract

문장 복원 장치가 개시된다. 일실시예에 따른 문장 복원 장치는 문장을 획득하고, 문장을 형태소 분석하고, 형태소 분석의 결과에 기초하여, 문장이 지시어를 포함하는지 여부를 판단하고, 판단 결과에 기초하여, 문장이 선행문인지 혹은 후속문인지 여부를 판단하고, 문장이 선행문에 해당하는 경우, 형태소 분석의 결과에 기초하여, 문장에 포함되는 주요 개체명을 추출하여 단기 기억 장치에 저장하고, 문장이 후속문에 해당하는 경우, 단기 기억 장치에 기초하여 지시어를 치환함으로써 문장이 독립적으로 완전한 의미를 가지도록 변형할 수 있다.

Description

문장 복원 방법 및 장치{METHOD FOR RESTORING SENTENCES AND APPARATUS THEREOF}

아래 실시예들은 문장 복원 방법 및 장치에 관한 것으로, 예를 들어 자연어 처리 및 지시어 치환에 관한 것이다.

자연어는 인공어에 비해서 그 모호함의 정도가 크다. 때문에, 컴퓨터와 같은 기계가 자연어를 완벽히 이해하기는 쉽지 않다. 자연어 처리 기술(Natural Language Processing, NLP)은 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나이다. 자연어 이해는 일상 생활 언어를 형태 분석, 의미 분석, 대화 분석 등을 통하여 컴퓨터가 처리할 수 있도록 변환시키는 작업이며, 자연어 생성은 컴퓨터가 처리한 결과물을 사람의 편의성에 입각하여 텍스트, 음성, 그래픽 등으로 변형하는 작업이다. 자연어 처리 기술은 문서 처리, 색인 작성, 언어 번역, 질문 응답 등 다양한 응용 분야에서 활용되고 있다.

대명사는 사람이나 사물의 이름을 대신 나타내는 말, 또는 그런 말들을 지칭하는 품사로, 인칭대명사와 지시대명사로 나누어진다. 이 중, 지시대명사는 특정 물건이나 장소, 시간 등을 가리키는 대명사로, 가리키는 대상에 따라 ‘이것’, ‘저것’, '그것’, '무엇' 등으로 사물을 가리키는 사물대명사, ‘여기’, '저기’, '거기’, '어디' 등으로 장소를 가리키는 처소대명사로 분류된다. 관형사는 체언 앞에 놓여서 그 체언을 꾸며 주는 역할을 하는 단어로, 지시관형사, 수관형사, 그리고 성상관형사로 나누어진다. 이 중, 지시관형사는 특정한 대상을 지시하여 가리키는 관형사로, ‘이’, ‘저’, ‘그’, ‘다른’ 등이 있다. 지시대명사와 지시관형사를 묶어 지시어라고 하며, 지시어는 앞 말을 가리키는 구실을 한다. 지시어는 선행문에서 나타난 언어 표현을 되풀이하여 가리키는 것으로 선행문에 의존성을 가진다.

일실시예에 따른 확률 모델 기반 문장 복원 모델은 지시어가 포함된 후속문이 독립적으로 완전한 의미를 가지도록 변형함으로써 그 의미의 모호함을 해소할 수 있다. 일실시예에 따른 확률 모델 기반 문장 복원 모델은 선행문이 포함하는 주요 개체명이 저장된 단기 기억 장치를 활용함으로써 선행문과 의미가 이어지도록 후속문을 변형할 수 있다.

일실시예에 따른 문장 복원 방법은 문장을 획득하는 단계; 상기 문장을 형태소 분석하는 단계; 상기 형태소 분석의 결과에 기초하여, 상기 문장이 지시어를 포함하는지 여부를 판단하는 단계; 상기 판단 결과에 기초하여, 상기 문장이 선행문인지 혹은 후속문인지 여부를 판단하는 단계; 상기 문장이 선행문에 해당하는 경우, 상기 형태소 분석의 결과에 기초하여, 상기 문장에 포함되는 주요 개체명을 추출하여 단기 기억 장치에 저장하는 단계; 및 상기 문장이 후속문에 해당하는 경우, 상기 단기 기억 장치에 기초하여 상기 지시어를 치환함으로써 상기 문장이 독립적으로 완전한 의미를 가지도록 변형하는 단계를 포함한다.

일실시예에 따르면, 상기 주요 개체명을 추출하여 상기 단기 기억 장치에 저장하는 단계는 상기 문장에 포함되는 형태소들의 품사에 기초하여, 주요 단어를 결정하는 단계; 상기 주요 단어를 세부적으로 분류하는 단계; 및 상기 주요 단어와 상기 세부적 분류를 묶어 상기 주요 개체명으로 결정하는 단계를 포함할 수 있다.

일실시예에 따르면, 상기 독립적으로 완전한 의미를 가지도록 변형하는 단계는 상기 단기 기억 장치에 기초하여, 후보 선행문을 결정하는 단계; 상기 후보 선행문에 포함된 주요 개체명에 기초하여, 상기 후보 선행문이 상기 후속문이 포함하는 지시어를 치환할 주요 개체명을 포함할 확률을 결정하는 단계; 및 상기 확률에 기초하여 상기 지시어를 치환함으로써 상기 후속문을 변형하는 단계를 포함할 수 있다.

일실시예에 따르면, 상기 확률을 결정하는 단계는 복수의 후보 선행문들에 대응하는 주요 개체명의 개수들에 기초하여, 상기 복수의 후보 선행문들 중 상기 후보 선행문이 선택될 제1 확률을 결정하는 단계; 및 상기 후보 선행문으로부터 선택되는 주요 개체명이 상기 지시어의 세부 분류와 일치하는 세부 분류를 가질 제2 확률을 결정하는 단계를 포함할 수 있다.

일실시예에 따르면, 상기 제1 확률을 결정하는 단계는 복수의 후보 선행문들에 대응하는 주요 개체명들의 개수 대비 상기 후보 선행문에 대응하는 주요 개체명들의 개수 사이의 비율에 기초하여, 상기 제1 확률을 결정하는 단계를 포함할 수 있다.

일실시예에 따르면, 상기 제2 확률을 결정하는 단계는 상기 후보 선행문에 대응하는 주요 개체명들의 개수 대비 상기 지시어의 세부 분류와 일치하는 세부 분류를 가지는 주요 개체명의 개수 사이의 비율에 기초하여, 상기 제2 확률을 결정하는 단계를 포함할 수 있다.

일실시예에 따르면, 상기 후속문을 변형하는 단계는 상기 주요 개체명을 포함할 확률이 가장 높은 후보 선행문에 대하여, 상기 후보 선행문에 포함된 주요 개체명의 세부적 분류와 상기 지시어의 세부적 분류를 비교하는 단계; 상기 세부적 분류가 일치하는 주요 개체명으로 상기 지시어를 치환하는 단계; 및 상기 치환한 단어에 적합한 조사를 결합하는 단계를 포함할 수 있다.

일실시예에 따르면, 상기 문장을 형태소 분석하는 단계는 상기 문장이 포함하는 기호를 삭제하는 단계; 상기 문장을 형태소 단위로 분리하는 단계;

상기 형태소들의 품사를 판단하는 단계; 및 상기 형태소들에 품사 기호를 부착하는 단계 중 적어도 하나를 포함할 수 있다.

일실시예에 따른 문장 복원 장치는 문장을 획득하고, 상기 문장을 형태소 분석하고, 상기 형태소 분석의 결과에 기초하여, 상기 문장이 지시어를 포함하는지 여부를 판단하고, 상기 판단 결과에 기초하여, 상기 문장이 선행문인지 혹은 후속문인지 여부를 판단하고, 상기 문장이 선행문에 해당하는 경우, 상기 형태소 분석의 결과에 기초하여, 상기 문장에 포함되는 주요 개체명을 추출하여 단기 기억 장치에 저장하고, 상기 문장이 후속문에 해당하는 경우, 상기 단기 기억 장치에 기초하여 상기 지시어를 치환함으로써 상기 문장이 독립적으로 완전한 의미를 가지도록 변형하는 프로세서를 포함한다.

도 1은 일실시예에 따른 문장 복원 장치를 설명하기 위한 도면이다.
도 2는 일실시예에 따른 문장 복원 방법을 설명하기 위한 동작 흐름도이다.
도 3은 일실시예에 따른 형태소 분석 방법을 설명하기 위한 도면이다.
도 4는 일실시예에 따른 선행문의 주요 개체명을 단기 기억 장치에 저장하는 방법을 설명하기 위한 도면이다.
도 5는 일실시예에 따른 후속문이 독립적으로 완전한 의미를 가지도록 변형하는 방법을 설명하기 위한 도면이다.
도 6은 일실시예에 따른 형태소 분석 및 주요 개체명을 단기 기억 장치에 저장한 결과의 예시도이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일실시예에 따른 문장 복원 장치를 설명하기 위한 도면이다.

도 1을 참조하면, 일실시예에 따른 문장 복원 장치는 대화 이해 모듈(110), 대화 관리 모듈(120), 및 대화 생성 모듈(130)을 포함한다. 문장 복원 장치는 지시어의 치환을 통해 문장을 복원하는 일련의 동작들을 수행하는 장치로, 예를 들어 하나 또는 그 이상의 소프트웨어 모듈, 하나 또는 그 이상의 하드웨어 모듈, 또는 이들의 다양한 조합으로 구현될 수 있다.

대화 이해 모듈(110)은 획득된 문장으로부터 형태소 분석을 수행한다. 획득된 문장은 문법적으로 완전할 필요는 없으며, 온점, 물음표, 느낌표를 포함하는 기호에 의하여 구분될 수 있다. 예를 들어, "어제 정동진에 갔었어요. 아름다운 그 곳은 무엇이 있을까?"가 입력된 경우, 온점과 물음표에 의하여 문장 "어제 정동진에 갔었어요."와 문장 "아름다운 그 곳은 무엇이 있을까?"로 구분될 수 있다.

대화 이해 모듈(110)은 형태소 분석의 결과에 기초하여 문장이 지시어를 포함하는지 여부를 판단하고, 판단 결과에 기초하여 문장이 선행문인지 또는 후속문인지 여부를 판단한다. 예를 들어, 형태소 분석에 의하여 문장 "어제 정동진에 갔었어요."은 지시어를 포함하지 않고, 문장 "아름다운 그 곳은 무엇이 있을까?"은 지시어를 포함한다고 판단되는 경우, 문장 "어제 정동진에 갔었어요"는 선행문으로, 문장 "아름다운 그 곳은 무엇이 있을까?"는 후속문으로 판단될 수 있다.

대화 이해 모듈(110)의 동작과 관련된 보다 상세한 사항은 도 2 및 도 3을 통하여 후술한다.

대화 관리 모듈(120)은 대화 이해 모듈(110)의 최종 판단 결과에 기초하여, 획득된 문장이 선행문에 해당하는 경우 획득된 문장에 포함되는 주요 개체명을 추출하고, 이를 단기 기억 장치에 저장한다. 예를 들어, 문장 "어제 정동진에 갔었어요"가 선행문으로 판단된 경우, '어제', '정동진'과 '가다'를 주요 개체명으로 결정할 수 있고, 결정된 주요 개체명에 대하여 세부적 분류인 time, place와 act를 묶음으로써 '어제, time', '정동진, place'와 '가다, act'를 단기 기억 장치에 저장할 수 있다.

대화 관리 모듈(120)의 동작과 관련된 보다 상세한 사항은 도 2 및 도 4를 통하여 후술한다.

대화 생성 모듈(130)은 대화 이해 모듈(110)의 최종 판단 결과에 기초하여, 획득된 문장이 후속문에 해당하는 경우 단기 기억 장치에 기초하여 지시어를 치환함으로써 후속문이 독립적으로 완전한 의미를 가지도록 변형한다. 예를 들어, 문장 "아름다운 그 곳은 무엇이 있을까?"가 후속문으로 판단되었고 단기 기억 장치에 '어제, time', '정동진, place'와 '가다, act'가 저장된 경우, '그 곳'이 장소를 나타내는 지시어임에 기초하여 확률 모델을 적용함으로써 '정동진, place'로 '그 곳'을 치환할 수 있다. 지시어의 치환이 이루어진 후, 지시어를 치환한 단어 '정동진'에 적합한 조사를 결합함으로써 문장이 자연스럽게 이어지도록 할 수 있다. 이 경우, 문장 "아름다운 그 곳은 무엇이 있을까?"는 문장 "아름다운 정동진은 무엇이 있을까?"로 변형될 수 있다.

“어제”와 같은 시간 부사의 처리에 관한 예로, 선행문 “나는 어제 학교에 갔었어.”와 후속문 “그 때 공부는 했었어?”이 입력될 수 있다. 이 경우, 단기 기억 장치에 '어제, time'이 저장되고, '그 때'가 시간을 나타내는 지시어임에 기초하여 확률 모델을 적용함으로써 '어제, time'으로 '그 때'를 치환할 수 있다.

대화 생성 모듈(130)의 동작과 관련된 보다 상세한 사항은 도 2 및 도 5를 통하여 후술한다.

도 2는 일실시예에 따른 문장 복원 방법을 설명하기 위한 동작 흐름도이다.

도 2를 참조하면, 문장 획득 단계(210)에서 문장이 획득될 수 있다. 형태소 분석 단계(220)에서 획득된 문장이 형태소 단위로 분리될 수 있고, 형태소들의 품사가 판단될 수 있고, 판단된 품사에 따라서 형태소들에 품사 기호가 부착될 수 있다. 지시어 포함 여부를 판단하는 단계(230)에서 형태소들의 품사 기호에 기초하여, 획득된 문장에 지시어가 포함되지 않은 경우 선행문으로, 지시어가 포함된 경우 후속문으로 판단될 수 있다. 문장 획득 단계(210), 형태소 분석 단계(220), 및 지시어 포함 여부를 판단하는 단계(230)는 도 1의 대화 이해 모듈(110)에 의하여 수행될 수 있다.

형태소 분석 단계(220)의 동작과 관련된 보다 상세한 사항은 도 3을 통하여 후술한다.

문장이 선행문으로 판단되는 경우, 주요 개체명 추출 단계(240)에서 선행문이 전체로서 가지는 특징을 포함하는 주요 패턴을 판단할 수 있고, 선행문이 포함하는 주요 개체명을 판단할 수 있다. 단기 기억 장치에 저장하는 단계(250)에서 판단된 주요 패턴 및 판단된 주요 개체명을 주요 개체명으로 하여 단기 기억 장치에 저장할 수 있다. 개체명 추출 단계(240) 및 단기 기억 장치에 저장하는 단계(250)는 도 1의 대화 관리 모듈(120)에 의하여 수행될 수 있다.

개체명 추출 단계(240)의 및 단기 기억 장치에 저장하는 단계(250)의 동작과 관련된 보다 상세한 사항은 도 4를 통하여 후술한다.

문장이 후속문으로 판단되는 경우, 독립적으로 완전한 의미를 갖도록 변형하는 단계(260)에서 후속문에 포함된 지시어를 치환할 수 있는 단어를 포함하는 후보 선행문을 결정할 수 있고, 후보 선행문이 포함하는 주요 개체명을 단기 기억 장치에서 검색할 수 있고, 후보 선행문이 후속문에 포함된 지시어를 치환할 주요 개체명을 포함할 확률을 결정할 수 있고, 결정된 확률에 기초하여 지시어를 치환함으로써 상기 후속문을 변형할 수 있다. 이는 도 1의 대화 생성 모듈(130)에 의하여 수행될 수 있다.

독립적으로 완전한 의미를 갖도록 변형하는 단계(260)의 동작과 관련된 보다 상세한 사항은 도 5를 통하여 후술한다.

도 3은 일실시예에 따른 형태소 분석 방법을 설명하기 위한 도면이다. 도 3에 도시된 단계들은 도 2의 형태소 분석 단계(220)에 포함될 수 있고, 도 1의 대화 이해 모듈(110)에 의하여 수행될 수 있다.

도 3을 참조하면, 획득된 문장의 기호를 삭제하고(310), 형태소 단위로 문장을 분리하고(320), 품사를 판단하고(330), 품사 기호를 부착함으로써(340) 형태소 분석이 수행될 수 있다. 이 때, 품사의 판단은 세종 코퍼스에서 사용하는 세종태그셋에 기반하여 수행될 수 있다. 예를 들어, 문장 "어제 정동진에 갔었어요."의 기호를 삭제하여 문구 '어제 정동진에 갔었어요'가 되고, 형태소 단위로 문장을 분리하여 문구 '어제 정동진 + 에 가 + 았었 + 어요'가 되고, 품사를 판단하고 품사 기호를 부착하여 문구 '어제/MAG 정동진/NNP + 에/JKB 가/VV + 았었/EP + 어요/EF'가 형태소 분석의 결과가 될 수 있다.

형태소 분석의 결과에 기초하여, 문장이 지시어를 포함하는 경우, 문장을 후속문으로 분류할 수 있다. 문장이 후속문으로 판단되는 경우, 지시어를 세부적으로 분류하고(350), 지시어 사전을 생성할 수 있다(360). 지시어의 세부적 분류는 시간(time), 장소(place), 사물(thing), 및 행동(act)을 포함할 수 있으며, 필요에 따라 더욱 세분화될 수 있다. 지시어 사전에는 지시어와 구분자 및 그 세부적 분류를 묶은 세트가 포함될 수 있다. 예를 들어, 문장 "어제 정동진에 갔었어요."의 형태소 분석의 결과는 문구 '어제/MAG 정동진/NNP + 에/JKB 가/VV + 았었/EP + 어요/EF'이고 지시어를 포함하지 않으므로 지시어 사전을 생성하는 과정을 수행하지 않을 수 있다. 반면, 문장 "아름다운 그 곳은 무엇이 있을까?"의 형태소 분석의 결과는 문구 아름답/VA + ㄴ/ETM 그/MM 곳/NNG + 은/JX 무엇/NP + 이/JKS 있/VA + 을까/EF'이고 '그/MM'이 지시관형사에 해당하므로 지시어 '그/MM 곳/NNG'을 포함할 수 있다. 이 경우, '그 곳'이 장소를 나타내는 지시어이므로 세부적 분류는 'place'가 될 수 있으며, 구분자는 접두어 'pronoun_'이 될 수 있다. 따라서, '그 곳, pronoun_place'를 포함하는 지시어 사전을 생성할 수 있다.

세부 분류의 세트는 지시어의 판별을 위해서 사전에 구축될 수 있다. 예를 들어, 모든 지시어를 처리할 수 있도록 지시어 사전의 전체 세트가 사전에 구축될 수 있다. 또는, 도메인 등에 따라 일부 세트만 선별적으로 구축될 수도 있다. 세부 분류의 세트는 '그곳 / pronoun_place', '그것 / pronoun_thing' 등과 같은 형식으로 구축될 수 있다.

지시어를 구별하기 위해서는 구분자가 요구된다. 실시예들에 따르면, 지시어를 구별하기 위하여 pronoun_ 등의 접두어가 이용될 수 있다. 예를 들어, '그곳 / pronoun_place'은 지시어에 해당하는 'pronoun_'의 접두어를 사용하며, 장소를 가리키는 처소 대명사에 해당하는 'place'를 사용할 수 있다. 이 경우 후속문 내 '그곳'은 'pronoun_'를 통해 지시어로 구분되고 'place'를 통해 향후 선행문과 치환될 수 있다.

도 4는 일실시예에 따른 선행문의 주요 개체명을 단기 기억 장치에 저장하는 방법을 설명하기 위한 도면이다. 도 4에 도시된 단계들은 도 2의 주요 개체명 추출 단계(240) 및 단기 기억 장치에 저장하는 단계(250)에 포함될 수 있고, 도 1의 대화 관리 모듈(120)에 의하여 수행될 수 있다.

도 4를 참조하면, 획득된 문장이 선행문으로 판단되는 경우(지시어를 포함하지 않는 경우), 선행문이 전체로서 가지는 특징을 포함하는 주요 패턴을 판단할 수 있다(410). 주요 패턴은 문장을 구성하는 하나 이상의 형태소 중 의미가 있는 요소들을 포함할 수 있다. 예를 들어, 지시어를 포함하지 않는 문장 "어제 정동진에 갔었어요"의 문장 패턴은 "어제 + 정동진 + 가다"에 해당할 수 있다.

획득된 선행문의 하나 이상의 형태소 중 부착된 품사 기호가 명사, 동사, 또는 부사에 해당하는 형태소를 주요 단어로 결정하고(420), 결정된 주요 단어를 세부적으로 분류하고(430), 결정된 주요 단어와 그 세부적 분류를 묶어 주요 개체명으로 결정하고(440), 주요 패턴과 주요 개체명을 단기 기억 장치에 저장할 수 있다(450). 예를 들어, 문장 "어제 정동진에 갔었어요."의 형태소 분석의 결과는 문구 '어제/MAG 정동진/NNP + 에/JKB 가/VV + 았었/EP + 어요/EF'이고 '어제/MAG'가 부사, '정동진/NNP'가 명사, '가/VV'가 동사에 해당하여 주요 단어로 결정될 수 있다. 이 경우, '어제/MAG'는 시간을 나타내는 주요 단어이므로 세부적 분류는 'time'이 될 수 있고, '정동진/NNP'은 장소를 나타내는 주요 단어이므로 세부적 분류는 'place'가 될 수 있고, '가/VV'는 동작을 나타내는 주요 단어이므로 세부적 분류는 'act'가 될 수 있다. 따라서, 주요 개체명은 '어제, time', '정동진, place', '가다, act'가 될 수 있고, 이들과 주요 패턴인 "어제 + 정동진 + 가다"를 단기 기억 장치의 구성 요소로 저장할 수 있다.

선행문의 주요 개체명은 단기 기억 장치에 지속적으로 저장되지 않을 수 있다. 먼저 등장한 선행문이 포함하는 주요 단어와 세부적 분류가 동일한 주요 단어가 나중에 등장한 선행문에 포함되는 경우, 먼저 등장한 선행문이 포함하는 주요 단어에 대응하는 주요 개체명은 단기 기억 장치에서 삭제될 수 있다. 예를 들어, 문장 "명동역까지 어떻게 갈까?", 문장 "그 곳에 가려면 버스를 타야지.", 문장 "아니야, 택시를 가야 그 곳에 빨리 갈 수 있어.", 문장 "차리리, 강남으로 가자."가 순서대로 입력되는 경우, 먼저 등장한 선행문 "명동역까지 어떻게 갈까?"가 포함하는 주요 단어 '명동역'의 세부적 분류는 'place'가 될 수 있고, 나중에 등장한 선행문 "차라리, 강남으로 가자."가 포함하는 주요 단어 '강남'의 세부적 분류도 'place'가 될 수 있으므로, '명동역, place'는 단기 기억 장치에서 삭제될 수 있다.

도 5는 일실시예에 따른 후속문이 독립적으로 완전한 의미를 가지도록 변형하는 방법을 설명하기 위한 도면이다. 도 5에 도시된 단계들은 도 2의 독립적으로 완전한 의미를 갖도록 변형하는 단계(260)에 포함될 수 있고, 도 1의 대화 생성 모듈(130)에 의하여 수행될 수 있다.

도 5를 참조하면, 획득된 문장이 후속문으로 판단되는 경우(지시어를 포함하는 경우), 획득된 문장에 대한 후보 선행문을 결정하고(510), 후보 선행문에 대응하는 단기 기억 장치에 기초하여 후보 선행문이 포함하는 주요 개체명을 검색하고(520), 후보 선행문이 지시어를 치환할 단어를 포함할 확률을 결정하고(530), 결정된 확률에 기초하여 지시어를 치환함으로써 후속문을 변형할 수 있다(540). 후보 선행문은 획득된 문장보다 앞서 등장한 하나 이상의 문장을 포함할 수 있다.후보 선행문이 지시어를 치환할 단어를 포함할 확률을 결정하는 단계(530)는 단순 베이즈 확률 모델(naive Bayes classification model)에 의해서 수행될 수 있다. 즉, 후보 선행문이 지시어를 치환할 단어를 포함할 확률은 수학식 1을 이용하여 결정될 수 있다.

여기서,

는 후속문에 포함된 j번째 지시어 벡터이고,

는 i번째 후보 선행문에 대응하는 단기 기억 장치에 저장된 주요 개체명 목록이며,

는 후속문에 속한 j번째 지시어가 치환될 주요 개체명이

에 속할 확률이고,

는 i번째 후보 선행문에서 임의의 주요 단어를 선택했을 때 그 단어가 j번째 지시어와 그 세부적 분류가 일치할 확률이며,

는 모든 후보 선행문들에 대응하는 단기 기억 장치에 저장된 주요 단어 중 임의의 단어를 선택했을 때 그 단어가

에 속할 확률이고,

는 후속문에서 임의의 단어를 선택했을 때 그 단어가 지시어

일 확률이다.

는 확률을 계산하는 데 공통 분모로 작용할 것이고 그 값은 항상 0보다 클 수 있다. 따라서, 확률 값의 상대적 대소 관계는

의 값에 영향을 받지 않으므로, 계산의 편의를 위해

를 제거할 수 있다. 따라서, 후속문에 속한 j번째 지시어가 치환될 주요 개체명이

에 속할 확률은 수학식 1의 우변의 분모에서

를 제거한 수학식 2를 이용하여 결정될 수 있다.

복수 개의 선행문에 대하여 수학식 2의

값을 비교하고 그 값이 가장 큰 i를 결정함으로써, 지시어를 치환할 주요 개체명이 포함된 후보 선행문을 결정할 수 있다. 예를 들어, 첫 번째 후보 선행문이 "어제, 정동진에 갔었어요."이고, 두 번째 후보 선행문이 "그럼, 기차로 갔었나요?"이고, 대응하는 단기 기억 장치에 저장된 주요 개체명 목록이

={(어제, time), (정동진, place), (가다, act)},

={(기차, vehicle), (가다, act)}이고, 후속문이 "아름다운 그 곳은 무엇이 있을까?"이고, 지시어 사전에는 {(그 곳, pronoun_place)}이 저장되어 있을 수 있다. 이 경우, 첫 번째 후보 선행문에는 세 개의 주요 단어가 있고, 그 중 하나의 단어가 지시어와 세부적 분류가 일치하므로

는 1/3이고, 두 번째 후보 선행문에는 두 개의 주요 단어가 있고, 그 중 지시어와 세부적 분류가 일치하는 단어가 없으므로

는 0/2일 수 있다. 또한, 모든 후보 선행문들에 대응하는 단기 기억 장치에 저장된 주요 개체명은 다섯 개이고

에 주요 개체명이 세 개,

에 주요 개체명이 두 개 저장되어 있으므로

은 3/5,

는 2/5일 수 있다. 따라서,

일 수 있고,

일 수 있다.

이므로, 지시어를 치환할 주요 개체명은 첫 번째 후보 선행문에 포함되어 있을 수 있다.

지시어를 치환함으로써 후속문을 변형하는 단계(540)는 지시어를 치환할 단어를 포함할 확률이 가장 높은 후보 선행문이 포함하는 주요 개체명 중, 지시어와 세부적 분류가 일치하는 주요 개체명으로 지시어를 치환할 수 있다. 지시어를 치환하는 과정에서, 마지막 음절에서의 종성의 받침 유무에 따라 조사가 변경될 수 있다. 예를 들어, 지시어 사전에 {(그 곳, pronoun_place)}이 저장되어 있는 후속문 "아름다운 그 곳은 무엇이 있을까?"에 대하여, 지시어를 치환할 단어를 포함할 확률이 가장 높은 후보 선행문은 "어제, 정동진에 갔었어요."이고, 대응하는 단기 기억 장치에 저장된 주요 개체명 목록이 {(어제, time), (정동진, place), (가다, act)}인 경우, 지시어의 세부적 분류와 '정동진'의 세부적 분류가 place로 일치하므로 '정동진'으로 지시어를 치환할 수 있다. 단어 '정동진'의 마지막 음절에서 종성의 받침이 있고, '그 곳' 뒤에는 조사 '은'이 결합되어 있었으므로, '정동진' 뒤에는 조사 '은'이 결합될 수 있다. 따라서, 지시어가 치환된 후속문은 "아름다운 정동진은 무엇이 있을까?"일 수 있다.

도 6은 일실시예에 따른 형태소 분석 및 주요 개체명을 단기 기억 장치에 저장한 결과의 예시도이다.

도 6을 참조하면, 획득된 문장 "어제 정동진에 갔었어요."를 형태소 분석하는 경우, 획득된 문장의 기호를 삭제하여 문구 '어제 정동진에 갔었어요'가 되고, 단어 단위로 문장을 분리하여 문구 'w1: 어제'(610), 'w2: 정동진에'(620), 'w3: 갔었어요'(630)가 되고, 형태소 단위로 단어를 분리하여 'w1: 어제 w2: 정동진 + 에 w3: 가 + 았었 + 어요'가 될 수 있다. 세종 코퍼스에서 사용하는 세종태그셋에 기반하여 형태소들의 품사를 판단하면 '어제'는 일반부사, '정동진'은 고유명사, '에'는 부사격조사, '가'는 동사, '았었'은 선어말어미, 그리고 '어요'는 종결어미가 될 수 있다. 판단된 형태소들의 품사에 기초하여 품사 기호를 부착하면 문구 '어제/MAG 정동진/NNP + 에/JKB 가/VV + 았었/EP + 어요/EF'가 형태소 분석의 결과가 될 수 있다. 이는 도 1의 대화 이해 모듈(110) 및 도 2의 형태소 분석 단계(220)에 의하여 수행될 수 있다.

형태소 분석의 결과, 획득된 문장 "어제 정동진에 갔었어요"에는 지시어가 존재하지 않으므로, 문장이 선행문으로 판단될 수 있다. 형태소 분석의 결과, '어제/MAG'가 부사에 해당하고, '정동진/NNP'가 명사에 해당하고, '가/VV'가 동사에 해당하여 주요 단어로 결정될 수 있다. 이 경우, '어제/MAG'는 시간을 나타내는 주요 단어이므로 세부적 분류는 'time'이 될 수 있고, '정동진/NNP'은 장소를 나타내는 주요 단어이므로 세부적 분류는 'place'가 될 수 있고, '가/VV'는 동작을 나타내는 주요 단어이므로 세부적 분류는 'act'가 될 수 있다. 따라서, 주요 개체명은 'm1: 어제/time'(615), 'm2: 정동진/place'(625), 및 'm3: 가다/act'(635)가 될 수 있고, 이를 주요 패턴인 "어제 + 정동진 + 가다"와 함께 단기 기억 장치에 저장할 수 있다. 이는 도 1의 대화 관리 모듈(120), 도 2의 개체명 추출 단계(240) 및 도 2의 단기 기억 장치에 저장하는 단계(250)에 의하여 수행될 수 있다

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

적어도 하나의 프로세서에 의해 수행되는 문장 복원 방법에 있어서,
문장을 획득하는 단계;
상기 문장을 형태소 분석하는 단계;
상기 형태소 분석의 결과에 기초하여, 상기 문장이 지시어를 포함하는지 여부를 판단하는 단계;
상기 판단 결과에 기초하여, 상기 문장이 선행문인지 혹은 후속문인지 여부를 판단하는 단계;
상기 문장이 선행문에 해당하는 경우, 상기 형태소 분석의 결과에 기초하여, 상기 문장에 포함되는 주요 개체명을 추출하여 단기 기억 장치에 저장하는 단계; 및
상기 문장이 후속문에 해당하는 경우, 상기 단기 기억 장치에 기초하여 상기 지시어를 치환함으로써 상기 문장이 독립적으로 완전한 의미를 가지도록 변형하는 단계
를 포함하고,
상기 문장이 독립적으로 완전한 의미를 가지도록 변형하는 단계는
상기 후속문보다 앞서 등장한 적어도 하나의 후보 선행문을 결정하는 단계;
상기 후보 선행문에 대응하여 상기 단기 기억 장치에 저장된 주요 개체명에 기초하여, 상기 후보 선행문이 상기 지시어를 치환할 주요 개체명을 포함할 확률을 결정하는 단계; 및
상기 확률 및 상기 지시어의 세부적 분류에 대응하는 상기 후보 선행문에 포함된 주요 개체명에 기초하여, 상기 지시어를 치환함으로써 상기 후속문을 변형하는 단계
를 포함하는,
문장 복원 방법.
제1항에 있어서,
상기 주요 개체명을 추출하여 상기 단기 기억 장치에 저장하는 단계는
상기 문장에 포함되는 형태소들의 품사에 기초하여, 주요 단어를 결정하는 단계;
상기 주요 단어를 세부적으로 분류하는 단계; 및
상기 주요 단어와 상기 세부적 분류를 묶어 상기 주요 개체명으로 결정하는 단계
를 포함하는, 문장 복원 방법.
제1항에 있어서,
상기 후보 선행문이 상기 지시어를 치환할 주요 개체명을 포함할 확률을 결정하는 단계는
상기 후보 선행문에 포함된 주요 개체명의 개수 및 상기 지시어의 세부적 분류에 대응하는 상기 후보 선행문에 포함된 주요 개체명의 개수에 기초하여, 상기 후보 선행문이 상기 지시어를 치환할 주요 개체명을 포함할 확률을 결정하는 단계
를 포함하는, 문장 복원 방법.
제1항에 있어서,
상기 후보 선행문이 상기 지시어를 치환할 주요 개체명을 포함할 확률을 결정하는 단계는
복수의 후보 선행문들에 대응하는 주요 개체명의 개수들에 기초하여, 상기 복수의 후보 선행문들 중 상기 후보 선행문이 선택될 제1 확률을 결정하는 단계; 및
상기 후보 선행문으로부터 선택되는 주요 개체명이 상기 지시어의 세부적 분류와 일치하는 세부적 분류를 가질 제2 확률을 결정하는 단계
를 포함하는, 문장 복원 방법.
제4항에 있어서
상기 제1 확률을 결정하는 단계는
복수의 후보 선행문들에 대응하는 주요 개체명들의 개수 대비 상기 후보 선행문에 대응하는 주요 개체명들의 개수 사이의 비율에 기초하여, 상기 제1 확률을 결정하는 단계
를 포함하는, 문장 복원 방법.
제4항에 있어서,
상기 제2 확률을 결정하는 단계는
상기 후보 선행문에 대응하는 주요 개체명들의 개수 대비 상기 지시어의 세부적 분류와 일치하는 세부적 분류를 가지는 주요 개체명의 개수 사이의 비율에 기초하여, 상기 제2 확률을 결정하는 단계
를 포함하는, 문장 복원 방법.
제1항에 있어서,
상기 후속문을 변형하는 단계는
상기 주요 개체명을 포함할 확률이 가장 높은 후보 선행문에 대하여, 상기 후보 선행문에 포함된 주요 개체명의 세부적 분류와 상기 지시어의 세부적 분류를 비교하는 단계;
상기 세부적 분류가 일치하는 주요 개체명으로 상기 지시어를 치환하는 단계; 및
상기 치환한 단어에 적합한 조사를 결합하는 단계
를 포함하는, 문장 복원 방법.
제1항에 있어서,
상기 문장을 형태소 분석하는 단계는
상기 문장이 포함하는 기호를 삭제하는 단계;
상기 문장을 형태소 단위로 분리하는 단계;
상기 형태소들의 품사를 판단하는 단계; 및
상기 형태소들에 품사 기호를 부착하는 단계
중 적어도 하나를 포함하는, 문장 복원 방법.
하드웨어와 결합되어 제1항 내지 제8항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
문장을 획득하고,
상기 문장을 형태소 분석하고,
상기 형태소 분석의 결과에 기초하여, 상기 문장이 지시어를 포함하는지 여부를 판단하고,
상기 판단 결과에 기초하여, 상기 문장이 선행문인지 혹은 후속문인지 여부를 판단하고,
상기 문장이 선행문에 해당하는 경우, 상기 형태소 분석의 결과에 기초하여, 상기 문장에 포함되는 주요 개체명을 추출하여 단기 기억 장치에 저장하고,
상기 문장이 후속문에 해당하는 경우, 상기 단기 기억 장치에 기초하여, 적어도 하나의 후보 선행문을 결정하고, 상기 후보 선행문에 대응하여 상기 단기 기억 장치에 저장된 주요 개체명에 기초하여, 상기 후보 선행문이 상기 지시어를 치환할 주요 개체명을 포함할 확률을 결정하며, 상기 확률 및 상기 지시어의 세부적 분류에 대응하는 상기 후보 선행문에 포함된 주요 개체명에 기초하여, 상기 지시어를 치환함으로써 상기 후속문을 변형하는 프로세서; 및
문장에 대응하여, 상기 주요 개체명을 저장하는 단기 기억 장치
를 포함하는, 문장 복원 장치.
제10항에 있어서,
상기 프로세서는
상기 주요 개체명을 추출하여 상기 단기 기억 장치에 저장함에 있어서,
상기 문장에 포함되는 형태소들의 품사에 기초하여, 주요 단어를 결정하고,
상기 주요 단어를 세부적으로 분류하고,
상기 주요 단어와 상기 세부적 분류를 묶어 상기 주요 개체명으로 결정하는, 문장 복원 장치.
제10항에 있어서,
상기 프로세서는
상기 후보 선행문이 상기 지시어를 치환할 주요 개체명을 포함할 확률을 결정함에 있어서,
상기 후보 선행문에 포함된 주요 개체명의 개수 및 상기 지시어의 세부적 분류에 대응하는 상기 후보 선행문에 포함된 주요 개체명의 개수에 기초하여, 상기 후보 선행문이 상기 지시어를 치환할 주요 개체명을 포함할 확률을 결정하는, 문장 복원 장치.
제10항에 있어서,
상기 프로세서는
상기 후보 선행문이 상기 지시어를 치환할 주요 개체명을 포함할 확률을 결정함에 있어서,
복수의 후보 선행문들에 대응하는 주요 개체명의 개수들에 기초하여, 상기 복수의 후보 선행문들 중 상기 후보 선행문이 선택될 제1 확률을 결정하고,
상기 후보 선행문으로부터 선택되는 주요 개체명이 상기 지시어의 세부적 분류와 일치하는 세부적 분류를 가질 제2 확률을 결정하는 프로세서
를 포함하는, 문장 복원 장치.
제13항에 있어서
상기 프로세서는
상기 제1 확률을 결정함에 있어서,
복수의 후보 선행문들에 대응하는 주요 개체명들의 개수 대비 상기 후보 선행문에 대응하는 주요 개체명들의 개수 사이의 비율에 기초하여, 상기 제1 확률을 결정하는, 문장 복원 장치.
제13항에 있어서,
상기 프로세서는
상기 제2 확률을 결정함에 있어서,
상기 후보 선행문에 대응하는 주요 개체명들의 개수 대비 상기 지시어의 세부적 분류와 일치하는 세부적 분류를 가지는 주요 개체명의 개수 사이의 비율에 기초하여, 상기 제2 확률을 결정하는 프로세서
를 포함하는, 문장 복원 장치.
제10항에 있어서,
상기 프로세서는
상기 후속문을 변형함에 있어서,
상기 주요 개체명을 포함할 확률이 가장 높은 후보 선행문에 대하여, 상기 후보 선행문에 포함된 주요 개체명의 세부적 분류와 상기 지시어의 세부적 분류를 비교하고,
상기 세부적 분류가 일치하는 주요 개체명으로 상기 지시어를 치환하고,
상기 치환한 단어에 적합한 조사를 결합하는, 문장 복원 장치.
제10항에 있어서,
상기 프로세서는
상기 문장을 형태소 분석함에 있어서,
상기 문장이 포함하는 기호를 삭제하는 동작,
상기 문장을 형태소 단위로 분리하는 동작,
상기 형태소들의 품사를 판단하는 동작,
상기 형태소들에 품사 기호를 부착하는 동작
중 적어도 하나를 수행하는, 문장 복원 장치.