KR102357023B1

KR102357023B1 - 대화 분절 문장의 복원을 위한 장치 및 방법

Info

Publication number: KR102357023B1
Application number: KR1020190158937A
Authority: KR
Inventors: 신성현; 이종언
Original assignee: 주식회사 엘지유플러스
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2022-01-28
Also published as: KR20210069298A

Abstract

본 발명의 예시적인 실시예는 연속적인 대화 문장에서 용언이 생략된 분절 문장인 후속문을 의도 분석이 가능한 선행문을 활용하여 의도 분석이 가능한 상태로 문장을 복원하기 위한 장치 및 방법에 관한 것으로, 상기 장치는 연속적인 대화 문장을 문장 단위로 분리하기 위한 문장분리부; 상기 분리된 문장에 대해 형태소 분석 및 개체명 인식을 수행하기 위한 자연어처리부; 상기 분리된 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류하기 위한 문장타입분류부; 상기 분류된 선행문에 대해 단어 순서에 따른 위치 인덱스를 부여하여 버퍼링하기 위한 버퍼링부; 상기 분류된 선행문 내에서 나타나는 상기 분류된 후속문의 개체명의 빈도수, 및 상기 분류된 선행문에서 상기 분류된 후속문의 개체명이 출현할 확률을 기초로, 후속문의 개체명과 선행문의 개체명 간의 유사도를 분석하기 위한 유사도분석부; 및 상기 분석된 유사도가 기 설정된 기준값 이상인 선행문의 해당 단어를 후속문의 해당 단어로 교체하기 위한 분절문장복원부를 포함할 수 있다.

Description

대화 분절 문장의 복원을 위한 장치 및 방법{Apparatus and Method for restoring Conversation Segment Sentences}

본 발명은 대화 문장에서 용언이 생략된 분절 문장인 후속문을 의도 분석이 가능한 선행문을 활용하여 의도 분석이 가능한 상태로 복원하는 장치 및 방법에 관한 것이다.

자연어 처리(NLP, natural language processing)는 형태소 분석이나 구문 분석, 의미 분석 등을 통해 대화 분석(Dialogue Analysis), 정보 검색(Information Retrieval), 정보 추출(Information Extraction), 정보 요약(Summarization) 등의 다양한 기술을 포함한 개념으로, 자연어를 기계적으로 분석하여 컴퓨터가 이해할 수 있는 형태로 만드는 주요 기술 분야이다. 특히, 최근 인공지능이 발전함에 따라, 대화형 질의응답, 챗봇 시스템 등 로봇에게 사람의 자연어 대화를 이해하고 응답을 생성하여 인간과 로봇이 상호작용하는 미래지향적 연구들이 지속적으로 발전하고 있다.

자연어 이해는 대화 문장이 가지는 다양한 표현과 형태에 따라 문맥과 상황에 맞추어 사용자의 의도를 파악하는 것이 중요하다. 그런 이유로, 자연어 처리는 문장의 구어와 문어를 동시에 이해하는 것이 필요하다. 보통의 문장 성분은 단어와 문장 구성 요소들의 관계를 분석하는 의존 구문 분석을 할 경우 주어, 동사, 목적어의 기본 구성으로 이루어진다. 하지만, 한국어의 경우는 동사와 형용사가 포함되는 용언 중심의 언어로 용언을 취하는 것이 일반적이지만 구어의 경우에는 용언의 생략 만으로 길게 대화를 이어나간다. 이렇듯, 대화 문장에서 용언의 생략 현상은 사람은 대화 이력을 통해 자연어의 의도(intent)를 쉽게 이해하지만 기계는 이런 의도를 이해하기가 어려운 문제점이 있다.

등록특허공보 제10-0641053호(2006.10.25.)

본 발명은 전술한 종래의 문제점을 해결하기 위한 것으로, 그 목적은 연속적인 대화 문장에서 용언이 생략된 분절 문장인 후속문을 의도 분석이 가능한 선행문을 활용하여 의도 분석이 가능한 상태로 문장을 복원하기 위한 장치 및 방법을 제공하는 것이다.

한국어 대화 문장에서는 대부분 용언이 생략되어 분절된 문장이 되는 경우가 대부분이다. 앞으로, 본 발명의 설명 시 대화 문장 중 문장 내 용언이 존재하는 문장을 선행문(先行文, 이전의 대화 문장)이라 하고, 문장 내 용언이 생략된 분절 문장을 후속문(後續文, 그 후 대화 문장)이라고 한다. 일반 대화는 선행문과 후속문을 적절히 사용하면서 대화가 이뤄진다. 하지만, 사람과 달리 기계는 용언이 생략된 불완전한 문장을 이해하기란 어렵다. 이 경우, 선행문을 활용하여 용언이 생략된 후속문을 복원시키는 것이 중요하다. 예를 들면,

(1) "명동역까지 버스 요금은 얼마입니까?"

(2) "그럼, 택시는?"

선행문은 예문 (1)처럼 "얼마입니까?"와 같은 용언이 포함된 문장이지만, 분절 문장인 후속문은 예문 (2)처럼 "그럼, 택시는?"과 같은 용언이 생략된 문장을 일컫는다. 예문에서 보듯이, 사람은 대화 이력을 통해서 용언이 생략된 불완전한 문장을 이해할 수 있지만, 기계는 이를 이해하지 못한다. 그 이유는 분절 문장 만으로 언어적 분석이 행해지면 문맥상 의도는 모호(ambiguity)해지거나 이해할 수 없기 때문이다. 따라서, 자연스러운 대화에서 제대로 된 분절 문장의 의도를 분석하기 위한 방법이 절대적으로 필요하다.

전술한 예문에서 선행문 "명동역까지 버스 요금은 얼마입니까?"의 경우는 해당 지역까지의 이동 수단의 거리 비용을 질문하는 형태로 이해할 수 있지만, 후속문 "그럼, 택시는?"의 경우에는 거리 비용을 질문하는 것인지 또는 이동 수단의 상태를 질문하는 것인 지 이해하기가 어렵다. 따라서 이러한 후속문은 완전한 문장이 아니지만, 용언의 생략은 선행문과 연관된 이해의 일부이므로 대화 분절 문장을 분석하고 의도 분석이 가능한 선행문의 문맥 맥락을 통해 "명동역까지 택시 요금은 얼마입니까?"로 복원하는 것으로 문장의 모호성을 줄이고 이해 및 의도 분석이 가능토록 복원하는 것이 본 발명의 주요 목적이다.

본 발명에서 대화 분절 문장의 복원 과정은 다음과 같이 이루어진다. 대화형 인터페이스로부터 사용자 대화 문장을 입력 받는 것으로 본 프로세스가 동작한다. 우선, 입력받은 대화 문장은 텍스트 정규화(text normalized)를 통해서 불필요한 기호를 삭제하고, 문장 단위 형태로 분리한다[문장 단위 분리 과정]. 다음으로, 문장의 최소 단위인 형태소 단위로 구분하여 분류한 후, 분석한 형태소 단위 즉, 단어에서 필요한 정보를 추출하는 과정으로 주요 의미를 분석한다[자연어처리 과정]. 만약, 문장이 용언으로 끝나거나 완성도가 높은 문장으로 파악되면 선행문으로 분류하고, 불완전하거나 용언으로 끝나지 않는 분절 문장은 후속문으로 분류한다[문장 타입 과정]. 분류된 선행문은 단어 순서에 따라 인덱스를 부여하여 메모리 버퍼(buffer)에 저장한다[단어 인덱싱 및 버퍼링 과정]. 분류된 후속문은 버퍼(buffer)에 저장된 선행문 정보를 이용하여 선행문과 후속문의 단어 간의 유사도를 분석 계산하고[유사도 분석 과정], 유사도 분석 결과값과 단어 순서에 의한 상관관계를 기초로 선행문의 특정 단어 위치에 후속문의 대응하는 해당 단어를 대치하여 분절 문장인 후속문을 선행문을 기반으로 복원한다[분절문장 복원 과정].

전술한 목적을 달성하기 위하여 본 발명의 일 측면에 따른 대화 분절 문장의 복원을 위한 장치는, 연속적인 대화 문장을 문장 단위로 분리하기 위한 문장분리부; 상기 분리된 문장에 대해 형태소 분석 및 (의미 분석에 의한) 개체명 인식을 수행하기 위한 자연어처리부; 상기 분리된 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류하기 위한 문장타입분류부; 상기 분류된 선행문에 대해 단어 순서에 따른 위치 인덱스를 부여하여 버퍼링하기 위한 버퍼링부; 상기 분류된 선행문 내에서 나타나는 상기 분류된 후속문의 개체명의 빈도수, 및 상기 분류된 선행문에서 상기 분류된 후속문의 개체명이 출현할 확률을 기초로, 후속문의 개체명과 선행문의 개체명 간의 유사도를 분석하기 위한 유사도분석부; 및 상기 분석된 유사도가 기 설정된 기준값 이상인 선행문의 해당 단어를 후속문의 해당 단어로 교체하기 위한 분절문장복원부;를 포함할 수 있다.

상기 유사도분석부는 TF(Term Frequency) 방식을 통해 상기 분류된 선행문 내에서 나타나는 상기 분류된 후속문의 개체명의 빈도수를 산출할 수 있고, IDF(Inverse Document Frequency) 방식을 통해 상기 분류된 선행문에서 상기 분류된 후속문의 개체명이 출현할 확률을 산출할 수 있으며, TF-IDF(Term Frequency - Inverse Document Frequency) 방식을 통해 후속문의 개체명과 선행문의 개체명 간의 유사도를 산출할 수 있다.

상기 자연어처리부는 상기 개체명 인식 결과를 기초로 선행문과 후행문 간의 유사성 여부를 판단할 수 있고, 상기 선행문과 후행문 간의 유사성 여부는 자카드 계수(Jaccard Coefficient)에 의해 판단할 수 있다.

상기 문장타입분류부는 연속적인 대화 문장 중 상기 자연어처리부를 통해 유사성 있다고 판단된 두 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류할 수 있다.

전술한 목적을 달성하기 위하여 본 발명의 다른 측면에 따른 대화 분절 문장의 복원을 위한 방법은, (a) 연속적인 대화 문장을 문장 단위로 분리하기 위한 단계; (b) 상기 분리된 문장에 대해 형태소 분석 및 (의미 분석에 의한) 개체명 인식을 수행하기 위한 단계; (c) 상기 분리된 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류하기 위한 단계; (d) 상기 분류된 선행문에 대해 단어 순서에 따른 위치 인덱스를 부여하여 버퍼링하기 위한 단계; (e) 상기 분류된 선행문 내에서 나타나는 상기 분류된 후속문의 개체명의 빈도수, 및 상기 분류된 선행문에서 상기 분류된 후속문의 개체명이 출현할 확률을 기초로, 후속문의 개체명과 선행문의 개체명 간의 유사도를 분석하기 위한 단계; 및 (f) 상기 분석된 유사도가 기 설정된 기준값 이상인 선행문의 해당 단어를 후속문의 해당 단어로 교체하기 위한 단계;를 포함할 수 있다.

상기 단계 (e)는 TF(Term Frequency) 방식을 통해 상기 분류된 선행문 내에서 나타나는 상기 분류된 후속문의 개체명의 빈도수를 산출할 수 있다.

상기 단계 (e)는 IDF(Inverse Document Frequency) 방식을 통해 상기 분류된 선행문에서 상기 분류된 후속문의 개체명이 출현할 확률을 산출할 수 있다.

상기 단계 (e)는 TF-IDF(Term Frequency - Inverse Document Frequency) 방식을 통해 후속문의 개체명과 선행문의 개체명 간의 유사도를 산출할 수 있다.

상기 단계 (b)는 상기 개체명 인식 결과를 기초로 선행문과 후행문 간의 유사성 여부를 판단할 수 있고, 상기 선행문과 후행문 간의 유사성 여부는 자카드 계수(Jaccard Coefficient)에 의해 판단할 수 있다.

상기 단계 (c)는 연속적인 대화 문장 중 상기 단계 (b)를 통해 유사성 있다고 판단된 두 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류할 수 있다.

전술한 목적을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 상기 대화 분절 문장의 복원을 위한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공될 수 있다.

전술한 목적을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 상기 대화 분절 문장의 복원을 위한 방법을 하드웨어와 결합하여 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 애플리케이션이 제공될 수 있다.

전술한 목적을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 상기 대화 분절 문장의 복원을 위한 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램이 제공될 수 있다.

이상에서 설명한 바와 같이 본 발명의 다양한 측면에 따르면, 연속적인 대화 문장에서 용언이 생략된 분절 문장인 후속문을 의도 분석이 가능한 선행문을 활용하여 의도 분석이 가능한 상태로 문장을 복원할 수 있다.

향후, 5G가 상용화되면서 트래픽이 점차 고용량으로 증대되는 기계번역, 자연어처리, 대화형 시스템 등의 5G 환경의 각종 장치에 적용하여 선행문과 이해 관계가 연관된 분절 문장을 의도 분석이 가능한 상태의 문장으로 복원할 수 있도록 함으로써, 5G 환경의 전술한 각종 장치의 성능을 향상할 수 있다.

도 1은 본 발명의 예시적인 실시예에 따른 대화 분절 문장의 복원을 위한 장치의 구성도,
도 2는 본 발명의 예시적인 실시예의 설명을 위한 주요 표기와 이에 대한 정의를 나타낸 테이블 도면,
도 3은 본 발명의 실시예에 따른 TF(Term Frequency) 계산 예시도,
도 4는 본 발명의 실시예에 따른 IDF(Inverse Document Frequency) 계산 예시도,
도 4는 본 발명의 실시예에 따른 IDF(Inverse Document Frequency) 계산 예시도,
도 5는 본 발명의 실시예에 따른 TF-IDF(Term Frequency - Inverse Document Frequency) 가중치 계산 예시도,
도 6은 본 발명의 실시예에 따른 후속문 복원 과정 예시도,
도 7은 본 발명의 예시적인 실시예에 따른 대화 분절 문장의 복원을 위한 방법의 흐름도이다.

이하, 첨부도면을 참조하여 본 발명의 실시예에 대해 구체적으로 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 한다. 또한, 본 발명의 실시예에 대한 설명 시 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 발명의 예시적인 실시예에 따른 대화 분절 문장의 복원을 위한 장치의 구성도로, 동 도면에 도시된 바와 같이, 문장분리부(11), 자연어처리부(13), 문장타입분류부(15), 버퍼링부(17), 유사도분석부(19), 및 분절문장복원부(21)를 포함할 수 있다.

먼저, 도 2의 테이블을 참조하여 본 발명의 예시적인 실시예의 설명을 위한 주요 기호 표기와 이에 대한 정의를 설명한다.

연속되는 대화 문장

에서 선행문

는 시점

에서 발생한 대화 문장

를 나타내는 것으로서, 문장 구성이 주어, 목적어, 서술어 등으로 형성된 완성도가 높은 문장을 나타내며,

에서 구성된 단어 벡터는

,

, …,

로 구성된다. 후속문

는 불완전한 형태인 분절된 문장을 나타내며,

에서 구성된 단어 벡터는

,

, …,

로 구성된다. 그리고 문장

는 선행문

에 기반한 분절 문장

를 복원한 문장으로

와 유사하게 완성도가 높은 문장의 표현으로,

는 단어 벡터는

,…,

(

,

)으로 구성된

,

, …,

이다. 여기서,

이면서,

의 관계가 성립되며,

는

를

기반으로 복원했기 때문에

와

는 동일한 단어 벡터의 구성으로 되지 않아

관계 또한 성립될 수 있다. 다만,

의 특정 단어

는

의 단어

와 일부 동일할 수 있으며, 반대로,

의 특정 단어

는

의 단어

와는 일부 다를 수 있으므로,

관계가 성립될 수 있다.

다시, 도1을 참조하여 설명한다.

문장분리부(11)는 연속적인 대화 문장을 문장 단위로 분리하기 위한 것이다. 사람들은 자연스러운 대화 시 다양한 단어 길이의 문장을 구사하고 있어 문맥을 이해할 수 있지만, 기계는 이를 이해하기 어렵다. 그래서, 문장을 기계가 이해할 수 있도록 문장 단위의 입력 단위로 처리하여 정의하는 것이 필요하다. 우선, 이를 문장 단위로 분리하여 처리해야 하며, 일반적으로 마침표(.), 느낌표(!), 물음표(?) 등의 구두점(punctuation)으로 문장 분리를 수행한다. 예를 들어, 발화문 "오늘 날씨가 좋아. 어디든 놀러 가고 싶다."을 간단하게 문장 분리하면 "오늘 날씨가 좋아." 및 "어디든 놀러 가고 싶다."로 분리되며, 이들은 본 실시예에서 말하는 선행문

가 될 수 있다. 단, 문장 분리한 선행문 중 문장 구성의 완성도가 낮다고 후속문이 될 수는 없다.

자연어처리부(13)는 자연어 처리 과정을 수행하여 분리된 문장에 대해 형태소 분석 및 의미 분석에 의한 개체명 인식을 수행하기 위한 것으로, 개체명 인식 결과를 기초로 선행문과 후행문 양자 간의 유사성 여부를 판단할 수 있고, 선행문과 후행문 간의 유사성 여부는 일 예로 자카드 계수(Jaccard Coefficient)에 의해 판단할 수 있다.

예를 들어, 자연어처리부(13)의 자연어 처리 과정은 [품사 태깅 과정], [의미 분석 과정], 및 [패턴 분석 과정]을 포함할 수 있다.

[품사 태깅 과정]

문장의 주요 단어들을 추출하려면 각 단어들을 형태소 분석을 통해 단어의 품사 정보를 파악해야 한다. 주어진 발화 문장 벡터

에서

개의 단어들(

에 형태소 품사(POS, part-of-speech) 기호가 부착되는 데, 이를 품사 태깅이라 한다. 품사 태깅은 발화문

라고 정의하고

번째 단어는

라고 정의할 때, 품사 태깅은

번째 단어의 품사를

라고 정의한다. 그러면 하나의 단어

에 대한 품사 태깅의 일반적인 확률 모델은 식(1)과 같다.

--- (식1)

예를 들어, 식(1)에 따라 선행문의 예문 "명동역까지 버스 요금은 얼마입니까?"은 형태소 분석을 통해, "명동역/NNP+까지/JX+버스/NNG+요금/NNG+은/JX +얼마/NNG+이/VCP+ㅂ니까/EF+?/SF"으로 품사 태깅이 가능하다. 또한, 후속문의 예문 "그럼, 택시는?"의 형태소 분석은 "그럼/MAJ+택시/NNG+는/JX+?/SF"로 품사 태깅이 가능하다.

[의미 분석 과정]

다음은 자연어 이해(NLU, Natural Language Understanding)을 위한 기본 작업으로, 형태소 분석으로 단어의 품사가 결정되면, 다음으로

개의 단어 벡터

중에서 개체명 인식을 통해 명사를 추출한다. 개체명 인식(named entity recognition)은 단어

를 인명, 지명 등의 고유한 의미를 가지는 개체명으로 인식하겠다는 의미이다. 이 과정에서, 단어 벡터

는 형태소 분석에 따라 품사 태깅

이 되고 개체명 인식에 따라 의미 벡터

로 구성되며, 확률 값은 식(2)로 계산할 수 있다.

--- 식 (2)

예를 들어, 선행문의 개체명 인식은 형태소 분석의 태깅 결과문 "명동역/NNP+까지/JX+버스/NNG+요금/NNG+은/JX+얼마/NNG+이/VCP+ㅂ니까/EF+?/SF"에서 "[명동역]LOCATION>STATION>TO [버스]TRANSPORTATION>VEHICLES>BUS [요금] TRANSPORTATION>FEE [얼마]QUESTION>HOW"으로 개체명 정보가 부착된 주요 단위의 추출이 가능하다. 그리고, 후속문의 개체명 인식도 마찬가지로 "[택시] TRANSPORTATION>VEHICLES>TAXI"가 된다.

[패턴 분석 과정]

패턴 분석은 선행문과 후속문의 개체명 인식 결과를 매칭하여 선행문과 후속문의 유사성을 분석한다. 분석 방법으로는 선행문과 후속문이 얼마나 비슷한 지에 대한 유사성을 측정하는 척도로 자카드 계수(Jaccard Coefficient)를 활용한다. 자카드 계수는 식 (3)과 같다.

--- 식 (3)

식 (3)의 자카드 계수는 두 문장

의 의미 벡터

,

가 동일한 값이면 1이 나오고, 전혀 유사하지 않으면 0의 값이 나온다. 본 내용에서는 자카드 계수를 이용하여 아래와 같이, 선행문과 후속문의 의미 분석(즉, 개체명 인식)된 결과를 가지고 유사성을 측정할 수 있다.

1) 선행문의 개체명 인식: [명동역]LOCATION>STATION>TO [버스]TRANSPORTATION>VEHICLES>BUS [요금] TRANSPORTATION>FEE [얼마]QUESTION>HOW

2) 후속문의 개체명 인식: [택시] TRANSPORTATION>VEHICLES>TAXI

개체명 인식 결과, 후속문의 개체명 TRANSPORTATION>VEHICLES>TAXI와 선행문의 개체명 TRANSPORTATION>VEHICLES>BUS를 비교하면 상위 레벨의 두 계층이 서로 동일하므로 자카드 계수는 1이 되고 따라서 두 문장은 유사한 것으로 판단할 수 있다.

문장타입분류부(15)는 문장분리부(11)를 통해 분리되고 자연어처리부(13)를 통해 자연어 처리 과정이 수행되어 형태소 분석 및 개체명 인식이 완료된 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류하기 위한 즉, 문장 타입 분류 과정을 수행하기 위한 것으로, 연속적인 대화 문장 중 자연어처리부(13)를 통해 유사성 있다고 판단된 두 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류할 수 있다. 즉, 연속적인 대화 문장 중 용언이 포함된 선행문이 분류되면 이에 후속하는 일련의 용언이 생략된 문장 중 해당 선행문과 유사성 있는 문장을 후속문으로 분류할 수 있다.

문장 타입 분류 과정에서는 대화 중 용언을 포함한 선행문과 용언을 생략한 후속문을 분류한다. 여기서, 후속문은 선행문의 주어를 서술하는 문장으로 선행문과 달리 용언이 생략되어 조사로 끝나는 분절된 문장을 나타낸다.

버퍼링부(17)는 문장타입분류부(15)를 통해 분류된 선행문에 대해 단어 순서에 따른 위치 인덱스를 부여하여 버퍼 메모리에 버퍼링하기 위한 것이다.

유사도분석부(19)는 문장타입분류부(15)를 통해 분류된 해당 선행문 내에서 나타나는 해당 후속문의 개체명의 빈도수 및 해당 선행문에서 해당 후속문의 개체명이 출현할 확률을 기초로 해당 후속문의 개체명과 해당 선행문의 개체명 간의 유사도를 분석하기 위한 것이다.

유사도분석부(19)는, 예를 들어, TF(Term Frequency) 방식을 통해 해당 선행문 내에서 나타나는 해당 후속문의 개체명의 빈도수를 산출할 수 있고, IDF(Inverse Document Frequency) 방식을 통해 해당 선행문에서 해당 후속문의 개체명이 출현할 확률을 산출할 수 있으며, 최종적으로 TF-IDF(Term Frequency - Inverse Document Frequency) 방식을 통해 후속문의 개체명과 선행문의 개체명 간의 유사도를 산출할 수 있는데, 이러한 일련의 유사도 분석/산출 과정에 대해 아래에서 보다 상세히 설명한다.

본 실시예에서는 선행문과 후속문의 유사도를 측정하기 위한 방식으로 TF-IDF 가중치를 사용한다. TF-IDF(Term Frequency - Inverse Document Frequency)는 검색과 텍스트 마이닝에서 이용하는 가중치로서, 단어의 중요도를 평가하기 위해 사용된다. 예를 들어, TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단한다. 이에 따라서, TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 크다는 점을 적용하여, 선행문과 후속문 내에 포함된 단어의 중요도(즉, 유사도)를 정하는데 TF-IDF 가중치를 사용할 수 있다.

단어 빈도 TF(term frequency)는 특정 단어가 문서 내에서 나타나는 빈도를 의미한다. 본 실시예에서는 문서 내의 빈도가 아닌 선행문 내에서 나타나는 후속문 내 개체명의 빈도를

와 같이 나타내며, 개체명 인식명이 얼마나 중요한 지에 대한 지표로 사용한다. 등장 빈도를 포함하고 있는 후속문은 선행문에 대하여 관련성이 높다. 따라서, TF는 선행문 내 후속문의 단어 출현 빈도를 기본적으로 선행문과의 연관성을 분석하기 위해 사용된다. 여기서,

는 개체명 등장 빈도수이며,

는 선행문이다.

는 선행문 내에 나타나는 해당 후속문의 개체명의 총 빈도수를 나타내는 것 즉, 선행문

내에서

의 총 빈도를 나타내는 것이며,

값의 산출은 다음의 식 (4)를 통해 계산할 수 있다.

--- 식 (4)

여기서,

값은 선행문 내에서 후속문의 단어가 나온 횟수이다. 경우에 따라

값을 변형해서 사용하지만, 본 실시예에서는 출현 횟수로 사용한다. 도 3은

값을 계산한 예시도이다. 선행문에서 해당 후속문의 개체명이 얼마나 나왔는지 알아야 하므로, 선행문에서 해당 후속문의 단어/개체명들이 나오면 카운팅한다. 여기서, 비교 대상은 개체명의 하위 레벨의 카테고리부터 상위 레벨의 카테고리를 순차적으로 비교하여 적어도 상위 두 레벨 이상이 같으면 카운팅을 한다. 예를 들어, 후속문의 단어인 택시의 개체명이 선행문 내 버스의 개체명과 상위 두 레벨에서 동일하므로 이에 대한 출현 횟수 1을 카운팅한다. 즉, 후속문 단어 "택시"의 경우에는 선행문에 개체명 "TRANSPORTATION>VEHICLES"으로 등장했기 때문에 출현 횟수는 1이다.

IDF(Inverse Document Frequency)는 DF(Document Frequency)의 역수로, DF는 한 단어가 문서들에서 얼마나 공통적으로 나타나는 지를 나타내는 값이며,

=(해당 단어가 나타난 문서 수 / 전체 문서 수)가 된다. IDF는 DF의 역수이기 때문에

를 사용하면

(전체 문서 수/해당 단어가 나타난 문서 수)가 되며,

로 표기된다. 여기서,

는 문서

에서

가 나타난 빈도수를 의미한다.

는 두 가지 이상의 용어를 가진 질의에서 문서들의 순위에 영향을 미친다.

본 실시예에서는 선행문 내에서 후속문의 개체(인식)명이 출현할 확률이 얼마인가를 IDF로 계산하며,

로 표기된다. 여기서,

는 선행문의 개체명

에서 후속문의 개체명

가 나타난 빈도수를 의미한다. 이들을 통해서, 후속문의 개체명이 선행문의 전체 개체명 집합에서 얼마나 나타나는지를 나타내는 값을 이용하여 후속문의 분절 문장을 선행문의 일부 문장으로 대체할 수 있다.

도 4의 IDF 계산 예시도를 참조하면, 후속문의 단어 총 수는 3이므로,

내의 분자는 3으로 동일하다. 분모의 경우에는 선행문에서 각 단어가 등장한 후속문 단어의 수(DF)를 의미하는 데, 예를 들어, "택시"의 경우에는 선행문에 개체명 "TRANSPORTATION>VEHICLES"으로 등장했기 때문에 출현 회수는 1이라는 값을 가진다. 따라서, IDF 값은 log(3/1)=0.48이 된다.

마지막으로 TF-IDF는 정보 검색에서 가장 알려진 계산 방법으로, TF 가중치와 해당 idf의 곱으로

는 아래와 같은 식 (5)를 만족한다.

--- 식 (5)

이에 선행문을 기반으로 하는 후속문의 개체명 유사도는 도 5에 예시된 바와 같다. 도 5에서 보는 바와 같이, 본 실시예에서의 TF-IDF 값은 IDF 값과 동일하다. 그 이유는 문장 내의 단어 횟수를 비교하는 것이 아닌 후속문의 단어는 순차적으로 비교하기 때문에 생긴 현상이다. 만약, 예제에서 "그럼, 택시는? 택시를 타고 가자"할 경우에는 택시는 중복된 횟수가 아닌 TF-IDF 계산시 후속문의 단어가 별개의 문장으로 분리하기 때문에 중복된 단어가 아님을 주의해야 한다. 도 5에 예시된 바와 같이 유사도 분석 결과, 선행문 내 후속문의 단어 "빠른"과 "택시"에 대응하는 유사 개체명은 각각 "느린(0.48)"과 "버스(0.48)"이다. 이들 단어는 분절 문장의 대체 시 중요한 단어 요소가 되며, 문장 복원 시 선행문의 시작 단어와 끝 단어가 될 수 있다.

본 실시예에서 TF-IDF의 계산 값은 도 4에 예시된 바와 같이, 선행문 내 구성된 단어의 개체명을 후속문의 분절 문장 내 단어의 개체명과 서로 비교하여 계산한 유사도이다. 즉, 유사도를 나타내는 TF-IDF 값은 후속문의 "빠른"과 "택시"의 개체명은 선행문의 대응하는 유사 개체명 "느린"과 "버스"와 비교했을 때 각각 TF 값이 1이고 IDF의 값이 0.48이므로 이들을 곱한 1x0.48=0.48이 유사도 TF-IDF의 값이 된다.

전술한 바와 같이 유사도분석부(19)를 통한 선행문 내 단어에 대한 후속문의 단어 간의 유사도 값의 계산 과정은 모두 끝났다.

분절문장복원부(21)는 유사도분석부(19)를 통해 분석/계산된 유사도가 기 설정된 기준값 이상인 선행문의 해당 단어를 후속문의 해당 단어로 교체하기 위한 것이다.

전술한 바와 같이 본 실시예에 따른 TF-IDF를 통한 유사도의 계산 과정은 후속문의 분절 문장을 선행문 내 구성된 단어의 개체명과 비교하여 유사도를 계산하는 방식으로서, 선행문과 후속문 간에 서로 대응하는 주요 단어를 선정할 수 있도록 설계하였다. 즉, 본 실시예에 따르면 선행문과 후속문의 구성 단어의 개체명을 전체 비교한 결과 선행문에서 "느린"과 "버스"는 후속문의 "빠른"과 "택시"로 치환 가능한 유사도 값을 갖도록 계산됨을 알 수 있으며, 그 결과 분절문장복원부(21)를 통해 도 6에 예시된 바와 같이 후속문 "그럼, 빠른 택시는?"은 선행문을 기반으로 "명동역까지 빠른 택시 요금은 얼마입니까?"로 복원될 수 있다.

도 7은 본 발명의 예시적인 실시예에 따른 대화 분절 문장의 복원을 위한 방법의 흐름도로, 도 1의 장치에서 수행되므로 해당 장치의 동작과 병행하여 설명한다.

먼저, 연속적인 대화 문장이 도 1의 장치에 입력되면(S701), 문장분리부(11)는 연속적인 대화 문장을 문장 단위로 분리하고 분리된 문장을 자연어처리부(13)의 입력으로 제공한다(S703).

이어, 자연어처리부(13)는 단계 S703을 통해 문장분리부(11)로부터 순차 입력된 문장에 대해 자연어 처리 과정을 수행하여 형태소 분석 및 의미 분석에 의한 개체명 인식을 수행하고, 개체명 인식 결과를 기초로 순차 입력된 두 문장(예를 들어, 선행문과 후행문) 간의 유사성 여부를 판단한 후 문장타입분류부(15)의 입력으로 제공한다(S705).

이어, 문장타입분류부(15)는 단계 S705를 통해 자연어처리부(13)로부터 순차 입력된 각 문장에 대해 문장 타입을 분류하는데, 문장 타입은 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류하되, 연속적인 대화 문장 중 단계 S705에서 자연어처리부(13)를 통해 유사성 있다고 판단된 두 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류할 수 있다. 즉, 연속적인 대화 문장 중 용언이 포함된 선행문이 분류되면 이에 후속하는 일련의 용언이 생략된 문장 중 해당 선행문과 유사성 있는 최초 문장을 후속문으로 분류한다(S707).

이어, 버퍼링부(17)는 단계 S707에서 문장타입분류부(15)를 통해 분류된 선행문에 대해 단어 순서에 따른 위치 인덱스를 부여하여 버퍼 메모리에 버퍼링하고(S709), 유사도분석부(19)는 단계 S709에서 버퍼링된 선행문과 단계 S707에서 문장타입분류부(15)를 통해 분류된 후속문을 이용하여 해당 선행문 내에서 나타나는 해당 후속문의 개체명의 빈도수를 구하고(도 3 및 관련 설명 참조) 아울러 해당 선행문에서 해당 후속문의 개체명이 출현할 확률을 구하며(도 4 및 관련 설명 참조) 이를 기초로 해당 후속문의 개체명과 해당 선행문의 개체명 간의 유사도를 산출/분석한다(도 5 및 관련 설명 참조)(S711).

마지막으로, 단계 S711에서 유사도분석부(19)를 통해 분석/계산된 유사도가 기 설정된 기준값 이상인 선행문의 해당 단어를 후속문의 해당 단어로 교체하여, 용언이 생략된 분절 문장 형태의 후속문을 용언이 포함되어 의미 분석이 가능한 문장으로 복원한다(도 6 및 관련 설명 참조)(S713).

한편, 전술한 대화 분절 문장의 복원을 위한 방법에 따르면 해당 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 구현할 수 있다.

또 한편, 전술한 대화 분절 문장의 복원을 위한 방법에 따르면 해당 방법을 하드웨어와 결합하여 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 애플리케이션을 구현할 수 있다.

또 다른 한편, 전술한 대화 분절 문장의 복원을 위한 방법에 따르면 해당 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램을 구현할 수 있다.

예를 들어, 전술한 바와 같이 본 발명의 예시적인 실시예에 따른 대화 분절 문장의 복원을 위한 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독가능 기록 매체 또는 이러한 기록 매체에 저장된 애플리케이션으로 구현될 수 있다. 상기 컴퓨터 판독 가능 기록 매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록 매체는 본 발명의 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

11: 문장분리부
13: 자연어처리부
15: 문장타입분류부
17: 버퍼링부
19: 유사도분석부
21: 분절문장복원부

Claims

연속적인 대화 문장을 문장 단위로 분리하기 위한 문장분리부;
상기 분리된 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류하기 위한 문장타입분류부;
상기 분류된 선행문 내에서 나타나는 상기 분류된 후속문의 개체명의 빈도수, 및 상기 분류된 선행문에서 상기 분류된 후속문의 개체명이 출현할 확률을 기초로, 후속문의 개체명과 선행문의 개체명 간의 유사도를 분석하기 위한 유사도분석부; 및
상기 분석된 유사도가 기 설정된 기준값 이상인 선행문의 해당 단어를 후속문의 해당 단어로 교체하기 위한 분절문장복원부;
를 포함하는 대화 분절 문장의 복원을 위한 장치.
제1항에 있어서,
상기 유사도분석부는 TF(Term Frequency) 방식을 통해 상기 분류된 선행문 내에서 나타나는 상기 분류된 후속문의 개체명의 빈도수를 산출하는 것을 특징으로 하는 대화 분절 문장의 복원을 위한 장치.
제2항에 있어서,
상기 유사도분석부는 IDF(Inverse Document Frequency) 방식을 통해 상기 분류된 선행문에서 상기 분류된 후속문의 개체명이 출현할 확률을 산출하는 것을 특징으로 하는 대화 분절 문장의 복원을 위한 장치.
제3항에 있어서,
상기 유사도분석부는 TF-IDF(Term Frequency - Inverse Document Frequency) 방식을 통해 후속문의 개체명과 선행문의 개체명 간의 유사도를 산출하는 것을 특징으로 하는 대화 분절 문장의 복원을 위한 장치.
제1항에 있어서,
상기 분리된 문장에 대해 형태소 분석 및 개체명 인식을 수행하고, 상기 개체명 인식 결과를 기초로 선행문과 후속문 간의 유사성 여부를 판단하는 자연어처리부를 더 포함하는 대화 분절 문장의 복원을 위한 장치.
제5항에 있어서,
상기 선행문과 후속문 간의 유사성 여부는 자카드 계수(Jaccard Coefficient)에 의해 판단하는 것을 특징으로 하는 대화 분절 문장의 복원을 위한 장치.
제5항에 있어서,
상기 문장타입분류부는 연속적인 대화 문장 중 상기 자연어처리부를 통해 유사성 있다고 판단된 두 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류하는 것을 특징으로 하는 대화 분절 문장의 복원을 위한 장치.
대화 분절 문장의 복원을 위한 장치에서 수행하는 대화 분절 문장의 복원을 위한 방법으로서,
(a) 연속적인 대화 문장을 문장 단위로 분리하기 위한 단계;
(b) 상기 분리된 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류하기 위한 단계;
(c) 상기 분류된 선행문 내에서 나타나는 상기 분류된 후속문의 개체명의 빈도수, 및 상기 분류된 선행문에서 상기 분류된 후속문의 개체명이 출현할 확률을 기초로, 후속문의 개체명과 선행문의 개체명 간의 유사도를 분석하기 위한 단계; 및
(d) 상기 분석된 유사도가 기 설정된 기준값 이상인 선행문의 해당 단어를 후속문의 해당 단어로 교체하기 위한 단계;
를 포함하는 대화 분절 문장의 복원을 위한 방법.
제8항에 있어서,
상기 단계 (c)는 TF(Term Frequency) 방식을 통해 상기 분류된 선행문 내에서 나타나는 상기 분류된 후속문의 개체명의 빈도수를 산출하는 것을 특징으로 하는 대화 분절 문장의 복원을 위한 방법.
제9항에 있어서,
상기 단계 (c)는 IDF(Inverse Document Frequency) 방식을 통해 상기 분류된 선행문에서 상기 분류된 후속문의 개체명이 출현할 확률을 산출하는 것을 특징으로 하는 대화 분절 문장의 복원을 위한 방법.
제10항에 있어서,
상기 단계 (c)는 TF-IDF(Term Frequency - Inverse Document Frequency) 방식을 통해 후속문의 개체명과 선행문의 개체명 간의 유사도를 산출하는 것을 특징으로 하는 대화 분절 문장의 복원을 위한 방법.
제8항에 있어서,
상기 분리된 문장에 대해 형태소 분석 및 의미 분석에 의한 개체명 인식을 수행하는 단계; 및
상기 개체명 인식 결과를 기초로 선행문과 후속문 간의 유사성 여부를 판단하는 단계를 더 포함하는 대화 분절 문장의 복원을 위한 방법.
제12항에 있어서,
상기 선행문과 후속문 간의 유사성 여부는 자카드 계수(Jaccard Coefficient)에 의해 판단하는 것을 특징으로 하는 대화 분절 문장의 복원을 위한 방법.
제12항에 있어서,
상기 단계 (b)는 연속적인 대화 문장 중, 상기 개체명 인식 결과를 기초로 선행문과 후행문 간의 유사성 여부를 판단하여 유사성이 있다고 판단된 두 문장에 대해 용언이 포함된 선행문과 용언이 생략된 후속문으로 분류하는 것을 특징으로 하는 대화 분절 문장의 복원을 위한 방법.
제8항 내지 제14항 중 어느 한 항의 상기 대화 분절 문장의 복원을 위한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
제8항 내지 제14항 중 어느 한 항의 상기 대화 분절 문장의 복원을 위한 방법을 하드웨어와 결합하여 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 애플리케이션.
제8항 내지 제14항 중 어느 한 항의 상기 대화 분절 문장의 복원을 위한 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램.