KR20170073354A

KR20170073354A - 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법

Info

Publication number: KR20170073354A
Application number: KR1020150182158A
Authority: KR
Inventors: 이충희; 김현기; 배용진; 이형직; 임수종; 임준호; 장명길; 최미란; 정 허
Original assignee: 한국전자통신연구원
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2017-06-28
Also published as: KR101991486B1

Abstract

본 발명은 다의어 데이터베이스에 다의어의 용례를 확장하는 장치 및 기술에 관한 것으로써, 문서 수집부, 다의어 인식부, 다의어 검증부, 데이터베이스 확장부를 포함할 수 있으며, 단어 의미 중의성 해소를 위하여 사용되는 지식 데이터베이스를 자동 또는 수동으로 쉽고 빠르게 확장함으로써 다양한 분야에 적합한 다의어 인식기를 개발할 수 있도록 문장 유사도 방법에 기반해서 대상 문장과 기존 사전 용례와의 유사도를 측정해서 유사도가 높으면 자동으로 사전 용례로 추가하고, 유사도가 특정 값보다 낮으면 수작업으로 적합한 의미의 용례로 추가하여 자동 또는 수동으로 확장하는 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법을 제공하는데 그 목적이 있다.

Description

문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법{Sentence similarity-based polysemy database expansion apparatus and method therefor}

본 발명은 다의어 데이터베이스에 다의어의 용례를 확장하는 장치 및 기술에 관한 것으로써, 더욱 상세하게는 다의어 의미 중의성 해소에 사용할 수 있는 다의어 데이터베이스를 문장 유사도를 기반으로 자동 또는 수동으로 확장하는 기술에 관한 것이다.

단어 의미 중의성 해소(WSD: Word Sense Disambiguation)는 주변 문맥 정보를 이용해서 단어의 의미를 자동으로 파악하는 기술이다. WSD 방법에는 규칙이나 기계학습 방법 등이 주로 사용되는데, 최근에는 기계학습 방법이 대부분 사용되고 있다.

기계학습 기반 WSD를 위해서는 태깅말뭉치나 지식 데이터베이스가 필요하며, 여기서 태깅말뭉치는 각 단어의 정확한 의미를 수작업으로 부착한 문서집합을 의미하고, 지식 데이터베이스는 단어의 의미 별 용례가 있는 사전이나 온톨로지 등을 의미한다.

최근 지식 데이터베이스를 이용해서 용언의 다의어 의미를 분석하는 방법에 대한 분야가 지속적으로 발전하고 있으며, 이에 따라 다의어 의미 분석에 사용할 수 있는 지식 데이터베이스를 확장하는 것에 대한 관심이 빠르게 증가하고 있다.

본 발명은 단어 의미 중의성 해소를 위하여 사용되는 지식 데이터베이스를 자동 또는 수동으로 쉽고 빠르게 확장함으로써 다양한 분야에 적합한 다의어 인식기를 개발할 수 있도록 문장 유사도 방법에 기반해서 대상 문장과 기존 사전 용례와의 유사도를 측정해서 유사도가 높으면 자동으로 사전 용례로 추가하고, 유사도가 특정 값보다 낮으면 수작업으로 적합한 의미의 용례로 추가하여 자동 또는 수동으로 확장하는 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법을 제공하는데 그 목적이 있다.

본 발명의 실시 예에 따르면 문장 유사도 기반 다의어 데이터베이스 확장장치는 확장대상 단어를 선정하고, 상기 확장대상 단어가 포함되어 있는 적어도 하나의 문서를 수집하며, 상기 수집된 문서에서 상기 확장대상 단어가 포함된 확장대상 문장만을 추출하는 문서 수집부; 다의어 분석대상 단어를 선정하고, 상기 다의어 분석대상 단어의 의미 별 용례 및 적어도 하나의 확장대상 문장에 대하여 형태소 분석을 수행하며, 상기 수행된 형태소 분석 결과에 따라 문장 유사도를 계산하고, 상기 계산 결과에 따라 다의어 의미를 분류하는 다의어 인식부; 상기 분류된 다의어 의미에 대한 신뢰도를 계산하고, 상기 계산된 신뢰도를 미리 설정된 임계 값과 비교하여 대상 문장이 다의어 의미의 용례로 사용될 수 있을지 여부를 검증하여 대상 문장이 용례로 사용될 수 있는 다의어 의미를 확정하는 다의어 검증부; 및 상기 확정된 다의어 의미에 대한 용례로 대상 문장을 데이터베이스에 추가하는 데이터베이스 확장부를 포함할 수 있다.

본 발명의 일 실시 예에 따르면 상기 문서 수집부는, 자동 또는 수동으로 용례의 확장을 원하는 단어를 선정하는 확장대상 단어 선정부; 상기 선정된 확장대상 단어가 포함된 문서를 검색하는 문서 검색부; 및 상기 검색된 문서로부터 상기 확장대상 단어가 포함된 확장대상 문장을 추출하는 확장대상 문장 추출부를 더 포함할 수 있다.

본 발명의 일 실시 예에 따르면 상기 확장대상 문장 추출부는, 상기 검색된 문서 중 상기 확장대상 단어가 포함된 문장의 시작부분과 끝부분만을 남기고 다른 부분은 삭제하는 확장대상 문장을 추출할 수 있다,

본 발명의 일 실시 예에 따르면 상기 다의어 인식부는, 다의어 분석을 위해 상기 확장대상 단어와 동일 또는 상이한 다의어 분석대상 단어를 선정하는 다의어 분석대상 단어 선정부; 상기 다의어 분석대상 단어의 의미 별 용례 및 적어도 하나의 상기 확장대상 문장에 대하여 형태소 단위로 분석을 수행하는 형태소 분석부; 상기 분석된 다의어 의미 별 용례들과 확장대상 문장을 비교하여 유사도를 계산하는 다의어 문장 유사도 계산부; 및 상기 계산된 유사도의 계산결과에 따라 상기 다의어 분석대상 단어의 의미 별 용례 중 가장 유사도가 높은 용례를 선정하여 다의어 의미를 분류하는 다의어 의미 분류부를 더 포함할 수 있다.

본 발명의 일 실시 예에 따르면 상기 다의어 문장 유사도 계산부는, 단어/형태소 일치 개수 측정방법, 문장 구조 유사도 측정방법, 벡터 근접도 측정방법 중 적어도 하나의 방법으로 유사도를 계산할 수 있다.

본 발명의 일 실시 예에 따르면 상기 다의어 문장 유사도 계산부는, 상기 3개의 측정방법 중 각기 다른 방법으로 복수의 계산단계를 수행할 수 있다.

본 발명의 일 실시 예에 따르면 상기 다의어 검증부는, 상기 유사도 계산 방법에 따라 상기 분류된 다의어 의미의 신뢰도를 계산하는 다의어 의미 분류 신뢰도 계산부; 상기 계산된 신뢰도가 미리 설정된 임계 값 보다 큰 경우 대상 문장이 용례로 사용될 수 있는 다의어 의미를 확정하는 신뢰도 자동 검증부; 및 상기 계산된 신뢰도가 미리 설정된 임계 값 보다 작은 경우 사용자의 선택에 따라 대상 문장이 용례로 사용될 수 있는 다의어 의미를 확정하는 신뢰도 수동 검증부를 포함할 수 있다.

문장 유사도 기반 다의어 데이터베이스 확장방법은 확장대상 단어를 선정하고, 상기 확장대상 단어가 포함되어 있는 적어도 하나의 문서를 수집하며, 상기 수집된 문서에서 상기 확장대상 단어가 포함된 확장대상 문장만을 추출하는 단계; 다의어 분석대상 단어를 선정하고, 상기 다의어 분석대상 단어의 의미 별 용례 및 적어도 하나의 상기 확장대상 문장에 대하여 형태소 분석을 수행하며, 상기 수행된 형태소 분석 결과에 따라 문장 유사도를 계산하고, 상기 계산 결과에 따라 다의어 의미를 분류하는 단계; 상기 분류된 다의어 의미에 대한 신뢰도를 계산하고, 상기 계산된 신뢰도를 미리 설정된 임계 값과 비교하여 대상 문장이 다의어 의미의 용례로 사용될 수 있을지 여부를 검증하여 대상 문장이 용례로 사용될 수 있는 다의어 의미를 확정하는 단계; 및 상기 확정된 다의어 의미의 용례로 대상 문장을 데이터베이스에 추가하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따르면 상기 확장대상 문장만을 추출하는 단계, 자동 또는 수동으로 용례의 확장을 원하는 단어를 선정하는 단계; 상기 선정된 확장대상 단어가 포함된 문서를 검색하는 단계; 및 상기 검색된 문서로부터 상기 확장대상 단어가 포함된 확장대상 문장을 추출하는 단계를 더 포함할 수 있다.

본 발명의 일 실시 예에 따르면 상기 확장대상 문장을 추출하는 단계는, 상기 검색된 문서 중 상기 확장대상 단어가 포함된 문장의 시작부분과 끝부분만을 남기고 다른 부분은 삭제하는 확장대상 문장을 추출할 수 있다.

본 발명의 일 실시 예에 따르면 상기 다의어 의미를 분류하는 단계는, 다의어 분석을 위해 상기 확장대상 단어와 동일 또는 상이한 다의어 분석대상 단어를 선정하는 단계; 상기 다의어 분석대상 단어의 의미 별 용례 및 적어도 하나의 상기 확장대상 문장에 대하여 형태소 단위로 분석을 수행하는 단계; 상기 분석된 다의어 분석대상 단어의 의미 별 용례들과 확장대상 문장을 비교하여 유사도를 계산하는 단계; 및 상기 계산된 유사도의 계산결과에 따라 상기 다의어 분석대상 단어의 의미 별 용례 중 가장 유사도가 높은 용례를 선정하여 다의어 의미를 분류하는 단계를 더 포함할 수 있다.

본 발명의 일 실시 예에 따르면 상기 유사도를 계산하는 단계는, 단어/형태소 일치 개수 측정방법, 문장 구조 유사도 측정방법, 벡터 근접도 측정방법 중 적어도 하나의 방법으로 유사도를 계산할 수 있다.

본 발명의 일 실시 예에 따르면 상기 유사도를 계산하는 단계는, 상기 3개의 측정방법 중 각기 다른 방법으로 복수의 계산단계를 수행할 수 있다.

본 발명의 일 실시 예에 따르면 상기 추가해야 할 용례로 확정하는 단계는 상기 유사도 계산 방법에 따라 상기 분류된 다의어 의미의 신뢰도를 계산하는 단계; 상기 계산된 신뢰도가 미리 설정된 임계 값 보다 큰 경우 대상 문장을 용례로 추가할 다의어 의미를 자동으로 확정하는 단계; 및 상기 계산된 신뢰도가 미리 설정된 임계 값 보다 작은 경우 사용자의 선택에 따라 대상 문장을 용례로 추가할 다의어 의미를 확정하는 단계를 포함할 수 있다.

본 발명에 실시 예에 따른 문장 유사도 기반 다의어 데이터베이스 확장장치는 지식 데이터베이스를 자동 또는 수동으로 확장이 가능하게 함으로써 다양한 분야에 적합한 다의어 인식기를 개발할 수 있으며, 새로운 문서를 지속적으로 수집해서 이를 이용하여 기존의 다의어 지식 데이터베이스를 지속적으로 확장 또는 개선함으로써 기존 다의어 분석 성능을 지속적으로 개선시키는 효과를 제공할 수 있다.

도 1은 본 발명의 실시 예에 따른 문장 유사도 기반 다의어 데이터베이스 확장장치의 구성도이다.
도 2는 도 1에 도시된 문서 수집부의 세부 구성도이다.
도 3은 도 1에 도시된 다의어 인식부의 세부 구성도이다.
도 4는 도 1에 도시된 다의어 검증부의 세부 구성도이다.
도 5는 기존의 자연어 질의 응답 시스템에 대한 흐름도이다.
도 6은 본 발명의 실시 예에 따른 문장 유사도 기반 다의어 데이터베이스 확장장치를 이용한 자연어 질의 응답 시스템에 대한 흐름도이다.
도 7은 본 발명의 실시 예에 따른 문장 유사도 기반 다의어 데이터베이스 확장방법의 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.

그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 도면을 참조하여 본 발명의 실시 예에 따른 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법에 대하여 설명한다.

도 1은 본 발명의 실시 예에 따른 문장 유사도 기반 다의어 데이터베이스 확장장치(1000)의 구성도이다.

도 1을 참조하면 문장 유사도 기반 다의어 데이터베이스 확장장치(1000)는 문서 수집부(100), 다의어 인식부(200), 다의어 검증부(300), 데이터베이스 확장부(400)를 포함할 수 있다.

문서 수집부(100)는 확장대상 단어를 선정하고, 확장대상 단어가 포함되어 있는 적어도 하나의 문서를 수집하며, 수집된 문서에서 상기 확장대상 단어가 포함된 확장대상 문장만을 추출할 수 있다.

여기서 확장대상 단어란 다의어 지식 데이터베이스를 확장하기 위하여 다의어 단어에 대한 용례를 추가하는 것에 대상이 되는 단어를 의미할 수 있다.

도 2를 참조하며 문서 수집부(100)를 더 자세히 설명하도록 한다.

다의어 인식부(200)는 다의어 분석대상 단어를 선정하고, 다의어 분석대상 단어의 의미 별 용례 및 적어도 하나의 확장대상 문장에 대하여 형태소 분석을 수행하며, 수행된 형태소 분석 결과에 따라 문장 유사도를 계산하고, 계산 결과에 따라 다의어 의미를 분류할 수 있다.

여기서 형태소는 문장 및 단어를 구성하고 있는 구송요소 중 의미를 가진 최소 단위로 정의될 수 있다.

본 발명의 일 실시 예에 따르면 형태소 단위로는 명사, 동사, 형용사, 부사, 조사, 어미 등이 있을 수 있다.

다의어 검증부(300)는 분류된 다의어 의미에 대한 신뢰도를 계산하고, 계산된 신뢰도를 미리 설정된 임계 값과 비교하여 대상 문장이 다의어 의미의 용례로 사용될 수 있을지 여부를 검증하여 대상 문장이 용례로 사용될 수 있는 다의어 의미를 확정할 수 있다.

본 발명의 일 실시 예에 따르면 신뢰도를 계산하기 위하여 문장 유사도 계산 방법에 따른 다양한 신뢰도 계산방법을 적용할 수 있다.

데이터베이스 확장부(400)는 확정된 다의어 의미의 용례를 데이터베이스에 추가할 수 있다.

여기서 데이터베이스는 지식 데이터베이스를 의미할 수 있다.

도 2는 도 1에 도시된 문서 수집부(100)의 세부 구성도이다.

도 2를 참조하면 문서 수집부(100)는 확장대상 단어 선정부(110), 문서 검색부(120), 확장대상 문장 추출부(130)를 더 포함할 수 있다.

확장대상 단어 선정부(110)는 자동 또는 수동으로 용례의 확장을 원하는 단어를 선정할 수 있다.

본 발명의 일 실시 예에 따르면 다의어 의미를 자동으로 분석하기 위해서는 각 의미 별로 충분한 양의 용례를 보유 하고 있어야 하므로, 용례가 부족하거나 추가적인 용례가 필요한 단어를 선정할 수 있다.

또한 선정 작업은 수동으로 사용자에 의하여 선정되거나, 용례의 개수를 기반으로 용례가 적은 단어부터 자동으로 선정할 수 있다.

문서 검색부(120)는 선정된 확장대상 단어가 포함된 문서를 검색할 수 있다.

본 발명의 일 실시 예에 따르면 문서 검색부(120)는 선정된 확장대상 단어가 포함된 문서를 검색할 수 있으며, 여기서 문서의 검색은 단어의 중요도를 측정하는 다양한 방법에 의해서 문서의 순위화가 가능할 수 있으며 문서의 검색 결과 또한 다양해질 수 있다.

확장대상 문장 추출부(130)는 검색된 문서로부터 확장대상 단어가 포함된 확장대상 문장을 추출할 수 있다.

본 발명의 일 실시 예에 따르면 확장대상 문장 추출부(130)는 검색된 문서로부터 확장대상 문장을 추출하기 위하여 용례를 수집하려는 확장대상 단어가 포함된 문장의 시작부분과 끝부분만을 남기고 다른 부분은 삭제하는 방법을 사용할 수 있다.

본 발명의 일 실시 예에 따르면 확장대상 단어 선정부(110)에서 확장대상 단어를 '배'로 선택했다고 가정하고, 수집된 문서로부터 확장대상 문장이"사람의 배 부위는 장과 장 전체를 둘러싸고 있는 큰 물주머니 같은 구조로 복막이 있다"가 추출되었다고 가정한다.

도 3은 도 1에 도시된 다의어 인식부(200)의 세부 구성도이다.

도 3을 참조하면 다의어 인식부(200)는 다의어 분석대상 단어 선정부(210), 형태소 분석부(220), 다의어 문장 유사도 계산부(230), 다의어 의미 분류부(240)을 포함할 수 있다.

다의어 분석대상 단어 선정부(210)는 다의어 분석을 위해 확장대상 단어와 동일 또는 상이한 다의어 분석대상 단어를 선정할 수 있다.

여기서 다의어 분석대상 단어란 문장 유사도를 계산할 수 있도록 다의어 분석의 대상이 되는 단어를 의미할 수 있다.

본 발명의 일 실시 예에 따르면 다의어 분석대상 단어 선정부(210)는 다의어 분석 대상 단어를 선정함에 있어서 확장대상 단어로 선정한 단어를 그대로 사용할 수도 있고, 다른 단어를 사용할 수도 있다.

형태소 분석부(220)는 다의어 분석대상 단어 및 적어도 하나의 확장대상 문장에 대하여 의미 별 용례에 따라 형태소 단위로 분석을 수행할 수 있다.

여기서 형태소란 문장 또는 단어를 이루고 있는 구성요소 중 의미를 가진 최소 단위를 의미할 수 있다.

본 발명의 일 실시 예에 따르면 형태소 단위로는 명사, 동사, 형용사, 부사, 조사, 어미 등이 사용될 수 있다.

본 발명의 일 실시 예에 따르면 확장대상 단어가'배'로 선정되어 수집된 문서로부터 확장대상 문장이"사람의 배 부위는 장과 장 전체를 둘러싸고 있는 큰 물주머니 같은 구조로 복막이 있다"가 추출되었고, 다의어 분석대상 단어가 '배'로 선정된 경우(제1 시나리오), 형태소 분석부(220)는 아래와 같이 확장대상 문장에 대하여 형태소 분석을 할 수 있다.

- 문장: "사람의 배 부위는 장과 장 전체를 둘러싸고 있는 큰 물주머니 같은 구조로 복막이 있다"

- 형태소분석 결과: 사람/NNG+의/JO 배/NNG 부위/NNG+는/JO 장/NNG+과/JO 장/NNG 전체/NNG+를/JO 둘러싸/VV+고/EM 있/VX+는/EM 크/VA+ㄴ/EM 물/NNG+주머니/NNG 같/VA+은/EM 구조/NNG+로/JO 복막/NNG+이/JO 있/VV+다/EM

- 품사 태그: NNG(명사), JO(조사), VV(동사), VA(형용사), VX(보조용언), EM(어미)

다의어 문장 유사도 계산부(230)는 다의어 분석대상 단어의 의미 별 용례들과 분석된 확장대상 문장을 비교하여 유사도를 계산할 수 있다.

본 발명의 일 실시 예에 따르면 단어/형태소 일치 개수 측정방법, 문장 구조 유사도 측정방법, 벡터 근접도 측정방법 중 적어도 하나의 방법으로 유사도를 계산할 수 있다.

본 발명의 일 실시 예에 따르면 상술한 제1 시나리오의 다의어 분석대상 단어의 다의어 의미 별 용례는 아래 표1 과 같이 분류될 수 있다.

대상 단어	배
다의어 의미 별 용례	배₀₁₀₁	사람이나 동물의 몸에서 장, 창자, 콩팥 따위의 내장이 들어 있는 곳으로 가슴과 엉덩이 사이의 부위
	배₀₁₀₂	절족동물, 특히 곤충에서 머리와 가슴이 아닌 부분으로 여러 마디로 되어 있으며 숨구멍, 항문 따위가 있다
	배₀₂₀₀	사람이나 짐 따위를 싣고 물 위로 떠다니도록 나무나 쇠 따위로 만든 물건
	배₀₂₀₀	배 한 척이 바다 한가운데 떠 있다.
	배₀₂₀₀	그 섬에는 하루에 두 번씩 배가 들어온다.
	배₀₂₀₀	베트남 난민들이 지나가는 배 80척에게 구조를 요청했지만 비정하게 외면을 당해 결국 68명이 사망했다고 한다.

본 발명의 일 실시 예에 따르면 상술한 제1 시나리오의 확장대상 문장에 대한 형태소 분석결과를 이용하여 단어/형태소 일치 개수 측정방법을 이용하여 대상 문장과 각 의미의 용례 별 유사도를 계산하면 아래 표 2와 같은 결과가 도출될 수 있다.

다의어 의미	용례	형태소 일치 개수
배₀₁₀₁	사람 이나 동물의 몸에서 장 , 창자, 콩팥 따위의 내장이 들어 있는 곳으로 가슴과 엉덩이 사이의 부위	3
배₀₁₀₂	절족동물, 특히 곤충에서 머리와 가슴이 아닌 부분으로 여러 마디로 되어 있으며 숨구멍, 항문 따위가 있다	0
배₀₂₀₀	사람 이나 짐 따위를 싣고 물 위로 떠다니도록 나무나 쇠 따위로 만든 물건	1
배₀₂₀₀	배 한 척이 바다 한가운데 떠 있다.	0
배₀₂₀₀	그 섬에는 하루에 두 번씩 배가 들어온다.	0
배₀₂₀₀	베트남 난민들이 지나가는 배 80척에게 구조를 요청했지만 비정하게 외면을 당해 결국 68명이 사망했다고 한다.	0

또한 본 발명의 일 실시 예에 따르면 상술한 3개의 측정방법 중 각기 다른 방법으로 복수의 계산단계를 수행할 수 있다.

다의어 의미 분류부(240)는 계산된 유사도의 계산결과에 따라 다의어 분석대상 단어의 의미 별 용례 중 가장 유사도가 높은 용례를 선정하여 다의어 의미를 분류할 수 있다.

본 발명의 일 실시 예에 따르면 유사도의 계산을 3단계에 걸쳐서 수행하여 그 결과에 따라 다의어 분석대상 단어의 의미 별 용례 중 가장 유사도가 높은 용례를 선정하여 다의어 의미를 분류할 수 있으나 이에 한정되지 않고, 1회 이상의 유사도 계산을 수행하는 경우라면 제한 없이 사용될 수 있다.

본 발명의 일 실시 예에 따라 3단계 유사도 계산한 경우 상기 표 2의 결과에서는 대상 문장에서 배의 의미는 0101 코드로 분류될 수 있다.

분류결과: 사람의 배₀₁₀₁ 부위는 장과 장 전체를 둘러싸고 있는 큰 물주머니 같은 구조로 복막이 있다

도 4는 도 1에 도시된 다의어 검증부(300)의 세부 구성도이다.

도 4를 참조하면 다의어 검증부(300)는 다의어 의미 분류 신뢰도 계산부(310), 신뢰도 자동 검증부(320), 신뢰도 수동 검증부(330)를 포함할 수 있다.

다의어 의미 분류 신뢰도 계산부(310)는 유사도 계산 방법에 따라 분류된 다의어 의미의 신뢰도를 계산할 수 있다.

본 발명의 일 실시 예에 따르면 다의어 의미 분류 신뢰도 계산부(310)는 문장 유사도의 계산 방법에 따라 다른 방법으로 신뢰도를 계산할 수 있다.

본 발명의 일 실시 예에 따르면 형태소 일치 개수로 유사도를 측정한 경우에는 형태소의 일치 개수를 신뢰도로 볼 수도 있으며 전체 문장에서의 일치 비율로 계산할 수도 있다.

또한 벡터 근접도로 측정한 경우에는 벡터 근접도 자체를 신뢰도로 볼 수도 있다.

여기서 신뢰도의 계산방법은 특정한 방법으로 제한되지 아니하며, 해당 유사도 계산 방법에 대응되어 신뢰도를 계산할 수 있는 방법이면 제한 없이 사용될 수 있다.

본 발명의 일 실시 예에 따르면 명사 형태소 일치 비율에 따라 유사도를 계산한 경우에 신뢰도를 계산하기 위한 수식은 아래 수학식 1과 같다.

제1 시나리오에 따라 확장대상 문장의 명사 개수기 10개인 경우 상술한 수학식 1을 이용하여 계산한 의미 별 신뢰도는 아래 표3과 같다.

다의어 의미	용례	명사 개수	형태소 일치 개수	신뢰도
배₀₁₀₁	사람 이나 동물의 몸에서 장 , 창자, 콩팥 따위의 내장이 들어 있는 곳으로 가슴과 엉덩이 사이의 부위	11	3	3/10=0.3
배₀₁₀₂	절족동물, 특히 곤충에서 머리와 가슴이 아닌 부분으로 여러 마디로 되어 있으며 숨구멍, 항문 따위가 있다	10	0	0/10=0
배₀₂₀₀	사람 이나 짐 따위를 싣고 물 위로 떠다니도록 나무나 쇠 따위로 만든 물건	7	1	1/7=0.14
배₀₂₀₀	배 한 척이 바다 한가운데 떠 있다.	2	0	0/2=0
배₀₂₀₀	그 섬에는 하루에 두 번씩 배가 들어온다.	3	0	0/3=0
배₀₂₀₀	베트남 난민들이 지나가는 배 80척에게 구조를 요청했지만 비정하게 외면을 당해 결국 68명이 사망했다고 한다.	8	0	0/8=0

표 3을 참조하면 신뢰도 계산을 통해서 대상 문장의 '배'의 다의어 의미인 '배₀₁₀₁'의 신뢰도는 0.3으로 계산될 수 있다.

신뢰도 자동 검증부(320)는 계산된 신뢰도가 미리 설정된 임계 값 보다 큰 경우 해당 다의어 의미를 추가해야 할 용례로 확정할 수 있다.

본 발명의 일 실시 예에 따르면 신뢰도 자동 검증부(320)는 신뢰도 계산 결과가 특정 임계값 N보다 큰 경우에 대상 문장을 다의어 의미를 추가해야 할 용례로 확정할 수 있다.

예를 들어, N이 0.2라고 설정된 경우에 대상 문장은'배₀₁₀₁'의미로 0.3의 신뢰도를 가지므로 '배₀₁₀₁'의 용례로 자동으로 추가될 수 있다.

여기서 임계 값 N은 분야 및 문서종류에 따라서 달라지므로 사용자가 상황에 맞춰서 최적 값으로 미리 설정할 수 있다.

신뢰도 수동 검증부(330)는 계산된 신뢰도가 미리 설정된 임계 값보다 작은 경우 사용자의 선택에 따라 해당 다의어 의미를 추가해야 할 용례로 확정할 수 있다.

본 발명의 일 실시 예에 따르면 신뢰도 수동 검증부(330)는 신뢰도 계산 결과가 임계 값을 넘지 못하는 경우에 사용자가 직접 검증 후 대상 문장이 용례로 사용될 수 있는 다의어 의미를 직접 확정할 수 있다.

본 발명의 일 실시 예에 따르면 확정된 다의어 의미의 용례로 대상 문장을 데이터베이스에 확장한 결과는 표 4와 같다.

확장 대상 단어	배
다의어 의미 별 용례	배₀₁₀₁	사람이나 동물의 몸에서 장, 창자, 콩팥 따위의 내장이 들어 있는 곳으로 가슴과 엉덩이 사이의 부위
	배 0 ₁₀₁	사람의 배 부위는 장과 장 전체를 둘러싸고 있는 큰 물주머니 같은 구조로 복막이 있다
	배0₁₀₂	절족동물, 특히 곤충에서 머리와 가슴이 아닌 부분으로 여러 마디로 되어 있으며 숨구멍, 항문 따위가 있다
	배0₂₀₀	사람이나 짐 따위를 싣고 물 위로 떠다니도록 나무나 쇠 따위로 만든 물건
	배0₂₀₀	배 한 척이 바다 한가운데 떠 있다.
	배0₂₀₀	그 섬에는 하루에 두 번씩 배가 들어온다.
	배0₂₀₀	베트남 난민들이 지나가는 배 80척에게 구조를 요청했지만 비정하게 외면을 당해 결국 68명이 사망했다고 한다.

도 5는 기존의 자연어 질의 응답 시스템에 대한 흐름도이다.

질문(QA1)은 사용자가 입력한 질문 문장을 의미하며, 질문 언어분석(QA2)은 입력된 질문에 대한 형태소 분석 결과를 의미한다.

질의어 추출(QA3)에서는 명사 및 용언을 질의어로 추출할 수 있고, 문서/문장 검색(QA4)에서는 질의어가 출현하는 문서나 문장을 검색할 수 있다.

QA4의 문장 검색 결과로 "열대 지방과는 달리 정상에 올라온 공기는 건조해지고 아래로 내려갈수록 기온은 올라가는데, 이 현상을 푄 현상이라고 한다."문장이 1등으로 검색될 수 있다. 이때 정답추출(QA5)에서는 QA4 문장 검색 결과로부터 '푄 현상'이라는 오답을 질의응답 결과로 추출할 수 있다.

도 6은 본 발명의 실시 예에 따른 문장 유사도 기반 다의어 데이터베이스 확장장치를 이용한 자연어 질의 응답 시스템에 대한 흐름도이다.

도 5에서 기존의 자연어 질의 응답 시스템은 질의어'내리다'동사를 의미와 상관 없이 동일한 단어로 인식해서 문서 검색에 이용하였지만, 도 6의 문장 유사도 기반 다의어 데이터베이스 확장장치를 이용한 자연어 질의 응답 시스템에서는 '내리0101' 의미와 '내리0102' 의미를 구분할 수 있다.

질의어 '내리다'동사는 '비가 내리다'라는 '내리0101'의미이므로 QA4에서는 정답 문장인 "열대 지방에서 거의 매일 오후에 내리는 소나기를 스콜이라고 한다."을 1등으로 순위화할 수 있다.

따라서 QA5에서 정답인 '스콜'을 정답으로 정확히 추출하므로 기존의 시스템보다 더 높은 정확성을 제공할 수 있다.

도 7은 본 발명의 실시 예에 따른 문장 유사도 기반 다의어 데이터베이스 확장방법의 흐름도이다.

확장대상 단어를 선정한다(510).

본 발명의 일 실시 예에 따르면 자동 또는 수동으로 용례의 확장을 원하는 단어를 선정할 수 있다.

확장대상 단어가 포함되어 있는 문서를 수집한다(520).

본 발명의 일 실시 예에 따르면 선정된 확장대상 단어가 포함된 문서를 검색할 수 있으며, 선정된 확장대상 단어가 포함된 문서를 검색할 수 있으며, 여기서 문서의 검색은 단어의 중요도를 측정하는 다양한 방법에 의해서 문서의 순위화가 가능할 수 있으며 문서의 검색 결과 또한 다양해질 수 있다

확장대상 문장만을 추출한다(530).

본 발명의 일 실시 예에 따르면 검색된 문서로부터 확장대상 단어가 포함된 확장대상 문장을 추출할 수 있다.

또한 본 발명의 일 실시 예에 따르면 검색된 문서로부터 포함된 확장대상 문장을 추출하기 위하여 용례를 수집하려는 확장대상 단어가 포함된 문장의 시작부분과 끝부분만을 남기고 다른 부분은 삭제하는 방법을 사용할 수 있다.

다의어 분석대상 단어를 선정한다(540).

본 발명의 일 실시 예에 따르면 다의어 분석을 위해 확장대상 단어와 동일 또는 상이한 다의어 분석대상 단어를 선정할 수 있다.

본 발명의 일 실시 예에 따르면 다의어 분석 대상 단어를 선정함에 있어서 확장대상 단어로 선정한 단어를 그대로 사용할 수도 있고, 다른 단어를 사용할 수도 있다.

형태소 분석을 수행한다(550).

본 발명의 일 실시 예에 따르면 다의어 분석대상 단어 및 적어도 하나의 확장대상 문장에 대하여 의미 별 용례에 따라 형태소 단위로 분석을 수행할 수 있다.

문장 유사도를 계산한다(560).

본 발명의 일 실시 예에 따르면 다의어 분석대상 단어의 의미 별 용례들과 분석된 확장대상 문장을 비교하여 유사도를 계산할 수 있다.

다의어 의미를 분류한다(570).

본 발명의 일 실시 예에 따르면 계산된 유사도의 계산결과에 따라 다의어 분석대상 단어의 의미 별 용례 중 가장 유사도가 높은 용례를 선정하여 다의어 의미를 분류할 수 있다.

분류된 다의어 의미 신뢰도를 계산한다(580).

본 발명의 일 실시 예에 따르면 유사도 계산 방법에 따라 분류된 다의어 의미의 신뢰도를 계산할 수 있다.

본 발명의 일 실시 예에 따르면 문장 유사도의 계산 방법에 따라 다른 방법으로 신뢰도를 계산할 수 있다.

신뢰도를 검증한다(590).

본 발명의 일 실시 예에 따르면 계산된 신뢰도가 미리 설정된 임계 값 보다 큰 경우 해당 다의어 의미를 대상 문장을 용례로 추가할 의미로 확정할 수 있다.

본 발명의 일 실시 예에 따르면 계산된 신뢰도가 미리 설정된 임계 값 보다 작은 경우 사용자의 선택에 따라 해당 다의어 의미를 대상 문장을 용례로 추가할 의미로 직접 확정할 수 있다.

데이터베이스에 추가한다(600).

본 발명의 일 실시 예에 따르면 확정된 다의어 의미의 용례로 대상 문장을 데이터베이스에 추가할 수 있다.

본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

100 : 문서 수집부 200 : 다의어 인식부
300 : 다의어 검증부 400 : 데이터베이스 확장부
1000 : 다의어 데이터베이스 확장장치

Claims

확장대상 단어를 선정하고, 상기 확장대상 단어가 포함되어 있는 적어도 하나의 문서를 수집하며, 상기 수집된 문서에서 상기 확장대상 단어가 포함된 확장대상 문장만을 추출하는 문서 수집부;
다의어 분석대상 단어를 선정하고, 상기 다의어 분석대상 단어의 의미 별 용례 및 적어도 하나의 확장대상 문장에 대하여 형태소 분석을 수행하며, 상기 수행된 형태소 분석 결과에 따라 문장 유사도를 계산하고, 상기 계산 결과에 따라 다의어 의미를 분류하는 다의어 인식부;
상기 분류된 다의어 의미에 대한 신뢰도를 계산하고, 상기 계산된 신뢰도를 미리 설정된 임계 값과 비교하여 대상 문장이 다의어 의미의 용례로 사용될 수 있을지 여부를 검증하여 대상 문장이 용례로 사용될 수 있는 다의어 의미를 확정하는 다의어 검증부; 및
상기 확정된 다의어 의미에 대한 용례로 대상 문장을 데이터베이스에 추가하는 데이터베이스 확장부를 포함하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장장치.
제 1 항에 있어서 상기 문서 수집부는,
자동 또는 수동으로 용례의 확장을 원하는 단어를 선정하는 확장대상 단어 선정부;
상기 선정된 확장대상 단어가 포함된 문서를 검색하는 문서 검색부; 및
상기 검색된 문서로부터 상기 확장대상 단어가 포함된 확장대상 문장을 추출하는 확장대상 문장 추출부를 더 포함하는 문장 유사도 기반 다의어 데이터베이스 확장장치.
제 2 항에 있어서 상기 확장대상 문장 추출부는,
상기 검색된 문서 중 상기 확장대상 단어가 포함된 문장의 시작부분과 끝부분만을 남기고 다른 부분은 삭제하는 확장대상 문장을 추출하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장장치.
제 1 항에 있어서 상기 다의어 인식부는,
다의어 분석을 위해 상기 확장대상 단어와 동일 또는 상이한 다의어 분석대상 단어를 선정하는 다의어 분석대상 단어 선정부;
상기 다의어 분석대상 단어의 의미 별 용례 및 적어도 하나의 상기 확장대상 문장에 대하여 형태소 단위로 분석을 수행하는 형태소 분석부;
상기 분석된 다의어 의미 별 용례들과 확장대상 문장을 비교하여 유사도를 계산하는 다의어 문장 유사도 계산부; 및
상기 계산된 유사도의 계산결과에 따라 상기 다의어 분석대상 단어의 의미 별 용례 중 가장 유사도가 높은 용례를 선정하여 다의어 의미를 분류하는 다의어 의미 분류부를 더 포함하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장장치.
제 4 항에 있어서 상기 다의어 문장 유사도 계산부는,
단어/형태소 일치 개수 측정방법, 문장 구조 유사도 측정방법, 벡터 근접도 측정방법 중 적어도 하나의 방법으로 유사도를 계산하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장장치.
제 5 항에 있어서 상기 다의어 문장 유사도 계산부는,
상기 3개의 측정방법 중 각기 다른 방법으로 복수의 계산단계를 수행하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장장치.
제 1 항에 있어서 상기 다의어 검증부는,
상기 유사도 계산 방법에 따라 상기 분류된 다의어 의미의 신뢰도를 계산하는 다의어 의미 분류 신뢰도 계산부;
상기 계산된 신뢰도가 미리 설정된 임계 값 보다 큰 경우 대상 문장이 용례로 사용될 수 있는 다의어 의미를 확정하는 신뢰도 자동 검증부; 및
상기 계산된 신뢰도가 미리 설정된 임계 값 보다 작은 경우 사용자의 선택에 따라 대상 문장이 용례로 사용될 수 있는 다의어 의미를 확정하는 신뢰도 수동 검증부를 포함하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장장치.
확장대상 단어를 선정하고, 상기 확장대상 단어가 포함되어 있는 적어도 하나의 문서를 수집하며, 상기 수집된 문서에서 상기 확장대상 단어가 포함된 확장대상 문장만을 추출하는 단계;
다의어 분석대상 단어를 선정하고, 상기 다의어 분석대상 단어의 의미 별 용례 및 적어도 하나의 상기 확장대상 문장에 대하여 형태소 분석을 수행하며, 상기 수행된 형태소 분석 결과에 따라 문장 유사도를 계산하고, 상기 계산 결과에 따라 다의어 의미를 분류하는 단계;
상기 분류된 다의어 의미에 대한 신뢰도를 계산하고, 상기 계산된 신뢰도를 미리 설정된 임계 값과 비교하여 대상 문장이 다의어 의미의 용례로 사용될 수 있을지 여부를 검증하여 대상 문장이 용례로 사용될 수 있는 다의어 의미를 확정하는 단계; 및
상기 확정된 다의어 의미의 용례로 대상 문장을 데이터베이스에 추가하는 단계를 포함하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장방법.
제 8 항에 있어서 상기 확장대상 문장만을 추출하는 단계,
자동 또는 수동으로 용례의 확장을 원하는 단어를 선정하는 단계;
상기 선정된 확장대상 단어가 포함된 문서를 검색하는 단계; 및
상기 검색된 문서로부터 상기 확장대상 단어가 포함된 확장대상 문장을 추출하는 단계를 더 포함하는 문장 유사도 기반 다의어 데이터베이스 확장방법.
제 9 항에 있어서 상기 확장대상 문장을 추출하는 단계는,
상기 검색된 문서 중 상기 확장대상 단어가 포함된 문장의 시작부분과 끝부분만을 남기고 다른 부분은 삭제하는 확장대상 문장을 추출하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장방법.
제 8 항에 있어서 상기 다의어 의미를 분류하는 단계는,
다의어 분석을 위해 상기 확장대상 단어와 동일 또는 상이한 다의어 분석대상 단어를 선정하는 단계;
상기 다의어 분석대상 단어의 의미 별 용례 및 적어도 하나의 상기 확장대상 문장에 대하여 형태소 단위로 분석을 수행하는 단계;
상기 분석된 다의어 분석대상 단어의 의미 별 용례들과 확장대상 문장을 비교하여 유사도를 계산하는 단계; 및
상기 계산된 유사도의 계산결과에 따라 상기 다의어 분석대상 단어의 의미 별 용례 중 가장 유사도가 높은 용례를 선정하여 다의어 의미를 분류하는 단계를 더 포함하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장방법.
제 11 항에 있어서 상기 유사도를 계산하는 단계는,
단어/형태소 일치 개수 측정방법, 문장 구조 유사도 측정방법, 벡터 근접도 측정방법 중 적어도 하나의 방법으로 유사도를 계산하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장방법.
제 12 항에 있어서 상기 유사도를 계산하는 단계는,
상기 3개의 측정방법 중 각기 다른 방법으로 복수의 계산단계를 수행하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장방법.
제 8 항에 있어서 상기 추가해야 할 용례로 확정하는 단계는,
상기 유사도 계산 방법에 따라 상기 분류된 다의어 의미의 신뢰도를 계산하는 단계;
상기 계산된 신뢰도가 미리 설정된 임계 값 보다 큰 경우 대상 문장을 용례로 추가할 다의어 의미를 자동으로 확정하는 단계; 및
상기 계산된 신뢰도가 미리 설정된 임계 값 보다 작은 경우 사용자의 선택에 따라 대상 문장을 용례로 추가할 다의어 의미를 확정하는 단계를 포함하는 것을 특징으로 하는 문장 유사도 기반 다의어 데이터베이스 확장방법.