KR100545550B1

KR100545550B1 - 문장 이해 장치 및 방법

Info

Publication number: KR100545550B1
Application number: KR1020030030243A
Authority: KR
Inventors: 홍광석; 노용완
Original assignee: 학교법인 성균관대학
Priority date: 2003-05-13
Filing date: 2003-05-13
Publication date: 2006-01-25
Also published as: KR20040098114A

Abstract

본 발명은 확률모델을 이용한 문장 이해 장치 및 방법에 관한 것이다. 이러한 본 발명에 따른 문장이해방법은, 입력되는 음성신호 혹은 키신호를 문자열로 변환하는 과정과, 상기 문자열로부터 단어들을 추출하는 과정과, 미리 선택된 단어의 설명을 사전 데이터베이스로부터 독출하는 과정과, 상기 설명과 상기 추출된 단어들을 비교하여 소정 확률값을 산출하는 과정과, 상기 단어의 상위어정보들을 순차로 시소러스 데이터베이스로부터 독출하는 과정과, 상기 독출된 상위어정보들 각각에 대해 상위어 데이터베이스를 검색하여 해당 상위어정보의 설명을 독출하며, 상기 추출된 단어들과 상기 독출된 해당 상위어정보의 설명을 비교하여 소정 확률값을 산출하는 과정과, 상기 사전 데이터베이스 검색으로부터 획득한 확률값과 상기 상위어 데이터베이스 검색으로부터 획득한 확률값 각각에 대해 가중치를 적용하고 가산하여 상기 입력된 문자열에 대한 최종 확률값을 계산하는 과정과, 상기 최종 확률값과 소정 기준값과 비교하는 과정과, 상기 비교 결과에 따라 상기 입력된 문자열과 상기 미리 선택된 단어의 관련여부를 판정하여 출력하는 과정을 포함하여 구성되는 것을 특징으로 한다.

사전, 시소러스, 확률모델, 이해모델

Description

문장 이해 장치 및 방법{DEVICE AND METHOD FOR SENTENCE UNDERSTANDING}

도 1은 본 발명의 실시 예에 따른 문장 이해 장치의 블록 구성도.

도 2는 본 발명의 실시 예에 따른 문장 이해 절차를 보여주는 도면.

도 3은 동물 사전 데이터베이스의 일예를 보여주는 도면.

도 4는 동물 상위어 데이터베이스의 일예를 보여주는 도면.

도 5는 동물 시소러스 데이터베이스의 일 예를 보여주는 도면.

< 도면의 주요부분에 대하 부호설명 >

100 : 문장인식부 101 : 단어추출부

102 : 사전검색부 103 : 상위어검색부

104 : 시소러스검색부 105 : 확률값검색부

106 : 비교부 107 : 판정부

108 : 사전 데이터베이스 109 : 상위어 데이터베이스

110 : 시소러스 데이터베이스

본 발명은 문장 이해 장치 및 방법에 관한 것으로, 특히 확률모델을 이용한 문장 이해 장치 및 방법에 관한 것이다.

음성을 이용한 기술들이 전화 통신분야 및 인터넷 통신분야에 적용되어 자동응답기술 및 개인식별기술로서 많이 연구개발되어, 최근에 음성 인식 및 음성 합성을 이용하여 컴퓨터-인터페이스시킨 멀티미디어 응용예들이 소개되고 있으며 상용화가 추진되고 있다. 그러나 아직까지는 음성인식의 품질 및 시스템의 성능문제로 인하여 일반적으로 널리 사용되는 실정이 아니다. 이러한 음성인식 및 합성기술로서 소개된 것 중에는 음성인식을 이용한 자동전화걸기, 자동 TV 온/오프기능, 음성에 따라서 동작하는 로봇 및 장난감 및 학습교재들이 있었다.

이러한 종래의 음성인식 및 합성기술은 단순하게 문자를 음성으로 음성을 문자로 변환한후, 문자 및 음성에 대응되는 인식 및 합성동작을 수행하여, 단순히 저장된 문자 및 음운값을 출력시키는 과정을 구비한 것으로, 각 개인의 음성을 인식하고 합성하는 등의 음성기술을 이용하고는 있으나, 수많은 개인의 보이스특성 및 수많은 단어의 발음에 따르는 음성인식기 및 시소러스의 구축 등이 미비하여 현재 활발한 연구가 진행중이다.

한편, 음성인식기술은 궁극적으로 인간과 컴퓨터 사이의 대화(communication)를 목표로 발전하고 있다. 컴퓨터의 음성(또는 문장) 이해는 기계가 사람의 말을 이해할수 있다는 점에서 다양한 응용 분야에 적용될수 있다. 예를들어, 어휘학습을 높이는 스무고개게임 등에 적용될수 있다. 상기 스무고개게 임은 상대방(컴퓨터 혹은 사용자)이 생각한 단어를 알아맞히는 게임으로, 컴퓨터는 사용자가 입력한 문장(음성 혹은 텍스트)을 이해하여 그 결과를 출력해줘야 한다. 이와 같이 컴퓨터와 인간 사이의 휴먼 인터페이스 기술은 그 적용 분야가 무궁무진하여 현재 보다 높은 이해율을 가지는 이해모델의 개발이 요구되고 있는 실정이다.

따라서 본 발명의 목적은 사전과 시소러스를 사용하고 확률모델을 바탕으로 문장을 이해하기 위한 장치 및 방법을 제공함에 있다.

본 발명의 다른 목적은 음성 및 텍스트로 입력되는 문장을 확률모델에 의해 이해하기 위한 장치 및 방법을 제공함에 있다.

본 발명의 또 다른 목적은 확률모델을 이용한 스무고개게임 장치 및 방법을 제공함에 있다.

상기 목적들을 달성하기 위한 본 발명에 따르면, 특정 영역의 단어들의 설명을 저장하는 사전 데이터베이스와, 상기 단어들의 상위어정보들의 설명을 저장하는 상위어 데이터베이스와, 상기 단어들의 각각에 대하여 상위어정보들을 저장하는 시소러스 데이터베이스를 포함하는 문장이해장치에서의 문장이해방법이, 입력되는 음성신호 혹은 키신호를 문자열로 변환하는 과정과, 상기 문자열로부터 단어들을 추출하는 과정과, 미리 선택된 단어의 설명을 상기 사전 데이터베이스로부터 독출하는 과정과, 상기 설명과 상기 추출된 단어들을 비교하여 소정 확률값을 산출하는 과정과, 상기 단어의 상위어정보들을 순차로 시소러스 데이터베이스로부터 독출하 는 과정과, 상기 독출된 상위어정보들 각각에 대해 상기 상위어 데이터베이스를 검색하여 해당 상위어정보의 설명을 독출하며, 상기 추출된 단어들과 상기 독출된 해당 상위어정보의 설명을 비교하여 소정 확률값을 산출하는 과정과, 상기 사전 데이터베이스 검색으로부터 획득한 확률값과 상기 상위어 데이터베이스 검색으로부터 획득한 확률값 각각에 대해 가중치를 적용하고 가산하여 상기 입력된 문자열에 대한 최종 확률값을 계산하는 과정과, 상기 최종 확률값과 소정 기준값과 비교하는 과정과, 상기 비교 결과에 따라 상기 입력된 문자열과 상기 미리 선택된 단어의 관련여부를 판정하여 출력하는 과정을 포함하여 구성되는 것을 특징으로 한다.

바람직하기로, 상기 확률값은 하기 수식에 의해 산출되는 것을 특징으로 한다.

바람직하기로, 상기 최종 확률값(Pr(S))은 하기 수식에 의해 산출되는 것을 특징으로 한다.

이하 본 발명의 바람직한 실시 예를 첨부된 도면의 참조와 함께 상세히 설명한다. 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설 명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다.

이하 본 발명은 사전과 시소러스를 사용하고 확률모델에 근거하여 문장을 이해하기 위한 기술에 대해 설명할 것이다. 이러한 본 발명에 따른 문장 이해 시스템은 다양한 휴먼 인터페이스 시스템에 적용될수 있으며, 이하에서는 스무고개게임을 예를들어 설명할 것이다.

도 1은 본 발명의 실시 예에 따른 문장 이해 장치의 블록구성을 도시하고 있다.

도시된 바와 같이, 상기 문장이해장치는 문장인식부(100), 단어추출부(101), 사전검색부(102), 상위어 검색부(103), 시소러스 검색부(104), 확률값 계산부(105), 비교부(106), 판정부(107), 사전 데이터베이스(108), 상위어 데이터베이스(109), 시소러스 데이터베이스(110)를 포함하여 구성된다.

상기 도 1을 참조하면, 먼저 문장인식부(100)는 마이크(111)를 통해 입력되는 음성신호 및 키보드(112)를 통해 키신호를 문자열로 변환하여 출력한다. 단어추출부(101)는 상기 문장인식부(100)로부터 출력되는 문자열에서 단어들을 추출한다. 즉, 문자열을 어절들로 분류하고, 각 어절에서 조사를 제거하여 단어를 추출한다. 사전검색부(102)는 사전 데이터베이스(108)를 억세스하여 미리 선택된 카테고리의 설명(단어의 설명)을 독출하고, 상기 단어추출부(101)로부터의 상기 추출된 단어들과 상기 독출된 카테고리의 설명을 비교하여 확률값을 계산하여 출력한다. 상기 추 출된 단어들중 적어도 하나라도 상기 설명에 포함되어 있으면 소정 방식에 의해 확률값을 계산하여 출력하고, 그렇지 않으면 상위어 검색부(103)를 동작시킨다.

상기 상위어 검색부(103)는 시소러스 검색부(104)로 상기 카테고리의 상위어들을 순차로 요구하고, 순차로 입력되는 상위어들 각각에 대해 해당 상위어 데이터베이스를 검색하여 해당 상위어의 설명을 독출하며, 상기 추출된 단어들과 상기 독출된 해당 상위어의 설명을 비교하여 확률값을 계산하여 출력한다. 상기 시소러스 검색부(104)는 상기 상위어 검색부(103)의 요구에 따라 해당 상위어를 시소러스 데이터베이스(110)로부터 독출하여 출력한다.

상기 사전데이터베이스(108), 상기 상위어 데이터베이스(109), 상기 시소러스 데이터베이스(110)에 대해 상세히 살펴보면 다음과 같다. 도 3 내지 도 5는 동물이름을 알아맞히는 스무고개 게임에서의 데이터베이스들을 보여준다.

도 3은 동물 사전 데이터베이스의 일 예를 보여준다.

도시된 바와 같이, 상기 사전 데이터베이스는 동물이름을 가다다 순으로(가리비, 가마우지,...) 정렬하고, 각각의 동물이름에 대한 설명을 포함하고 있다. 이 사전 데이터베이스는 모두 510개의 동물들의 설명들로 구성되고, 5만 어절정도를 포함한다. 만일, 사전에 내용을 더 추가할 경우 확률모델에서 더 높은 이해율을 얻을수 있다. 상기 사전 데이터베이스는 컴퓨터가 문장을 이해하는데 기본적으로 필요한 도구로서, 전체 대용량 사전이나 영역별 사전 등 여러 가지 사전을 이용하여 구현할수 있다.

도 4는 동물 상위어 데이터베이스의 일 예를 보여준다.

도시된 바와 같이, 상기 상위어 데이터베이스는 동물의 상위형태들("동물", "류". "목", "과")중 "과"에 대한 것으로, "과"에 대한 상위어들을 가나다 순으로(가리비과, 가마우지과,...)으로 정렬하고 있다. 이 상위어 데이터베이스는 모두 368개의 상위어들의 설명들로 구성된다. 문장이해시, 동물 사전 데이터베이스에 관련된 정보가 없을 경우, 컴퓨터는 상위어 데이터베이스들을 순차로(동물->류->목->과) 참조하여 각각에 상위어 데이터베이스에 대한 확률값을 산출하고, 산출된 확률값들에 근거하여 관련여부를 출력하게 된다. 즉, 동물에 대한 상위어 데이터베이스는 "동물"에 대한 상위어 데이터베이스, "류"에 대한 상위어 데이터베이스, "목"에 대한 데이터베이스, "과"에 대한 데이터베이스로 구성될수 있다.

도 5는 동물 시소러스 데이터베이스의 일 예를 보여준다.

도시된 바와 같이, 동물 시소러스 데이터베이스는 특정 동물에 관련된 상위어 정보들을 정리한 것으로, 엔트리 단어들은 동물사전 데이터베이스와 동일하게 구성된다. 도 6은 총 510개의 동물들에 대한 상위어 정보들을 보여준다. 상위어는 하나의 동물이름에 대해 ~동물, ~류, ~목, ~과와 같이 최상위어부터 최하위어 순서로 4개가 구성된다. 즉, 시소러스 데이터베이스는 트리(tree) 형태를 가진다.

이와 같이, 시소러스는 사전에 없는 상하위관계를 나타내주는 것으로 정보 검색에서 많이 사용된다. 시소러스는 전체 시소러스와 영역별 시소러스로 나누어지며 전체 시소러스의 경우 모든 객체를 나타내주기 어렵기 때문에 영역별, 또는 부분 시소러스를 사용하는 것이 바람직하다.

본 발명에 따른 문장 이해 시스템은, 사전과 시소러스를 사용하여 문장을 이해하여 확률값을 산출하고, 이 확률값을 소정 임계값과 비교하여 문장을 판단하게 된다. 컴퓨터는 카테고리를 선택하고 선택된 카테고리를 대한 사전을 가져온다. 사용자는 임의의 문장을 음성 또는 텍스트로 입력하거나 파일 열기를 통해 질의가 있는 문장을 불러온다. 입력된 텍스트와 사전을 비교하여 확률값을 산출하고 사전에 내용이 없는 경우 시소러스를 검색하여 최하위어로부터 최상위어 순으로 검색한다. 최하위어로부터 최상위 순으로 상위어 데이터베이스들을 검색하여 확률값을 산출한다. 상기 사전 검색을 통해 획득한 확률값과 상기 상위어 데이터베이스들을 통해 획득한 확률값들을 더하여 최종 확률값을 산출하고, 상기 최종 확률값을 소정 임계값과 비교하여 문장의 관련여부를 판단한다.

문장을 이해하기 위한 확률모델은 다음과 같다. 이 확률모델은 확률 임계값을 기준으로 관련이 "있다", "없다"를 결정하게 되고, 사전과 시소러스를 교체하므로서 다른 어떤 분야에서도 사용 가능하다. 일 예로 스무고개 게임에 구성을 할 경우 스무고개 게임 문장에서 "예"와 "아니오"를 결정하게 된다.

< 확률모델 >

상술한 이해모델에서, 상기 α와 β 는 실험을 통해 획득된다. 예를들어, 510개의 동물 설명들의 각각에 대해 질의 200문장을 적용시켜 얻은 102000 개의 결과를 가지고 α와 β를 구할 경우, 상기 α는 0.9가 되고 상기 β는 0.38이 된다. 구체적으로, α는 0.5부터 1까지 0.05간격으로, β는 0부터 1까지 0.02간격으로 풀 서치(full search)를 하였다. 이 과정에서, α가 0.9이고, β가 0.38일 때 가장 좋은 판단률을 보여주었다. 즉, 상기 α와 β는 항상 고정된 값으로 설정되는 것이 아니라 주어진 환경에 따라 실험에 의해 서로 다른 값들로 설정된다. 즉, 사전과 시소러스를 달리하거나 응용분야가 달라질 경우 다른 값들로 설정됨을 유의하여야 한다.

도 2는 본 발명의 실시 예에 따른 문장 이해 절차를 도시하고 있다. 상기 문장 이해 절차는 상기 도 1에 도시된 블록들(소프트웨어 블록들)이 연동하여 수행하며, 이하에서는 상기 블록들을 통칭하여 제어부로 명하기로 한다.

도 2를 참조하면, 먼저 제어부는 301단계에서 랜덤방식에 의해 사전에 포함된 카테고리들중 특정 하나의 카테고리를 선택하고, 303단계에서 상기 선택된 카테고리가 포함된 특정 분야 사전 데이터베이스(예 : 동물 사전데이터베이스)를 선택한다. 그리고 상기 제어부는 305단계에서 사용자에게 질의입력을 요구하는 메시지를 표시부에 디스플레이하고, 307단계에서 사용자의 조작에 의해 질의(또는 문장)가 입력되는지 검사한다.

상기 질의가 입력되면, 상기 제어부는 309단계로 진행하여 상기 사용자가 입력한 문장에서 단어들을 추출한다. 앞서 설명한 바와 같이, 문장을 어절들로 분할하고, 각 어절에서 조사를 제거하여 단어를 추출한다. 이후, 상기 제어부는 311단계에서 상기 사전 데이터베이스를 억세스하여 상기 선택된 카테고리의 설명을 독출한다. 그리고 상기 제어부는 313단계에서 상기 추출된 단어들이 상기 선택된 카테 고리의 설명에 포함되어 있는지 검사한다.

만일, 상기 질의에서 추출된 단어들중 적어도 하나라도 상기 설명에 포함되어 있으면, 상기 제어부는 333단계에서 다음과 같이 확률값을 계산하여 저장한후 325단계로 진행한다.

만일, 상기 질의에서 추출된 단어들중 적어도 하나도 상기 설명에 포함되어 있지 않으면, 상기 제어부는 315단계에서 시소러스 데이터베이스를 검색하고, 317단계에서 해당 순서의 상위어를 확인한다. 그리고, 상기 제어부는 319단계에서 상기 확인된 상위어가 속한 상위어 데이터베이스를 억세스하여 상기 상위어의 설명을 독출하고, 상기 상위어의 설명과 상기 질의에서 추출된 단어들을 비교하여 확률값을 상기한 수식에 의해 산출한다.

상기 상위어에 대한 확률값을 산출한후, 상기 제어부는 323단계에서 마지막 상위어에 대한 확률값 산출을 완료했는지 검사한다. 만일, 상기 마지막 상위어에 대한 확률값 산출을 완료한 경우, 상기 제어부는 325단계로 진행하고, 그렇지 않으면 다음 상위어에 대한 확률값을 산출하기 위해 상기 315단계로 되돌아가 이한 단계를 재수행한다.

상기 마지막 상위어에 대한 확률값 산출을 완료한 경우, 상기 제어부는 325단계에서 상기 사전에 대한 확률값과 상기 321단계에서 구한 복수의 상위어들에 대 한 확률값들을 가지고 다음과 같이 상기 질의에 대한 확률값(Pr(S))을 계산한다.

상기 질의에 대한 확률값을 산출한후, 상기 제어부는 327단계에서 상기 확률값이 미리 정해진 기준값(β)보다 큰지를 검사한다. 만일, 상기 확률값이 상기 기준값보다 큰 경우, 상기 제어부는 329단계에서 관련있음을 나타내는 "예"를 출력하고, 그렇지 않고 상기 확률값이 작거나 같은 경우, 상기 제어부는 331단계로 진행하여 관련없음을 나타내는 "아니오"를 출력한다.

상술한 알고리즘에서, 상기 α와 β 는 앞서 언급한 바와 같이 실험을 통해 획득된다. 예를들어, 510개의 동물 설명들의 각각에 대해 질의 200문장을 적용시켜 얻은 102000 개의 결과를 가지고 α와 β를 구할 경우, 상기 α는 0.9가 되고 상기 β는 0.38이 된다. 즉, 상기 α와 β는 항상 고정된 값으로 설정되는 것이 아니라 주어진 환경에 따라 실험에 의해 서로 다른 값들로 설정된다. 즉, 사전과 시소러스를 달리하거나 응용분야가 달라질 경우 다른 값들로 설정됨을 유의하여야 한다.

한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

상술한 바와 같이, 본 발명은 생각할수 없는 기계와 질의 응답 및 대화를 가능하게 할수 있는 효과를 가진다. 즉, 기계가 사람의 말을 이해할수 있다는 점에서 다양한 응용 분야에 적용될수 있어 시장성이 무궁무진한 이점이 있다.

Claims

문장 이해 장치에 있어서,

특정 영역의 단어들의 설명을 저장하는 사전 데이터베이스와,

상기 단어들의 상위어정보들의 설명을 저장하는 상위어 데이터베이스와,

상기 단어들의 각각에 대하여 상위어정보들을 저장하는 시소러스 데이터베이스와,

입력되는 음성신호 혹은 키신호를 문자열로 변환하여 출력하는 문장인식부와,

상기 문자열로부터 단어들을 추출하는 단어추출부와,

미리 선택된 단어의 설명을 상기 사전 데이터베이스로부터 독출하고, 상기 설명과 상기 추출된 단어들을 비교하여 소정 확률값을 산출하는 사전검색부와,

후단의 시소러스 검색부로 상기 단어의 상위어정보들을 순차로 요구하고, 순차로 입력되는 상위어정보들 각각에 대해 상기 상위어 데이터베이스를 검색하여 해당 상위어정보의 설명을 독출하며, 상기 추출된 단어들과 상기 독출된 해당 상위어정보의 설명을 비교하여 소정 확률값을 계산하는 상위어 검색부와,

상기 상위어 검색부의 요구에 따라 해당 상위어정보를 시소러스 데이터베이스로부터 독출하여 상기 상위어 검색부로 출력하는 시소러스 검색부와,

상기 사전검색부로부터의 상기 확률값과 상기 상위어 검색부로부터의 상기 확률값들 각각에 대해 가중치를 적용하고 가산하여 상기 입력된 문자열에 대한 최종 확률값을 계산하는 확률값 계산부와,

상기 최종 확률값과 소정 기준값을 비교하는 비교부와,

상기 비교부로부터의 상기 결과에 따라 상기 입력된 문자열과 상기 미리 선택된 단어의 관련여부를 판정하여 출력하는 판정부를 포함하여 구성되는 것을 특징으로 하는 장치.
제1항에 있어서,

상기 확률값은 하기 수식에 의해 산출되는 것을 특징으로 하는 장치.
제1항에 있어서,

상기 최종 확률값(Pr(S))은 하기 수식에 의해 산출되는 것을 특징으로 하는 장치.
특정 영역의 단어들의 설명을 저장하는 사전 데이터베이스와, 상기 단어들의 상위어정보들의 설명을 저장하는 상위어 데이터베이스와, 상기 단어들의 각각에 대하여 상위어정보들을 저장하는 시소러스 데이터베이스를 포함하는 문장이해장치에서의 문장이해방법에 있어서,

입력되는 음성신호 혹은 키신호를 문자열로 변환하는 과정과,

상기 문자열로부터 단어들을 추출하는 과정과,

미리 선택된 단어의 설명을 상기 사전 데이터베이스로부터 독출하는 과정과,

상기 설명과 상기 추출된 단어들을 비교하여 소정 확률값을 산출하는 과정과,

상기 단어의 상위어정보들을 순차로 시소러스 데이터베이스로부터 독출하는 과정과,

상기 독출된 상위어정보들 각각에 대해 상기 상위어 데이터베이스를 검색하여 해당 상위어정보의 설명을 독출하며, 상기 추출된 단어들과 상기 독출된 해당 상위어정보의 설명을 비교하여 소정 확률값을 산출하는 과정과,

상기 사전 데이터베이스 검색으로부터 획득한 확률값과 상기 상위어 데이터베이스 검색으로부터 획득한 확률값 각각에 대해 가중치를 적용하고 가산하여 상기 입력된 문자열에 대한 최종 확률값을 계산하는 과정과,

상기 최종 확률값과 소정 기준값과 비교하는 과정과,

상기 비교 결과에 따라 상기 입력된 문자열과 상기 미리 선택된 단어의 관련여부를 판정하여 출력하는 과정을 포함하여 구성되는 것을 특징으로 하는 방법.
제4항에 있어서,

상기 확률값은 하기 수식에 의해 산출되는 것을 특징으로 하는 방법.
제4항에 있어서,

상기 최종 확률값(Pr(S))은 하기 수식에 의해 산출되는 것을 특징으로 하는 방법.