KR19980038185A

KR19980038185A - 자연언어 인터페이스 에이전트 및 그의 의미 분석방법

Info

Publication number: KR19980038185A
Application number: KR1019960057058A
Authority: KR
Inventors: 강윤선; 조미혜; 곽종근; 이희연
Original assignee: 구자홍; 엘지전자 주식회사
Priority date: 1996-11-25
Filing date: 1996-11-25
Publication date: 1998-08-05

Abstract

본 발명은 자연언어 인터페이스 에이전트 및 그의 의미 분석방법에 관한 것으로, 종래에는 음성 인식기와 의미 해석기를 결합한 자연언어 인터페이스 에이전트를 전화통신 환경에 적용시 사용자가 키보드나 마우스를 반복 사용하여 해당 프로그램을 실행시켜야 하는 불편함이 있었다. 따라서 본 발명은 음성 인식기(100)로 부터 생성된 문자열의 각 어절에 대해 형태소 분석을 행하고, 이 분석 결과로 부터 구문/의미 정보를 찾아 토큰을 형성하는 전처리단계와; 상기에서 형성한 토큰에 대해 HPSG(Head-Driven Phrase Structure Grammer) 문법을 이용하여 구문 구조를 분석하고, 문장의 의미를 파악하는 구문/의미 분석단계와; 상기에서 파악된 문장의 의미로 부터 사용자 명령의 의미를 결정하여 애매성을 제거하는 애매성 제거단계와; 상기에서 결정된 문장으로 부터 사용자 실행명령이나 질의를 생성하여 사용자에게 보여주도록 하는 실행명령/질의 생성단계를 의미 해석기(200)에서 수행하도록 하는 자연언어 인터페이스 에이전트를 전화통신 환경에 적용하여 사용자가 키보드와 마우스를 반복 사용하여 해당 프로그램을 실행시켜야 하는 불편을 완전히 없앰으로써 개인용 컴퓨터(PC)상에서 단순히 음성 명령만으로 전화를 걸거나, 받은 팩스를 프린트하는 등의 일들을 할 수 있으며, 전화나 팩스, 전자우편, 호출등 일상의 복잡한 기능을 일반 사용자가 불편함 없이 간단하게 동작시키도록 하여 편리성 및 실용성을 제공한다.

Description

자연언어 인터페이스 에이전트 및 그의 의미 분석방법

본 발명은 자연언어 인터페이스 에이전트를 전화, 팩시밀리, 전자우편등의 각종 정보통신매체를 포함하는 전화통신 환경에 적용가능한 음성 명령을 이해할 수 있는 자연언어 인터페이스 에이전트에 관한 것으로, 특히 음성 인식기와 의미 해석기의 결합시 발생되는 자연언어의 애매성 및 오류를 제거하여 사용자의 음성 명령으로 부터 올바른 의미를 파악할 수 있도록 함으로써 사용자의 음성 명령만으로 편리하게 정보를 교환하고 통신할 수 있도록 한 자연언어 인터페이스 에이전트 및 그의 의미 분석방법에 관한 것이다.

종래 음성인식 기능의 자연언어 인터페이스 에이전트는 사용자가 키보드나 마우스를 반복 사용하여 필요한 응용 프로그램을 찾아 실행시킨 후, 적당한 메뉴를 선택하여 다시 실행시켜 처리하였다.

그러나, 상기와 같은 종래의 기술은 실행과정이 복잡하여 사용상의 불편함을 초래하는 문제점이 있다.

따라서, 상기에서와 같은 문제점을 해결하기 위한 본 발명의 목적은 복잡한 과정을 완전히 없애고 단순히 음성 명령만으로 원하는 일을 실행시키는 것이 가능하도록 한 자연언어 인터페이스 에이전트의 의미 분석방법을 제공함에 있다.

도1은 본 발명 자연언어 인터페이스 에이전트의 시스템 구성도.

도2는 본 발명 자연언어 인터페이스 에이전트의 의미 분석방법에 대한 흐름도.

도3은 음성 인식 결과에 따른 의미 해석기의 실행 과정 분석을 나타낸 도표.

도면의 주요 부분에 대한 부호의 설명

100 : 음성 인식기 200 : 의미 해석기

상기 목적을 달성하기 위한 본 발명 자연언어 인터페이스 에이전트의 의미 분석방법은, 도2에 도시한 바와같이, 음성 인식기로 부터 생성된 문자열의 각 어절에 대해 형태소 분석을 행하고, 이 분석 결과로 부터 구문/의미 정보를 찾아 토큰을 형성하는 전처리단계와; 상기에서 형성한 토큰에 대해 HPSG(Head-Driven Phrase Structure Grammer) 문법을 이용하여 구문 구조를 분석하고, 문장의 의미를 파악하는 구문/의미 분석단계와; 상기에서 파악된 문장의 의미로 부터 사용자 명령의 의미를 결정하여 애매성을 제겅하는 애매성 제거단계와; 상기에서 결정된 문장으로 부터 사용자 실행명령이나 질의를 생성하여 사용자에게 보여주도록 하는 실행명령/질의 생성단계로 이루어진다.

이와같이 각 단계로 이루어진 방법을 수행하기 위한 본 발명 자연언어 인터페이스 에이전트의 시스템 구성은, 도1에 도시된 바와같이, 사람의 음성을 문자열로 인식, 변환하는 음성 인식기(100)와; 상기 음성 인식기(100)를 통해 인식, 변환한 문자열로 부터 사용자 명령의 의미를 분석하는 의미 해석기(200)로 구성한다.

이와같이 구성된 본 발명의 동작 및 작용효과에 대하여 상세히 설명하면 다음과 같다. 최근의 사용자와 가계의 인터페이스는 키보드나 마우스 등 단순한 기계적 인터페이스의 한계를 넘어 점차 음성, 문장, 제스쳐, 표정등 다양한 형태로 발전하고 있다.

이러한 현상은 편리함을 추구하려는 인간의 영원한 욕구와 함께 이를 충족시켜 줄 수 있을 만큼 발전한 컴퓨터 기술에 기인한다고 할 수 있다.

특히, 반도체 기술의 발달로 인한 컴퓨터의 처리 속도 향상 및 메모리의 저장량 확대로 개인용 컴퓨터(PC)의 계산력이 크게 향상되었을 뿐만아니라, 모뎀, 사운드카드 등의 다양한 기능의 주변기기가 장착된 개인용 컴퓨터가 널리 보급되어 이제는 컴퓨터가 단순히 계산이나 문서 관리에 이용되는 것 외에도 정보수집, 개인통신 등까지 그 역할이 다양해지고 있다.

또한, 개인용 컴퓨터는 그 크기조차 점차 소형화되어 노트북에 이어 키보드의 사분의 일 크기에 불과한 PDA(Personal Data Assistant)라는 초소형의 컴퓨터까지 개발되어, 이제는 때와 장소에 관계없이 꼭 필요한 현대인의 필수품이 되어 있다.

따라서, 이제는 기존의 사용자 인터페이스의 고정 관념에서 벗어나 새로운 형태의 인터페이스 개발의 필요가 널리 인식되고 있다.

한편, 인공지능 분야에서는 지시과 추론 능력을 가지고 사용자를 대신하여 주어진 작업을 수행하는 독립적인 프로그램인 에이전트에 관한 연구가 활발히 진행되고 있다.

여기서 에이전트는 지능을 가진 사용자 인터페이스라 할 수 있다.

상기 에이전트는 기능별로 인터페이스 에이전트, 회의 및 일정관리 에이전트, 전자우편 처리 및 뉴스 선별 에이전트, 엔터테인먼트 선별 에이전트 등으로 구분되며, 이러한 에이전트중 사용자와의 상호작용을 원활히 하는 것을 목적으로 음성, 문장, 제스쳐, 표정 등의 이해나 표현을 담당하는 에이전트를 인터페이스 에이전트라 한다.

상기에서와 같은 인터페이스 에이전트에 대하여 살펴보면, 먼저 사용자가 음성으로 명령을 내리게 되면 이를 음성 인식기(100)가 받아 인식하고 그 인식한 사용자의 음성명령으로 부터 문자열로 변환시켜 출력한다.

그런데, 음성 인식기(100)를 통해 음성 인식시 각 언어의 특성에 따라 여러 형태의 정보가 손실되는데, 한국어에서는 어절 정보 손실과 운율(Prosody)정보 손실이 있다.

한국어에서 어절은 한 개 이상의 단어로 이루어지는데, 어절 정보 즉, 문자열에 있어서의 띄어쓰기 정보는 음성신호의 경우 두 단어 사이의 시간 정보로 나타난다.

따라서, 음성 인식기(100)에서 어절 정보를 인식하기 위해서는 두 단어가 얼마만큼 시간 간격을 두고 발음되었는지의 상대적인 시간 값에 의하여 단어 접속관계가 판별되어야 한다.

하지만, 이러한 정보는 현재의 음성 인식기(100)의 기술로는 정확한 인식을 기대하기 힘들다.

따라서 인식기에서 인식하는 단어는 어절내에서의 접속관계 정보를 인식 과정에서 상실하고 독립된 어절을 구성한다. 다음의 예는 조사를 인식하는 음성 인식기(100)에서 사용자 명령의 인식 결과가 아무 오류없이 인식된 경우를 보여준다.

위의 예에서 조사가 체언과 분리되어 독립된 어절을 구성함에 따라 이로인해 어절내에서의 애매성이 추가된다.

둘째로, 한국어의 문체법은 설명형, 의문형, 명령형, 공동형, 약속형 등으로 구분되는데 문장의 문체법은 문장의 끝에 위치한 어말어미에 의해서 결정된다.

그러나 문체법은 경우에 따라 같은 형태의 어미를 동반하고 단지 억양만 다르므로써 구별되기도 한다.

따라서 억양, 강세 등 운율 정보가 인식되지 않는 음성 인식기(100)에서는 문장의 형태가 동일하므로 이로 인한 애매성이 발생한다.

예를들어,“엘지전자로 전화해”의 입력의 경우 명령문과 의문문 모두 가능하므로 운율정보가 동반되지 않으면 실행 명령인지 질의 명령인지 구별할 수 없게 된다.

결과적으로, 음성 인식기(100)를 통해 음성 인식시 인식 부정확으로 인하여 상기에서와 같은 어절 정보 손실과 운율 정보 손실을 가져오고, 또한 여러 형태의 오류가 포함한다.

상기에서 오류의 형태는 각 언어의 특성에 관련이 있는데, 그 오류는 문법상 오류, 의미상 오류, 사용자의 명령과 다른 의미로 분석하는 실행 명령 오류로 분류할 수 있다.

먼저, 문법상 오류는 인식기의 결과에 격조사나 어미등 문법적인 정보를 포함하는 단어가 오인식되어 일어나는 현상으로 문법적으로는 명백히 틀렸을 경우를 말한다. 이러한 오류는 문법의 틀린 정도에 따라 사람의 경우에는 그 문자의 의미를 파악할 수도 있다.

따라서 자연언어 처리 부분에서도 부분적인 문법적 오류를 제거하여 전체 문장의 의미를 분석할 수 있는 기능이 필요하다.

그리고, 의미상 오류는 구문적으로는 맞으나 명사 혹은 동사 등 문장내에서 의미의 중심이 되는 단어가 오인식되어 일어나는 현상으로 도메인에서 정의된 어떤 의미로도 분석이 되지 않는 경우를 말한다.

이러한 오류는 앞의 문법상 오류와는 달리 오류를 제거하여 원래의 의미를 되찾기가 매우 어렵다.

마지막으로, 실행 명령 오류는 자연 언어 처리부분에서 아무런 에러없이 구문분석이 되고 그 의미도 파악이 되었으나 사용자 명령과는 다른 명령으로 인식이 된 경우이다.

이러한 오류는 앞에서 설명한 오류와는 달리 일단 발생하면 제거하기가 거의 불가능하다.

따라서 실행 명령 오류를 최소화하는 것이 실용성이 있는 시스템을 구하는데 있어서는 반드시 필요하다.

이상에서와 같이 음성 명령으로 부터 문자열로 변화하는 과정에서 여러 형태의 애매성이 포함되므로, 음성 인식기(100)의 결과로 부터의 의미분석은 실제 문장의 의미를 분석하는 것과는 아주 상이하다.

이러한 문제를 보완하기 위한 노력으로 상기 음성 인식기(100)에서 사용자의 음성 명령을 문자열로 변환시 가장 맞을 가능성이 높은 N개의 문자열 후보를 의미 해석기(200)로 제공하여 N개의 문자열 후보로 부터 손실되는 정보와 오류 그리고 애매성을 해결하도록 한다.

상기 음성 인식기(100)에서 음성 명령을 문자열로 변환시 가장 맞을 가능성이 높은 N개의 문자열 후보를 선택하여 출력하는 것을 N-best 탐색이라 부른다.

상기에서와 같이 음성 인식기(100)에서 N개의 문자열 후보를 선택하여 구문 해석기(200)로 제공하면, 상기 의미 해석기(220)는 음성 인식기(100)에서 손실된 정보와 오류 그리고 애매성을 해결하는데 이에 대하여 살펴보면 다음과 같다.

음성 인식기(100)에서 문자열로 변환시 어절정보의 손실은 단어의 중의성을 더욱 가중시켜 형태소 분석 과정에서 많은 다른 분석 후보를 생성하게 된다.

이로인해 단어 수준의 애매성 해결이 더욱 어려워진다.

따라서 이러한 애매성의 발생을 막기위해 도메인 내에서의 단어 의미를 제한하고, 발생되는 애매성은 구문 분석과정에서 제거한다.

한편, 운율 정보의 손실로 인한 애매성을 해결하기 위하여 전화통신 환경에서 주로 컴퓨터에 대한 명령을 처리한다는 점을 감안하여“해”체에 대해서는,“언제”,“누가”따위의 의문사가 함께 쓰이는 경우에 한해서만 의문형으로 보고, 나머지는 명령형으로 간주한다.

즉, 전화통신 환경에서 처리되는 대부분의 문장을 컴퓨터에 대한 명령으로 간주한다.

따라서 명령형 문장에 대한 제약은 그 적용범위가 다음과 같이 넓어진다.

1) 명령문이므로 주어가 생략되는 경우가 대부분이고, 주어가 온다면 2인칭이 와야한다.

2) 명령문의 주동사(main verb)를 수식하는 시간구는 과거일 수 없다. 다음의 예문에서 시간 부사구“어제”는 문법적으로는 동사“받은”과“인쇄해줘”둘을 수식할 가능성이 있으나, 과거 시간구이므로 명령의 동사“인쇄해줘”를 수식할 수 없다

이 두 규칙에 위배되는 파스 트리는 제거한다.

상기에서와 같은 두 규칙을 갖는 의미 해석기(200)로 음성 인식기(100)로 부터 생성된 문자열이 입력되면 도2에서와 같은 전처리 단계, 구문/의미 분석단계, 애매성 제거단계, 실행명령/질의 생성단계를 거쳐 음성 명령의 의미를 분석하는데, 이에 대하여 각 단계별로 설명하면 다음과 같다.

첫째로, 전처리 단계에서는 음성 인식기(100)로 부터 생성된 문자열의 각 어절을 의미의 최소 단위로 형형태소로 분석하는데, 언어 분류상 교착어로 구분되어 한국어는 영어와 비교할 때 분석 과정이 훨씬 복잡하다.

상기에서 형태소 분석은 형태소 사전을 이용하여 분석한다.

이외에도 상기 형태소 분석 결과로 부터 다시 구문/의미 사전을 검색하여 각 단어의 구문/의미 정보를 찾아 토큰을 형성한다.

둘째로, 구문/의미 분석단계에서는 상기 전처리 단계에서 형성된 토큰에 어휘 규칙과 구문/의미 규칙을 적용하여 문장내의 각 단어 간의 수식 관계가 트리 구조인 파스 트리(Parse tree)로 형성된다.

단어 간의 수식관계를 시작으로 HPSG(Head-Driven Phrase Structure Grammer)에 의하여 구, 절, 그리고 전체 문장의 구문 구조를 분석하고, 문장의 의미를 파악한다.

여기서, HPSG문법은 문맥 자유 문법(Context-Free Grammer)과 달리 문장내의 어순이 문법에 의하여 정하여 지지 않고, 단지 구부터 시작하여 절, 문장까지 각각의 의미상 중심이 되는 머리(Head)를 기준으로 나머지 단어들의 통상적 역할과 내용적 의미를 파악하는 것이 특징이다.

상기 구분/의미 분석단계의 결과는 문장의 가능한 모든 의미를 나타내는 트리구조의 복합체로, 이러한 다중 트리는 같은 단어가 여러 의미로 쓰일 수 있는 중의성, 자연언어 문법의 매새성에 기인한다.

이러한 단어 및 문장의 애매성을 제거하여 문장의 여러 의미로 부터 사용자 명령의 의미를 결정하는 것은 애매성 해결 단계에서 행하여 진다.

여기서 의미 분석시 가장 점수가 높은 문자열부터 의미 분석을 시작하는데, 의미 분석중 오류가 발견되면 일단 의미 분석을 중단하고 점수가 높은 순으로 오류가 없는 문자열 후보를 발견할 때까지 다음 문자열을 계속 분석한다.

N개의 입력 문장으로 부터 모두 의미 분석에 실패했을때에는 가장 점수가 높은 문자열의 오류를 제거하여 문장의 의미를 파악한다.

위의 방법과 같이 정의되지 않은 사용자의 입력을 판별하여 처리 대상에서 제외하는 기능을 특별히 음성 인식 분야에서는 리젝션(Rejection)이라고 부른다.

여러 형태의 오류가 포함된 음성 인식 결과에 대한 의미 해석기(200)의 실행 과정은 도3에서와 같이 다섯 가지의 형태로 분류될 수 있다.

첫번째의 경우는 음성 인식 결과가 문법적으로나 의미상으로 모두 맞고 분석된 실행명령이 사용자의 의도와도 일치한 경우이다. 즉, 자연언어 인터페이스 에이전트가 가장 올바르게 동작한 경우로, 사용자의 음성 명령이 에이전트에 의하여 실행된다.

한편, 마지막의 경우는 음성 인식 결과로 부터 아무런 오류 없이 의미가 분석되었으나 그 결과가 완전히 다른 명령인 경우로, 이러한 때에는 나머지 다른 후보들중에 올바른 후보가 포함되어 있을지라도 분석을 끝마치게 된다.

따라서 사용자 명령의 의미와는 다른 명령이 실행되므로, 이 경우는 음성 인식 오류로 인한 자연언어 인터페이스 에이전트의 에러이다.

도3에서와 같이 의미 해석기(200)의 리젝션은 인식기 결과의 오류의 형태에 따라 세가지의 형태로 구분된다.

첫째로 문법이 틀린 음성 인식 결과는 구문 분석 과정에서 파스 트리를 생성하는데 실패하게 되고 이에따라 의미 해석기(200)는 이러한 후보를 분석 대상에서 제외함으로써 리젝션(A)한다.

다음은 조사“에게”가“를”로 잘못 인식된 예를 나타낸다.

이 문장의 동사“걸다”는 통신장치 환경에서 주어(SUBJ), 목적어(OBJ), 부사어(ADV)에 의해 수식될 수 있다는 정보를 갖는데 이러한 정보를 동사의 하위범주라 한다.

따라서 하위범주 정보에 의해 동사“걸다”는 두 개의 목적어를 동시에 취할 수 없으므로 이 문장의 구문분석은 실패하게 된다.

둘째로 문법적으로는 맞으나, 의미적으로 틀린 음성 인식결과는 각 명사와 동사의 하위범주에 부가된 의미표지(Semantic Marker)에 의하여 접속관계를 제한함으로써, 리젝션(B)한다.

본 발명에서 명사와 접미사를 그 의미와 접속관계에 따라 29개의 집단으로 분류하며, 각각의 집단을 의미 자질에 의해 구분한다. 다음과 같이 사용자의 명령이 인식된 경우를 살펴보면,

동사“걸다”의 하위범주에 대한 의미표지는 전화통신 환경에서“SUBJ{+person} OBJ{+phon} ADV{+person+place}”로 나타난다.

따라서“팩스”가 동사“걸다”의 하위범주와 통상적 정보인 목적어라는 것은 일치하나 의미적 정보가 다르므로 이 음성인식결과는 분석되지 않고 리젝션된다.

마직막으로 음성 인식 결과가 문법이나 의미적으로 모두 맞지만 그 의미가 도메인에서 정의되지 않아 실행시키거나 질의에 대답을 할 수 없는 문장은 리젝션(C)한다.

다음의 예는 자동응답기에서 사용되는 명령을 나타내는데 잘못 인식이 되었지만 문법적으로나 의미상으로 모두 맞는다.

하지만, 동사“가다”는 실행문으로의 변환 과정에서 방향(DIR) 템플리트만을 가질 수 있도록 정의되어 있다.

따라서 부사어“영이에게로”가 템플리트에 채워질 수 없으므로 결국 이 분석결과는 제거된다.

도3에서, △의 경우는 의미는 옳바르게 분석되었으나 사용자의 명령과 다른 것을 나타낸다.

세번째, 애매성 제거단계는 상기 전처리 단계와 구문/의미분석단계를 통해 단어 및 문장의 애매성을 적절히 제거한 후에 제거되지 않은 애매성은 여러 단계를 정보를 종합하여 다시 적용하여 제거한다.

마지막으로, 실행명령/질의 생성단계는 상기 구문/의미분석 단계에서 분석된 사용자 명령의 의미로 부터 응용 프로그램을 실행시키기 위한 명령문을 생성하거나 사용자의 전화번호나 사용기록이 저장되어 있는 데이타베이스를 검색하기 위한 질의를 생성한다.

이를 위해서 먼저, 사용자 명령의 의미가 표현되어 있는 파스 트리로 부터 각 실행문이나 질의를 생성하는데 필요한 요소를 찾는다.

이러한 요소를 템플리트(Template)라 부르는데, 예를들어 전화통신 환경에서는 첫째로“target”으로 전화나 팩스를 보내거나 받은 대상, 즉 사람이나 전화, 둘째로“domain”으로 전화, 팩스, 전자우편등, 세째로“time”으로 시간정보등을 포함하여 모두 7개의 템플리트로 구성되어 있다.

따라서, 각각의 실행 명령이나 질의에는 필요한 정보가 정의되어 있으며, 모든 템플리트가 채워졌을 때 그 결과가 응용 프로그램에 보내져 사용자의 음성 명령이 실행되며, 질의의 경우, 데이타베이스를 찾아 그 결과가 다시 사용자에게 보내진다.

자연언어 인터페이스 에이전트를 133MHz 586PC상에서 실험한 결과, 평균단어 10개로 구성된 명령에 대하여 응답시간은 3초 내외였으며, 의미 해석기만에 대해서는 1초 미만으로 나타났다.

전화통신 환경에서 자주 사용되어질만한 문장을 설문 조사를 통하여 만들어진 문장 853개 중, 임의로 추출된 200개를 테스트 문장으로 실험하였다.

이 문장들에 대해서 음성 인식 결과중, N-best 후보중에 첫 후보가 원래 사용자가 발화한 문장과 문자열 수준에서 완전히 맞는 문장의 수가 131개(65.5%), 첫 후보가 완전히 동일하지는 않지만, 조사나 어미가 잘못 인식되어 문법적으로는 약간 틀리더라도, 의미가 원래의 문장과 동일한 문장수가 30개(15%), N-best 후보중에 분석되는 문장이 하나도 없는 경우가 16개(18%), 첫 후보가 아닌 다른 후보의 문장이 파싱에 성공하여 선택된 경우가 23개(11.5%)였다.

첫 후보가 아닌 다른 후보중에서 파싱된 23개 문장중에서 오직 두 문장만이 처음 파싱된 의미가 원래의 의미와 동일했다.

즉, N-best 후보중에서 의미가 통하는 문장이 가장 먼저 나오는 문장이 23중에서 두개밖에 없었다.

본 발명은 N-best방법을 이용하고 있으므로 첫 후보부터 차례로 성공할때까지 파싱을 진행한다.

일단 파싱이 성공하고 나면 그 후보를 맞는 의미로 결정하므로 그 다음은 더 이상 피싱을 진행하지 않는다. 따라서 24개중에서 21개의 문장이 10.5%는 잘못된 의미의 후보가 먼저 나와서 그 의미로 결정해 버린 에이전트의 에러율을 나타낸다.

결과적으로 음성 인식기가 완전히 옳은 결과를 첫 부보로 제시한 65.5%에 대해서 의미해석기를 거치는 동안 89.5%인 179개의 음성 명령에 대하여 사용자의 의도와 맞는 동작을 수행할 수 있었다.

물론 언어 처리기만을 실행시킬때에는, 이들 200개 테스트 문장의 옳은 입력에 대해서 모두 옳은 파스트리를 얻을 수 있었다.

상술한 바와 같이, 본 발명은 자연언어 인터페이스 에이전트를 전화통신 환경에 적용한 결과, 사용자가 키보드와 마우스를 반복 사용하여 해당 프로그램을 실행시켜야 하는 불편을 완전히 없앰으로써 개인용 컴퓨터(PC)상에서 단순히 음성 명령만으로 전화를 걸거나, 받은 팩스를 프린트하는 등의 일들을 할 수 있으며, 전화나 팩스, 전자우편, 호출등 일상의 복잡한 기능을 일반 사용자가 불편함 없이 간단하게 동작시키도록 하여 편리성 및 실용성을 제공한 효과가 있다.

Claims

사용자의 음성 명령을 문자열로 변환하여 출력하는 음성 인식기와; 상기 음성 인식기를 통해 인식, 변환한 문자열로 부터 사용자가 명령의 의미를 분석하여 실행명령이나 질의를 생성하여 사용자에게 보여주도록 하는 의미 해석기로 이루어짐을 특징으로 하는 자연언어 인터페이스 에이전트.
제1항에 있어서, 음성 인식기는 완전 소프트웨어만으로 동작하도록 함을 특징으로 하는 자연언어 인터페이스 에이전트.
제1항 또는 제2항에 있어서, 음성 인식기는 사용자마다의 음성특성을 학습시킬 필요가 없는 화자 독립 특성과, 단어와 단어를 인위적으로 띄어서 발음해야 하는 제약을 없앤 연속 음성 인식 기능을 구비하도록 함을 특징으로 하는 자연언어 인터페이스 에이전트.
제1항 또는 제2항에 있어서, 음성 인식기는 N-best 탐색을 이용하여 사용자의 음성 명령을 N개의 문자열 후보를 선택하여 출력하도록 한 것을 특징으로 하는 자연언어 인터페이스 에이전트.
음성 인식기로 부터 생성된 문자열의 각 어절에 대해 형태소 분석을 행하고, 이 분석결과로 부터 구문/의미 정보를 찾아 토큰을 형성하는 전처리단계와; 상기에서 형성한 토큰에 대해 HPSG(Head-Driven Phrase Structure Grammer)문법을 이용하여 구문 구조를 분석하고, 문장의 의미를 파악하는 구문/의미 분석단계와; 상기에서 파악된 문장의 의미로 부터 사용자 명령의 의미를 결정하여 애매성을 제거하는 애매성 제거단계와; 상기에서 결정된 문장으로 부터 사용자 실행명령이나 질의를 생성하여 사용자에게 보여주도록 하는 실행명령/질의 생성단계로 이루어짐을 특징으로 하는 자연언어 인터페이스 에이전트의 의미 분석방법.