KR20050015586A

KR20050015586A - 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치

Info

Publication number: KR20050015586A
Application number: KR1020030054475A
Authority: KR
Inventors: 김정은; 이재원
Original assignee: 삼성전자주식회사
Priority date: 2003-08-06
Filing date: 2003-08-06
Publication date: 2005-02-21
Also published as: KR100577387B1; US7493257B2; US20050033574A1

Abstract

본 발명은 음성 인식시에 오류 가능성이 있는 부분의 해결을 위해 그 부분에 관련된 내용을 발화자에게 되물어보고 그 반응 지식에 의하여 음성인식 결과의 불분명한 부분을 해결하는 음성 인식 기술에 관한 것이다.

본 발명에 따른 장치는 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 음성 인식부; 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 문장에 대한 의미구조 검사를 수행하며, 문장 신뢰도 및 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 인식 오류 판단부; 및 오류가 존재하는 부분의 문장 내에서의 위치와 역할 및 오류의 종류를 고려하여 사용자에게 물어볼 질문을 생성하는 메타-다이얼로그 생성부로 이루어진다.

본 발명에 따른 방법은 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 제1단계; 인식한 단어의 신뢰도로부터 구한 문장 신뢰도와 문장의 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 제2단계; 및 오류가 존재하는 부분의 문장 내에서의 위치와 역할 및 오류의 종류를 고려하여 오류 부분을 해결하기 위한 메타-다이얼로그를 생성하는 제3단계로 이루어진다.

Description

음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치{Method and apparatus for handling speech recognition errors in spoken dialogue systems}

본 발명은 음성 인식 기술에 관한 것으로서, 특히 음성 인식시에 오류 가능성이 있는 부분의 해결을 위해 그 부분에 관련된 내용을 발화자에게 되물어보고 그 반응 지식에 의하여 음성인식 결과의 불분명한 부분을 해결하는 음성 인식 기술에 관한 것이다.

종래의 기술에 의한 연속어 음성인식 기술에서는 음성인식 결과에 오류 가능성이 있는 구간이 있음에도 불구하고 그 오류 가능성에 대한 고려가 없어 신뢰성이 낮은 결과를 출력한다. 음향적으로나 의미적으로 오류 가능성이 있는 구간을 추정하고 해소하고자 하는 경우에도 시스템 내부 규칙에 의거하여 일방적으로 결정된 결과를 출력한다. 그런데, 시스템 내부 규칙은 매우 불완전하여 그 결과에 대한 에러 발생률이 높다. 이와 같이 음성인식기는 100%의 성능을 가질 수 없으므로 음성 대화 시스템에서 음성 인식률의 한계를 보완할 수 있는 방법이 필요하다.

기존의 공개된 특허출원 '인간 반응형 음성인식장치(2001-0086902)'는 문장으로부터 애매성 구간을 추출하는 애매성구간추출부와 애매성 구간을 해소하기 위하여 질문을 생성하는 질문생성부를 포함하고 있다. 그러나, 이 발명에서는 음성대화시스템과 사용자 간에 성공적이면서도 효율적으로 대화가 이루어지기 위해서 어떻게 사용자에게 질문을 해야하는지를 구체적으로 고려하고 있지 않다. 음성대화시스템의 지능을 높이고 시스템의 성능과 편의성을 동시에 높이기 위해서는 사람의 대화 현상에 대한 분석을 통해 사람의 발화에서처럼 대화의 효율성, 효과성, 유연성을 높일 수 있는 방향으로 시스템의 발화를 만들어내야 한다.

한편, 미국특허 'Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores(US6567778)' 에서는 응용 프로그램이 필요로 하는 정보에 대한 명세 사항(specification)을 이용하여 음성인식 결과로부터 슬롯(slot)을 만들고, 슬롯 신뢰도를 구하여 슬롯 신뢰도가 낮을 때에 해당 슬롯에 대해 사용자에게 질문을 하는 방식을 취하고 있다. 따라서 이것은 응용 프로그램에 대한 의존도가 높아서 응용 프로그램에 따라서는 쉽게 이용하기 어려운 경우가 발생할 수 있다. 예를 들어 응용 프로그램이 여러 도메인을 동시에 서비스 하거나, 과업 지향(task-oriented)적이 아닌 일상대화 류의 대화를 수행할 때 또는 음성대화 시스템의 대화 주도권이 시스템에 있는 것이 아니라 사용자에게 있거나 시스템과 사용자 모두에게 있을 때에는 슬롯을 구성하기가 힘들기 때문에 이 방식은 사용되기 힘들다.

또한, 상기 특허 기술들로는 사용자에게 질문을 다시 했으나 계속 음성인식을 실패하는 경우에 대한 대책이 없으므로, 이러한 경우에는 사용자의 명령을 처리해 줄 수 없는 경우가 생길 수 있다. 따라서, 음성을 인터페이스로 하여 사용자와 대화를 함으로써 사용자의 요구를 처리하는 음성대화 시스템에서 반복적인 음성인식 오류 발생시의 처리 방법을 강구할 필요가 있다.

본 발명은 상기의 문제점을 해결하기 위하여 안출된 것으로, 음성 인식에 있어서 음향적, 의미적 오류 가능성을 보다 정확히 해소할 수 있는 인간 반응형 음성 인식 장치 및 그 방법을 제공함을 목적으로 한다.

또한 본 발명은 음성인식 결과를 토대로 오류의 포함 여부를 판정하고 음성인식 오류 발생시 효율적인 회복이 가능하도록 메타-다이얼로그(Meta-Dialogue)를 디자인하는 데 그 목적이 있다. 이러한 메타-다이얼로그는 사용자와 시스템 간의 대화 중에서 발생한 오류가 있을 때 이를 해결하기 위한 대화를 의미한다.

상기한 목적을 달성하기 위하여, 본 발명에 따른 음성 대화 시스템에서의 음성 인식 오류를 처리하는 장치는, 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 음성 인식부; 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 문장에 대한 의미구조 검사를 수행하며, 문장 신뢰도 및 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 인식 오류 판단부; 및 오류가 존재하는 부분의 내용 및 오류의 종류를 고려하여 시스템 응답을 생성하는 메타-다이얼로그 생성부로 이루어진다.

본 발명에 따른 음성 대화 시스템에서의 음성 인식 오류를 처리하는 방법은, 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 제1단계; 인식한 단어의 신뢰도로부터 구한 문장 신뢰도와 문장의 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 제2단계; 및 오류가 존재하는 부분의 내용 및 오류의 종류를 고려하여 메타-다이얼로그를 생성하는 제3단계로 이루어진다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 일 실시예를 상세히 설명한다.

도1은 본 발명에 의한 장치의 구성에 대한 일 실시예를 도시한 블록도이다. 본 도면에 의하면 본 발명에 의한 장치(100)는 음성신호 입력부(110), 음성 인식부(120), 인식오류 판단부(130), 메타-다이얼로그 생성부(140) 및 메타-다이얼로그 출력부(150)를 포함하는 데, 각 구성요소는 각종 형태의 정보시스템과 그 정보시스템에서 수행되는 소프트웨어의 결합체로서 구성될 수 있다.

음성신호 입력부(110)는 사용자가 발화한 아날로그 음성신호를 입력 받는 역할을 한다. 마이크로폰과 같은 장치가 이에 해당할 수 있다.

음성 인식부(120)는 기존의 고안된 방법들을 이용하여 구성할 수 있다. 일 예로서, 음성 인식부(120)는 아날로그 음성신호를 디지털 데이터로 변환하고 음성 특징들을 추출하는 음성특징 추출부(121), 음향 모델에서 음성특징에 가장 가까운 음소를 찾아내고, 찾아낸 음소들로부터 단어를 구성하고, 단어별로 그 일치정도를 나타내는 음향모델 확률값을 계산하는 음향모델 탐색부(122) 및 언어 모델에서의 단어 사이의 문법적 관계와 통계적 연결관계를 이용하여 다음에 인식되는 단어에 대한 복수개의 단어 후보를 발생시키고 각각에 대하여 언어모델 확률값을 계산하는 언어모델 탐색부(123)로 구성될 수 있다. 음향 모델과 언어 모델은 정보시스템에서 데이터베이스의 형태로 구성되는 것이 바람직하다.

인식 오류 판단부(130)는 음성 인식부(120)가 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 인식된 문장에 대한 의존 트리를 구성하여 상기 문장에 대한 의미구조 검사를 수행하며, 문장 신뢰도 및 의미구조 검사 결과를 종합한 일정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 기능을 담당한다.

메타-다이얼로그 생성부(140)는 음성인식 오류 부분을 사용자가 다시 발화해 주도록 요구하여 음성인식 오류를 해결할 수 있도록 시스템 발화를 생성한다. 상기 문장 중에서 오류가 존재하는 부분의 내용 및 오류의 종류를 고려하여 비반복 유형, 문장 반복 유형, 부분 반복 유형, 갭 유형 또는 갭 필러 유형 중에서 사용자에게 전달할 합당한 발화를 생성하고, 메타-다이얼로그 출력부(150)를 통하여 사용자에게 생성된 발화를 전달하는 역할을 한다.

또한, 메타-다이얼로그 출력부(150)는 메타-다이얼로그 생성부(140) 로부터 생성된 질문을 음성 또는 화면을 통하여 사용자에게 전달하는 기능을 담당한다. 메타-다이얼로그 출력부(150)는 다시 상기 생성된 질문을 시스템 음성으로 합성하여 외부의 사용자에게 출력하는 음성합성부(151)와, 상기 생성된 질문을 화면으로 출력하고 사용자로 하여금 항목 중에서 하나를 선택할 수 있도록 하는 메뉴를 출력하는 화면생성부(152)를 포함하고 구성된다.

도 2는 본 발명에 의한 방법을 실시하기 위한 과정을 도시한 흐름도이다. 먼저, 음성신호 입력부(110)를 통하여 아날로그 음성신호가 입력되면, 입력된 아날로그 음성신호는 음성특징 디지털 데이터로 변환된다(S100). 변환된 디지털 데이터에서 일정간격(frame)으로 주파수 특성이 음성특징 추출부(121)를 통하여 추출되어 벡터 수치화되는데, 벡터 수치화된 주파수 특성이 음성 특징으로 사용된다(S110). 상기 음성 특징은 음향모델 탐색부(122)를 통하여 음향 모델 내의 각 음소에 대응하는 음성 특징과 그 유사도를 비교하여 가장 가까운 음소를 검색하고, 검색된 음소들로부터 단어를 생성한다(S120). 이후, 언어모델 탐색부(123)에서 언어 모델을 이용하여 현재 단어와 다음에 인식될 단어를 미리 예측한다. 다음에 인식될 단어의 후보는 복수 개가 발생되는데, 이들을 모두 격자구조로 연결되고 문장끝에서 각각의 확률값이 계산되어 하나 이상의 인식 후보 문장들을 생성된다(S130). 이와 같이 음성 인식부에서 이루어지는 S110 내지 S130의 과정은 종래의 기술을 이용하여 구성할 수 있다. 다음으로 인식오류 판단부(130)을 통하여 문장 신뢰도 및 의미구조 검사를 통하여 일정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단한다(S140). 이와 같은 인식 오류 여부 판단 단계(S140)는 도 4a에서 상세히 설명하기로 한다.

상기 판단 결과 인식된 문장에 오류가 없는 것으로 판단되면, 상기 인식된 문장을 출력하고, 상기 인식된 결과를 필요한 용도에 사용한다(S199). 한편, 상기 판단 결과 문장에 오류가 있는 것으로 판단되면, 메타-다이얼로그 생성부(140)를 통하여, 사용자와의 대화를 통하여 음성 인식 오류를 수정할 수 있도록 하는 메타-다이얼로그를 생성한다(S160). 그리고, 생성된 메타-다이얼로그를 음성 합성부(151) 또는 화면생성부(152)를 통하여 음성 또는 화면으로 출력하여 사용자가 응답할 수 있게 한다(S170). 그러면, 사용자는 상기 메타-다이얼로그 상의 질문에 다시 발화하여 응답하고, 음성 인식 시스템은 이러한 사용자 응답을 처리한다(S180). 상기 사용자 응답을 처리 하는 과정을 살펴 보면, 사용자가 발화한 음성신호을 입력 받은 후 S110 내지 S130 단계와 같은 음성 인식 과정을 다시 거치게 되고, 음성 인식 시스템은 다시 S140 단계와 같이 음성 인식 오류 여부를 판단하여 문장 신뢰도 및 의미구조 검사 결과를 종합한 일정 기준에 따라 문장에 오류가 있는가를 판단한다(S190).

상기 판단 결과, 문장에 오류가 있다고 판단되면 다시 메타-다이얼로그를 생성하고 사용자와 대화하는 단계(S160)로 돌아가서, 그 이하 단계를 반복하게 된다. 그리고, 문장에 오류가 없다고 판단되면 인식된 문장을 출력하고, 인식된 결과를 필요한 용도에 사용한다(S199).

도 3은 음성인식 오류 여부를 판단하는 과정을 설명한 흐름도로서 도 2에서의 S140 단계를 세부적으로 나타낸 것이다. 먼저 음성인식된 문장의 단어 신뢰도를 이용하여 문장의 신뢰도를 검사하고(S122), 상기 문장의 의미구조를 검사한다(S123). 마지막으로, 상기 문장 신뢰도와 상기 의미구조 검사 결과를 바탕으로 문장을 수락(Accept), 거절(Reject) 또는 확인(Confirmation)의 범주로 구분한다(S124).

도 4a는 도 3의 단어 신뢰도를 이용하여 문장 신뢰도를 구하는 과정(S122)을 상세히 설명한 흐름도이다. 이러한 단어 인식의 신뢰도는 종래의 기술을 이용하여 구할 수 있는데, 음성인식부(120)에서 음향 모델 및 언어모델을 이용하여 산출할 수 있으며 각 단어마다 부착되어 수치로서 표현될 수 있다. 이러한 단어 신뢰도는 공개된 특허출원 '2001-0086902'에서와 같이 기존에 고안된 방법을 사용하여 구할 수 있다.

단어의 신뢰도를 이용하여 문장의 오류 여부를 판단하는 방법은 다음과 같다. 음성인식 실험을 통해 음성인식기가 결과로 산출한 문장에 속해 있는 단어들의 단어 신뢰도 값을 수직선상에 표시하고 각 단어의 정답/오답 여부를 표시하면 도 4b아래와 같은 그래프로부터 임계치 값 θ₁, θ₂를 얻을 수 있다(S410). 종래에는 정답 또는 오답을 결정하는 임계치 값이 하나만 존재하여 단어 신뢰도가 그 임계치를 넘을 경우에는 정답으로, 그렇지 않은 경우에는 오답으로 판단하였다. 그러나 실제로는 임계치 값과 가까운 단어신뢰도를 가진 단어의 경우에는 상황에 따라 단어 신뢰도 값이 같은 단어들이 정답이 되기도 하고 오답이 되기도 하는 문제가 있다. 따라서, 본 발명에서는 임계치 값을 θ₁, θ₂의 2개로 두어, 단어 신뢰도가 θ₂보다 큰 경우에는 정답으로, 단어 신뢰도가 θ₁보다 작은 경우에는 오답으로, 그리고, 단어의 신뢰도가 θ₁이상이고 θ₂이하인 값을 가질 경우에는 정답 일수도 있고 오답 일수도 있는 것으로 분류하였다.

다음으로, 문장내에서 오류가 있거나 오류 가능성 있는 단어의 수에 대한 임계치 α를 결정하는데, 이 임계치 α는 실험을 통하여 사용환경에 따라 사용자가 필요로 하는 값으로 정할 수 있다(S420). 그리고, 음성인식부(120)에서 음성인식 결과로 N-best 가설을 산출하면 이 N개의 문장들에 대해 상위 등위의 문장부터 차례로 도4a에서의 S430부터 그 이후의 과정을 수행한다. 단어 신뢰도값이 θ₂보다 작은 인 단어의 수를 세고(S430), 이 수를 NUM이라고 할 때 그 값과 임계값과의 비교를 통하여 문장의 범주가 결정된다. 만약, NUM 값이 0인 경우에는 모든 단어는 정답에 해당하므로 유효한 것(Valid)으로 판단하고(S460), NUM 값이 임계치 α보다 크면 문장의 단어가 허용 오류의 개수를 넘으므로 유효하지 않은 것(Not Valid)으로 판단한다(S470). 그리고, NUM 값이 1보다 크거나 같고 α보다 작거나 같을 경우에는 모호한 것(Ambiguous)으로 판단한다(S480). 해당 문장이 유효한 문장으로 판단된 경우에는 남은 문장들에 대해서는 인식 오류 여부 검사 과정을 수행하지 않는다. N개의 문장이 모두 유효하지 않거나, 모호한 경우에는 가장 상위에 있는 문장으로 의미구조 검사(S123)를 수행한다.

상기와 같은 문장의 신뢰도 검사가 끝나면, 음성인식 결과가 의미적으로 타당한 문장인지를 검사한다(S123). 나는 저녁을 먹었어.라는 사용자 발화를 음성인식하여 결과로 나온 나이는 저녁을 먹었어.라는 문장에 대해서 구문분석을 수행한 후, 의미역(thematic role) 분석을 하면 도4c와 같이 의미역이 부착된 의존 트리(Dependency Tree)를 얻을 수 있다. 본 도면에서 보는 바와 같이 '먹다' 동사가 행위자와 대상을 논항으로 가질 때 의미역을 중심으로 한 선택제약 정보의 예는 다음과 같다.

[먹다 행위자:@사람 대상:@음식물]

따라서, '먹다'라는 동사의 행위자 논항은 사람을 지시하는 명사, 대상 논항은 음식물을 지시하는 명사를 가질 수 있는데, 음성인식 결과의 행위자격에 나타난 '나이'라는 명사는 사람을 지시하지 못하므로 나이는 저녁을 먹었어.라는 문장은 의미적으로 바르지 않은 문장(Not valid)으로 판정된다.

상기 문장 신뢰도 및 문장 의미구조 검사 결과를 조합하여 최종적으로 음성인식 오류 여부를 결정한다. 신뢰도 검사에서 문장은 '유효하지 않음(Not Valid)', '모호함(ambiguous)' 및 '유효함(Valid)'으로 구분되고, 의미구조 검사에서 문장은 '유효하지 않음(not valid)' 및 '유효함(valid)'으로 구분된다. '유효하지 않음'은 오류 발생, '모호함'은 오류 발생 가능성 있음, '유효함'은 오류 발생하지 않음을 의미한다. 음성인식 신뢰도와 문장의 의미구조 검사의 두가지 결과를 조합하여 다음의 [표1]에서와 같이 의해 문장의 수락(Accept), 거절(reject) 또는 확인(confirm) 여부가 결정된다. 문장 신뢰도와 문장의 의미구조가 모두 유효하지 않은 경우에는 거절한다. 문장의 신뢰도는 유효하지 않으나 문장의 의미가 유효한 경우에는 우연히 문장의 의미가 통하는 것일 수 있으므로 거절한다. 문장 신뢰도가 모호한 경우에는 문장의 의미가 유효한가 여부를 불문하고 사용자의 확인을 요한다. 문장 신뢰도는 유효하나 문장의 의미가 유효하지 않은 경우에도 마찬가지로 사용자의 확인의 요한다. 마지막으로 문장 신뢰도와 문장의 의미가 모두 유효한 경우에는 그 결과인 문장을 수락한다.

상기 문장의 오류 판단 결과 문장이 '거절' 또는 '확인'으로 결정되면, 메타-다이얼로그를 생성하게 된다. 사람의 경우 상대방의 말을 잘못 들었을 때에는 그 응답으로서 다양한 종류의 발화를 생성하게 된다. 이러한 종류에 해당하는 사람의 발화를 분석하여 분류한 Matthew Purver의 On the means for clarification dialogue라는 논문에 근거해 메타-다이얼로그의 종류를 도 5와 같이 분류하였다.

먼저, 비반복 유형(510)은 사용자의 발화의 정보를 사용하지 않고 재발화를 요청하는 형태이다. 또한, 문장 반복 유형(520)은 이전 문장을 반복하는 형태로서, 단순히 이전 문장을 반복하는 'literal type'과 인식 못한 부분만 의문사로 대치하여 이전 문장을 반복하는 'wh-substituted type'이 있다. 그리고, 의문사 유형(530)은 의문사만을 가진 설명문 형태를 의미한다. 한편, 부분 반복 유형(540)은 사용자 발화의 일부분만을 포함하여 질문을 하는 형태로서, 문장 반복 유형(520)과 마찬가지로 'literal type' 과 'wh-substituted type'이 있다. 그리고, 갭 유형(gaps type; 550)은 명료하지 못한 단어의 앞 부분을 발화하는 형태를 말하고, 갭 필러 유형(gap filler type; 560)은 불완전한 문장의 부족한 부분을 추측하는 형태이다. 마지막으로 컨벤셔널 유형(conventional type; 570)도 있다.

시스템 발화 생성시에는 사용자에게 혼란을 주지 않는 범위 내에서 대화의 효율성을 추구해야 한다. 따라서 본 발명의 실시예에서는 질문의 내용에 대해 사용자에게 혼란을 일으킬 수 있는 의문사 유형(530) 및 컨벤셔널 유형(570)을 제외한 나머지 다섯가지 유형의 발화를 메타-다이얼로그에서의 발화로 이용한다.

도 6은 도 2의 메타-다이얼로그를 생성하는 과정(S160)을 세부적으로 설명한 흐름도이다.

먼저, 해당 문장에 대하여 음성인식 오류 여부 결정단계에서 분류한 결과가 수락(Accept), 거절(Reject) 또는 확인(Confirmation) 중 어디에 해당하는가를 판단한다(S610). 상기 판단 결과, 상기 문장이 '수락(Accept)'에 해당되면, 올바른 문장으로 판단할 수 있으므로 상기 인식된 문장을 출력하여(S620), 그에 따른 명령 처리 등에 이용할 수 있다. 상기 문장이 '거절(Reject)'에 해당되면, 상기 문장은 올바르게 인식되지 못한 문장으로 판단할 수 있으므로 사용자에게 비반복 유형(510)의 질문을 한다(S630)

한편, 상기 문장이 '확인(Confirmation)'에 해당되면 문장의 구조와 오류의 위치 및 종류에 따라 도 5의 문장 반복 유형(520), 부분 반복 유형(540) 또는 갭 유형(550)의 질문을 한다(S660). 만약, 문장 중 특정 내용의 인식에 소정회수 이상 연속적으로 인식 오류가 발생한다면(S650), 그 단어에 대하여 사용자에게 갭 필러 유형(560)의 질문을 한다(S670). 이러한 질문 방법으로 후보들과 각각 대응되는 다른 어휘로 사용자가 응답을 할 수 있도록 하는 방법과, 상기 후보들을 시각적으로 제시하고 사용자가 각종 입력수단을 통하여 선택할 수 있도록 하는 방법 등이 선택될 수 있다.

S660 단계를 구체적으로 살펴 보면, 제대로 인식되지 못한 부분에 대한 확인을 받기 위해 음성인식결과로부터 메타-다이얼로그에 포함될 내용과 구조를 결정한다. 이에 따라 메타-다이얼로그의 종류가 결정된다. 오인식된 부분을 사용자에게 확인받는 방법에는 두가지가 있다. 첫번째는 의문사를 이용하는 것이고 두번째는 어휘를 그대로 포함시킨 의문문을 이용하는 것이다. 본 발명의 실시예에서는 첫번째를 외적 확인(explicit confirmation), 두번째를 내적 확인(implicit confirmation)이라고 정의한다. 각 단어에 대해 아래와 같은 검사를 수행한다. 도 4b 및 다음의 [표 2]을 참조하면, 단어 신뢰도가 θ₁보다 작거나 해당 단어가 의미적으로 위배된다고 판단되었을 경우에는 해당 단어에 대한 외적 확인(explicit confirmation)을 수행한다. 해당 체언의 용언과의 의존관계가 의미적으로 옳지 않은 경우에는 해당 체언과 용언 중 신뢰도값이 낮은 쪽이 오류가 있는 것으로 판단한다. 단어 신뢰도가 θ₁이상이고 θ₂이하일 때는 내적 확인(implicit confirmation)을 수행한다. 단어신뢰도가 θ₂보다 클 때에는 해당 단어가 올바르게 인식된 것으로 판단할 수 있으므로 그 부분은 메타-다이얼로그에 포함시키지 않는다.

의존 트리의 한 노드에는 하나 이상의 단어가 있을 수 있다. 한 노드에 두개 이상의 단어가 존재할 때에 해당 노드는, 외적 확인에 속하는 단어가 하나라도 있을 때에는 외적 확인 노드, 외적 확인에 속하는 노드는 없으나 내적 확인에 속하는 단어가 있으면 내적 확인 노드, 생략에 속하는 단어만 있으면 생략 노드가 된다. 이렇게 의존 트리의 각 노드에 대해 외적 확인, 내적 확인 또는 생략 여부가 결정되면 트리를 탐색하면서 문장을 만든다. 해당 노드가 외적 확인에 속할 때는 노드의 의미역 및 노드의 명사의 의미 범주에 따라 알맞은 의문사를 선택한다. 트리를 탐색하면서 노드가 '확인(Confirmation)' 노드일 때는 상기 확인 노드 뿐 아니라 상기 확인 노드에서 트리의 최상위(root)에 이르기까지의 부모 노드들도 모두 문장에 포함시킨다. 이 때 부모노드가 생략으로 결정되었다 하더라도 올바른 문장을 만들기 위해 문장에 포함시키게 된다. 단, 불필요한 노드는 제거하여 효율적인 문장을 만들기 위해서 해당 노드가 명사절에 속해 있고 명사절의 부모 노드들이 '확인' 노드가 아닐 경우에는 명사절 내에서의 최상위까지의 부모 노드들만 포함시킨다(예: 도 7a). 이 원칙에 의해 트리를 탐색하면서 문장을 구성하면 도 7a 내지 도 7e의 실시예와 같은 다양한 유형의 메타-다이얼로그가 구성된다. 각 도면에서 트리 형태로 구성된 문장은 인식된 문장을 나타낸 것이고, 'S :' 으로 표현한 이후의 문장은 본 발명에 따른 장치가 상기 사용자에게 하는 질문의 형태를 나타낸 것이다.

먼저, 도 7a는 wh-substituted type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '오빠가(715)'라는 단어의 음성 인식 신뢰도는 θ₁보다 작아서 외적 확인이 필요한 경우로서, '오빠가'(715)라는 부분을 의문사 '누가'로 대치하고 질문을 한다. 다만, '오빠가'(715)라는 노드는 '오빠가 볼 만한 영화' 라는 명사절에 속해 있으므로, 명사절 내에서의 최상위 노드인 '영화를'(712)까지의 부모 노드만 포함하여 질문을 한다. 따라서, 그 결과는 '누가 볼만한 영화요?'와 같이 된다.

도 7b는 literal type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '오빠가(725)'라는 노드의 음성 인식 신뢰도는 θ₁과 θ₂사이에 있어서 내적 확인이 필요한 경우로서, 도 7a에서와 마찬가지로 '오빠가'(725)라는 노드는 명사절에 속해 있으므로, '영화를'(722)까지의 부모 노드만 포함하여 질문을 한다. 따라서, 그 결과는 '오빠가 볼만한 영화요?' 와 같이 된다.

도 7c는 wh-substitued type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '과일이'(733)라는 단어의 음성 인식 신뢰도는 θ₁보다 작아서 외적 확인이 필요한 경우이다. 또한, '내일'이라는 단어의 음성 인식 신뢰도는 θ₁과 θ₂사이에 있어서 내적 확인이 필요한 경우이다. 도 7a와는 달리 해당 단어가 명사절에 속해있지는 않으므로, 문장 전체를 반복하되 '과일이'(733)라는 단어는 의문사로 대치하고, '내일(732)'이라는 단어는 반복을 하여 질문을 한다. 따라서, 그 결과는 '내일 뭐가 온다구요?' 와 같이 된다.

도 7d는 literal type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '한시부터(743)' 및 '시험이'(745)라는 단어의 음성 인식 신뢰도는 양자 모두 θ₁과 θ₂ 사이에 있어서 내적 확인이 필요한 경우로서, 해당 단어부분을 인식된 대로 반복하여 다시 질문을 한다. 따라서, 그 결과는 '한시부터 시험이 있다구요?'와 같이 된다.

도 7e는 갭 유형에 대한 메타-다이얼로그를 작성한 예이다. 연속된 단어 '두시간동안'(753), '시험이'(754) 및 '있어'(755)의 음성 인식 신뢰도는 θ₁보다 작아서 모두 외적 확인이 필요한 경우로서, 명료하지 못한 연속된 단어의 앞에 있는 부분을 발화하는 형태이다. 따라서, 그 결과는 '오늘 한시부터 뭐라구요?'와 같이 된다.

도 6에서의 670단계에 해당하는 갭 필러(gap filler) 유형의 대화 형태를 구체적으로 살펴 본다. 이러한 갭 필러 유형의 질문은 소정 이상의 회수이상 연속하여 오류가 발생한 경우에 적용할 수 있는 방식이다. 음성인식의 'Out of Vocabulary(이하 OOV라 함)' 문제 발생시에는 사용자가 반복적으로 상기 문장 반복, 부분 반복, 또는 갭 유형의 질문들에 응답을 하여도 문장이 제대로 인식이 되지 않는다. 특히, 음성대화 시스템이 영화제목 검색 어플리케이션 등의 인터넷 정보 검색 어플리케이션에서 사용되는 경우와 같이 신조어가 많이 사용되는 환경에서는 이러한 현상이 발생하기 쉽다. 음성인식이 성공할 수 없음에도 불구하고 이러한 경우에 질문을 반복하게 되면 사용자로 하여금 발화 부담을 주게 되고, 음성인식기를 사용하는 시간을 낭비하게 되므로 바람직하지 못하다. 따라서, 이와 같은 OOV 문제가 발생하는 경우에는 후보들과 각각 대응되는 다른 어휘로 사용자가 응답을 할 수 있도록 하는 방법과, 상기 후보들을 시각적으로 제시하고 사용자가 각종 입력수단을 통하여 선택할 수 있도록 하는 방법이 적용될 수 있다.

먼저, 전자의 방법을 살펴본다. 사용자가 '9일 메가박스에 다크니스를 예약해줘' 라는 발화를 했을 때 '다크니스'가 제대로 인식이 되지 않는다고 한다. 그리고, '뭘 예약해 달라구요?' 와 같은 메타-다이얼로그를 통해서도 일정 횟수 이상 인식 오류가 발생하는 경우에는, 인식할 수 없는 '다크니스'를 인식할 수 있는 '두번째'와 같은 어휘로 대체하여 가리킬 수 있도록 다음과 같은 메타-다이얼로그를 생성한다. '어느 영화를 예약할지 첫번째, 두번째 등으로 대답해 주세요. 첫번째 와일드 카드, 두번째 살인의 추억, 세번째 다크니스, 네번째 매트릭스2입니다.' 라는 질문에 대하여 사용자가 '두번째'라는 대답을 하면 음성 인식 시스템은 '두번째'라는 단어를 음성인식한 후 이를 '다크니스'라고 변환하여, 결국, '9일 메가박스에 다크니스를 예약해줘' 라는 문장을 인식할 수 있게 된다.

후보의 수가 많아서 사용자가 기억하기 힘든 경우에는 멀티 모달(multi-modal) 인터페이스를 통하여 해결한다. 특히, 음성대화 시스템이 PC 또는 로봇(robot)에서 구현되는 경우에 더욱 유용하다. 도 8에서와 같이 터치 스크린(810)을 구비한 음성인식 로봇에게 사용자가 '오늘 생로병사의 비밀을 녹화해' 라는 발화를 하였다고 하자. 만약, '생로병사의 비밀(820)'에 해당하는 부분이 잘못 인식이 되고 인식 오류가 반복이 될 때에는 '녹화하고 싶은 프로그램을 선택하세요' 라는 시스템 발화와 함께 녹화 가능한 프로그램 리스트를 제시한다. 사용자는 이에 대하여, 키보드 입력 또는 터치 스크린(810)을 통한 입력으로 원하는 항목 '지구촌 리포트(820)'를 선택하면 결국, 음성 인식 시스템이 '오늘 지구촌 리포트 녹화해'라는 문장을 처리할 수 있게 된다.

도 9a는 본 발명의 동작을 전체적으로 살펴보기 위한 예로서, 사용자와 음성대화 시스템과의 대화를 나타낸 것으로, 본 발명의 음성대화시스템이 영화 예약 어플리케이션에 사용된 경우이다. 시스템은 사용자가 발화한 단어 '주온'을 '추운 날'로 인식하고, 인식된 문장에 대하여 도 9b와 같은 의존 트리를 구성한다. 상기 의존 트리에서 인식된 '추운'과 '날'은 외적 확인에 해당하여, 이의 부모 노드인 '예약해줘' 를 포함한 '뭘 예약해 달라구요?' 라는 문장이 형성된다. 사용자가 다시 '주온'이라고 대답한 단어를 시스템은 '좋아'라고 인식한다. 도 6의 S650의 '소정 회수'가 2회라고 가정한다면, 두 번 오류 인식을 하게 된 시스템은 갭 필러 유형의 질문을 하게 되고, 사용자가 '두번째'라고 답하면 시스템은 원래 사용자가 발화했던 문장을 바르게 인식할 수 있다. 그리고, 시스템은 사용자의 요구를 처리하기 위하여 추가적으로 장소 및 시간을 사용자에게 질문하게 된다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

본 발명에 따르면, 음성 대화 시스템의 음성 인식률 및 대화 성공률을 향상시킴으로써 음성 대화 시스템의 전체적인 성능을 향상시키는 효과가 있다.

또한 본 발명에 따르면, 음성 인식시에 오류가 발생하는 경우에 발화 회수 및 발화량을 감소시킴으로써 음성 대화 시스템을 사용하는 사용자의 편의성을 증진시키는 효과가 있다.

도 1은 본 발명에 의한 장치의 구성에 대한 일 실시예를 도시한 블록도이다.

도 2는 본 발명에 의한 방법을 실시하는 과정을 도시한 흐름도이다.

도 3은 도 2의 인식 오류 여부 판단 단계(S140)를 세부적으로 나타낸 흐름도이다.

도 4a는 단어 신뢰도를 이용하여 문장 신뢰도를 구하는 과정을 설명한 흐름도이다.

도 4b는 단어 신뢰도의 판단 기준이 되는 Θ1, Θ2를 실험적으로 구하는 방법을 나타낸 것이다.

도 4c는 의미구조 검사를 위해 음성인식 결과 문장의 의존 트리를 구성한 예이다.

도 5는 메타-다이얼로그의 종류를 분류한 테이블이다.

도 6은 메타-다이얼로그를 생성하는 과정을 세부적으로 설명한 흐름도이다.

도 7a는 wh-substituted type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예을 나타낸 것이다.

도 7b는 literal type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.

도 7c는 wh-substitued type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.

도 7d는 literal type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.

도 7e는 갭 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.

도 8은 터치스크린을 구비한 음성인식 로봇의 외형을 나타낸 것이다.

도 9a는 본 발명에 따른 사용자와 음성 인식 장치와의 대화 과정을 예시한 것이다.

도 9b는 도 9a의 예에서 사용자의 발화에 대하여 음성 인식 장치가 인식한 문장을 의존 트리로 구성한 것이다.

Claims

음성 대화 시스템에서의 음성 인식 오류를 처리하는 장치에 있어서,

사용자로부터 입력된 음성신호의 특징을 추출하고, 상기 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 음성 인식부;

상기 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 상기 문장에 대한 의미구조 검사를 수행하며, 상기 문장 신뢰도 및 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 인식 오류 판단부; 및

상기 오류가 존재하는 부분의 내용 및 상기 오류의 종류를 고려하여 사용자에게 물어볼 질문을 생성하는 메타-다이얼로그 생성부를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제1항에 있어서,

마이크로폰을 통하여 사용자가 발화한 아날로그 음성신호를 입력 받는 음성 신호 입력부를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제1항에 있어서,

상기 메타-다이얼로그 생성부로부터 생성된 질문을 음성 또는 화면을 통하여 사용자에게 전달하는 메타-다이얼로그 출력부를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제3항에 있어서, 상기 메타-다이얼로그 생성부는

상기 생성된 질문을 시스템 음성으로 합성하여 외부의 사용자에게 출력하는 음성합성부; 및

상기 생성된 질문을 화면으로 출력하고, 사용자로 하여금 소정 항목을 선택할 수 있도록 메뉴를 출력하는 화면생성부를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제1항에 있어서, 상기 문장의 신뢰도는

각 단어별 정답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₂, 오답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₁ 및 문장이 유효하지 않다고 판단할 수 있는 문장 내 오류가 있거나 오류 가능성 있는 단어수의 임계치 α 값을 이용하여 구하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제5항에 있어서, 상기 문장의 신뢰도는

단어의 신뢰도 값이 상기 θ₂값보다 작은 단어의 수를 NUM이라고 할 때, 상기 NUM 값이 0인 경우에는 문장이 유효한 것으로, 상기 α 값보다 크면 유효하지 않은 것으로, 그리고 1보다 크거나 같고 상기 α 값보다 작으면 모호한 것으로 판단하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제1항에 있어서, 상기 의미구조 검사는 상기 음성 인식부를 통하여 인식된 문장을 분석하여 의존 트리를 구성하고 상기 의존 트리를 구성하는 각 논항의 의미가 타당한가를 판단하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제6항에 있어서, 상기 음성 인식된 문장에 오류가 있는지를 판단하는 기준은 상기 문장의 의미구조 검사결과 문장의 유효 여부를 판단한 후,

상기 판단된 문장의 신뢰도가 유효하지 않으면 문장을 거절하고, 상기 판단된 문장의 신뢰도가 유효하고 상기 문장의 의미구조 검사 결과가 유효한 경우에는 문장을 수락하며, 그 이외의 경우에는 사용자의 확인을 요하는 것임을 특징으로 하는 음성 인식 오류 처리 장치.
제1항에 있어서, 상기 질문은

각 단어별 정답으로 판단되는 신뢰도 θ₂, 오답으로 판단되는 신뢰도 θ₁를 구하고, 상기 인식한 단어의 신뢰도가 θ₁보다 작은 경우에는 의문사로 대치하고, θ₂보다 큰 경우에는 반복하지 않고 생략하며, θ₁보다 크거나 같고 θ₂보다 작거나 같은 경우에는 인식된 단어의 어절을 그대로 반복질문하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제1항에 있어서, 상기 질문은

문장 내의 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 단어의 후보들과 이에 각각 대응되는 다른 어휘를 제시하고, 사용자가 상기 대응되는 다른 어휘를 선택할 수 있도록 하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제1항에 있어서, 상기 질문은

문장 내의 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 후보들을 시각적으로 제시하고, 사용자가 각종 입력수단을 통하여 선택할 수 있도록 하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제1항에 있어서, 상기 질문은

문장 내의 특정 부분에 대하여 소정회수 미만의 인식 오류가 발생한 경우에는 문장을 구성하는 단어의 단어 신뢰도에 따라 문장반복 유형, 부분반복 유형 또는 갭 유형의 질문 중의 하나인 것을 특징으로 하는 음성 인식 오류 처리 장치.
제1항에 있어서, 상기 질문은

인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드인 경우에는 트리의 최상위에 이르기까지의 부모 노드들을 포함하여 구성되는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제1항에 있어서, 상기 질문은

인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드이고 해당 노드의 부모 노드들에 오류가 없으며, 상기 노드가 명사절에 포함된 경우에는 명사절 내에서의 최상위까지의 부모 노드들을 포함하여 구성되는 것을 특징으로 하는 음성 인식 오류 처리 장치.
제1항에 있어서, 상기 질문은

연속된 단어의 인식 오류가 발생한 경우에는 오류가 발생한 연속된 단어의 앞에 있는 부분을 포함하여 구성하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
음성 대화 시스템에서의 음성 인식 오류를 처리하는 방법에 있어서,

사용자로부터 입력된 음성신호의 특징을 추출하고, 상기 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 제1단계;

상기 인식한 단어의 신뢰도로부터 구한 문장 신뢰도와 상기 문장의 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 제2단계; 및

상기 오류가 존재하는 부분의 내용 및 상기 오류의 종류를 고려하여 사용자에게 물어 볼 질문을 생성하는 제3단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항에 있어서,

마이크로폰을 통하여 사용자가 발화한 아날로그 음성신호를 입력 받는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항에 있어서,

상기 생성된 질문을 음성 또는 화면을 통하여 사용자에게 전달하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항에 있어서, 상기 문장의 신뢰도는

각 단어별 정답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₂, 오답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₁ 및 문장이 유효하지 않다고 판단할 수 있는 문장 내 오류가 있거나 오류 가능성 있는 단어수의 임계치 α 값을 이용하여 구하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항에 있어서, 상기 문장의 신뢰도를 구하는 과정은

단어의 신뢰도 값이 상기 θ₂값보다 작은 단어의 수를 NUM이라고 할 때,

상기 NUM 값이 0인 경우에는 문장이 유효한 것으로 판단하는 단계;

상기 NUM 값이 상기 α 값보다 크면 유효하지 않은 것으로 판단하는 단계; 및

상기 NUM 값이 1보다 크거나 같고 상기 α 값보다 작거나 같으면 모호한 것으로 판단하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항에 있어서, 상기 의미구조 검사 과정은

상기 음성 인식부를 통하여 인식된 문장을 분석하여 의미격이 부착된 의존 트리를 구성하는 단계; 및

상기 의존 트리를 구성하는 각 논항의 의미가 타당한가를 판단하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제20항에 있어서, 상기 음성인식된 문장에 오류가 있는지를 판단하는 기준을 구하는 과정은

상기 문장의 의미구조 검사를 하여 문장의 유효 여부를 판단하는 단계; 및

상기 판단된 문장의 신뢰도가 유효하지 않으면 문장을 거절하고, 상기 판단된 문장의 신뢰도가 유효하고 상기 문장의 의미구조 검사 결과가 유효한 경우에는 문장을 수락하며, 그 이외의 경우에는 사용자의 확인을 요하는 것으로 분류하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항에 있어서, 상기 제3단계는

각 단어별 정답으로 판단되는 신뢰도 θ₂, 오답으로 판단되는 신뢰도 θ₁를 구하는 단계;

상기 인식한 단어의 신뢰도가 θ₁보다 작은 경우에는 의문사로 대치하고, θ₂보다 큰 경우에는 반복질문하지 않고 생략하는 단계; 및

상기 단어 신뢰도가 θ₁보다 크거나 같고 θ₂보다 작은 경우에는 인식된 단어의 어절을 그대로 반복질문하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항에 있어서, 상기 제3단계는

문장 내 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 단어의 후보들과 이에 각각 대응되는 다른 어휘를 제시하는 단계; 및

사용자가 상기 대응되는 다른 어휘를 선택하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항에 있어서, 상기 제3단계는

문장 내 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 후보들을 시각적으로 제시하는 단계; 및

사용자가 각종 입력수단을 통하여 선택하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항에 있어서, 상기 제3단계는

문장 내 특정 부분에 대하여 소정회수 미만의 인식 오류가 발생한 경우에는 문장을 구성하는 단어의 단어 신뢰도에 따라 문장반복 유형, 부분반복 유형 또는 갭 유형의 질문 중의 하나를 선택하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항에 있어서, 상기 제3단계는

인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드인 경우에는 트리의 최상위에 이르기까지의 부모 노드들을 포함하여 구성되는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제1항에 있어서, 상기 제3단계는

인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드이고 해당 노드의 부모 노드들에 오류가 없으며, 상기 노드가 명사절에 포함된 경우에는 명사절 내에서의 최상위까지의 부모 노드들을 포함하여 구성되는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항에 있어서, 상기 제3단계는

연속된 단어의 인식 오류가 발생한 경우에는 오류가 발생한 연속된 단어의 앞에 있는 부분을 포함하여 구성되는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
제16항 내지 제29항 중 어느 한 항의 방법을 컴퓨터로 판독가능한 프로그램으로 기록한 기록매체.