KR20050015586A - 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 - Google Patents

음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치

Info

Publication number
KR20050015586A
KR20050015586A KR1020030054475A KR20030054475A KR20050015586A KR 20050015586 A KR20050015586 A KR 20050015586A KR 1020030054475 A KR1020030054475 A KR 1020030054475A KR 20030054475 A KR20030054475 A KR 20030054475A KR 20050015586 A KR20050015586 A KR 20050015586A
Authority
KR
South Korea
Prior art keywords
sentence
reliability
word
speech recognition
user
Prior art date
Application number
KR1020030054475A
Other languages
English (en)
Other versions
KR100577387B1 (ko
Inventor
김정은
이재원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020030054475A priority Critical patent/KR100577387B1/ko
Priority to US10/911,675 priority patent/US7493257B2/en
Publication of KR20050015586A publication Critical patent/KR20050015586A/ko
Application granted granted Critical
Publication of KR100577387B1 publication Critical patent/KR100577387B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 인식시에 오류 가능성이 있는 부분의 해결을 위해 그 부분에 관련된 내용을 발화자에게 되물어보고 그 반응 지식에 의하여 음성인식 결과의 불분명한 부분을 해결하는 음성 인식 기술에 관한 것이다.
본 발명에 따른 장치는 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 음성 인식부; 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 문장에 대한 의미구조 검사를 수행하며, 문장 신뢰도 및 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 인식 오류 판단부; 및 오류가 존재하는 부분의 문장 내에서의 위치와 역할 및 오류의 종류를 고려하여 사용자에게 물어볼 질문을 생성하는 메타-다이얼로그 생성부로 이루어진다.
본 발명에 따른 방법은 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 제1단계; 인식한 단어의 신뢰도로부터 구한 문장 신뢰도와 문장의 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 제2단계; 및 오류가 존재하는 부분의 문장 내에서의 위치와 역할 및 오류의 종류를 고려하여 오류 부분을 해결하기 위한 메타-다이얼로그를 생성하는 제3단계로 이루어진다.

Description

음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치{Method and apparatus for handling speech recognition errors in spoken dialogue systems}
본 발명은 음성 인식 기술에 관한 것으로서, 특히 음성 인식시에 오류 가능성이 있는 부분의 해결을 위해 그 부분에 관련된 내용을 발화자에게 되물어보고 그 반응 지식에 의하여 음성인식 결과의 불분명한 부분을 해결하는 음성 인식 기술에 관한 것이다.
종래의 기술에 의한 연속어 음성인식 기술에서는 음성인식 결과에 오류 가능성이 있는 구간이 있음에도 불구하고 그 오류 가능성에 대한 고려가 없어 신뢰성이 낮은 결과를 출력한다. 음향적으로나 의미적으로 오류 가능성이 있는 구간을 추정하고 해소하고자 하는 경우에도 시스템 내부 규칙에 의거하여 일방적으로 결정된 결과를 출력한다. 그런데, 시스템 내부 규칙은 매우 불완전하여 그 결과에 대한 에러 발생률이 높다. 이와 같이 음성인식기는 100%의 성능을 가질 수 없으므로 음성 대화 시스템에서 음성 인식률의 한계를 보완할 수 있는 방법이 필요하다.
기존의 공개된 특허출원 '인간 반응형 음성인식장치(2001-0086902)'는 문장으로부터 애매성 구간을 추출하는 애매성구간추출부와 애매성 구간을 해소하기 위하여 질문을 생성하는 질문생성부를 포함하고 있다. 그러나, 이 발명에서는 음성대화시스템과 사용자 간에 성공적이면서도 효율적으로 대화가 이루어지기 위해서 어떻게 사용자에게 질문을 해야하는지를 구체적으로 고려하고 있지 않다. 음성대화시스템의 지능을 높이고 시스템의 성능과 편의성을 동시에 높이기 위해서는 사람의 대화 현상에 대한 분석을 통해 사람의 발화에서처럼 대화의 효율성, 효과성, 유연성을 높일 수 있는 방향으로 시스템의 발화를 만들어내야 한다.
한편, 미국특허 'Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores(US6567778)' 에서는 응용 프로그램이 필요로 하는 정보에 대한 명세 사항(specification)을 이용하여 음성인식 결과로부터 슬롯(slot)을 만들고, 슬롯 신뢰도를 구하여 슬롯 신뢰도가 낮을 때에 해당 슬롯에 대해 사용자에게 질문을 하는 방식을 취하고 있다. 따라서 이것은 응용 프로그램에 대한 의존도가 높아서 응용 프로그램에 따라서는 쉽게 이용하기 어려운 경우가 발생할 수 있다. 예를 들어 응용 프로그램이 여러 도메인을 동시에 서비스 하거나, 과업 지향(task-oriented)적이 아닌 일상대화 류의 대화를 수행할 때 또는 음성대화 시스템의 대화 주도권이 시스템에 있는 것이 아니라 사용자에게 있거나 시스템과 사용자 모두에게 있을 때에는 슬롯을 구성하기가 힘들기 때문에 이 방식은 사용되기 힘들다.
또한, 상기 특허 기술들로는 사용자에게 질문을 다시 했으나 계속 음성인식을 실패하는 경우에 대한 대책이 없으므로, 이러한 경우에는 사용자의 명령을 처리해 줄 수 없는 경우가 생길 수 있다. 따라서, 음성을 인터페이스로 하여 사용자와 대화를 함으로써 사용자의 요구를 처리하는 음성대화 시스템에서 반복적인 음성인식 오류 발생시의 처리 방법을 강구할 필요가 있다.
본 발명은 상기의 문제점을 해결하기 위하여 안출된 것으로, 음성 인식에 있어서 음향적, 의미적 오류 가능성을 보다 정확히 해소할 수 있는 인간 반응형 음성 인식 장치 및 그 방법을 제공함을 목적으로 한다.
또한 본 발명은 음성인식 결과를 토대로 오류의 포함 여부를 판정하고 음성인식 오류 발생시 효율적인 회복이 가능하도록 메타-다이얼로그(Meta-Dialogue)를 디자인하는 데 그 목적이 있다. 이러한 메타-다이얼로그는 사용자와 시스템 간의 대화 중에서 발생한 오류가 있을 때 이를 해결하기 위한 대화를 의미한다.
상기한 목적을 달성하기 위하여, 본 발명에 따른 음성 대화 시스템에서의 음성 인식 오류를 처리하는 장치는, 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 음성 인식부; 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 문장에 대한 의미구조 검사를 수행하며, 문장 신뢰도 및 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 인식 오류 판단부; 및 오류가 존재하는 부분의 내용 및 오류의 종류를 고려하여 시스템 응답을 생성하는 메타-다이얼로그 생성부로 이루어진다.
본 발명에 따른 음성 대화 시스템에서의 음성 인식 오류를 처리하는 방법은, 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 제1단계; 인식한 단어의 신뢰도로부터 구한 문장 신뢰도와 문장의 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 제2단계; 및 오류가 존재하는 부분의 내용 및 오류의 종류를 고려하여 메타-다이얼로그를 생성하는 제3단계로 이루어진다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 일 실시예를 상세히 설명한다.
도1은 본 발명에 의한 장치의 구성에 대한 일 실시예를 도시한 블록도이다. 본 도면에 의하면 본 발명에 의한 장치(100)는 음성신호 입력부(110), 음성 인식부(120), 인식오류 판단부(130), 메타-다이얼로그 생성부(140) 및 메타-다이얼로그 출력부(150)를 포함하는 데, 각 구성요소는 각종 형태의 정보시스템과 그 정보시스템에서 수행되는 소프트웨어의 결합체로서 구성될 수 있다.
음성신호 입력부(110)는 사용자가 발화한 아날로그 음성신호를 입력 받는 역할을 한다. 마이크로폰과 같은 장치가 이에 해당할 수 있다.
음성 인식부(120)는 기존의 고안된 방법들을 이용하여 구성할 수 있다. 일 예로서, 음성 인식부(120)는 아날로그 음성신호를 디지털 데이터로 변환하고 음성 특징들을 추출하는 음성특징 추출부(121), 음향 모델에서 음성특징에 가장 가까운 음소를 찾아내고, 찾아낸 음소들로부터 단어를 구성하고, 단어별로 그 일치정도를 나타내는 음향모델 확률값을 계산하는 음향모델 탐색부(122) 및 언어 모델에서의 단어 사이의 문법적 관계와 통계적 연결관계를 이용하여 다음에 인식되는 단어에 대한 복수개의 단어 후보를 발생시키고 각각에 대하여 언어모델 확률값을 계산하는 언어모델 탐색부(123)로 구성될 수 있다. 음향 모델과 언어 모델은 정보시스템에서 데이터베이스의 형태로 구성되는 것이 바람직하다.
인식 오류 판단부(130)는 음성 인식부(120)가 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 인식된 문장에 대한 의존 트리를 구성하여 상기 문장에 대한 의미구조 검사를 수행하며, 문장 신뢰도 및 의미구조 검사 결과를 종합한 일정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 기능을 담당한다.
메타-다이얼로그 생성부(140)는 음성인식 오류 부분을 사용자가 다시 발화해 주도록 요구하여 음성인식 오류를 해결할 수 있도록 시스템 발화를 생성한다. 상기 문장 중에서 오류가 존재하는 부분의 내용 및 오류의 종류를 고려하여 비반복 유형, 문장 반복 유형, 부분 반복 유형, 갭 유형 또는 갭 필러 유형 중에서 사용자에게 전달할 합당한 발화를 생성하고, 메타-다이얼로그 출력부(150)를 통하여 사용자에게 생성된 발화를 전달하는 역할을 한다.
또한, 메타-다이얼로그 출력부(150)는 메타-다이얼로그 생성부(140) 로부터 생성된 질문을 음성 또는 화면을 통하여 사용자에게 전달하는 기능을 담당한다. 메타-다이얼로그 출력부(150)는 다시 상기 생성된 질문을 시스템 음성으로 합성하여 외부의 사용자에게 출력하는 음성합성부(151)와, 상기 생성된 질문을 화면으로 출력하고 사용자로 하여금 항목 중에서 하나를 선택할 수 있도록 하는 메뉴를 출력하는 화면생성부(152)를 포함하고 구성된다.
도 2는 본 발명에 의한 방법을 실시하기 위한 과정을 도시한 흐름도이다. 먼저, 음성신호 입력부(110)를 통하여 아날로그 음성신호가 입력되면, 입력된 아날로그 음성신호는 음성특징 디지털 데이터로 변환된다(S100). 변환된 디지털 데이터에서 일정간격(frame)으로 주파수 특성이 음성특징 추출부(121)를 통하여 추출되어 벡터 수치화되는데, 벡터 수치화된 주파수 특성이 음성 특징으로 사용된다(S110). 상기 음성 특징은 음향모델 탐색부(122)를 통하여 음향 모델 내의 각 음소에 대응하는 음성 특징과 그 유사도를 비교하여 가장 가까운 음소를 검색하고, 검색된 음소들로부터 단어를 생성한다(S120). 이후, 언어모델 탐색부(123)에서 언어 모델을 이용하여 현재 단어와 다음에 인식될 단어를 미리 예측한다. 다음에 인식될 단어의 후보는 복수 개가 발생되는데, 이들을 모두 격자구조로 연결되고 문장끝에서 각각의 확률값이 계산되어 하나 이상의 인식 후보 문장들을 생성된다(S130). 이와 같이 음성 인식부에서 이루어지는 S110 내지 S130의 과정은 종래의 기술을 이용하여 구성할 수 있다. 다음으로 인식오류 판단부(130)을 통하여 문장 신뢰도 및 의미구조 검사를 통하여 일정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단한다(S140). 이와 같은 인식 오류 여부 판단 단계(S140)는 도 4a에서 상세히 설명하기로 한다.
상기 판단 결과 인식된 문장에 오류가 없는 것으로 판단되면, 상기 인식된 문장을 출력하고, 상기 인식된 결과를 필요한 용도에 사용한다(S199). 한편, 상기 판단 결과 문장에 오류가 있는 것으로 판단되면, 메타-다이얼로그 생성부(140)를 통하여, 사용자와의 대화를 통하여 음성 인식 오류를 수정할 수 있도록 하는 메타-다이얼로그를 생성한다(S160). 그리고, 생성된 메타-다이얼로그를 음성 합성부(151) 또는 화면생성부(152)를 통하여 음성 또는 화면으로 출력하여 사용자가 응답할 수 있게 한다(S170). 그러면, 사용자는 상기 메타-다이얼로그 상의 질문에 다시 발화하여 응답하고, 음성 인식 시스템은 이러한 사용자 응답을 처리한다(S180). 상기 사용자 응답을 처리 하는 과정을 살펴 보면, 사용자가 발화한 음성신호을 입력 받은 후 S110 내지 S130 단계와 같은 음성 인식 과정을 다시 거치게 되고, 음성 인식 시스템은 다시 S140 단계와 같이 음성 인식 오류 여부를 판단하여 문장 신뢰도 및 의미구조 검사 결과를 종합한 일정 기준에 따라 문장에 오류가 있는가를 판단한다(S190).
상기 판단 결과, 문장에 오류가 있다고 판단되면 다시 메타-다이얼로그를 생성하고 사용자와 대화하는 단계(S160)로 돌아가서, 그 이하 단계를 반복하게 된다. 그리고, 문장에 오류가 없다고 판단되면 인식된 문장을 출력하고, 인식된 결과를 필요한 용도에 사용한다(S199).
도 3은 음성인식 오류 여부를 판단하는 과정을 설명한 흐름도로서 도 2에서의 S140 단계를 세부적으로 나타낸 것이다. 먼저 음성인식된 문장의 단어 신뢰도를 이용하여 문장의 신뢰도를 검사하고(S122), 상기 문장의 의미구조를 검사한다(S123). 마지막으로, 상기 문장 신뢰도와 상기 의미구조 검사 결과를 바탕으로 문장을 수락(Accept), 거절(Reject) 또는 확인(Confirmation)의 범주로 구분한다(S124).
도 4a는 도 3의 단어 신뢰도를 이용하여 문장 신뢰도를 구하는 과정(S122)을 상세히 설명한 흐름도이다. 이러한 단어 인식의 신뢰도는 종래의 기술을 이용하여 구할 수 있는데, 음성인식부(120)에서 음향 모델 및 언어모델을 이용하여 산출할 수 있으며 각 단어마다 부착되어 수치로서 표현될 수 있다. 이러한 단어 신뢰도는 공개된 특허출원 '2001-0086902'에서와 같이 기존에 고안된 방법을 사용하여 구할 수 있다.
단어의 신뢰도를 이용하여 문장의 오류 여부를 판단하는 방법은 다음과 같다. 음성인식 실험을 통해 음성인식기가 결과로 산출한 문장에 속해 있는 단어들의 단어 신뢰도 값을 수직선상에 표시하고 각 단어의 정답/오답 여부를 표시하면 도 4b아래와 같은 그래프로부터 임계치 값 θ₁, θ₂를 얻을 수 있다(S410). 종래에는 정답 또는 오답을 결정하는 임계치 값이 하나만 존재하여 단어 신뢰도가 그 임계치를 넘을 경우에는 정답으로, 그렇지 않은 경우에는 오답으로 판단하였다. 그러나 실제로는 임계치 값과 가까운 단어신뢰도를 가진 단어의 경우에는 상황에 따라 단어 신뢰도 값이 같은 단어들이 정답이 되기도 하고 오답이 되기도 하는 문제가 있다. 따라서, 본 발명에서는 임계치 값을 θ₁, θ₂의 2개로 두어, 단어 신뢰도가 θ₂보다 큰 경우에는 정답으로, 단어 신뢰도가 θ₁보다 작은 경우에는 오답으로, 그리고, 단어의 신뢰도가 θ₁이상이고 θ₂이하인 값을 가질 경우에는 정답 일수도 있고 오답 일수도 있는 것으로 분류하였다.
다음으로, 문장내에서 오류가 있거나 오류 가능성 있는 단어의 수에 대한 임계치 α를 결정하는데, 이 임계치 α는 실험을 통하여 사용환경에 따라 사용자가 필요로 하는 값으로 정할 수 있다(S420). 그리고, 음성인식부(120)에서 음성인식 결과로 N-best 가설을 산출하면 이 N개의 문장들에 대해 상위 등위의 문장부터 차례로 도4a에서의 S430부터 그 이후의 과정을 수행한다. 단어 신뢰도값이 θ₂보다 작은 인 단어의 수를 세고(S430), 이 수를 NUM이라고 할 때 그 값과 임계값과의 비교를 통하여 문장의 범주가 결정된다. 만약, NUM 값이 0인 경우에는 모든 단어는 정답에 해당하므로 유효한 것(Valid)으로 판단하고(S460), NUM 값이 임계치 α보다 크면 문장의 단어가 허용 오류의 개수를 넘으므로 유효하지 않은 것(Not Valid)으로 판단한다(S470). 그리고, NUM 값이 1보다 크거나 같고 α보다 작거나 같을 경우에는 모호한 것(Ambiguous)으로 판단한다(S480). 해당 문장이 유효한 문장으로 판단된 경우에는 남은 문장들에 대해서는 인식 오류 여부 검사 과정을 수행하지 않는다. N개의 문장이 모두 유효하지 않거나, 모호한 경우에는 가장 상위에 있는 문장으로 의미구조 검사(S123)를 수행한다.
상기와 같은 문장의 신뢰도 검사가 끝나면, 음성인식 결과가 의미적으로 타당한 문장인지를 검사한다(S123). 나는 저녁을 먹었어.라는 사용자 발화를 음성인식하여 결과로 나온 나이는 저녁을 먹었어.라는 문장에 대해서 구문분석을 수행한 후, 의미역(thematic role) 분석을 하면 도4c와 같이 의미역이 부착된 의존 트리(Dependency Tree)를 얻을 수 있다. 본 도면에서 보는 바와 같이 '먹다' 동사가 행위자와 대상을 논항으로 가질 때 의미역을 중심으로 한 선택제약 정보의 예는 다음과 같다.
[먹다 행위자:@사람 대상:@음식물]
따라서, '먹다'라는 동사의 행위자 논항은 사람을 지시하는 명사, 대상 논항은 음식물을 지시하는 명사를 가질 수 있는데, 음성인식 결과의 행위자격에 나타난 '나이'라는 명사는 사람을 지시하지 못하므로 나이는 저녁을 먹었어.라는 문장은 의미적으로 바르지 않은 문장(Not valid)으로 판정된다.
상기 문장 신뢰도 및 문장 의미구조 검사 결과를 조합하여 최종적으로 음성인식 오류 여부를 결정한다. 신뢰도 검사에서 문장은 '유효하지 않음(Not Valid)', '모호함(ambiguous)' 및 '유효함(Valid)'으로 구분되고, 의미구조 검사에서 문장은 '유효하지 않음(not valid)' 및 '유효함(valid)'으로 구분된다. '유효하지 않음'은 오류 발생, '모호함'은 오류 발생 가능성 있음, '유효함'은 오류 발생하지 않음을 의미한다. 음성인식 신뢰도와 문장의 의미구조 검사의 두가지 결과를 조합하여 다음의 [표1]에서와 같이 의해 문장의 수락(Accept), 거절(reject) 또는 확인(confirm) 여부가 결정된다. 문장 신뢰도와 문장의 의미구조가 모두 유효하지 않은 경우에는 거절한다. 문장의 신뢰도는 유효하지 않으나 문장의 의미가 유효한 경우에는 우연히 문장의 의미가 통하는 것일 수 있으므로 거절한다. 문장 신뢰도가 모호한 경우에는 문장의 의미가 유효한가 여부를 불문하고 사용자의 확인을 요한다. 문장 신뢰도는 유효하나 문장의 의미가 유효하지 않은 경우에도 마찬가지로 사용자의 확인의 요한다. 마지막으로 문장 신뢰도와 문장의 의미가 모두 유효한 경우에는 그 결과인 문장을 수락한다.
상기 문장의 오류 판단 결과 문장이 '거절' 또는 '확인'으로 결정되면, 메타-다이얼로그를 생성하게 된다. 사람의 경우 상대방의 말을 잘못 들었을 때에는 그 응답으로서 다양한 종류의 발화를 생성하게 된다. 이러한 종류에 해당하는 사람의 발화를 분석하여 분류한 Matthew Purver의 On the means for clarification dialogue라는 논문에 근거해 메타-다이얼로그의 종류를 도 5와 같이 분류하였다.
먼저, 비반복 유형(510)은 사용자의 발화의 정보를 사용하지 않고 재발화를 요청하는 형태이다. 또한, 문장 반복 유형(520)은 이전 문장을 반복하는 형태로서, 단순히 이전 문장을 반복하는 'literal type'과 인식 못한 부분만 의문사로 대치하여 이전 문장을 반복하는 'wh-substituted type'이 있다. 그리고, 의문사 유형(530)은 의문사만을 가진 설명문 형태를 의미한다. 한편, 부분 반복 유형(540)은 사용자 발화의 일부분만을 포함하여 질문을 하는 형태로서, 문장 반복 유형(520)과 마찬가지로 'literal type' 과 'wh-substituted type'이 있다. 그리고, 갭 유형(gaps type; 550)은 명료하지 못한 단어의 앞 부분을 발화하는 형태를 말하고, 갭 필러 유형(gap filler type; 560)은 불완전한 문장의 부족한 부분을 추측하는 형태이다. 마지막으로 컨벤셔널 유형(conventional type; 570)도 있다.
시스템 발화 생성시에는 사용자에게 혼란을 주지 않는 범위 내에서 대화의 효율성을 추구해야 한다. 따라서 본 발명의 실시예에서는 질문의 내용에 대해 사용자에게 혼란을 일으킬 수 있는 의문사 유형(530) 및 컨벤셔널 유형(570)을 제외한 나머지 다섯가지 유형의 발화를 메타-다이얼로그에서의 발화로 이용한다.
도 6은 도 2의 메타-다이얼로그를 생성하는 과정(S160)을 세부적으로 설명한 흐름도이다.
먼저, 해당 문장에 대하여 음성인식 오류 여부 결정단계에서 분류한 결과가 수락(Accept), 거절(Reject) 또는 확인(Confirmation) 중 어디에 해당하는가를 판단한다(S610). 상기 판단 결과, 상기 문장이 '수락(Accept)'에 해당되면, 올바른 문장으로 판단할 수 있으므로 상기 인식된 문장을 출력하여(S620), 그에 따른 명령 처리 등에 이용할 수 있다. 상기 문장이 '거절(Reject)'에 해당되면, 상기 문장은 올바르게 인식되지 못한 문장으로 판단할 수 있으므로 사용자에게 비반복 유형(510)의 질문을 한다(S630)
한편, 상기 문장이 '확인(Confirmation)'에 해당되면 문장의 구조와 오류의 위치 및 종류에 따라 도 5의 문장 반복 유형(520), 부분 반복 유형(540) 또는 갭 유형(550)의 질문을 한다(S660). 만약, 문장 중 특정 내용의 인식에 소정회수 이상 연속적으로 인식 오류가 발생한다면(S650), 그 단어에 대하여 사용자에게 갭 필러 유형(560)의 질문을 한다(S670). 이러한 질문 방법으로 후보들과 각각 대응되는 다른 어휘로 사용자가 응답을 할 수 있도록 하는 방법과, 상기 후보들을 시각적으로 제시하고 사용자가 각종 입력수단을 통하여 선택할 수 있도록 하는 방법 등이 선택될 수 있다.
S660 단계를 구체적으로 살펴 보면, 제대로 인식되지 못한 부분에 대한 확인을 받기 위해 음성인식결과로부터 메타-다이얼로그에 포함될 내용과 구조를 결정한다. 이에 따라 메타-다이얼로그의 종류가 결정된다. 오인식된 부분을 사용자에게 확인받는 방법에는 두가지가 있다. 첫번째는 의문사를 이용하는 것이고 두번째는 어휘를 그대로 포함시킨 의문문을 이용하는 것이다. 본 발명의 실시예에서는 첫번째를 외적 확인(explicit confirmation), 두번째를 내적 확인(implicit confirmation)이라고 정의한다. 각 단어에 대해 아래와 같은 검사를 수행한다. 도 4b 및 다음의 [표 2]을 참조하면, 단어 신뢰도가 θ₁보다 작거나 해당 단어가 의미적으로 위배된다고 판단되었을 경우에는 해당 단어에 대한 외적 확인(explicit confirmation)을 수행한다. 해당 체언의 용언과의 의존관계가 의미적으로 옳지 않은 경우에는 해당 체언과 용언 중 신뢰도값이 낮은 쪽이 오류가 있는 것으로 판단한다. 단어 신뢰도가 θ₁이상이고 θ₂이하일 때는 내적 확인(implicit confirmation)을 수행한다. 단어신뢰도가 θ₂보다 클 때에는 해당 단어가 올바르게 인식된 것으로 판단할 수 있으므로 그 부분은 메타-다이얼로그에 포함시키지 않는다.
의존 트리의 한 노드에는 하나 이상의 단어가 있을 수 있다. 한 노드에 두개 이상의 단어가 존재할 때에 해당 노드는, 외적 확인에 속하는 단어가 하나라도 있을 때에는 외적 확인 노드, 외적 확인에 속하는 노드는 없으나 내적 확인에 속하는 단어가 있으면 내적 확인 노드, 생략에 속하는 단어만 있으면 생략 노드가 된다. 이렇게 의존 트리의 각 노드에 대해 외적 확인, 내적 확인 또는 생략 여부가 결정되면 트리를 탐색하면서 문장을 만든다. 해당 노드가 외적 확인에 속할 때는 노드의 의미역 및 노드의 명사의 의미 범주에 따라 알맞은 의문사를 선택한다. 트리를 탐색하면서 노드가 '확인(Confirmation)' 노드일 때는 상기 확인 노드 뿐 아니라 상기 확인 노드에서 트리의 최상위(root)에 이르기까지의 부모 노드들도 모두 문장에 포함시킨다. 이 때 부모노드가 생략으로 결정되었다 하더라도 올바른 문장을 만들기 위해 문장에 포함시키게 된다. 단, 불필요한 노드는 제거하여 효율적인 문장을 만들기 위해서 해당 노드가 명사절에 속해 있고 명사절의 부모 노드들이 '확인' 노드가 아닐 경우에는 명사절 내에서의 최상위까지의 부모 노드들만 포함시킨다(예: 도 7a). 이 원칙에 의해 트리를 탐색하면서 문장을 구성하면 도 7a 내지 도 7e의 실시예와 같은 다양한 유형의 메타-다이얼로그가 구성된다. 각 도면에서 트리 형태로 구성된 문장은 인식된 문장을 나타낸 것이고, 'S :' 으로 표현한 이후의 문장은 본 발명에 따른 장치가 상기 사용자에게 하는 질문의 형태를 나타낸 것이다.
먼저, 도 7a는 wh-substituted type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '오빠가(715)'라는 단어의 음성 인식 신뢰도는 θ₁보다 작아서 외적 확인이 필요한 경우로서, '오빠가'(715)라는 부분을 의문사 '누가'로 대치하고 질문을 한다. 다만, '오빠가'(715)라는 노드는 '오빠가 볼 만한 영화' 라는 명사절에 속해 있으므로, 명사절 내에서의 최상위 노드인 '영화를'(712)까지의 부모 노드만 포함하여 질문을 한다. 따라서, 그 결과는 '누가 볼만한 영화요?'와 같이 된다.
도 7b는 literal type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '오빠가(725)'라는 노드의 음성 인식 신뢰도는 θ₁과 θ₂사이에 있어서 내적 확인이 필요한 경우로서, 도 7a에서와 마찬가지로 '오빠가'(725)라는 노드는 명사절에 속해 있으므로, '영화를'(722)까지의 부모 노드만 포함하여 질문을 한다. 따라서, 그 결과는 '오빠가 볼만한 영화요?' 와 같이 된다.
도 7c는 wh-substitued type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '과일이'(733)라는 단어의 음성 인식 신뢰도는 θ₁보다 작아서 외적 확인이 필요한 경우이다. 또한, '내일'이라는 단어의 음성 인식 신뢰도는 θ₁과 θ₂사이에 있어서 내적 확인이 필요한 경우이다. 도 7a와는 달리 해당 단어가 명사절에 속해있지는 않으므로, 문장 전체를 반복하되 '과일이'(733)라는 단어는 의문사로 대치하고, '내일(732)'이라는 단어는 반복을 하여 질문을 한다. 따라서, 그 결과는 '내일 뭐가 온다구요?' 와 같이 된다.
도 7d는 literal type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '한시부터(743)' 및 '시험이'(745)라는 단어의 음성 인식 신뢰도는 양자 모두 θ₁과 θ₂ 사이에 있어서 내적 확인이 필요한 경우로서, 해당 단어부분을 인식된 대로 반복하여 다시 질문을 한다. 따라서, 그 결과는 '한시부터 시험이 있다구요?'와 같이 된다.
도 7e는 갭 유형에 대한 메타-다이얼로그를 작성한 예이다. 연속된 단어 '두시간동안'(753), '시험이'(754) 및 '있어'(755)의 음성 인식 신뢰도는 θ₁보다 작아서 모두 외적 확인이 필요한 경우로서, 명료하지 못한 연속된 단어의 앞에 있는 부분을 발화하는 형태이다. 따라서, 그 결과는 '오늘 한시부터 뭐라구요?'와 같이 된다.
도 6에서의 670단계에 해당하는 갭 필러(gap filler) 유형의 대화 형태를 구체적으로 살펴 본다. 이러한 갭 필러 유형의 질문은 소정 이상의 회수이상 연속하여 오류가 발생한 경우에 적용할 수 있는 방식이다. 음성인식의 'Out of Vocabulary(이하 OOV라 함)' 문제 발생시에는 사용자가 반복적으로 상기 문장 반복, 부분 반복, 또는 갭 유형의 질문들에 응답을 하여도 문장이 제대로 인식이 되지 않는다. 특히, 음성대화 시스템이 영화제목 검색 어플리케이션 등의 인터넷 정보 검색 어플리케이션에서 사용되는 경우와 같이 신조어가 많이 사용되는 환경에서는 이러한 현상이 발생하기 쉽다. 음성인식이 성공할 수 없음에도 불구하고 이러한 경우에 질문을 반복하게 되면 사용자로 하여금 발화 부담을 주게 되고, 음성인식기를 사용하는 시간을 낭비하게 되므로 바람직하지 못하다. 따라서, 이와 같은 OOV 문제가 발생하는 경우에는 후보들과 각각 대응되는 다른 어휘로 사용자가 응답을 할 수 있도록 하는 방법과, 상기 후보들을 시각적으로 제시하고 사용자가 각종 입력수단을 통하여 선택할 수 있도록 하는 방법이 적용될 수 있다.
먼저, 전자의 방법을 살펴본다. 사용자가 '9일 메가박스에 다크니스를 예약해줘' 라는 발화를 했을 때 '다크니스'가 제대로 인식이 되지 않는다고 한다. 그리고, '뭘 예약해 달라구요?' 와 같은 메타-다이얼로그를 통해서도 일정 횟수 이상 인식 오류가 발생하는 경우에는, 인식할 수 없는 '다크니스'를 인식할 수 있는 '두번째'와 같은 어휘로 대체하여 가리킬 수 있도록 다음과 같은 메타-다이얼로그를 생성한다. '어느 영화를 예약할지 첫번째, 두번째 등으로 대답해 주세요. 첫번째 와일드 카드, 두번째 살인의 추억, 세번째 다크니스, 네번째 매트릭스2입니다.' 라는 질문에 대하여 사용자가 '두번째'라는 대답을 하면 음성 인식 시스템은 '두번째'라는 단어를 음성인식한 후 이를 '다크니스'라고 변환하여, 결국, '9일 메가박스에 다크니스를 예약해줘' 라는 문장을 인식할 수 있게 된다.
후보의 수가 많아서 사용자가 기억하기 힘든 경우에는 멀티 모달(multi-modal) 인터페이스를 통하여 해결한다. 특히, 음성대화 시스템이 PC 또는 로봇(robot)에서 구현되는 경우에 더욱 유용하다. 도 8에서와 같이 터치 스크린(810)을 구비한 음성인식 로봇에게 사용자가 '오늘 생로병사의 비밀을 녹화해' 라는 발화를 하였다고 하자. 만약, '생로병사의 비밀(820)'에 해당하는 부분이 잘못 인식이 되고 인식 오류가 반복이 될 때에는 '녹화하고 싶은 프로그램을 선택하세요' 라는 시스템 발화와 함께 녹화 가능한 프로그램 리스트를 제시한다. 사용자는 이에 대하여, 키보드 입력 또는 터치 스크린(810)을 통한 입력으로 원하는 항목 '지구촌 리포트(820)'를 선택하면 결국, 음성 인식 시스템이 '오늘 지구촌 리포트 녹화해'라는 문장을 처리할 수 있게 된다.
도 9a는 본 발명의 동작을 전체적으로 살펴보기 위한 예로서, 사용자와 음성대화 시스템과의 대화를 나타낸 것으로, 본 발명의 음성대화시스템이 영화 예약 어플리케이션에 사용된 경우이다. 시스템은 사용자가 발화한 단어 '주온'을 '추운 날'로 인식하고, 인식된 문장에 대하여 도 9b와 같은 의존 트리를 구성한다. 상기 의존 트리에서 인식된 '추운'과 '날'은 외적 확인에 해당하여, 이의 부모 노드인 '예약해줘' 를 포함한 '뭘 예약해 달라구요?' 라는 문장이 형성된다. 사용자가 다시 '주온'이라고 대답한 단어를 시스템은 '좋아'라고 인식한다. 도 6의 S650의 '소정 회수'가 2회라고 가정한다면, 두 번 오류 인식을 하게 된 시스템은 갭 필러 유형의 질문을 하게 되고, 사용자가 '두번째'라고 답하면 시스템은 원래 사용자가 발화했던 문장을 바르게 인식할 수 있다. 그리고, 시스템은 사용자의 요구를 처리하기 위하여 추가적으로 장소 및 시간을 사용자에게 질문하게 된다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명에 따르면, 음성 대화 시스템의 음성 인식률 및 대화 성공률을 향상시킴으로써 음성 대화 시스템의 전체적인 성능을 향상시키는 효과가 있다.
또한 본 발명에 따르면, 음성 인식시에 오류가 발생하는 경우에 발화 회수 및 발화량을 감소시킴으로써 음성 대화 시스템을 사용하는 사용자의 편의성을 증진시키는 효과가 있다.
도 1은 본 발명에 의한 장치의 구성에 대한 일 실시예를 도시한 블록도이다.
도 2는 본 발명에 의한 방법을 실시하는 과정을 도시한 흐름도이다.
도 3은 도 2의 인식 오류 여부 판단 단계(S140)를 세부적으로 나타낸 흐름도이다.
도 4a는 단어 신뢰도를 이용하여 문장 신뢰도를 구하는 과정을 설명한 흐름도이다.
도 4b는 단어 신뢰도의 판단 기준이 되는 Θ1, Θ2를 실험적으로 구하는 방법을 나타낸 것이다.
도 4c는 의미구조 검사를 위해 음성인식 결과 문장의 의존 트리를 구성한 예이다.
도 5는 메타-다이얼로그의 종류를 분류한 테이블이다.
도 6은 메타-다이얼로그를 생성하는 과정을 세부적으로 설명한 흐름도이다.
도 7a는 wh-substituted type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예을 나타낸 것이다.
도 7b는 literal type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.
도 7c는 wh-substitued type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.
도 7d는 literal type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.
도 7e는 갭 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.
도 8은 터치스크린을 구비한 음성인식 로봇의 외형을 나타낸 것이다.
도 9a는 본 발명에 따른 사용자와 음성 인식 장치와의 대화 과정을 예시한 것이다.
도 9b는 도 9a의 예에서 사용자의 발화에 대하여 음성 인식 장치가 인식한 문장을 의존 트리로 구성한 것이다.

Claims (30)

  1. 음성 대화 시스템에서의 음성 인식 오류를 처리하는 장치에 있어서,
    사용자로부터 입력된 음성신호의 특징을 추출하고, 상기 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 음성 인식부;
    상기 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 상기 문장에 대한 의미구조 검사를 수행하며, 상기 문장 신뢰도 및 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 인식 오류 판단부; 및
    상기 오류가 존재하는 부분의 내용 및 상기 오류의 종류를 고려하여 사용자에게 물어볼 질문을 생성하는 메타-다이얼로그 생성부를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  2. 제1항에 있어서,
    마이크로폰을 통하여 사용자가 발화한 아날로그 음성신호를 입력 받는 음성 신호 입력부를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  3. 제1항에 있어서,
    상기 메타-다이얼로그 생성부로부터 생성된 질문을 음성 또는 화면을 통하여 사용자에게 전달하는 메타-다이얼로그 출력부를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  4. 제3항에 있어서, 상기 메타-다이얼로그 생성부는
    상기 생성된 질문을 시스템 음성으로 합성하여 외부의 사용자에게 출력하는 음성합성부; 및
    상기 생성된 질문을 화면으로 출력하고, 사용자로 하여금 소정 항목을 선택할 수 있도록 메뉴를 출력하는 화면생성부를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  5. 제1항에 있어서, 상기 문장의 신뢰도는
    각 단어별 정답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₂, 오답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₁ 및 문장이 유효하지 않다고 판단할 수 있는 문장 내 오류가 있거나 오류 가능성 있는 단어수의 임계치 α 값을 이용하여 구하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  6. 제5항에 있어서, 상기 문장의 신뢰도는
    단어의 신뢰도 값이 상기 θ₂값보다 작은 단어의 수를 NUM이라고 할 때, 상기 NUM 값이 0인 경우에는 문장이 유효한 것으로, 상기 α 값보다 크면 유효하지 않은 것으로, 그리고 1보다 크거나 같고 상기 α 값보다 작으면 모호한 것으로 판단하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  7. 제1항에 있어서, 상기 의미구조 검사는 상기 음성 인식부를 통하여 인식된 문장을 분석하여 의존 트리를 구성하고 상기 의존 트리를 구성하는 각 논항의 의미가 타당한가를 판단하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  8. 제6항에 있어서, 상기 음성 인식된 문장에 오류가 있는지를 판단하는 기준은 상기 문장의 의미구조 검사결과 문장의 유효 여부를 판단한 후,
    상기 판단된 문장의 신뢰도가 유효하지 않으면 문장을 거절하고, 상기 판단된 문장의 신뢰도가 유효하고 상기 문장의 의미구조 검사 결과가 유효한 경우에는 문장을 수락하며, 그 이외의 경우에는 사용자의 확인을 요하는 것임을 특징으로 하는 음성 인식 오류 처리 장치.
  9. 제1항에 있어서, 상기 질문은
    각 단어별 정답으로 판단되는 신뢰도 θ₂, 오답으로 판단되는 신뢰도 θ₁를 구하고, 상기 인식한 단어의 신뢰도가 θ₁보다 작은 경우에는 의문사로 대치하고, θ₂보다 큰 경우에는 반복하지 않고 생략하며, θ₁보다 크거나 같고 θ₂보다 작거나 같은 경우에는 인식된 단어의 어절을 그대로 반복질문하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  10. 제1항에 있어서, 상기 질문은
    문장 내의 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 단어의 후보들과 이에 각각 대응되는 다른 어휘를 제시하고, 사용자가 상기 대응되는 다른 어휘를 선택할 수 있도록 하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  11. 제1항에 있어서, 상기 질문은
    문장 내의 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 후보들을 시각적으로 제시하고, 사용자가 각종 입력수단을 통하여 선택할 수 있도록 하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  12. 제1항에 있어서, 상기 질문은
    문장 내의 특정 부분에 대하여 소정회수 미만의 인식 오류가 발생한 경우에는 문장을 구성하는 단어의 단어 신뢰도에 따라 문장반복 유형, 부분반복 유형 또는 갭 유형의 질문 중의 하나인 것을 특징으로 하는 음성 인식 오류 처리 장치.
  13. 제1항에 있어서, 상기 질문은
    인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드인 경우에는 트리의 최상위에 이르기까지의 부모 노드들을 포함하여 구성되는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  14. 제1항에 있어서, 상기 질문은
    인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드이고 해당 노드의 부모 노드들에 오류가 없으며, 상기 노드가 명사절에 포함된 경우에는 명사절 내에서의 최상위까지의 부모 노드들을 포함하여 구성되는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  15. 제1항에 있어서, 상기 질문은
    연속된 단어의 인식 오류가 발생한 경우에는 오류가 발생한 연속된 단어의 앞에 있는 부분을 포함하여 구성하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
  16. 음성 대화 시스템에서의 음성 인식 오류를 처리하는 방법에 있어서,
    사용자로부터 입력된 음성신호의 특징을 추출하고, 상기 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 제1단계;
    상기 인식한 단어의 신뢰도로부터 구한 문장 신뢰도와 상기 문장의 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 제2단계; 및
    상기 오류가 존재하는 부분의 내용 및 상기 오류의 종류를 고려하여 사용자에게 물어 볼 질문을 생성하는 제3단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  17. 제16항에 있어서,
    마이크로폰을 통하여 사용자가 발화한 아날로그 음성신호를 입력 받는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  18. 제16항에 있어서,
    상기 생성된 질문을 음성 또는 화면을 통하여 사용자에게 전달하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  19. 제16항에 있어서, 상기 문장의 신뢰도는
    각 단어별 정답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₂, 오답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₁ 및 문장이 유효하지 않다고 판단할 수 있는 문장 내 오류가 있거나 오류 가능성 있는 단어수의 임계치 α 값을 이용하여 구하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  20. 제16항에 있어서, 상기 문장의 신뢰도를 구하는 과정은
    단어의 신뢰도 값이 상기 θ₂값보다 작은 단어의 수를 NUM이라고 할 때,
    상기 NUM 값이 0인 경우에는 문장이 유효한 것으로 판단하는 단계;
    상기 NUM 값이 상기 α 값보다 크면 유효하지 않은 것으로 판단하는 단계; 및
    상기 NUM 값이 1보다 크거나 같고 상기 α 값보다 작거나 같으면 모호한 것으로 판단하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  21. 제16항에 있어서, 상기 의미구조 검사 과정은
    상기 음성 인식부를 통하여 인식된 문장을 분석하여 의미격이 부착된 의존 트리를 구성하는 단계; 및
    상기 의존 트리를 구성하는 각 논항의 의미가 타당한가를 판단하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  22. 제20항에 있어서, 상기 음성인식된 문장에 오류가 있는지를 판단하는 기준을 구하는 과정은
    상기 문장의 의미구조 검사를 하여 문장의 유효 여부를 판단하는 단계; 및
    상기 판단된 문장의 신뢰도가 유효하지 않으면 문장을 거절하고, 상기 판단된 문장의 신뢰도가 유효하고 상기 문장의 의미구조 검사 결과가 유효한 경우에는 문장을 수락하며, 그 이외의 경우에는 사용자의 확인을 요하는 것으로 분류하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  23. 제16항에 있어서, 상기 제3단계는
    각 단어별 정답으로 판단되는 신뢰도 θ₂, 오답으로 판단되는 신뢰도 θ₁를 구하는 단계;
    상기 인식한 단어의 신뢰도가 θ₁보다 작은 경우에는 의문사로 대치하고, θ₂보다 큰 경우에는 반복질문하지 않고 생략하는 단계; 및
    상기 단어 신뢰도가 θ₁보다 크거나 같고 θ₂보다 작은 경우에는 인식된 단어의 어절을 그대로 반복질문하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  24. 제16항에 있어서, 상기 제3단계는
    문장 내 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 단어의 후보들과 이에 각각 대응되는 다른 어휘를 제시하는 단계; 및
    사용자가 상기 대응되는 다른 어휘를 선택하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  25. 제16항에 있어서, 상기 제3단계는
    문장 내 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 후보들을 시각적으로 제시하는 단계; 및
    사용자가 각종 입력수단을 통하여 선택하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  26. 제16항에 있어서, 상기 제3단계는
    문장 내 특정 부분에 대하여 소정회수 미만의 인식 오류가 발생한 경우에는 문장을 구성하는 단어의 단어 신뢰도에 따라 문장반복 유형, 부분반복 유형 또는 갭 유형의 질문 중의 하나를 선택하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  27. 제16항에 있어서, 상기 제3단계는
    인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드인 경우에는 트리의 최상위에 이르기까지의 부모 노드들을 포함하여 구성되는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  28. 제1항에 있어서, 상기 제3단계는
    인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드이고 해당 노드의 부모 노드들에 오류가 없으며, 상기 노드가 명사절에 포함된 경우에는 명사절 내에서의 최상위까지의 부모 노드들을 포함하여 구성되는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  29. 제16항에 있어서, 상기 제3단계는
    연속된 단어의 인식 오류가 발생한 경우에는 오류가 발생한 연속된 단어의 앞에 있는 부분을 포함하여 구성되는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
  30. 제16항 내지 제29항 중 어느 한 항의 방법을 컴퓨터로 판독가능한 프로그램으로 기록한 기록매체.
KR1020030054475A 2003-08-06 2003-08-06 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 KR100577387B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020030054475A KR100577387B1 (ko) 2003-08-06 2003-08-06 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
US10/911,675 US7493257B2 (en) 2003-08-06 2004-08-05 Method and apparatus handling speech recognition errors in spoken dialogue systems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030054475A KR100577387B1 (ko) 2003-08-06 2003-08-06 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20050015586A true KR20050015586A (ko) 2005-02-21
KR100577387B1 KR100577387B1 (ko) 2006-05-10

Family

ID=34114284

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030054475A KR100577387B1 (ko) 2003-08-06 2003-08-06 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치

Country Status (2)

Country Link
US (1) US7493257B2 (ko)
KR (1) KR100577387B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007019477A1 (en) * 2005-08-05 2007-02-15 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
KR100742888B1 (ko) * 2005-03-09 2007-07-25 캐논 가부시끼가이샤 음성 인식 방법
KR100842754B1 (ko) * 2006-12-08 2008-07-01 한국전자통신연구원 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치
KR100919225B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 음성 대화 시스템에 있어서 다단계 검증을 이용한 대화오류 후처리 장치 및 방법
KR20150060300A (ko) * 2013-11-26 2015-06-03 현대모비스 주식회사 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법

Families Citing this family (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US8725505B2 (en) * 2004-10-22 2014-05-13 Microsoft Corporation Verb error recovery in speech recognition
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7974842B2 (en) * 2005-05-05 2011-07-05 Nuance Communications, Inc. Algorithm for n-best ASR result processing to improve accuracy
US7424431B2 (en) * 2005-07-11 2008-09-09 Stragent, Llc System, method and computer program product for adding voice activation and voice control to a media player
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7634409B2 (en) * 2005-08-31 2009-12-15 Voicebox Technologies, Inc. Dynamic speech sharpening
US20070201443A1 (en) * 2006-02-09 2007-08-30 Debanjan Saha VoIP caller authentication by voice signature continuity
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US20070239430A1 (en) * 2006-03-28 2007-10-11 Microsoft Corporation Correcting semantic classification of log data
KR100825690B1 (ko) 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
JP4827721B2 (ja) * 2006-12-26 2011-11-30 ニュアンス コミュニケーションズ,インコーポレイテッド 発話分割方法、装置およびプログラム
TW200841189A (en) * 2006-12-27 2008-10-16 Ibm Technique for accurately detecting system failure
FR2911416B1 (fr) * 2007-01-12 2009-03-06 Zenvia Soc Responsabilite Limi Procede et dispositif de dialogue entre un utilisateur et un systeme informatique en vue d'etablir, entre ces derniers un dialogue en langage naturel
US7856351B2 (en) * 2007-01-19 2010-12-21 Microsoft Corporation Integrated speech recognition and semantic classification
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7860716B2 (en) * 2007-04-24 2010-12-28 Microsoft Corporation Speech model refinement with transcription error detection
US8103503B2 (en) * 2007-11-01 2012-01-24 Microsoft Corporation Speech recognition for determining if a user has correctly read a target sentence string
JP2009128675A (ja) * 2007-11-26 2009-06-11 Toshiba Corp 音声を認識する装置、方法およびプログラム
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction
US8078397B1 (en) 2008-08-22 2011-12-13 Boadin Technology, LLC System, method, and computer program product for social networking utilizing a vehicular assembly
US8073590B1 (en) 2008-08-22 2011-12-06 Boadin Technology, LLC System, method, and computer program product for utilizing a communication channel of a mobile device by a vehicular assembly
US8131458B1 (en) 2008-08-22 2012-03-06 Boadin Technology, LLC System, method, and computer program product for instant messaging utilizing a vehicular assembly
US8265862B1 (en) 2008-08-22 2012-09-11 Boadin Technology, LLC System, method, and computer program product for communicating location-related information
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
KR20110072847A (ko) * 2009-12-23 2011-06-29 삼성전자주식회사 열려진 사용자 의도 처리를 위한 대화관리 시스템 및 방법
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US8438029B1 (en) * 2012-08-22 2013-05-07 Google Inc. Confidence tying for unsupervised synthetic speech adaptation
US10504622B2 (en) 2013-03-01 2019-12-10 Nuance Communications, Inc. Virtual medical assistant methods and apparatus
US11024406B2 (en) 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
US11183300B2 (en) 2013-06-05 2021-11-23 Nuance Communications, Inc. Methods and apparatus for providing guidance to medical professionals
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
US10319004B2 (en) 2014-06-04 2019-06-11 Nuance Communications, Inc. User and engine code handling in medical coding system
US10366424B2 (en) 2014-06-04 2019-07-30 Nuance Communications, Inc. Medical coding system with integrated codebook interface
US10331763B2 (en) 2014-06-04 2019-06-25 Nuance Communications, Inc. NLU training with merged engine and user annotations
FR3022068B1 (fr) * 2014-06-05 2016-07-01 Peugeot Citroen Automobiles Sa Procede dispositif de traitement de la parole gestion des ecarts au dialogue
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US9953644B2 (en) * 2014-12-01 2018-04-24 At&T Intellectual Property I, L.P. Targeted clarification questions in speech recognition with concept presence score and concept correctness score
US10672390B2 (en) 2014-12-22 2020-06-02 Rovi Guides, Inc. Systems and methods for improving speech recognition performance by generating combined interpretations
US10572810B2 (en) 2015-01-07 2020-02-25 Microsoft Technology Licensing, Llc Managing user interaction for input understanding determinations
CN107112005A (zh) * 2015-04-17 2017-08-29 微软技术许可有限责任公司 深度神经支持向量机
EP3089159B1 (en) * 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US10249297B2 (en) 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
US10366687B2 (en) 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN105489222B (zh) * 2015-12-11 2018-03-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
US11152084B2 (en) 2016-01-13 2021-10-19 Nuance Communications, Inc. Medical report coding with acronym/abbreviation disambiguation
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10446137B2 (en) 2016-09-07 2019-10-15 Microsoft Technology Licensing, Llc Ambiguity resolving conversational understanding system
US10949602B2 (en) 2016-09-20 2021-03-16 Nuance Communications, Inc. Sequencing medical codes methods and apparatus
US10643601B2 (en) * 2017-02-09 2020-05-05 Semantic Machines, Inc. Detection mechanism for automated dialog systems
CN109215640B (zh) * 2017-06-30 2021-06-01 深圳大森智能科技有限公司 语音识别方法、智能终端及计算机可读存储介质
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
US10621282B1 (en) * 2017-10-27 2020-04-14 Interactions Llc Accelerating agent performance in a natural language processing system
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
US10497366B2 (en) * 2018-03-23 2019-12-03 Servicenow, Inc. Hybrid learning system for natural language understanding
US11520992B2 (en) 2018-03-23 2022-12-06 Servicenow, Inc. Hybrid learning system for natural language understanding
CN110692040A (zh) 2018-05-07 2020-01-14 谷歌有限责任公司 在网络系统中激活远程设备
US10650100B2 (en) * 2018-06-08 2020-05-12 International Business Machines Corporation Natural language generation pattern enhancement
US10679610B2 (en) * 2018-07-16 2020-06-09 Microsoft Technology Licensing, Llc Eyes-off training for automatic speech recognition
KR102623727B1 (ko) 2018-10-29 2024-01-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11604832B2 (en) * 2019-01-03 2023-03-14 Lucomm Technologies, Inc. System for physical-virtual environment fusion
US11580970B2 (en) * 2019-04-05 2023-02-14 Samsung Electronics Co., Ltd. System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
US10902220B2 (en) 2019-04-12 2021-01-26 The Toronto-Dominion Bank Systems and methods of generating responses associated with natural language input
US11487945B2 (en) 2019-07-02 2022-11-01 Servicenow, Inc. Predictive similarity scoring subsystem in a natural language understanding (NLU) framework
US11468238B2 (en) 2019-11-06 2022-10-11 ServiceNow Inc. Data processing systems and methods
US11455357B2 (en) 2019-11-06 2022-09-27 Servicenow, Inc. Data processing systems and methods
US11481417B2 (en) 2019-11-06 2022-10-25 Servicenow, Inc. Generation and utilization of vector indexes for data processing systems and methods
CN111259162B (zh) * 2020-01-08 2023-10-03 百度在线网络技术(北京)有限公司 对话交互方法、装置、设备和存储介质
CN111583907B (zh) * 2020-04-15 2023-08-15 北京小米松果电子有限公司 信息处理方法、装置及存储介质
KR102444457B1 (ko) * 2022-06-03 2022-09-19 주식회사 액션파워 단어 그래프를 이용한 대화의 요약 생성 방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
DE4432632A1 (de) 1994-09-14 1996-03-21 Philips Patentverwaltung System zum Ausgeben von Sprachinformation in Rekation auf eingegebene Sprachsignale
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
KR100480506B1 (ko) 1997-08-01 2005-07-07 엘지전자 주식회사 음성 인식 방법
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
KR100366703B1 (ko) 2000-03-04 2003-01-09 삼성전자 주식회사 인간 반응형 음성인식장치
TW518483B (en) * 2001-08-14 2003-01-21 Ind Tech Res Inst Phrase verification method using probability-oriented confidence tag
TW517221B (en) * 2001-08-24 2003-01-11 Ind Tech Res Inst Voice recognition system
US7167832B2 (en) * 2001-10-15 2007-01-23 At&T Corp. Method for dialog management
US20030233230A1 (en) * 2002-06-12 2003-12-18 Lucent Technologies Inc. System and method for representing and resolving ambiguity in spoken dialogue systems

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100742888B1 (ko) * 2005-03-09 2007-07-25 캐논 가부시끼가이샤 음성 인식 방법
US7634401B2 (en) 2005-03-09 2009-12-15 Canon Kabushiki Kaisha Speech recognition method for determining missing speech
WO2007019477A1 (en) * 2005-08-05 2007-02-15 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
KR101255402B1 (ko) * 2005-08-05 2013-04-17 마이크로소프트 코포레이션 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
KR100842754B1 (ko) * 2006-12-08 2008-07-01 한국전자통신연구원 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치
KR100919225B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 음성 대화 시스템에 있어서 다단계 검증을 이용한 대화오류 후처리 장치 및 방법
US8050909B2 (en) 2007-09-19 2011-11-01 Electronics And Telecommunications Research Institute Apparatus and method for post-processing dialogue error in speech dialogue system using multilevel verification
KR20150060300A (ko) * 2013-11-26 2015-06-03 현대모비스 주식회사 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법

Also Published As

Publication number Publication date
KR100577387B1 (ko) 2006-05-10
US7493257B2 (en) 2009-02-17
US20050033574A1 (en) 2005-02-10

Similar Documents

Publication Publication Date Title
KR100577387B1 (ko) 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
KR102447513B1 (ko) 점증적 대화지식 자가학습 기반 대화장치 및 그 방법
US11037553B2 (en) Learning-type interactive device
US8768700B1 (en) Voice search engine interface for scoring search hypotheses
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US7139698B1 (en) System and method for generating morphemes
JP5377430B2 (ja) 質問応答データベース拡張装置および質問応答データベース拡張方法
Klatt Review of the ARPA speech understanding project
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
KR101309042B1 (ko) 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US5855000A (en) Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
JP4680714B2 (ja) 音声認識装置および音声認識方法
US6763331B2 (en) Sentence recognition apparatus, sentence recognition method, program, and medium
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
JP5045486B2 (ja) 対話装置及びプログラム
US7085720B1 (en) Method for task classification using morphemes
JP5099367B2 (ja) 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4475628B2 (ja) 会話制御装置、会話制御方法並びにこれらのプログラム
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP4220151B2 (ja) 音声対話装置
Jackson Automatic speech recognition: Human computer interface for kinyarwanda language
CN110021295B (zh) 用于识别由语音识别系统生成的错误转录的方法和系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment
FPAY Annual fee payment
LAPS Lapse due to unpaid annual fee