KR20050015586A - 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 - Google Patents
음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치Info
- Publication number
- KR20050015586A KR20050015586A KR1020030054475A KR20030054475A KR20050015586A KR 20050015586 A KR20050015586 A KR 20050015586A KR 1020030054475 A KR1020030054475 A KR 1020030054475A KR 20030054475 A KR20030054475 A KR 20030054475A KR 20050015586 A KR20050015586 A KR 20050015586A
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- reliability
- word
- speech recognition
- user
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 음성 인식시에 오류 가능성이 있는 부분의 해결을 위해 그 부분에 관련된 내용을 발화자에게 되물어보고 그 반응 지식에 의하여 음성인식 결과의 불분명한 부분을 해결하는 음성 인식 기술에 관한 것이다.
본 발명에 따른 장치는 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 음성 인식부; 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 문장에 대한 의미구조 검사를 수행하며, 문장 신뢰도 및 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 인식 오류 판단부; 및 오류가 존재하는 부분의 문장 내에서의 위치와 역할 및 오류의 종류를 고려하여 사용자에게 물어볼 질문을 생성하는 메타-다이얼로그 생성부로 이루어진다.
본 발명에 따른 방법은 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 제1단계; 인식한 단어의 신뢰도로부터 구한 문장 신뢰도와 문장의 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 제2단계; 및 오류가 존재하는 부분의 문장 내에서의 위치와 역할 및 오류의 종류를 고려하여 오류 부분을 해결하기 위한 메타-다이얼로그를 생성하는 제3단계로 이루어진다.
Description
본 발명은 음성 인식 기술에 관한 것으로서, 특히 음성 인식시에 오류 가능성이 있는 부분의 해결을 위해 그 부분에 관련된 내용을 발화자에게 되물어보고 그 반응 지식에 의하여 음성인식 결과의 불분명한 부분을 해결하는 음성 인식 기술에 관한 것이다.
종래의 기술에 의한 연속어 음성인식 기술에서는 음성인식 결과에 오류 가능성이 있는 구간이 있음에도 불구하고 그 오류 가능성에 대한 고려가 없어 신뢰성이 낮은 결과를 출력한다. 음향적으로나 의미적으로 오류 가능성이 있는 구간을 추정하고 해소하고자 하는 경우에도 시스템 내부 규칙에 의거하여 일방적으로 결정된 결과를 출력한다. 그런데, 시스템 내부 규칙은 매우 불완전하여 그 결과에 대한 에러 발생률이 높다. 이와 같이 음성인식기는 100%의 성능을 가질 수 없으므로 음성 대화 시스템에서 음성 인식률의 한계를 보완할 수 있는 방법이 필요하다.
기존의 공개된 특허출원 '인간 반응형 음성인식장치(2001-0086902)'는 문장으로부터 애매성 구간을 추출하는 애매성구간추출부와 애매성 구간을 해소하기 위하여 질문을 생성하는 질문생성부를 포함하고 있다. 그러나, 이 발명에서는 음성대화시스템과 사용자 간에 성공적이면서도 효율적으로 대화가 이루어지기 위해서 어떻게 사용자에게 질문을 해야하는지를 구체적으로 고려하고 있지 않다. 음성대화시스템의 지능을 높이고 시스템의 성능과 편의성을 동시에 높이기 위해서는 사람의 대화 현상에 대한 분석을 통해 사람의 발화에서처럼 대화의 효율성, 효과성, 유연성을 높일 수 있는 방향으로 시스템의 발화를 만들어내야 한다.
한편, 미국특허 'Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores(US6567778)' 에서는 응용 프로그램이 필요로 하는 정보에 대한 명세 사항(specification)을 이용하여 음성인식 결과로부터 슬롯(slot)을 만들고, 슬롯 신뢰도를 구하여 슬롯 신뢰도가 낮을 때에 해당 슬롯에 대해 사용자에게 질문을 하는 방식을 취하고 있다. 따라서 이것은 응용 프로그램에 대한 의존도가 높아서 응용 프로그램에 따라서는 쉽게 이용하기 어려운 경우가 발생할 수 있다. 예를 들어 응용 프로그램이 여러 도메인을 동시에 서비스 하거나, 과업 지향(task-oriented)적이 아닌 일상대화 류의 대화를 수행할 때 또는 음성대화 시스템의 대화 주도권이 시스템에 있는 것이 아니라 사용자에게 있거나 시스템과 사용자 모두에게 있을 때에는 슬롯을 구성하기가 힘들기 때문에 이 방식은 사용되기 힘들다.
또한, 상기 특허 기술들로는 사용자에게 질문을 다시 했으나 계속 음성인식을 실패하는 경우에 대한 대책이 없으므로, 이러한 경우에는 사용자의 명령을 처리해 줄 수 없는 경우가 생길 수 있다. 따라서, 음성을 인터페이스로 하여 사용자와 대화를 함으로써 사용자의 요구를 처리하는 음성대화 시스템에서 반복적인 음성인식 오류 발생시의 처리 방법을 강구할 필요가 있다.
본 발명은 상기의 문제점을 해결하기 위하여 안출된 것으로, 음성 인식에 있어서 음향적, 의미적 오류 가능성을 보다 정확히 해소할 수 있는 인간 반응형 음성 인식 장치 및 그 방법을 제공함을 목적으로 한다.
또한 본 발명은 음성인식 결과를 토대로 오류의 포함 여부를 판정하고 음성인식 오류 발생시 효율적인 회복이 가능하도록 메타-다이얼로그(Meta-Dialogue)를 디자인하는 데 그 목적이 있다. 이러한 메타-다이얼로그는 사용자와 시스템 간의 대화 중에서 발생한 오류가 있을 때 이를 해결하기 위한 대화를 의미한다.
상기한 목적을 달성하기 위하여, 본 발명에 따른 음성 대화 시스템에서의 음성 인식 오류를 처리하는 장치는, 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 음성 인식부; 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 문장에 대한 의미구조 검사를 수행하며, 문장 신뢰도 및 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 인식 오류 판단부; 및 오류가 존재하는 부분의 내용 및 오류의 종류를 고려하여 시스템 응답을 생성하는 메타-다이얼로그 생성부로 이루어진다.
본 발명에 따른 음성 대화 시스템에서의 음성 인식 오류를 처리하는 방법은, 사용자로부터 입력된 음성신호의 특징을 추출하고, 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 제1단계; 인식한 단어의 신뢰도로부터 구한 문장 신뢰도와 문장의 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 제2단계; 및 오류가 존재하는 부분의 내용 및 오류의 종류를 고려하여 메타-다이얼로그를 생성하는 제3단계로 이루어진다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 일 실시예를 상세히 설명한다.
도1은 본 발명에 의한 장치의 구성에 대한 일 실시예를 도시한 블록도이다. 본 도면에 의하면 본 발명에 의한 장치(100)는 음성신호 입력부(110), 음성 인식부(120), 인식오류 판단부(130), 메타-다이얼로그 생성부(140) 및 메타-다이얼로그 출력부(150)를 포함하는 데, 각 구성요소는 각종 형태의 정보시스템과 그 정보시스템에서 수행되는 소프트웨어의 결합체로서 구성될 수 있다.
음성신호 입력부(110)는 사용자가 발화한 아날로그 음성신호를 입력 받는 역할을 한다. 마이크로폰과 같은 장치가 이에 해당할 수 있다.
음성 인식부(120)는 기존의 고안된 방법들을 이용하여 구성할 수 있다. 일 예로서, 음성 인식부(120)는 아날로그 음성신호를 디지털 데이터로 변환하고 음성 특징들을 추출하는 음성특징 추출부(121), 음향 모델에서 음성특징에 가장 가까운 음소를 찾아내고, 찾아낸 음소들로부터 단어를 구성하고, 단어별로 그 일치정도를 나타내는 음향모델 확률값을 계산하는 음향모델 탐색부(122) 및 언어 모델에서의 단어 사이의 문법적 관계와 통계적 연결관계를 이용하여 다음에 인식되는 단어에 대한 복수개의 단어 후보를 발생시키고 각각에 대하여 언어모델 확률값을 계산하는 언어모델 탐색부(123)로 구성될 수 있다. 음향 모델과 언어 모델은 정보시스템에서 데이터베이스의 형태로 구성되는 것이 바람직하다.
인식 오류 판단부(130)는 음성 인식부(120)가 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 인식된 문장에 대한 의존 트리를 구성하여 상기 문장에 대한 의미구조 검사를 수행하며, 문장 신뢰도 및 의미구조 검사 결과를 종합한 일정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 기능을 담당한다.
메타-다이얼로그 생성부(140)는 음성인식 오류 부분을 사용자가 다시 발화해 주도록 요구하여 음성인식 오류를 해결할 수 있도록 시스템 발화를 생성한다. 상기 문장 중에서 오류가 존재하는 부분의 내용 및 오류의 종류를 고려하여 비반복 유형, 문장 반복 유형, 부분 반복 유형, 갭 유형 또는 갭 필러 유형 중에서 사용자에게 전달할 합당한 발화를 생성하고, 메타-다이얼로그 출력부(150)를 통하여 사용자에게 생성된 발화를 전달하는 역할을 한다.
또한, 메타-다이얼로그 출력부(150)는 메타-다이얼로그 생성부(140) 로부터 생성된 질문을 음성 또는 화면을 통하여 사용자에게 전달하는 기능을 담당한다. 메타-다이얼로그 출력부(150)는 다시 상기 생성된 질문을 시스템 음성으로 합성하여 외부의 사용자에게 출력하는 음성합성부(151)와, 상기 생성된 질문을 화면으로 출력하고 사용자로 하여금 항목 중에서 하나를 선택할 수 있도록 하는 메뉴를 출력하는 화면생성부(152)를 포함하고 구성된다.
도 2는 본 발명에 의한 방법을 실시하기 위한 과정을 도시한 흐름도이다. 먼저, 음성신호 입력부(110)를 통하여 아날로그 음성신호가 입력되면, 입력된 아날로그 음성신호는 음성특징 디지털 데이터로 변환된다(S100). 변환된 디지털 데이터에서 일정간격(frame)으로 주파수 특성이 음성특징 추출부(121)를 통하여 추출되어 벡터 수치화되는데, 벡터 수치화된 주파수 특성이 음성 특징으로 사용된다(S110). 상기 음성 특징은 음향모델 탐색부(122)를 통하여 음향 모델 내의 각 음소에 대응하는 음성 특징과 그 유사도를 비교하여 가장 가까운 음소를 검색하고, 검색된 음소들로부터 단어를 생성한다(S120). 이후, 언어모델 탐색부(123)에서 언어 모델을 이용하여 현재 단어와 다음에 인식될 단어를 미리 예측한다. 다음에 인식될 단어의 후보는 복수 개가 발생되는데, 이들을 모두 격자구조로 연결되고 문장끝에서 각각의 확률값이 계산되어 하나 이상의 인식 후보 문장들을 생성된다(S130). 이와 같이 음성 인식부에서 이루어지는 S110 내지 S130의 과정은 종래의 기술을 이용하여 구성할 수 있다. 다음으로 인식오류 판단부(130)을 통하여 문장 신뢰도 및 의미구조 검사를 통하여 일정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단한다(S140). 이와 같은 인식 오류 여부 판단 단계(S140)는 도 4a에서 상세히 설명하기로 한다.
상기 판단 결과 인식된 문장에 오류가 없는 것으로 판단되면, 상기 인식된 문장을 출력하고, 상기 인식된 결과를 필요한 용도에 사용한다(S199). 한편, 상기 판단 결과 문장에 오류가 있는 것으로 판단되면, 메타-다이얼로그 생성부(140)를 통하여, 사용자와의 대화를 통하여 음성 인식 오류를 수정할 수 있도록 하는 메타-다이얼로그를 생성한다(S160). 그리고, 생성된 메타-다이얼로그를 음성 합성부(151) 또는 화면생성부(152)를 통하여 음성 또는 화면으로 출력하여 사용자가 응답할 수 있게 한다(S170). 그러면, 사용자는 상기 메타-다이얼로그 상의 질문에 다시 발화하여 응답하고, 음성 인식 시스템은 이러한 사용자 응답을 처리한다(S180). 상기 사용자 응답을 처리 하는 과정을 살펴 보면, 사용자가 발화한 음성신호을 입력 받은 후 S110 내지 S130 단계와 같은 음성 인식 과정을 다시 거치게 되고, 음성 인식 시스템은 다시 S140 단계와 같이 음성 인식 오류 여부를 판단하여 문장 신뢰도 및 의미구조 검사 결과를 종합한 일정 기준에 따라 문장에 오류가 있는가를 판단한다(S190).
상기 판단 결과, 문장에 오류가 있다고 판단되면 다시 메타-다이얼로그를 생성하고 사용자와 대화하는 단계(S160)로 돌아가서, 그 이하 단계를 반복하게 된다. 그리고, 문장에 오류가 없다고 판단되면 인식된 문장을 출력하고, 인식된 결과를 필요한 용도에 사용한다(S199).
도 3은 음성인식 오류 여부를 판단하는 과정을 설명한 흐름도로서 도 2에서의 S140 단계를 세부적으로 나타낸 것이다. 먼저 음성인식된 문장의 단어 신뢰도를 이용하여 문장의 신뢰도를 검사하고(S122), 상기 문장의 의미구조를 검사한다(S123). 마지막으로, 상기 문장 신뢰도와 상기 의미구조 검사 결과를 바탕으로 문장을 수락(Accept), 거절(Reject) 또는 확인(Confirmation)의 범주로 구분한다(S124).
도 4a는 도 3의 단어 신뢰도를 이용하여 문장 신뢰도를 구하는 과정(S122)을 상세히 설명한 흐름도이다. 이러한 단어 인식의 신뢰도는 종래의 기술을 이용하여 구할 수 있는데, 음성인식부(120)에서 음향 모델 및 언어모델을 이용하여 산출할 수 있으며 각 단어마다 부착되어 수치로서 표현될 수 있다. 이러한 단어 신뢰도는 공개된 특허출원 '2001-0086902'에서와 같이 기존에 고안된 방법을 사용하여 구할 수 있다.
단어의 신뢰도를 이용하여 문장의 오류 여부를 판단하는 방법은 다음과 같다. 음성인식 실험을 통해 음성인식기가 결과로 산출한 문장에 속해 있는 단어들의 단어 신뢰도 값을 수직선상에 표시하고 각 단어의 정답/오답 여부를 표시하면 도 4b아래와 같은 그래프로부터 임계치 값 θ₁, θ₂를 얻을 수 있다(S410). 종래에는 정답 또는 오답을 결정하는 임계치 값이 하나만 존재하여 단어 신뢰도가 그 임계치를 넘을 경우에는 정답으로, 그렇지 않은 경우에는 오답으로 판단하였다. 그러나 실제로는 임계치 값과 가까운 단어신뢰도를 가진 단어의 경우에는 상황에 따라 단어 신뢰도 값이 같은 단어들이 정답이 되기도 하고 오답이 되기도 하는 문제가 있다. 따라서, 본 발명에서는 임계치 값을 θ₁, θ₂의 2개로 두어, 단어 신뢰도가 θ₂보다 큰 경우에는 정답으로, 단어 신뢰도가 θ₁보다 작은 경우에는 오답으로, 그리고, 단어의 신뢰도가 θ₁이상이고 θ₂이하인 값을 가질 경우에는 정답 일수도 있고 오답 일수도 있는 것으로 분류하였다.
다음으로, 문장내에서 오류가 있거나 오류 가능성 있는 단어의 수에 대한 임계치 α를 결정하는데, 이 임계치 α는 실험을 통하여 사용환경에 따라 사용자가 필요로 하는 값으로 정할 수 있다(S420). 그리고, 음성인식부(120)에서 음성인식 결과로 N-best 가설을 산출하면 이 N개의 문장들에 대해 상위 등위의 문장부터 차례로 도4a에서의 S430부터 그 이후의 과정을 수행한다. 단어 신뢰도값이 θ₂보다 작은 인 단어의 수를 세고(S430), 이 수를 NUM이라고 할 때 그 값과 임계값과의 비교를 통하여 문장의 범주가 결정된다. 만약, NUM 값이 0인 경우에는 모든 단어는 정답에 해당하므로 유효한 것(Valid)으로 판단하고(S460), NUM 값이 임계치 α보다 크면 문장의 단어가 허용 오류의 개수를 넘으므로 유효하지 않은 것(Not Valid)으로 판단한다(S470). 그리고, NUM 값이 1보다 크거나 같고 α보다 작거나 같을 경우에는 모호한 것(Ambiguous)으로 판단한다(S480). 해당 문장이 유효한 문장으로 판단된 경우에는 남은 문장들에 대해서는 인식 오류 여부 검사 과정을 수행하지 않는다. N개의 문장이 모두 유효하지 않거나, 모호한 경우에는 가장 상위에 있는 문장으로 의미구조 검사(S123)를 수행한다.
상기와 같은 문장의 신뢰도 검사가 끝나면, 음성인식 결과가 의미적으로 타당한 문장인지를 검사한다(S123). 나는 저녁을 먹었어.라는 사용자 발화를 음성인식하여 결과로 나온 나이는 저녁을 먹었어.라는 문장에 대해서 구문분석을 수행한 후, 의미역(thematic role) 분석을 하면 도4c와 같이 의미역이 부착된 의존 트리(Dependency Tree)를 얻을 수 있다. 본 도면에서 보는 바와 같이 '먹다' 동사가 행위자와 대상을 논항으로 가질 때 의미역을 중심으로 한 선택제약 정보의 예는 다음과 같다.
[먹다 행위자:@사람 대상:@음식물]
따라서, '먹다'라는 동사의 행위자 논항은 사람을 지시하는 명사, 대상 논항은 음식물을 지시하는 명사를 가질 수 있는데, 음성인식 결과의 행위자격에 나타난 '나이'라는 명사는 사람을 지시하지 못하므로 나이는 저녁을 먹었어.라는 문장은 의미적으로 바르지 않은 문장(Not valid)으로 판정된다.
상기 문장 신뢰도 및 문장 의미구조 검사 결과를 조합하여 최종적으로 음성인식 오류 여부를 결정한다. 신뢰도 검사에서 문장은 '유효하지 않음(Not Valid)', '모호함(ambiguous)' 및 '유효함(Valid)'으로 구분되고, 의미구조 검사에서 문장은 '유효하지 않음(not valid)' 및 '유효함(valid)'으로 구분된다. '유효하지 않음'은 오류 발생, '모호함'은 오류 발생 가능성 있음, '유효함'은 오류 발생하지 않음을 의미한다. 음성인식 신뢰도와 문장의 의미구조 검사의 두가지 결과를 조합하여 다음의 [표1]에서와 같이 의해 문장의 수락(Accept), 거절(reject) 또는 확인(confirm) 여부가 결정된다. 문장 신뢰도와 문장의 의미구조가 모두 유효하지 않은 경우에는 거절한다. 문장의 신뢰도는 유효하지 않으나 문장의 의미가 유효한 경우에는 우연히 문장의 의미가 통하는 것일 수 있으므로 거절한다. 문장 신뢰도가 모호한 경우에는 문장의 의미가 유효한가 여부를 불문하고 사용자의 확인을 요한다. 문장 신뢰도는 유효하나 문장의 의미가 유효하지 않은 경우에도 마찬가지로 사용자의 확인의 요한다. 마지막으로 문장 신뢰도와 문장의 의미가 모두 유효한 경우에는 그 결과인 문장을 수락한다.
상기 문장의 오류 판단 결과 문장이 '거절' 또는 '확인'으로 결정되면, 메타-다이얼로그를 생성하게 된다. 사람의 경우 상대방의 말을 잘못 들었을 때에는 그 응답으로서 다양한 종류의 발화를 생성하게 된다. 이러한 종류에 해당하는 사람의 발화를 분석하여 분류한 Matthew Purver의 On the means for clarification dialogue라는 논문에 근거해 메타-다이얼로그의 종류를 도 5와 같이 분류하였다.
먼저, 비반복 유형(510)은 사용자의 발화의 정보를 사용하지 않고 재발화를 요청하는 형태이다. 또한, 문장 반복 유형(520)은 이전 문장을 반복하는 형태로서, 단순히 이전 문장을 반복하는 'literal type'과 인식 못한 부분만 의문사로 대치하여 이전 문장을 반복하는 'wh-substituted type'이 있다. 그리고, 의문사 유형(530)은 의문사만을 가진 설명문 형태를 의미한다. 한편, 부분 반복 유형(540)은 사용자 발화의 일부분만을 포함하여 질문을 하는 형태로서, 문장 반복 유형(520)과 마찬가지로 'literal type' 과 'wh-substituted type'이 있다. 그리고, 갭 유형(gaps type; 550)은 명료하지 못한 단어의 앞 부분을 발화하는 형태를 말하고, 갭 필러 유형(gap filler type; 560)은 불완전한 문장의 부족한 부분을 추측하는 형태이다. 마지막으로 컨벤셔널 유형(conventional type; 570)도 있다.
시스템 발화 생성시에는 사용자에게 혼란을 주지 않는 범위 내에서 대화의 효율성을 추구해야 한다. 따라서 본 발명의 실시예에서는 질문의 내용에 대해 사용자에게 혼란을 일으킬 수 있는 의문사 유형(530) 및 컨벤셔널 유형(570)을 제외한 나머지 다섯가지 유형의 발화를 메타-다이얼로그에서의 발화로 이용한다.
도 6은 도 2의 메타-다이얼로그를 생성하는 과정(S160)을 세부적으로 설명한 흐름도이다.
먼저, 해당 문장에 대하여 음성인식 오류 여부 결정단계에서 분류한 결과가 수락(Accept), 거절(Reject) 또는 확인(Confirmation) 중 어디에 해당하는가를 판단한다(S610). 상기 판단 결과, 상기 문장이 '수락(Accept)'에 해당되면, 올바른 문장으로 판단할 수 있으므로 상기 인식된 문장을 출력하여(S620), 그에 따른 명령 처리 등에 이용할 수 있다. 상기 문장이 '거절(Reject)'에 해당되면, 상기 문장은 올바르게 인식되지 못한 문장으로 판단할 수 있으므로 사용자에게 비반복 유형(510)의 질문을 한다(S630)
한편, 상기 문장이 '확인(Confirmation)'에 해당되면 문장의 구조와 오류의 위치 및 종류에 따라 도 5의 문장 반복 유형(520), 부분 반복 유형(540) 또는 갭 유형(550)의 질문을 한다(S660). 만약, 문장 중 특정 내용의 인식에 소정회수 이상 연속적으로 인식 오류가 발생한다면(S650), 그 단어에 대하여 사용자에게 갭 필러 유형(560)의 질문을 한다(S670). 이러한 질문 방법으로 후보들과 각각 대응되는 다른 어휘로 사용자가 응답을 할 수 있도록 하는 방법과, 상기 후보들을 시각적으로 제시하고 사용자가 각종 입력수단을 통하여 선택할 수 있도록 하는 방법 등이 선택될 수 있다.
S660 단계를 구체적으로 살펴 보면, 제대로 인식되지 못한 부분에 대한 확인을 받기 위해 음성인식결과로부터 메타-다이얼로그에 포함될 내용과 구조를 결정한다. 이에 따라 메타-다이얼로그의 종류가 결정된다. 오인식된 부분을 사용자에게 확인받는 방법에는 두가지가 있다. 첫번째는 의문사를 이용하는 것이고 두번째는 어휘를 그대로 포함시킨 의문문을 이용하는 것이다. 본 발명의 실시예에서는 첫번째를 외적 확인(explicit confirmation), 두번째를 내적 확인(implicit confirmation)이라고 정의한다. 각 단어에 대해 아래와 같은 검사를 수행한다. 도 4b 및 다음의 [표 2]을 참조하면, 단어 신뢰도가 θ₁보다 작거나 해당 단어가 의미적으로 위배된다고 판단되었을 경우에는 해당 단어에 대한 외적 확인(explicit confirmation)을 수행한다. 해당 체언의 용언과의 의존관계가 의미적으로 옳지 않은 경우에는 해당 체언과 용언 중 신뢰도값이 낮은 쪽이 오류가 있는 것으로 판단한다. 단어 신뢰도가 θ₁이상이고 θ₂이하일 때는 내적 확인(implicit confirmation)을 수행한다. 단어신뢰도가 θ₂보다 클 때에는 해당 단어가 올바르게 인식된 것으로 판단할 수 있으므로 그 부분은 메타-다이얼로그에 포함시키지 않는다.
의존 트리의 한 노드에는 하나 이상의 단어가 있을 수 있다. 한 노드에 두개 이상의 단어가 존재할 때에 해당 노드는, 외적 확인에 속하는 단어가 하나라도 있을 때에는 외적 확인 노드, 외적 확인에 속하는 노드는 없으나 내적 확인에 속하는 단어가 있으면 내적 확인 노드, 생략에 속하는 단어만 있으면 생략 노드가 된다. 이렇게 의존 트리의 각 노드에 대해 외적 확인, 내적 확인 또는 생략 여부가 결정되면 트리를 탐색하면서 문장을 만든다. 해당 노드가 외적 확인에 속할 때는 노드의 의미역 및 노드의 명사의 의미 범주에 따라 알맞은 의문사를 선택한다. 트리를 탐색하면서 노드가 '확인(Confirmation)' 노드일 때는 상기 확인 노드 뿐 아니라 상기 확인 노드에서 트리의 최상위(root)에 이르기까지의 부모 노드들도 모두 문장에 포함시킨다. 이 때 부모노드가 생략으로 결정되었다 하더라도 올바른 문장을 만들기 위해 문장에 포함시키게 된다. 단, 불필요한 노드는 제거하여 효율적인 문장을 만들기 위해서 해당 노드가 명사절에 속해 있고 명사절의 부모 노드들이 '확인' 노드가 아닐 경우에는 명사절 내에서의 최상위까지의 부모 노드들만 포함시킨다(예: 도 7a). 이 원칙에 의해 트리를 탐색하면서 문장을 구성하면 도 7a 내지 도 7e의 실시예와 같은 다양한 유형의 메타-다이얼로그가 구성된다. 각 도면에서 트리 형태로 구성된 문장은 인식된 문장을 나타낸 것이고, 'S :' 으로 표현한 이후의 문장은 본 발명에 따른 장치가 상기 사용자에게 하는 질문의 형태를 나타낸 것이다.
먼저, 도 7a는 wh-substituted type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '오빠가(715)'라는 단어의 음성 인식 신뢰도는 θ₁보다 작아서 외적 확인이 필요한 경우로서, '오빠가'(715)라는 부분을 의문사 '누가'로 대치하고 질문을 한다. 다만, '오빠가'(715)라는 노드는 '오빠가 볼 만한 영화' 라는 명사절에 속해 있으므로, 명사절 내에서의 최상위 노드인 '영화를'(712)까지의 부모 노드만 포함하여 질문을 한다. 따라서, 그 결과는 '누가 볼만한 영화요?'와 같이 된다.
도 7b는 literal type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '오빠가(725)'라는 노드의 음성 인식 신뢰도는 θ₁과 θ₂사이에 있어서 내적 확인이 필요한 경우로서, 도 7a에서와 마찬가지로 '오빠가'(725)라는 노드는 명사절에 속해 있으므로, '영화를'(722)까지의 부모 노드만 포함하여 질문을 한다. 따라서, 그 결과는 '오빠가 볼만한 영화요?' 와 같이 된다.
도 7c는 wh-substitued type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '과일이'(733)라는 단어의 음성 인식 신뢰도는 θ₁보다 작아서 외적 확인이 필요한 경우이다. 또한, '내일'이라는 단어의 음성 인식 신뢰도는 θ₁과 θ₂사이에 있어서 내적 확인이 필요한 경우이다. 도 7a와는 달리 해당 단어가 명사절에 속해있지는 않으므로, 문장 전체를 반복하되 '과일이'(733)라는 단어는 의문사로 대치하고, '내일(732)'이라는 단어는 반복을 하여 질문을 한다. 따라서, 그 결과는 '내일 뭐가 온다구요?' 와 같이 된다.
도 7d는 literal type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예이다. '한시부터(743)' 및 '시험이'(745)라는 단어의 음성 인식 신뢰도는 양자 모두 θ₁과 θ₂ 사이에 있어서 내적 확인이 필요한 경우로서, 해당 단어부분을 인식된 대로 반복하여 다시 질문을 한다. 따라서, 그 결과는 '한시부터 시험이 있다구요?'와 같이 된다.
도 7e는 갭 유형에 대한 메타-다이얼로그를 작성한 예이다. 연속된 단어 '두시간동안'(753), '시험이'(754) 및 '있어'(755)의 음성 인식 신뢰도는 θ₁보다 작아서 모두 외적 확인이 필요한 경우로서, 명료하지 못한 연속된 단어의 앞에 있는 부분을 발화하는 형태이다. 따라서, 그 결과는 '오늘 한시부터 뭐라구요?'와 같이 된다.
도 6에서의 670단계에 해당하는 갭 필러(gap filler) 유형의 대화 형태를 구체적으로 살펴 본다. 이러한 갭 필러 유형의 질문은 소정 이상의 회수이상 연속하여 오류가 발생한 경우에 적용할 수 있는 방식이다. 음성인식의 'Out of Vocabulary(이하 OOV라 함)' 문제 발생시에는 사용자가 반복적으로 상기 문장 반복, 부분 반복, 또는 갭 유형의 질문들에 응답을 하여도 문장이 제대로 인식이 되지 않는다. 특히, 음성대화 시스템이 영화제목 검색 어플리케이션 등의 인터넷 정보 검색 어플리케이션에서 사용되는 경우와 같이 신조어가 많이 사용되는 환경에서는 이러한 현상이 발생하기 쉽다. 음성인식이 성공할 수 없음에도 불구하고 이러한 경우에 질문을 반복하게 되면 사용자로 하여금 발화 부담을 주게 되고, 음성인식기를 사용하는 시간을 낭비하게 되므로 바람직하지 못하다. 따라서, 이와 같은 OOV 문제가 발생하는 경우에는 후보들과 각각 대응되는 다른 어휘로 사용자가 응답을 할 수 있도록 하는 방법과, 상기 후보들을 시각적으로 제시하고 사용자가 각종 입력수단을 통하여 선택할 수 있도록 하는 방법이 적용될 수 있다.
먼저, 전자의 방법을 살펴본다. 사용자가 '9일 메가박스에 다크니스를 예약해줘' 라는 발화를 했을 때 '다크니스'가 제대로 인식이 되지 않는다고 한다. 그리고, '뭘 예약해 달라구요?' 와 같은 메타-다이얼로그를 통해서도 일정 횟수 이상 인식 오류가 발생하는 경우에는, 인식할 수 없는 '다크니스'를 인식할 수 있는 '두번째'와 같은 어휘로 대체하여 가리킬 수 있도록 다음과 같은 메타-다이얼로그를 생성한다. '어느 영화를 예약할지 첫번째, 두번째 등으로 대답해 주세요. 첫번째 와일드 카드, 두번째 살인의 추억, 세번째 다크니스, 네번째 매트릭스2입니다.' 라는 질문에 대하여 사용자가 '두번째'라는 대답을 하면 음성 인식 시스템은 '두번째'라는 단어를 음성인식한 후 이를 '다크니스'라고 변환하여, 결국, '9일 메가박스에 다크니스를 예약해줘' 라는 문장을 인식할 수 있게 된다.
후보의 수가 많아서 사용자가 기억하기 힘든 경우에는 멀티 모달(multi-modal) 인터페이스를 통하여 해결한다. 특히, 음성대화 시스템이 PC 또는 로봇(robot)에서 구현되는 경우에 더욱 유용하다. 도 8에서와 같이 터치 스크린(810)을 구비한 음성인식 로봇에게 사용자가 '오늘 생로병사의 비밀을 녹화해' 라는 발화를 하였다고 하자. 만약, '생로병사의 비밀(820)'에 해당하는 부분이 잘못 인식이 되고 인식 오류가 반복이 될 때에는 '녹화하고 싶은 프로그램을 선택하세요' 라는 시스템 발화와 함께 녹화 가능한 프로그램 리스트를 제시한다. 사용자는 이에 대하여, 키보드 입력 또는 터치 스크린(810)을 통한 입력으로 원하는 항목 '지구촌 리포트(820)'를 선택하면 결국, 음성 인식 시스템이 '오늘 지구촌 리포트 녹화해'라는 문장을 처리할 수 있게 된다.
도 9a는 본 발명의 동작을 전체적으로 살펴보기 위한 예로서, 사용자와 음성대화 시스템과의 대화를 나타낸 것으로, 본 발명의 음성대화시스템이 영화 예약 어플리케이션에 사용된 경우이다. 시스템은 사용자가 발화한 단어 '주온'을 '추운 날'로 인식하고, 인식된 문장에 대하여 도 9b와 같은 의존 트리를 구성한다. 상기 의존 트리에서 인식된 '추운'과 '날'은 외적 확인에 해당하여, 이의 부모 노드인 '예약해줘' 를 포함한 '뭘 예약해 달라구요?' 라는 문장이 형성된다. 사용자가 다시 '주온'이라고 대답한 단어를 시스템은 '좋아'라고 인식한다. 도 6의 S650의 '소정 회수'가 2회라고 가정한다면, 두 번 오류 인식을 하게 된 시스템은 갭 필러 유형의 질문을 하게 되고, 사용자가 '두번째'라고 답하면 시스템은 원래 사용자가 발화했던 문장을 바르게 인식할 수 있다. 그리고, 시스템은 사용자의 요구를 처리하기 위하여 추가적으로 장소 및 시간을 사용자에게 질문하게 된다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명에 따르면, 음성 대화 시스템의 음성 인식률 및 대화 성공률을 향상시킴으로써 음성 대화 시스템의 전체적인 성능을 향상시키는 효과가 있다.
또한 본 발명에 따르면, 음성 인식시에 오류가 발생하는 경우에 발화 회수 및 발화량을 감소시킴으로써 음성 대화 시스템을 사용하는 사용자의 편의성을 증진시키는 효과가 있다.
도 1은 본 발명에 의한 장치의 구성에 대한 일 실시예를 도시한 블록도이다.
도 2는 본 발명에 의한 방법을 실시하는 과정을 도시한 흐름도이다.
도 3은 도 2의 인식 오류 여부 판단 단계(S140)를 세부적으로 나타낸 흐름도이다.
도 4a는 단어 신뢰도를 이용하여 문장 신뢰도를 구하는 과정을 설명한 흐름도이다.
도 4b는 단어 신뢰도의 판단 기준이 되는 Θ1, Θ2를 실험적으로 구하는 방법을 나타낸 것이다.
도 4c는 의미구조 검사를 위해 음성인식 결과 문장의 의존 트리를 구성한 예이다.
도 5는 메타-다이얼로그의 종류를 분류한 테이블이다.
도 6은 메타-다이얼로그를 생성하는 과정을 세부적으로 설명한 흐름도이다.
도 7a는 wh-substituted type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예을 나타낸 것이다.
도 7b는 literal type의 부분 반복 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.
도 7c는 wh-substitued type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.
도 7d는 literal type의 문장 반복 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.
도 7e는 갭 유형에 대한 메타-다이얼로그를 작성한 예를 나타낸 것이다.
도 8은 터치스크린을 구비한 음성인식 로봇의 외형을 나타낸 것이다.
도 9a는 본 발명에 따른 사용자와 음성 인식 장치와의 대화 과정을 예시한 것이다.
도 9b는 도 9a의 예에서 사용자의 발화에 대하여 음성 인식 장치가 인식한 문장을 의존 트리로 구성한 것이다.
Claims (30)
- 음성 대화 시스템에서의 음성 인식 오류를 처리하는 장치에 있어서,사용자로부터 입력된 음성신호의 특징을 추출하고, 상기 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 음성 인식부;상기 인식한 단어의 신뢰도를 바탕으로 문장 신뢰도를 구하고, 상기 문장에 대한 의미구조 검사를 수행하며, 상기 문장 신뢰도 및 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 인식 오류 판단부; 및상기 오류가 존재하는 부분의 내용 및 상기 오류의 종류를 고려하여 사용자에게 물어볼 질문을 생성하는 메타-다이얼로그 생성부를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제1항에 있어서,마이크로폰을 통하여 사용자가 발화한 아날로그 음성신호를 입력 받는 음성 신호 입력부를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제1항에 있어서,상기 메타-다이얼로그 생성부로부터 생성된 질문을 음성 또는 화면을 통하여 사용자에게 전달하는 메타-다이얼로그 출력부를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제3항에 있어서, 상기 메타-다이얼로그 생성부는상기 생성된 질문을 시스템 음성으로 합성하여 외부의 사용자에게 출력하는 음성합성부; 및상기 생성된 질문을 화면으로 출력하고, 사용자로 하여금 소정 항목을 선택할 수 있도록 메뉴를 출력하는 화면생성부를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제1항에 있어서, 상기 문장의 신뢰도는각 단어별 정답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₂, 오답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₁ 및 문장이 유효하지 않다고 판단할 수 있는 문장 내 오류가 있거나 오류 가능성 있는 단어수의 임계치 α 값을 이용하여 구하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제5항에 있어서, 상기 문장의 신뢰도는단어의 신뢰도 값이 상기 θ₂값보다 작은 단어의 수를 NUM이라고 할 때, 상기 NUM 값이 0인 경우에는 문장이 유효한 것으로, 상기 α 값보다 크면 유효하지 않은 것으로, 그리고 1보다 크거나 같고 상기 α 값보다 작으면 모호한 것으로 판단하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제1항에 있어서, 상기 의미구조 검사는 상기 음성 인식부를 통하여 인식된 문장을 분석하여 의존 트리를 구성하고 상기 의존 트리를 구성하는 각 논항의 의미가 타당한가를 판단하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제6항에 있어서, 상기 음성 인식된 문장에 오류가 있는지를 판단하는 기준은 상기 문장의 의미구조 검사결과 문장의 유효 여부를 판단한 후,상기 판단된 문장의 신뢰도가 유효하지 않으면 문장을 거절하고, 상기 판단된 문장의 신뢰도가 유효하고 상기 문장의 의미구조 검사 결과가 유효한 경우에는 문장을 수락하며, 그 이외의 경우에는 사용자의 확인을 요하는 것임을 특징으로 하는 음성 인식 오류 처리 장치.
- 제1항에 있어서, 상기 질문은각 단어별 정답으로 판단되는 신뢰도 θ₂, 오답으로 판단되는 신뢰도 θ₁를 구하고, 상기 인식한 단어의 신뢰도가 θ₁보다 작은 경우에는 의문사로 대치하고, θ₂보다 큰 경우에는 반복하지 않고 생략하며, θ₁보다 크거나 같고 θ₂보다 작거나 같은 경우에는 인식된 단어의 어절을 그대로 반복질문하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제1항에 있어서, 상기 질문은문장 내의 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 단어의 후보들과 이에 각각 대응되는 다른 어휘를 제시하고, 사용자가 상기 대응되는 다른 어휘를 선택할 수 있도록 하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제1항에 있어서, 상기 질문은문장 내의 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 후보들을 시각적으로 제시하고, 사용자가 각종 입력수단을 통하여 선택할 수 있도록 하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제1항에 있어서, 상기 질문은문장 내의 특정 부분에 대하여 소정회수 미만의 인식 오류가 발생한 경우에는 문장을 구성하는 단어의 단어 신뢰도에 따라 문장반복 유형, 부분반복 유형 또는 갭 유형의 질문 중의 하나인 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제1항에 있어서, 상기 질문은인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드인 경우에는 트리의 최상위에 이르기까지의 부모 노드들을 포함하여 구성되는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제1항에 있어서, 상기 질문은인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드이고 해당 노드의 부모 노드들에 오류가 없으며, 상기 노드가 명사절에 포함된 경우에는 명사절 내에서의 최상위까지의 부모 노드들을 포함하여 구성되는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 제1항에 있어서, 상기 질문은연속된 단어의 인식 오류가 발생한 경우에는 오류가 발생한 연속된 단어의 앞에 있는 부분을 포함하여 구성하는 것을 특징으로 하는 음성 인식 오류 처리 장치.
- 음성 대화 시스템에서의 음성 인식 오류를 처리하는 방법에 있어서,사용자로부터 입력된 음성신호의 특징을 추출하고, 상기 음성 특징에 가장 가까운 음소를 찾아내어 단어를 인식하는 제1단계;상기 인식한 단어의 신뢰도로부터 구한 문장 신뢰도와 상기 문장의 의미구조 검사 결과를 소정 기준에 따라 음성인식된 문장에 오류가 있는지를 판단하는 제2단계; 및상기 오류가 존재하는 부분의 내용 및 상기 오류의 종류를 고려하여 사용자에게 물어 볼 질문을 생성하는 제3단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항에 있어서,마이크로폰을 통하여 사용자가 발화한 아날로그 음성신호를 입력 받는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항에 있어서,상기 생성된 질문을 음성 또는 화면을 통하여 사용자에게 전달하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항에 있어서, 상기 문장의 신뢰도는각 단어별 정답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₂, 오답 여부를 판단하는 데 사용되는 신뢰도 임계치 θ₁ 및 문장이 유효하지 않다고 판단할 수 있는 문장 내 오류가 있거나 오류 가능성 있는 단어수의 임계치 α 값을 이용하여 구하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항에 있어서, 상기 문장의 신뢰도를 구하는 과정은단어의 신뢰도 값이 상기 θ₂값보다 작은 단어의 수를 NUM이라고 할 때,상기 NUM 값이 0인 경우에는 문장이 유효한 것으로 판단하는 단계;상기 NUM 값이 상기 α 값보다 크면 유효하지 않은 것으로 판단하는 단계; 및상기 NUM 값이 1보다 크거나 같고 상기 α 값보다 작거나 같으면 모호한 것으로 판단하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항에 있어서, 상기 의미구조 검사 과정은상기 음성 인식부를 통하여 인식된 문장을 분석하여 의미격이 부착된 의존 트리를 구성하는 단계; 및상기 의존 트리를 구성하는 각 논항의 의미가 타당한가를 판단하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제20항에 있어서, 상기 음성인식된 문장에 오류가 있는지를 판단하는 기준을 구하는 과정은상기 문장의 의미구조 검사를 하여 문장의 유효 여부를 판단하는 단계; 및상기 판단된 문장의 신뢰도가 유효하지 않으면 문장을 거절하고, 상기 판단된 문장의 신뢰도가 유효하고 상기 문장의 의미구조 검사 결과가 유효한 경우에는 문장을 수락하며, 그 이외의 경우에는 사용자의 확인을 요하는 것으로 분류하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항에 있어서, 상기 제3단계는각 단어별 정답으로 판단되는 신뢰도 θ₂, 오답으로 판단되는 신뢰도 θ₁를 구하는 단계;상기 인식한 단어의 신뢰도가 θ₁보다 작은 경우에는 의문사로 대치하고, θ₂보다 큰 경우에는 반복질문하지 않고 생략하는 단계; 및상기 단어 신뢰도가 θ₁보다 크거나 같고 θ₂보다 작은 경우에는 인식된 단어의 어절을 그대로 반복질문하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항에 있어서, 상기 제3단계는문장 내 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 단어의 후보들과 이에 각각 대응되는 다른 어휘를 제시하는 단계; 및사용자가 상기 대응되는 다른 어휘를 선택하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항에 있어서, 상기 제3단계는문장 내 특정 부분에 대하여 소정회수 이상의 인식 오류가 발생한 경우에는 상기 후보들을 시각적으로 제시하는 단계; 및사용자가 각종 입력수단을 통하여 선택하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항에 있어서, 상기 제3단계는문장 내 특정 부분에 대하여 소정회수 미만의 인식 오류가 발생한 경우에는 문장을 구성하는 단어의 단어 신뢰도에 따라 문장반복 유형, 부분반복 유형 또는 갭 유형의 질문 중의 하나를 선택하는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항에 있어서, 상기 제3단계는인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드인 경우에는 트리의 최상위에 이르기까지의 부모 노드들을 포함하여 구성되는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제1항에 있어서, 상기 제3단계는인식 오류가 발생한 특정 단어가 의존 트리 상의 확인 노드이고 해당 노드의 부모 노드들에 오류가 없으며, 상기 노드가 명사절에 포함된 경우에는 명사절 내에서의 최상위까지의 부모 노드들을 포함하여 구성되는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항에 있어서, 상기 제3단계는연속된 단어의 인식 오류가 발생한 경우에는 오류가 발생한 연속된 단어의 앞에 있는 부분을 포함하여 구성되는 단계를 포함하는 것을 특징으로 하는 음성 인식 오류 처리 방법.
- 제16항 내지 제29항 중 어느 한 항의 방법을 컴퓨터로 판독가능한 프로그램으로 기록한 기록매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030054475A KR100577387B1 (ko) | 2003-08-06 | 2003-08-06 | 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 |
US10/911,675 US7493257B2 (en) | 2003-08-06 | 2004-08-05 | Method and apparatus handling speech recognition errors in spoken dialogue systems |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030054475A KR100577387B1 (ko) | 2003-08-06 | 2003-08-06 | 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050015586A true KR20050015586A (ko) | 2005-02-21 |
KR100577387B1 KR100577387B1 (ko) | 2006-05-10 |
Family
ID=34114284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030054475A KR100577387B1 (ko) | 2003-08-06 | 2003-08-06 | 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7493257B2 (ko) |
KR (1) | KR100577387B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007019477A1 (en) * | 2005-08-05 | 2007-02-15 | Microsoft Corporation | Redictation of misrecognized words using a list of alternatives |
KR100742888B1 (ko) * | 2005-03-09 | 2007-07-25 | 캐논 가부시끼가이샤 | 음성 인식 방법 |
KR100842754B1 (ko) * | 2006-12-08 | 2008-07-01 | 한국전자통신연구원 | 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치 |
KR100919225B1 (ko) * | 2007-09-19 | 2009-09-28 | 한국전자통신연구원 | 음성 대화 시스템에 있어서 다단계 검증을 이용한 대화오류 후처리 장치 및 방법 |
KR20150060300A (ko) * | 2013-11-26 | 2015-06-03 | 현대모비스 주식회사 | 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법 |
Families Citing this family (95)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
US8725505B2 (en) * | 2004-10-22 | 2014-05-13 | Microsoft Corporation | Verb error recovery in speech recognition |
GB0426347D0 (en) * | 2004-12-01 | 2005-01-05 | Ibm | Methods, apparatus and computer programs for automatic speech recognition |
US7974842B2 (en) * | 2005-05-05 | 2011-07-05 | Nuance Communications, Inc. | Algorithm for n-best ASR result processing to improve accuracy |
US7424431B2 (en) * | 2005-07-11 | 2008-09-09 | Stragent, Llc | System, method and computer program product for adding voice activation and voice control to a media player |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) * | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US7634409B2 (en) * | 2005-08-31 | 2009-12-15 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US20070201443A1 (en) * | 2006-02-09 | 2007-08-30 | Debanjan Saha | VoIP caller authentication by voice signature continuity |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US20070239430A1 (en) * | 2006-03-28 | 2007-10-11 | Microsoft Corporation | Correcting semantic classification of log data |
KR100825690B1 (ko) | 2006-09-15 | 2008-04-29 | 학교법인 포항공과대학교 | 음성 인식 시스템에서의 인식 오류 수정 방법 |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
JP4827721B2 (ja) * | 2006-12-26 | 2011-11-30 | ニュアンス コミュニケーションズ,インコーポレイテッド | 発話分割方法、装置およびプログラム |
TW200841189A (en) * | 2006-12-27 | 2008-10-16 | Ibm | Technique for accurately detecting system failure |
FR2911416B1 (fr) * | 2007-01-12 | 2009-03-06 | Zenvia Soc Responsabilite Limi | Procede et dispositif de dialogue entre un utilisateur et un systeme informatique en vue d'etablir, entre ces derniers un dialogue en langage naturel |
US7856351B2 (en) * | 2007-01-19 | 2010-12-21 | Microsoft Corporation | Integrated speech recognition and semantic classification |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US7860716B2 (en) * | 2007-04-24 | 2010-12-28 | Microsoft Corporation | Speech model refinement with transcription error detection |
US8103503B2 (en) * | 2007-11-01 | 2012-01-24 | Microsoft Corporation | Speech recognition for determining if a user has correctly read a target sentence string |
JP2009128675A (ja) * | 2007-11-26 | 2009-06-11 | Toshiba Corp | 音声を認識する装置、方法およびプログラム |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8589161B2 (en) * | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US20090326938A1 (en) * | 2008-05-28 | 2009-12-31 | Nokia Corporation | Multiword text correction |
US8078397B1 (en) | 2008-08-22 | 2011-12-13 | Boadin Technology, LLC | System, method, and computer program product for social networking utilizing a vehicular assembly |
US8073590B1 (en) | 2008-08-22 | 2011-12-06 | Boadin Technology, LLC | System, method, and computer program product for utilizing a communication channel of a mobile device by a vehicular assembly |
US8131458B1 (en) | 2008-08-22 | 2012-03-06 | Boadin Technology, LLC | System, method, and computer program product for instant messaging utilizing a vehicular assembly |
US8265862B1 (en) | 2008-08-22 | 2012-09-11 | Boadin Technology, LLC | System, method, and computer program product for communicating location-related information |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
WO2011059997A1 (en) | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
KR20110072847A (ko) * | 2009-12-23 | 2011-06-29 | 삼성전자주식회사 | 열려진 사용자 의도 처리를 위한 대화관리 시스템 및 방법 |
US8768723B2 (en) | 2011-02-18 | 2014-07-01 | Nuance Communications, Inc. | Methods and apparatus for formatting text for clinical fact extraction |
US10032127B2 (en) | 2011-02-18 | 2018-07-24 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
US9904768B2 (en) | 2011-02-18 | 2018-02-27 | Nuance Communications, Inc. | Methods and apparatus for presenting alternative hypotheses for medical facts |
US10460288B2 (en) | 2011-02-18 | 2019-10-29 | Nuance Communications, Inc. | Methods and apparatus for identifying unspecified diagnoses in clinical documentation |
US9569594B2 (en) | 2012-03-08 | 2017-02-14 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
US9064492B2 (en) | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
US8438029B1 (en) * | 2012-08-22 | 2013-05-07 | Google Inc. | Confidence tying for unsupervised synthetic speech adaptation |
US10504622B2 (en) | 2013-03-01 | 2019-12-10 | Nuance Communications, Inc. | Virtual medical assistant methods and apparatus |
US11024406B2 (en) | 2013-03-12 | 2021-06-01 | Nuance Communications, Inc. | Systems and methods for identifying errors and/or critical results in medical reports |
US11183300B2 (en) | 2013-06-05 | 2021-11-23 | Nuance Communications, Inc. | Methods and apparatus for providing guidance to medical professionals |
US10496743B2 (en) | 2013-06-26 | 2019-12-03 | Nuance Communications, Inc. | Methods and apparatus for extracting facts from a medical text |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US10754925B2 (en) | 2014-06-04 | 2020-08-25 | Nuance Communications, Inc. | NLU training with user corrections to engine annotations |
US10373711B2 (en) | 2014-06-04 | 2019-08-06 | Nuance Communications, Inc. | Medical coding system with CDI clarification request notification |
US10319004B2 (en) | 2014-06-04 | 2019-06-11 | Nuance Communications, Inc. | User and engine code handling in medical coding system |
US10366424B2 (en) | 2014-06-04 | 2019-07-30 | Nuance Communications, Inc. | Medical coding system with integrated codebook interface |
US10331763B2 (en) | 2014-06-04 | 2019-06-25 | Nuance Communications, Inc. | NLU training with merged engine and user annotations |
FR3022068B1 (fr) * | 2014-06-05 | 2016-07-01 | Peugeot Citroen Automobiles Sa | Procede dispositif de traitement de la parole gestion des ecarts au dialogue |
CN107003996A (zh) | 2014-09-16 | 2017-08-01 | 声钰科技 | 语音商务 |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
CN107003999B (zh) | 2014-10-15 | 2020-08-21 | 声钰科技 | 对用户的在先自然语言输入的后续响应的系统和方法 |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US9953644B2 (en) * | 2014-12-01 | 2018-04-24 | At&T Intellectual Property I, L.P. | Targeted clarification questions in speech recognition with concept presence score and concept correctness score |
US10672390B2 (en) | 2014-12-22 | 2020-06-02 | Rovi Guides, Inc. | Systems and methods for improving speech recognition performance by generating combined interpretations |
US10572810B2 (en) | 2015-01-07 | 2020-02-25 | Microsoft Technology Licensing, Llc | Managing user interaction for input understanding determinations |
CN107112005A (zh) * | 2015-04-17 | 2017-08-29 | 微软技术许可有限责任公司 | 深度神经支持向量机 |
EP3089159B1 (en) * | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
US10249297B2 (en) | 2015-07-13 | 2019-04-02 | Microsoft Technology Licensing, Llc | Propagating conversational alternatives using delayed hypothesis binding |
US10366687B2 (en) | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
CN105489222B (zh) * | 2015-12-11 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US11152084B2 (en) | 2016-01-13 | 2021-10-19 | Nuance Communications, Inc. | Medical report coding with acronym/abbreviation disambiguation |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US10446137B2 (en) | 2016-09-07 | 2019-10-15 | Microsoft Technology Licensing, Llc | Ambiguity resolving conversational understanding system |
US10949602B2 (en) | 2016-09-20 | 2021-03-16 | Nuance Communications, Inc. | Sequencing medical codes methods and apparatus |
US10643601B2 (en) * | 2017-02-09 | 2020-05-05 | Semantic Machines, Inc. | Detection mechanism for automated dialog systems |
CN109215640B (zh) * | 2017-06-30 | 2021-06-01 | 深圳大森智能科技有限公司 | 语音识别方法、智能终端及计算机可读存储介质 |
US11133091B2 (en) | 2017-07-21 | 2021-09-28 | Nuance Communications, Inc. | Automated analysis system and method |
US10621282B1 (en) * | 2017-10-27 | 2020-04-14 | Interactions Llc | Accelerating agent performance in a natural language processing system |
US11024424B2 (en) | 2017-10-27 | 2021-06-01 | Nuance Communications, Inc. | Computer assisted coding systems and methods |
US10497366B2 (en) * | 2018-03-23 | 2019-12-03 | Servicenow, Inc. | Hybrid learning system for natural language understanding |
US11520992B2 (en) | 2018-03-23 | 2022-12-06 | Servicenow, Inc. | Hybrid learning system for natural language understanding |
CN110692040A (zh) | 2018-05-07 | 2020-01-14 | 谷歌有限责任公司 | 在网络系统中激活远程设备 |
US10650100B2 (en) * | 2018-06-08 | 2020-05-12 | International Business Machines Corporation | Natural language generation pattern enhancement |
US10679610B2 (en) * | 2018-07-16 | 2020-06-09 | Microsoft Technology Licensing, Llc | Eyes-off training for automatic speech recognition |
KR102623727B1 (ko) | 2018-10-29 | 2024-01-11 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11604832B2 (en) * | 2019-01-03 | 2023-03-14 | Lucomm Technologies, Inc. | System for physical-virtual environment fusion |
US11580970B2 (en) * | 2019-04-05 | 2023-02-14 | Samsung Electronics Co., Ltd. | System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection |
US10902220B2 (en) | 2019-04-12 | 2021-01-26 | The Toronto-Dominion Bank | Systems and methods of generating responses associated with natural language input |
US11487945B2 (en) | 2019-07-02 | 2022-11-01 | Servicenow, Inc. | Predictive similarity scoring subsystem in a natural language understanding (NLU) framework |
US11468238B2 (en) | 2019-11-06 | 2022-10-11 | ServiceNow Inc. | Data processing systems and methods |
US11455357B2 (en) | 2019-11-06 | 2022-09-27 | Servicenow, Inc. | Data processing systems and methods |
US11481417B2 (en) | 2019-11-06 | 2022-10-25 | Servicenow, Inc. | Generation and utilization of vector indexes for data processing systems and methods |
CN111259162B (zh) * | 2020-01-08 | 2023-10-03 | 百度在线网络技术(北京)有限公司 | 对话交互方法、装置、设备和存储介质 |
CN111583907B (zh) * | 2020-04-15 | 2023-08-15 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
KR102444457B1 (ko) * | 2022-06-03 | 2022-09-19 | 주식회사 액션파워 | 단어 그래프를 이용한 대화의 요약 생성 방법 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69232407T2 (de) * | 1991-11-18 | 2002-09-12 | Toshiba Kawasaki Kk | Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung |
DE4432632A1 (de) | 1994-09-14 | 1996-03-21 | Philips Patentverwaltung | System zum Ausgeben von Sprachinformation in Rekation auf eingegebene Sprachsignale |
US6567778B1 (en) | 1995-12-21 | 2003-05-20 | Nuance Communications | Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores |
KR100480506B1 (ko) | 1997-08-01 | 2005-07-07 | 엘지전자 주식회사 | 음성 인식 방법 |
US6006183A (en) * | 1997-12-16 | 1999-12-21 | International Business Machines Corp. | Speech recognition confidence level display |
KR100366703B1 (ko) | 2000-03-04 | 2003-01-09 | 삼성전자 주식회사 | 인간 반응형 음성인식장치 |
TW518483B (en) * | 2001-08-14 | 2003-01-21 | Ind Tech Res Inst | Phrase verification method using probability-oriented confidence tag |
TW517221B (en) * | 2001-08-24 | 2003-01-11 | Ind Tech Res Inst | Voice recognition system |
US7167832B2 (en) * | 2001-10-15 | 2007-01-23 | At&T Corp. | Method for dialog management |
US20030233230A1 (en) * | 2002-06-12 | 2003-12-18 | Lucent Technologies Inc. | System and method for representing and resolving ambiguity in spoken dialogue systems |
-
2003
- 2003-08-06 KR KR1020030054475A patent/KR100577387B1/ko not_active IP Right Cessation
-
2004
- 2004-08-05 US US10/911,675 patent/US7493257B2/en active Active
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100742888B1 (ko) * | 2005-03-09 | 2007-07-25 | 캐논 가부시끼가이샤 | 음성 인식 방법 |
US7634401B2 (en) | 2005-03-09 | 2009-12-15 | Canon Kabushiki Kaisha | Speech recognition method for determining missing speech |
WO2007019477A1 (en) * | 2005-08-05 | 2007-02-15 | Microsoft Corporation | Redictation of misrecognized words using a list of alternatives |
KR101255402B1 (ko) * | 2005-08-05 | 2013-04-17 | 마이크로소프트 코포레이션 | 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기 |
KR100842754B1 (ko) * | 2006-12-08 | 2008-07-01 | 한국전자통신연구원 | 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치 |
KR100919225B1 (ko) * | 2007-09-19 | 2009-09-28 | 한국전자통신연구원 | 음성 대화 시스템에 있어서 다단계 검증을 이용한 대화오류 후처리 장치 및 방법 |
US8050909B2 (en) | 2007-09-19 | 2011-11-01 | Electronics And Telecommunications Research Institute | Apparatus and method for post-processing dialogue error in speech dialogue system using multilevel verification |
KR20150060300A (ko) * | 2013-11-26 | 2015-06-03 | 현대모비스 주식회사 | 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR100577387B1 (ko) | 2006-05-10 |
US7493257B2 (en) | 2009-02-17 |
US20050033574A1 (en) | 2005-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100577387B1 (ko) | 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치 | |
KR102447513B1 (ko) | 점증적 대화지식 자가학습 기반 대화장치 및 그 방법 | |
US11037553B2 (en) | Learning-type interactive device | |
US8768700B1 (en) | Voice search engine interface for scoring search hypotheses | |
JP4734155B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US7139698B1 (en) | System and method for generating morphemes | |
JP5377430B2 (ja) | 質問応答データベース拡張装置および質問応答データベース拡張方法 | |
Klatt | Review of the ARPA speech understanding project | |
US7529678B2 (en) | Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system | |
KR101309042B1 (ko) | 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US5855000A (en) | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
US6763331B2 (en) | Sentence recognition apparatus, sentence recognition method, program, and medium | |
JP5703491B2 (ja) | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 | |
JP5045486B2 (ja) | 対話装置及びプログラム | |
US7085720B1 (en) | Method for task classification using morphemes | |
JP5099367B2 (ja) | 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP4475628B2 (ja) | 会話制御装置、会話制御方法並びにこれらのプログラム | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP4220151B2 (ja) | 音声対話装置 | |
Jackson | Automatic speech recognition: Human computer interface for kinyarwanda language | |
CN110021295B (zh) | 用于识别由语音识别系统生成的错误转录的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment | ||
FPAY | Annual fee payment | ||
LAPS | Lapse due to unpaid annual fee |