KR20060070603A

KR20060070603A - 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치

Info

Publication number: KR20060070603A
Application number: KR1020040109126A
Authority: KR
Inventors: 김상훈; 이영직
Original assignee: 한국전자통신연구원
Priority date: 2004-12-21
Filing date: 2004-12-21
Publication date: 2006-06-26
Also published as: US7529665B2; US20060136207A1; KR100655491B1

Abstract

본 발명은 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치에 관한 것으로, 특히 음성인식의 탐색 모듈(Search)에서 출력되는 값을 주로 이용하여 검증하는 발화검증 1단계와 인식엔진의 각 모듈(End-point detection, Speech verification, Noise reduction, Search, Utterance verification, 기타 metadata)로부터 출력되는 유효한 값을 최대한 활용하여 카트(CART)로 검증하는 발화검증 2단계로 나누어 이루어진 것을 특징으로 하며, 이러한 본 발명은 인식수행 단계별 출력되는 중간결과값 및 메타데이터를 최대한 많이 활용하고, 이러한 이질적인 특징을 수용할 수 있도록 카트(CART) 패턴분류 방법으로 재차 검증해 줌으로써, 발화검증의 신뢰도를 향상시켜 사용자에게 보다 더 질높은 음성인식 서비스를 제공해 준다는 뛰어난 효과가 있다.

음성인식 시스템, 음성 발화분석, SVM 패턴분류, CART 패턴분류,

Description

음성인식 시스템에서의 2단계 발화 검증 방법 및 장치{TWO STAGE UTTERANCE VERIFICATION METHOD AND DEVICE OF SPEECH RECOGNITION SYSTEM}

도 1은 본 발명의 일 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 장치의 구성을 나타낸 기능 블록도,

도 2는 본 발명의 일 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 방법을 나타낸 동작 플로우챠트,

도 3은 도 2에 따른 음성인식 시스템의 2단계 발화 검증 방법에서 카트(CART) 패턴분류 방식을 설명하기 위한 개념도이다.

<도면의 주요 부분에 대한 부호의 설명>

100 : 컴퓨터 시스템 110 : 음성입출력

120 : 전처리 모듈 130 : 음성인식기

140 : 발화검증부 200 : 시스템응답 모듈

본 발명은 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치에 관한 것으로, 더욱 상세하게는 음성인식 결과를 출력하기 전 화자의 발화 검증(Utterance verification)을 수행함에 있어, 음성인식의 탐색부(Search)에서 출력되는 값을 주로 이용하여 검증하는 발화검증 1단계와 인식엔진의 각 모듈로부터 출력되는 유효한 값을 최대한 활용하여 카트(CART : Classification and Regression Tree) 패턴분류 방식으로 검증하는 발화검증 2단계로 나누어 발화 검증을 수행해 줌으로써, 발화 검증의 신뢰도를 향상시켜 주는 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치에 관한 것이다.

주지하다시피, 음성인식은 음성으로 가전기기나 단말기를 제어하거나 원하는 정보를 음성으로 접근할 수 있는 매우 편리한 기능으로, 현재 최근 지능형로봇, 텔레매틱스, 홈네트워크 등에 응용하고자 하는 사례가 증가하고 있다. 이러한 음성인식은 사용자의 음성을 100% 인식하도록 기능을 제공하는 것이 최상이지만, 현 시점에서는 열악한 잡음 환경이나 사용자의 실수, 인식대상이 아닌 단어발성(OoV: Out of Vocabulary) 등의 오인식 발생 요인으로 인해 사용자의 음성을 100% 인식하지 못하고 있다.

이 때, 일반적으로 음성인식 시스템에서 오인식이 발생할 경우에는 오인식된 결과를 그대로 시스템 응답에 사용한다면 사용자의 만족도를 크게 저하시키기 때문에, 오히려 음성인식 기능을 사용함에 따른 편리함 보다는 불편함을 더욱 초래할 수 있는 문제점이 있다. 따라서, 이와 같은 음성인식 오류로 인한 사용자 불만을 해소하고자 음성인식 결과를 다시 한번 검증하여 확실히 정인식된 결과라고 신뢰할 경우에만 시스템 응답으로 전달하고 그 외는 사용자에게 다시 한번 발성하게 하는 거절기능이 개발되었다.

상술한 바와 같은 음성인식 시스템에서 수행하는 발화검증 방법은 음성인식을 수행함에 있어 음성인식 결과에 대해 오인식 가능성이 높은지, 정인식 가능성이 높은지에 대한 음성인식 결과의 신뢰도를 판단하여 현재 발화의 거절(Rejection) 여부를 결정하는 방법이다. 이러한 고신뢰도 발화검증 방법의 구현은 실제 가정이나 자동차 환경에서 음성인식 사용성(Usability)을 획기적으로 높여주기 때문에 음성인식시스템의 실용화시 필수적이다.

한편, 종래 음성인식 시스템에서의 발화검증 방법으로는 HMM(Hidden Markov Model) 음성인식기의 탐색부에서 출력되는 특징데이터(예를 들어, 안티모델(Anti-model) LLR(Log Likelihood Ratio) 스코어(score), N-베스트(N-best) LLR 스코어, LLR 스코어의 조합, 단어길이(word duration) 등)와 이들 특징으로부터 오인식인지 여부를 판단할 수 있도록 SVM(Support Vector Machine) 패턴분류 방법이 주로 사용되고 있다.

하지만, 기존의 음성인식 시스템에서의 발화검증 방법인 SVM 패턴분류 방법은 인식후보 탐색단계에서 출력되는 중간결과값을 특징으로 주로 사용하기 때문에 발화검증의 신뢰도가 떨어지고, 이로 인해 사용자에게 보다 더 향상된 음성인식 서 비스를 제공하지 못하는 문제점이 있었다.

따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위해 이루어진 것으로서, 본 발명의 목적은 인식수행 단계별 출력되는 중간결과값 및 메타데이터(예를 들어, SNR, 성별, 나이, 음절수, 음운구조, 피치, 발성속도, 사투리 등)를 최대한 많이 활용하고, 이러한 이질적인 특징을 수용할 수 있도록 카트(CART) 패턴분류 방법으로 재차 검증해 줌으로써, 발화검증의 신뢰도를 향상시켜 사용자에게 보다 더 질높은 음성인식 서비스를 제공해주기 위한 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치를 제공하는 데 있다.

상기와 같은 목적을 달성하기 위하여 본 발명 음성인식 시스템에서의 2단계 발화 검증 방법은, 음성인식기의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하는 제 1 단계;

제1차 발화검증 기능의 결과값인 신뢰도 스코어가 오인식 수준으로 거절인지의 여부를 판단하는 제 2 단계;

상기 제 2 단계에서 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 오인식으로 거절(Reject)되면 다시 리턴하는 한편, 정인식으로 승인(Accept)되면, 전처리 모듈을 통해 추출된 각종 메타 데이터, 음성인식기의 각 요소 블록별 중간 결과 값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하는 제 3 단계; 및

제2차 음성 오인식 판별 기능의 결과가 오인식으로 거절인지의 여부를 판단하여 거절이면 다시 리턴하는 한편, 승인이면 음성을 시스템응답 모듈로 전달하는 제 4 단계로 이루어진 것을 특징으로 한다.

또한, 본 발명 음성인식 시스템에서의 2단계 발화 검증 장치는, 음성을 입력/출력하기 위한 음성 입출력부;

상기 음성 입출력부로부터 음성을 입력받아 그 음성에서 각종 메타 데이터를 추출하는 전처리 모듈;

상기 전처리 모듈로부터 각종 메타 데이터를 입력받은 후 음성인식을 수행하는 음성인식기; 및

상기 음성인식기의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하고, 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 정인식으로 승인(Accept)되면 상기 전처리 모듈을 통해 추출된 각종 메타 데이터, 상기 음성인식기의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하며, 이후 제2차 음성 오인식 판별 기능의 결과가 승인이면 음성을 시스템응답 모듈로 전달하는 발화검증부를 구비한 컴퓨터 시스템으로 구성된 것을 특징으로 한다.

이하, 본 발명의 일 실시예에 의한 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 장치의 구성을 나타낸 기능블록도로서, 본 발명의 일 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 장치는 크게 음성을 입력/출력하기 위한 음성입출력(Speech I/O)부(110), CPU상에서 각종 특징데이타를 추출하는 전처리 모듈(Preprocessing module)(120), CPU상에서 음성인식을 수행하는 음성인식기(Speech recognizer)(130), 및 CPU상에서 오인식 여부를 판별하는 발화검증부(Utterance verification)(140)로 구성된 컴퓨터 시스템(100)으로 구성되어 있다.

이 때, 상기 컴퓨터 시스템(100)의 상기 발화검증부(140)는 상기 음성인식기(130)의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하고, 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 정인식으로 승인(Accept)되면 상기 전처리 모듈(120)을 통해 추출된 각종 메타 데이터, 상기 음성인식기(130)의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하며, 이후 제2차 음성 오인식 판별 기능의 결과가 승인이면 음성을 시스템응답 모듈(System response module)(200)로 전달하는(Accept) 역할을 한다.

그러면, 상기와 같은 구성을 가지는 음성인식 시스템에 적용된 본 발명의 일 실시예에 따른 2단계 발화 검증 방법에 대해 첨부된 도 2, 도 3을 참조하여 설명하기로 한다.

먼저, 도 2는 본 발명의 일 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 방법을 나타낸 동작 플로우챠트로서, 상기 발화검증부(140)는 상기 음성인식기(130)의 탐색 블록(135)으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행한다(S1). 이 때, 상기 제 1 단계(S1)에서 상기 음성인식기(130)의 탐색 블록(135)으로부터 입력받은 각종 특징 데이터는 안티모델(Anti-model) LLR(Log Likelihood Ratio) 스코어(score), N-베스트(N-best) LLR 스코어, LLR 스코어의 조합, 단어길이(word duration) 등과 같은 데이터이며, 상기 발화검증부(140)는 이들 특징으로부터 오인식인지 여부를 판단할 수 있도록 SVM(Support Vector Machine) 패턴분류 방법을 사용한다.

그런후, 상기 발화검증부(140)는 상술한 제1차 발화검증 기능의 결과값인 신뢰도 스코어(Confidence score)가 오인식 수준으로 거절(Reject)인지의 여부를 판단하여, 거절(Reject)되면 다시 리턴하여 사용자에게 재발음해줄 것을 요구한다(S2). 이 때, 상술한 제 1, 2 단계(S1, S2)의 제1차 발화검증 기능은 신뢰도가 보장되는 임계치를 설정하여 그 임계치를 상회하면 이 단계에서 발화를 거절하고, 임계치 이하로 떨어지면 다음 단계로 발화검증 판별을 보류하는 것이다.

한편, 상기 제 2 단계(S2)에서 제1차 발화검증 기능의 결과값인 신뢰도 스코 어가 정인식으로 승인(Accept)되면, 상기 발화검증부(140)는 상기 전처리 모듈(120)을 통해 추출된 각종 메타 데이터, 상기 음성인식기(130)의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터(Confidence score) 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행한다(S3). 이 때, 상기 음성인식기(130)의 각 요소 블록은 도 2에 도시된 바와 같이 음성구간 끝점 검출 블록(End-point Detection Block)(131), 음성 검증 블록(Speech Verification Block)(132), 특징 추출 블록(Feature Extraction Block)(133), 잡음제거 블록(Noise Reduction Block)(134) 및 탐색 블록(Search Block)(135)으로 이루어지며, 상술한 이종 특징데이터의 세트는 하기 [표 1]과 같다.

그런후, 상기 발화검증부(140)는 제2차 음성 오인식 판별 기능의 결과가 오인식으로 거절인지의 여부를 판단하여 거절이면 다시 리턴하여 사용자에게 재발음해줄 것을 요구하는 한편, 최종 승인이면 음성을 상기 시스템응답 모듈(200)로 전달한다(S4).

한편, 본 발명의 제2차 음성 오인식 판별 기능에 적용된 카트(CART)는 통계적 패턴분류기의 한 방법으로 상기 [표 1]과 같은 이종 데이터에 대해 패턴 분류를 강인하게 해주는 알고리즘이다. 이 때, 카트(CART)로 패턴 분류를 하기 위해서는 미리 교사훈련(Supervised training) 과정이 필요하고 이를 위해 상기 [표 1]과 같은 이종 특징데이타에 대한 정인식/오인식 결과 데이터베이스를 구축, 이로부터 교사훈련 과정을 통해 분류트리(Classification Tree)를 생성해야 한다. 또한, 카트(CART) 훈련과정에서는 여러가지 이종 특징데이타에 의해 패턴분류를 시도해 보고 패턴집합의 엔트로피(Entropy)를 최저로 만드는 분류기준을 찾음으로써 패턴분류를 수행한다.

이 때, 패턴분류는 분류기준에 따라 도 3과 같이 이진결정트리(Binary decision tree)를 형성하게 되며, 여기서 분류기준은 "안티-모델(Anti-model) LLR 스코어가 몇점 이상인가?", "SNR은 몇 dB 이상인가?", "남자인가 여자인가?", "신뢰도 스코어(Confidence score)가 얼마인가?" 등이 될 수 있다.

도 3의 이진트리의 경우, 각 노드에서 분류기준을 적용하여 거절인 경우 좌측 경로로 분류되며, 승인인 경우에는 우측 경로로 분류된다. 루트노드(root node)에서 분류기준 "안티-모델(Anti-model) LLR 스코어(score) > -21?"이 적용된 경우, 좌측 경로에는 최종노드(Leaf node)인 오인식이라고 판단하여 거절을 결정하고, 우측 경로에는 또 다른 분류기준이 적용되어 엔트로피가 계속 감소되도록 이진트리를 형성하면서 분류가 진행된다. 이렇게 엔트로피의 감소량이 가장 많은 분류기준부터 순차적으로 적용하여 각 이종 특징데이타의 분류기준을 정할 수 있고, 이러한 분류기준으로부터 오인식 여부를 자동으로 판별하는 규칙을 작성할 수 있다.

이 때, 상술한 본 발명의 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 방법은 컴퓨터 프로그램으로 제작되어서 하드 디스크, 플로피 디스크, 광자기 디스크, 씨디 롬, 플래쉬 메모리, 롬, 램 등의 기록매체에 저장될 수 있다.

이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다.

상술한 바와 같이 본 발명에 의한 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치에 의하면, 인식수행 단계별 출력되는 중간결과값 및 메타데이터(예를 들어, SNR, 성별, 나이, 음절수, 음운구조, 피치, 발성속도, 사투리 등)를 최대한 많이 활용하고, 이러한 이질적인 특징을 수용할 수 있도록 카트(CART) 패턴분류 방법으로 재차 검증해 줌으로써, 발화검증의 신뢰도를 향상시켜 사용자에게 보다 더 질높은 음성인식 서비스를 제공해 준다는 뛰어난 효과가 있다.

Claims

음성인식기의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하는 제 1 단계;

제1차 발화검증 기능의 결과값인 신뢰도 스코어가 오인식 수준으로 거절인지의 여부를 판단하는 제 2 단계;

상기 제 2 단계에서 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 오인식으로 거절(Reject)되면 다시 리턴하는 한편, 정인식으로 승인(Accept)되면, 전처리 모듈을 통해 추출된 각종 메타 데이터, 음성인식기의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하는 제 3 단계; 및

제2차 음성 오인식 판별 기능의 결과가 오인식으로 거절인지의 여부를 판단하여 거절이면 다시 리턴하는 한편, 승인이면 음성을 시스템응답 모듈로 전달하는 제 4 단계로 이루어진 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 방법.
제 1항에 있어서,

상기 제 3단계에서 이종 특징데이터는, SNR, 에너지(Energy), 성별(Gender), 나이(Age), 인식단어의 음운구조(Phonetic structure), 화자의 방언사용 여부(Dialect), 단어내 음절수(Number of syllable in word), 단어내 음소수(Number of phoneme in word), 단어내 프래임 수(Number of frame in word), 발화속도(Speaking rate), 평균피치(Average pitch), 발화길이(Utterance duration), 음성이 부재일 확률(Speech absent probability), 음성/비음성일 확률(Speeech/Nonspeech likelihood), 칼만 업데이팅 함수(Kalman shrinking factor), 워너 업데이팅 함수(Wiener shrinking factor), N-베스트 LLR 스코어(N-best LLR score), 안티-모델 LLP 스코어(Anti-model LLR score), 필터 뱅크별 SNR(Filter bank SNR), LLR 값의 조합(LLR driven score), 제1차 발화검증 결과(SVM confidence score), 탐색시 빔 크기(Beam width), 탐색에 걸리는 시간(Search time), 끝점 검출에 걸리는 시간(EPD time), 시스템 사용 시간대(Time), 및 단어가 사용되는 영역(Domain)인 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 방법.
음성을 입력/출력하기 위한 음성 입출력부;

상기 음성 입출력부로부터 음성을 입력받아 그 음성에서 각종 메타 데이터를 추출하는 전처리 모듈;

상기 전처리 모듈로부터 각종 메타 데이터를 입력받은 후 음성인식을 수행하는 음성인식기; 및

상기 음성인식기의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하고, 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 정인식으로 승인(Accept)되면 상기 전처리 모듈을 통해 추출된 각종 메타 데이터, 상기 음성인식기의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하며, 이후 제2차 음성 오인식 판별 기능의 결과가 승인이면 음성을 시스템응답 모듈로 전달하는 발화검증부를 구비한 컴퓨터 시스템으로 구성된 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 장치.
제 4항에 있어서,

상기 이종 특징데이터는, SNR, 에너지(Energy), 성별(Gender), 나이(Age), 인식단어의 음운구조(Phonetic structure), 화자의 방언사용 여부(Dialect), 단어내 음절수(Number of syllable in word), 단어내 음소수(Number of phoneme in word), 단어내 프래임 수(Number of frame in word), 발화속도(Speaking rate), 평균피치(Average pitch), 발화길이(Utterance duration), 음성이 부재일 확률(Speech absent probability), 음성/비음성일 확률(Speeech/Nonspeech likelihood), 칼만 업데이팅 함수(Kalman shrinking factor), 워너 업데이팅 함수(Wiener shrinking factor), N-베스트 LLR 스코어(N-best LLR score), 안티-모델 LLP 스코어(Anti-model LLR score), 필터 뱅크별 SNR(Filter bank SNR), LLR 값의 조합(LLR driven score), 제1차 발화검증 결과(SVM confidence score), 탐색시 빔 크기(Beam width), 탐색에 걸리는 시간(Search time), 끝점 검출에 걸리는 시간(EPD time), 시스템 사용 시간대(Time), 및 단어가 사용되는 영역(Domain)인 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 장치.