KR20110070688A

KR20110070688A - 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법

Info

Publication number: KR20110070688A
Application number: KR1020100033376A
Authority: KR
Inventors: 강점자; 전형배; 정호영; 강병옥; 이성주; 박기영; 이윤근; 김종진; 박전규; 왕지현; 정의석; 정훈; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2009-12-18
Filing date: 2010-04-12
Publication date: 2011-06-24
Also published as: KR101317339B1

Abstract

본 발명은 엔베스트(N-best) 인식 단어 계산량 감소를 위한 2단계 발화검증 구조 및 방법에 관한 것으로, 메모리, CPU 성능 등 리소스 제한을 받는 임베디드 시스템에 발화검증 기능을 갖는 음성인식 시스템을 위한 것이다.
발화검증은 사용자가 음성으로 발성한 음성 입력에 대해 음성인식을 수행한 후, 인식된 결과에 대한 신뢰도를 계산하여 인식 결과를 수락 또는 거절을 결정하는 것이다. 이를 위해 임베디드용 발화검증은 성능 요구사항뿐만 아니라, 빠른 응답시간을 제공해 주어야 하므로, 새로운 구조와 계산량 감소를 위한 기법을 사용해야 한다. 따라서, 본 발명에서는 임베디드 음성인식 시스템에서 엔베스트 인식결과가 출력될 때 계산량 감소를 위한 2단계 발화검증 구조 및 방법을 제안하고자 한다.

Description

엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법{Apparatus and method using Two phase utterance verification architecture for computation speed improvement of N-best recognition word}

본 발명은 임베디드용 음성인식시스템에서 사용자 편의성 도모 및 시스템 성능을 향상시키기 위해 음성 인식 결과에 대한 오인식 가능성에 대해 수락 또는 거절을 결정하는 발화검증 기술에 속한다.

본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].

음성인식 기술에 있어서, 발화검증의 목적은 비인식 대상 어휘(out-of-vocabulary)를 거절시키고, 인식 대상 어휘라도 오인식 가능성이 있는 어휘들은 거절하는데 있다. 이 경우, 인식된 결과의 신뢰도를 측정하여 음성인식의 수락 또는 거절을 결정하게 된다. 신뢰도란 인식된 결과 이외의 음소나 단어로부터 해당 어휘가 발화되었을 경우에 대한 인식된 결과인 음소나 단어의 상대적 비율을 의미하고, 일반적으로 신뢰도 측정은 통계적 가설을 검증하는 관점에서 이루어진다.

통계적 가설 검증에서, 주어진 관측치(o)가 올바르게 인식되었다는 것을 영가설(null hypothesis)이라 하고, H_o로 표시한다. 반면, 관측치(o)가 잘못 인식되었다는 것을 대립가설(alternative hypothesis)이라 하고, H₁이라 표시한다. 영가설과 대립가설의 확률이 정확히 알려져 있다면, Neyman-Pearson Lemma에 의한 최적검정법은 다음의 [수학식 1]일 때 영가설을 채택하는 통계적 가설 검증이 된다.

여기서

는 영가설의 확률밀도 함수이고,

는 대립가설의 확률밀도 함수이며,

는 문턱치 값이다. 즉, LR(k)가 문턱치 값

보다 크면 수락하고, 그렇지 않으면 거절한다. HMM(Hidden Markov Model)에 기반한 음성인식 시스템에서 H_o는 정의하기에 따라 음소수준에서 문장수준까지의 클래스(

)를 나타내는 반면, H₁은 그와 다른 클래스(

)(j≠k)를 나타낸다. 여기서 클래스

의 파라미터

는 상태천이 확률, 상태관측치 확률 내지 상태 초기확률을 의미한다. 발화검증을 HMM에 기반한 음성인식에 적용하기 위해서는

와

를 추정해야 하는데, 이 경우 H₁을 표현해주는 모델링 방법이나 LR(k)값을 구하기 위해 사용되는 정규화 방법에 따라 발화검증의 성능에 차이가 발생한다. (HMM에 기반한 음성인식에서 H_o는

로 표현하고, H₁는

로 표현한다.)

종래의 발화검증 시스템은 고성능을 내기 위한 알고리즘 개발이 주류를 이루었고 리소스의 제한을 받지 않았으므로, 계산량 감소를 위한 발화검증 구조에 덜 민감한 특성을 지녔다. 그러나, 대어휘를 지원하면서도 리소스 제한을 받는 임베디드 음성인식 시스템에 발화검증을 사용하기 위해서는 고성능이면서 실시간 성능을 모두 만족하는 새로운 구조적 특성이 요구된다.

본 발명은 엔베스트(N-best) 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 장치 및 방법에 관한 것으로, 메모리, CPU 성능 등 리소스 제한을 받는 임베디드 시스템에 발화검증 기능을 갖는 음성인식 장치를 위한 것이다.

따라서, 본 발명에서는, 대어휘 임베디드 음성인식 시스템에 고성능, 실시간 성능을 만족하는 엔베스트 발화검증 구조와 방법을 제공함으로써 사용자의 재발성을 유도하거나, 사용자에게 발성오류를 알려줌으로써 음성인식시스템을 사용하는 사용자의 편의성과 시스템에 대한 신뢰도를 높여준다.

전술한 목적을 달성하기 위한 본 발명의 일면에 따른 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치는, 입력되는 음성의 잡음처리 및 음성구간의 검출을 수행하여 음성 데이터를 출력하는 전처리 모듈과, 제1 모델을 토대로 음성 데이터에 대한 음성인식을 수행함으로써 제1 엔베스트 단어리스트를 출력하는 음성인식 모듈과, 제1 엔베스트 단어리스트를 입력 받아 제2 모델에 기초하여 발화를 검증하는 발화검증 모듈을 포함한다. 여기서, 입력되는 음성 데이터에 대응하는 제1 엔베스트 단어리스트를 생성하는데 기초가 되는 제1모델과, 발화검증 모듈에서 최종적으로 생성되는 최종 엔베스트 단어리스트를 생성하는데 기초가 되는 제2 모델은 생성 방법과 형태 측면에서 다양한 음소 단위 또는 단어 단위의 모델일 수 있다. 이하에서는, 제1 모델은 일 실시예로 문맥독립 음소모델로 하고, 제2 모델은 일 실시예로 문맥종속 음소모델로 하여 보다 구체적으로 계산량이 감소된 발화검증 구조를 갖는 음성인식 장치를 설명한다.

발화검증 모듈은 음성인식 모듈에서 제공한 엔베스트 단어리스트를 사용하여 1단계 발화검증을 수행하여 수락된 단어에 대하여 제2 엔베스트 단어리스트를 출력한다. 본 과정은 출력되는 엔베스트 단어 수를 최소화 하기 위함이다. 다음으로 발화검증 모듈은 문맥종속 음소모델을 이용하여 2단계 발화검증을 수행하여 제2 엔베스트 단어리스트의 순서를 재정렬하고 재정렬된 엔베스트 단어를 토대로 발화검증을 수행하여 최종 엔베스트 단어리스트를 출력한다.

본 발명의 다른 면에 따른 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 방법은, 입력된 음성의 잡음처리 및 음성 구간을 검출하는 단계와, 검출된 음성 데이터에 대하여 기설정된 문맥독립 음소모델을 토대로 음성인식을 수행함으로써 제1 엔베스트 단어리스트를 출력하는 단계와, 제1 엔베스트 단어리스트에 대한 단어 로그 우도값을 이용하여 제2 엔베스트 단어리스트를 생성하는 단계와, 문맥종속 음소모델에 적용하여 제2 엔베스트 단어리스트로부터 순서를 재정렬한 최종 엔베스트 단어리스트를 생성하는 단계와, 최종 엔베스트 단어리스트의 단어 로그 우도값과 반음소 모델 기반의 단어레벨 로그 우도값을 이용하여 결합된 신뢰도 측정값을 생성하는 단계와, 결합된 신뢰도 측정값에 따라 발화검증의 결과를 출력하는 단계를 포함한다.

본 발명의 과제를 해결하기 위한 또 다른 면에 따른 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 방법은 문맥독립 음소모델을 토대로 음성에 대한 인식을 수행하여, 제1 엔베스트 단어리스트로부터 단어의 개수가 감소된 제2 엔베스트 단어리스트를 생성하는 단계와, 문맥종속 음소모델을 토대로 제2 엔베스트 단어리스트로부터 새로운 단어 로그 우도값에 따라 재정렬된 최종 엔베스트 단어리스트를 생성하는 단계와, 최종 엔베스트 단어리스트의 단어 로그 우도값과 입력된 특징벡터를 이용하여 생성된 문맥독립 음소모델들 사이의 쿨백레이블러 거리를 문맥독립 음소모델들에 대하여 대칭이 되도록 하여 생성한 반음소 모델을 기반으로 측정된 단어레벨 로그 우도값을 이용하여 발화 검증의 결과를 출력하는 단계를 포함한다.

본 발명은 대어휘 임베디드 음성인식 시스템에 고성능, 실시간 성능을 만족하는 엔베스트 발화검증 기능을 제공함으로써, 사용자의 재발성을 유도하거나, 사용자에게 발성오류를 알려줌으로써 음성인식시스템을 사용하는 사용자의 편의성과 시스템에 대한 신뢰도를 높여준다.

도 1은 본 발명에 따른 계산량이 감소된 발화검증 구조를 갖는 음성인식 장치의 개략적인 구성 블록도이다.
도 2는 본 발명에 따른 계산량이 감소된 발화검증 구조를 이용한 음성인식 방법의 흐름도이다.
도 3은 도 2의 제1 엔베스트 단어리스트를 생성하는 단계를 보다 상세하게 나타낸 흐름도이다.
도 4는 도 2의 최종 엔베스트 단어리스트를 이용하여 발화 검증 결과를 출력하는 단계를 보다 상세하게 나타낸 흐름도이다.
도 5는 본 발명에 사용되는 쿨백레이블러 거리기반 반음소 모델 생성방법을 나타낸 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1을 참조하여 본 발명의 일 실시예에 따른 계산량이 감소된 발화검증 구조를 갖는 음성인식 장치를 설명한다. 도 1은 본 발명에 따른 계산량이 감소된 발화검증 구조를 갖는 음성인식 장치의 개략적인 구성도이다. 도 1을 참조하면, 계산량이 감소된 발화검증 구조를 갖는 음성인식 장치(100)는 시스템 제어모듈(110), 전처리 모듈(120), 음성인식 모듈(130), 발화검증 모듈(140) 등을 포함한다.

본 발명을 구성하는 시스템 제어모듈(110)은 사용자(1)가 음성인식 기능이 탑재된 시스템을 이용하여 음성을 입력하면 이를 받아, 전처리 모듈(120)에 전달한다. 전처리 모듈(120)은 입력된 음성의 잡음 처리 및 음성 구간 검출을 위한 끝점검출과 특징추출을 수행하여 음성인식 모듈(130)에 잡음이 처리된 음성 데이터를 전송한다. 음성인식 모듈(130)은 제1 모델을 토대로 음성에 대한 인식을 수행하여, 입력된 음성데이터에 대응하는 제1 엔베스트 단어리스트를 출력하여 발화검증 모듈(140)에 전송한다.

발화검증 모듈(140)은 음성인식 모듈(130)에서 제공한 엔베스트 단어리스트를 사용하여 1단계 발화검증을 수행하여, 제1 엔베스트 단어리스트로부터 제2 엔베스트 단어리스트를 출력한다. 본 과정은 출력되는 엔베스트 단어수를 최소화 하기 위함이다.

또한, 발화검증 모듈(140)은 제2 모델을 토대로 2단계 발화검증을 수행하여 음성인식을 수행함으로써, 제2 엔베스트 단어리스트 순서를 재정렬한다. 그리고 재정렬된 엔베스트 단어를 토대로 발화검증을 수행하여 최종 엔베스트 단어리스트를 출력한다.

여기서, 음성인식 모듈(130)에 입력되는 음성 데이터에 대응하는 제1 엔베스트 단어리스트를 생성하는데 기초가 되는 제1 모델과, 발화검증 모듈(140)에서 최종적으로 생성되는 최종 엔베스트 단어리스트를 생성하는데 기초가 되는 제2 모델은 생성 방법과 형태 측면에서 다양한 음소 단위 또는 단어 단위의 모델일 수 있다. 이하에서는, 제1 모델을 일 실시예인 문맥독립 음소모델(135)로 하고, 제2 모델의 일 실시예로 문맥종속 음소모델(144)로 하여 보다 구체적으로 계산량이 감소된 발화검증 구조를 갖는 음성인식 장치를 설명한다.

사용자(1)가 음성을 입력하면, 시스템 제어모듈(110)은 사용자의 음성신호를 전처리 모듈(120)로 전달한다.

전처리 모듈(120)은 입력된 음성의 잡음 처리 및 음성 구간 검출을 위한 끝점검출과 특징추출을 수행하여 음성인식 모듈(130)에 잡음이 처리된 음성 데이터를 전송한다.

음성인식 모듈(130)은 음성 데이터에 대하여 음성인식을 수행하여 제1 엔베스트 단어리스트를 출력한다. 음성인식 모듈(130)은 제한된 리소스 내에서 고성능이면서 실시간 응답성을 제공하기 위하여 다음과 같이 음성인식을 수행한다.

예컨대, 음성인식 모듈(130)은 3단계의 음성인식을 수행할 수 있다. 먼저, 음성인식 모듈(130)은 문맥독립 음소모델(135)을 참고하여 음소인식을 수행한다. 여기서 인식된 음소열에는 오류가 포함되어 있을 수 있다.

다음으로 음성인식 모듈(130)은 첫째 단계에서의 음소인식 결과를 이용하여 단어인식을 수행한다. 여기서, 단어인식은 오류를 포함하고 있는 음소열이 인식 대상 어휘 내에 포함된 단어 중에서 어느 단어와 가장 유사한지 측정하고, 그 중 가장 유사도가 높은 단어를 인식결과로 출력하는 것을 의미한다. 이 경우, 유사도 측정은 편집거리(edit distance) 방식을 사용할 수 있다.

마지막으로, 음성인식 모듈(130)은 둘째 단계에서 출력된 가장 유사도가 높은 소정 개수의 단어에 대하여 문맥독립 음소모델(135)을 사용하여 리스코어링(rescoring)을 수행하여, 최종 음성인식 결과로 제1 엔베스트 단어리스트를 출력한다.

이와 같이 음성인식 모듈(130)은 제한된 리소스내에서 고성능, 실시간 응답결과를 제공하기 위하여 문맥독립 음소모델(135)만을 이용하는 제한된 구조적 특성을 갖고 있다. 따라서, 발화검증 모듈(140)은 음성인식 모듈(130)의 음성인식 방식에 따라 문맥종속 음소정보를 자체적으로 획득해야 한다. 이때, 발화검증 모듈(140)은 계산량의 감소를 도모하기 위하여 2단계의 발화검증 과정을 수행할 수 있다.

발화검증 모듈(140)은 도 1에 도시된 바와 같이, 1차 처리부(141), 2차 처리부(142) 및 비교 판단부(143) 등으로 구성된다.

1차 처리부(141)는 음성인식 모듈(130)에서 제공한 엔베스트 단어리스트를 사용하여 1단계 발화검증을 수행하여 제1 엔베스트 단어리스트로부터 개수가 감소된 제2 엔베스트 단어리스트를 생성한다.

이 때, 사용되는 단어 리스트는 예컨대, 인식된 단어의 이름, 인식된 단어의 시작점, 인식된 단어의 끝점, 인식된 단어의 로그 우도값(스코어), 수락 또는 거절 등을 포함하고 있다. 출력되는 엔베스트 단어 리스트의 개수가 증가하면 증가할수록 발화검증을 위한 계산량이 증가하기 때문에 음성인식 모듈(130)의 출력인 제1 엔베스트 단어리스트로부터 추출되는 엔베스트 단어의 개수를 줄이는 것에 본 발명의 이점이 존재한다.

상세하게는, 1차 처리부(141)는 제1 엔베스트 단어리스트를 구성하는 단어 각각의 문맥독립 음소모델(135)기반 단어 로그 우도값(단어별 스코어)을 계산하고, 개발 데이터로부터 구해진 문턱치 값과 상기 단어로그 우도값을 비교하여, 제2 엔베스트 단어리스트를 생성한다. 이에 대한 자세한 내용은 후술한다.

2차 처리부(142)는 1차 처리부(141)로부터 제2 엔베스트 단어리스트를 입력받고, 제2 엔베스트 단어를 구성하고 있는 각각의 문맥종속 음소모듈(144)을 이용하여 단어별 스코어를 계산하여 엔베스트 단어열을 재정렬한다. 이때, 좀더 정교화된 모델 즉, 트라이폰 모델을 사용할 수 있다.

예컨대, 스코어는 엔베스트 단어에 대한 로그 우도값(log-likelihood)이 될 수 있다. 2차 처리부(142)는 스코어에 따라서 단어를 재정렬한 후, 첫번째 단어의 스코어와 나머지 단어와의 스코어를 비교하여, 스코어 차이가 큰 것은 제거함으로써 최종적으로 출력되는 엔베스트 단어의 개수를 줄인다. 최종적으로 출력되는 엔베스트 단어의 리스트를 이하, 최종 엔베스트 단어리스트라고 한다.

마지막으로, 1차 처리부(141)와 2차 처리부(142)를 통해 출력된 최종 엔베스트 단어리스트는 비교 판단부(143)로 입력되어, 발화검증을 위한 판단에 사용된다.

비교 판단부(143)는 최종 엔베스트 단어리스트의 단어 로그 우도값과 반음소 모델 기반의 단어레벨 로그 우도값을 이용하여 발화 검증의 결과를 출력한다. 상세하게는, 비교 판단부(143)는 먼저, 최종 엔베스트 단어리스트의 단어 로그 우도값과 반음소 모델 기반의 단어레벨 로그 우도값을 계산한다. 다음으로, 비교 판단부(143)는 최종 엔베스트 단어리스트의 단어 로그 우도값과 반음소 모델 기반의 단어레벨 로그 우도값을 이용하여 결합된 신뢰도 측정값을 산출한다. 마지막으로, 비교 판단부(143)는 결합된 신뢰도 측정값을 기 저장된 수락 임계치 또는 거절 임계치와 비교하여 발화 검증의 결과로서 수락, 거절 또는 판단이 불가하다는 신호를 출력한다.

발화검증 모듈(140)의 보다 구체적인 동작은 이하, 도 4를 참고하여 해당부분에서 후술하기로 한다.

도 2 내지 도 4를 참고하여 본 발명의 다른 실시예인 계산량이 감소된 발화검증 구조를 이용한 음성인식 방법을 설명한다. 도 2는 본 발명에 따른 계산량이 감소된 발화검증 구조를 이용한 음성인식 방법의 개략적인 흐름도이고, 도 3은 도 2의 제2 엔베스트 단어리스트를 생성하는 단계를 나타낸 흐름도이고, 도 4는 최종 엔베스트 단어리스트 생성하는 단계를 나타낸 흐름도이다.

도 2를 참고하면, 먼저, 사용자(1)가 음성을 입력하면, 시스템 제어 모듈(110)은 이를 전처리 모듈(120)로 전송한다. 전처리 모듈(120)은 입력된 음성에 대하여 잡음처리 및 음성 구간을 검출한다(S210). 음성발화 시 주변의 환경소음, 음성입력 시 녹음장비의 특성 등이 일반적인 서비스 환경에서 음성인식의 성공률을 저하시키는 주요 원인이 되므로, 잡음 제거 기술이 요구된다.

음성인식 모듈(130)은 S210 단계의 출력을 입력 받아 음성인식을 수행함으로써 제1 엔베스트 단어리스트를 출력한다(S220). 제1 엔베스트 단어리스트를 출력하는 과정은 앞서 언급한 바와 같이, 3단계로 나누어 볼 수 있다. 첫번째로 문맥독립 음소모델(135)을 이용하여 음소를 인식하고, 두번째로 인식대상 어휘들 중에서 인식된 음소열이 어느 단어와 가장 유사한지를 기준으로 단어를 인식한다. 인식된 단어들은 인식된 음소열과 가장 유사도가 높은 단어들이다. 이 때, 유사도 여부는 편집거리 방식에 따를 수 있다. 마지막으로, 가장 유사도가 높은 소정 개수의 단어에 대하여 문맥독립 음소모델(135)을 사용하여 리스코어링을 수행하여, 제1 엔베스트 단어리스트를 출력한다. 제1 엔베스트 단어리스트 출력 결과는 발화검증 모듈(140)로 입력된다.

발화검증 모듈(140)은 2 단계의 과정을 통해 입력된 엔베스트 단어 개수를 줄인다.

첫번째 단계로 제1 엔베스트 단어리스트의 각각의 단어에 대한 단어 로그 우도값을 이용하여 제2 엔베스트 단어리스트를 출력한다(S230). 제2 엔베스트 단어리스트를 출력하는 단계는 도 3을 참조하여 구체적으로 설명한다.

도 3을 참조하면, 음성인식 모듈(130)로부터 제1 엔베스트 단어리스트가 입력되면, 발화검증 모듈(140)은 제1 엔베스트 단어리스트를 구성하는 각각의 단어에 대하여 문맥독립 음소모델(135)기반 단어 로그 우도값을 계산한다(S310). 예컨대, 입력된 엔베스트 단어 중 어느 하나의 단어에 대한 단어 로그 우도값을 구하고, 나머지 단어에 대한 단어 로그 우도값들을 이용하여 엔베스트 단어 로그 우도값(U_ind)을 산출한다. 엔베스트 단어 로그 우도값은 문맥독립 음소모델(135)을 기반으로 구하는 것으로서, 다음의 [수학식 2]와 같이 나타낼 수 있다.

그 후, 엔베스트 단어 로그 우도값과 개발데이터로부터 구해진 문턱치값을 비교하여(S320), 제2 엔베스트 단어리스트를 생성한다. 상세하게는, 제1 엔베스트 단어리스트를 구성하는 특정 단어에 대한 엔베스트 단어 로그 우도값이 개발데이터로부터 구해진 문턱치값 보다 작거나 같으면(혹은, 작으면) 엔베스트 단어리스트에서 제외시키고(S330), 크면(혹은, 크거나 같으면) 유효한 엔베스트 단어로 사용하여, 최종적으로 제2 엔베스트 단어리스트를 생성한다(S340).

두번째 단계로, 발화검증 모듈(140)은 문맥종속 음소모델(144)을 이용하여 최소화된 제2 엔베스트 단어에 대해 재인식하여 순서가 재정렬된 최종 엔베스트 단어리스트를 생성하고 이를 이용하여 발화 검증 결과를 출력한다(S240). 최종 엔베스트 단어리스트를 이용한 발화검증을 통하여 발화 검증 결과를 출력하는 단계는 도4를 참조하여 구체적으로 설명한다.

도 4를 참조하면, 먼저, S230단계에서 생성된 제2 엔베스트 단어리스트를 보다 정교한 문맥종속 음소모델(144)에 적용하여 정렬한다(S410). 상세하게는, 문맥종속 음소모델(144)을 사용하여 엔베스트 단어 로그 우도값을 계산한다. 계산결과, 단어 로그 우도값이 좋은 단어가 맨 처음 순서에 놓이게 된다. 처음 놓인 단어가 정답일 확률이 높다는 가정 하에, 첫번째 단어를 기준으로 나머지 단어 각각을 기설정된 빔 값과 비교한다. 비교결과 차이가 크면 제거하여 엔베스트 단어의 개수를 최소화함으로써 최종 엔베스트 단어리스트를 생성한다(S420).

다음으로, 재정렬과 개수가 최소화된 최종 엔베스트 단어리스트를 문맥종속 음소모델(144)에 적용하여, 최종 엔베스트 단어리스트의 단어 로그 우도값(U_dep)을 생성한다(S430). 최종 엔베스트 단어리스트의 단어 로그 우도값(U_dep)은 문맥종속 음소모델(144)을 기반으로 하는 값으로서, [수학식 3]과 같이 나타낼 수 있다.

다만, 본 단계(S430)의 경우는 개수가 최소화된 최종 엔베스트 단어리스트를 사용한다. 그러므로, 계산결과가 S310단계의 결과와 다름은 자명하다.

한편, 최종 엔베스트 단어리스트의 단어 로그 우도값을 생성(S430)하는 것과 별도로, 반음소 모델 기반의 단어레벨 로그 우도값을 산출한다. 이를 위해, 반음소 모델 기반의 음소레벨 로그 우도값을 먼저 산출한 후(S440), 이를 바탕으로 반음소 모델 기반의 단어레벨 로그 우도값을 산출한다(S450).

반음소 모델 기반의 음소레벨 로그 우도값(R₁)은 쿨백레이블러 거리기반의 반음소 모델에 기초한다. 반음소 모델 기반의 음소레벨 로그 우도값(R₁)은 다음의 [수학식 4]과 같이 구할 수 있다(S440).

이 후, 문맥종속 단어에 대한 로그 우도값과 쿨백레이블러 거리 기반의 반음소 모델 단어에 대한 로그 우도값을 기초로 반음소 모델 기반 단어레벨 로그 우도값(R₂)을 산출한다. 여기서, 문맥종속 단어에 대한 로그 우도값은 S440 단계에서 계산된 반음소 모델 기반 음소레벨 로그 우도값(R₁)을 해당 단어를 구성하고 있는 음소 수만큼 합하여 구할 수 있다. 반음소 모델 기반 단어레벨 로그 우도값(R₂)은 다음의 [수학식 5]와 같이 구할 수 있다(S450).

다음으로, S430단계의 최종 엔베스트 단어리스트의 단어 로그 우도값(U_dep)과 S450단계의 반음소 모델 기반 단어레벨 로그 우도값(R₂)을 곱하여 결합된 신뢰도 측정값(R_t)을 산출한다(S460). 결합된 신뢰도 측정값(R_t)을 수학식으로 표현하면 다음의 [수학식 5]와 같다.

이 후, 결합된 신뢰도 측정값(R_t)과 수락 임계치, 또는 거절 임계치를 비교하여, 발화 검증의 결과로서 수락, 거절 또는 판단불가를 출력한다(S470). 예컨대, 결합된 신뢰도 측정값(R_t)이 수락 임계치보다 크거나 같으면 수락이라는 음성인식 결과를 출력하고, 결합된 신뢰도 측정값(R_t)이 거절 임계치보다 작거나 같으면 음성인식의 결과로서 거절을 출력하며, 결합된 신뢰도 측정값(R_t)이 거절 임계치보다 크고 수락 임계치보다 작거나 같으면 판단이 불가하다는 발화검증의 결과를 출력할 수 있다.

이하에서는, 도 5를 참조하여 발화검증을 위한 반음소 모델을 생성하는 과정을 설명한다. 도 5는 반음소 모델을 생성하는 과정을 나타낸 흐름도이다. 본 발명에서는 문맥독립 음소모델(135)을 반음소 모델로 사용하고 있다. 문맥독립 음소모델(135)은 음향모델의 훈련과정 중에 생성된다.

도 5를 참조하면, 발화검증을 위한 반음소 모델을 생성하는 방법은 먼저, 입력된 특징벡터(S510)를 사용하여, 한 상태당 한 믹스처수를 갖는 문맥독립 음소모델(135)을 생성하고(S520), 문맥종속 음소모델(144)을 생성한다(S521). 훈련 과정 중에 각각 생성되는 문맥독립 음소모델(135)은 발화검증 반음소 모델 생성에 사용되고, 문맥종속 음소모델(144)은 발화검증 모듈(140)이 음소정보를 구하는데 사용된다.

쿨백레이블러 거리기반의 반음소 모델(145)은 기존에 자기 자신을 제외한 모든 모델을 합쳐놓은 것과는 다른 방식이다. 기존의 반음소 모델 생성은 모델의 믹스처수가 모델이 갖는 믹스처수 만큼 증가하므로, 계산량이 많이 소요되는 단점이 있었다. 그러므로 계산량을 최소화하면서 변별력을 갖는 반음소 모델을 갖기 위하여 쿨백레이블러 거리기반 반음소 모델(145)을 생성하는 것에 본 발명의 이점이 있다.

이하, 본 발명에 따른 쿨백레이블러 거리기반 반음소 모델(145)의 생성을 살펴보면 다음과 같다. 한 상태당 한 믹스처수를 갖는 문맥독립 음소모델(135)로부터 모델들끼리의 거리를 구할 때, 모델의 확률분포간의 거리척도 계산을 위해 쿨백레이블러 거리(Kullback-Leibler distance)를 사용한다. 랜덤변수 x에 대하여 두개의 확률분포 f(x), g(x)가 있을 때, 이들 사이의 쿨백레이블러 거리 KL(f(x), g(x))는 다음의 [수학식 7]과 같다.

예컨대, 확률분포로 가우시안 분포를 사용할 경우, 두 분포간의 거리는 다음의 [수학식 8]과 같다.

는 확률분포

의 평균과 분산이고,

는 확률분포

의 평균과 분산이다.

이와 같은 거리척도를 이용하여 모델간의 거리는 다음의 [수학식 9]과 같이 구할 수 있다(S530). N은 모델의 상태 수를 나타내고, V는 음성 특징벡터의 차원을 나타내며,

는 음소 p_i의 s번째 상태의 d차원의 확률분포를 나타낸다.

쿨백레이블러 거리 방식은 대칭성(symmetric)이 없는 성질을 갖는다. 즉, [수학식 8]에서 비교대상 모델의 순서가 바뀌면 거리의 결과값이 다르게 나온다. 그러므로 문맥독립 모델 i와 j사이의 거리가 두 모델에 대하여 대칭이 되도록 [수학식 9]를 사용한다(S540). 마지막으로 [수학식 10]를 사용한 모델간의 거리를 이용하여 최소한의 믹스처수를 가지면서 고성능을 내는 반음소 모델을 생성한다(S550).

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 음성인식 장치
110: 시스템제어 모듈
120: 전처리 모듈
130: 음성인식 모듈
135: 문맥독립 음소모델
140: 발화검증 모듈
141: 1차 처리부
142: 2차 처리부
143: 비교 판단부
144: 문맥종속 음소모델
145: 쿨백레이블러 기반 반음소 모델

Claims

입력되는 음성 데이터에 대하여 제1 모델을 이용하여 음성인식을 수행함으로써 제1 엔베스트 단어리스트를 출력하는 음성인식 모듈; 및
상기 제1 엔베스트 단어리스트를 토대로 제 2엔베스트 단어리스트를 생성하고, 제2 모델을 이용하여 상기 제2 엔베스트 단어리스트로부터 최종 엔베스트 단어리스트를 생성하는 발화검증 모듈
을 포함하는 음성인식 장치.
제1항에 있어서,
상기 제1 모델은 문맥독립 음소모델이고, 상기 제2 모델은 문맥종속 음소모델인 것
인 음성인식 장치.
제2항에 있어서, 상기 발화검증 모듈은
상기 제1 엔베스트 단어리스트에 대한 단어 로그 우도값을 이용하여 상기 제2 엔베스트 단어리스트를 생성하는 1차 처리부;
상기 제2 엔베스트 단어리스트를 상기 문맥종속 음소모델에 적용하여 상기 최종 엔베스트 단어리스트를 생성하는 2차 처리부; 및
상기 최종 엔베스트 단어리스트의 단어 로그 우도값과 반음소 모델(anti-model) 기반의 단어레벨 신뢰도 측정값을 이용하여 발화 검증의 결과를 출력하는 비교 판단부를 포함하는 것
인 음성인식 장치.
제3항에 있어서, 상기 1차 처리부는
상기 제1 엔베스트 단어리스트 중 어느 하나의 단어에 대한 단어 로그 우도값과 나머지 단어들에 대한 단어 로그 우도값을 토대로 엔베스트 단어 로그 우도값을 산출하고,
상기 엔베스트 단어 로그 우도값과 기설정된 문턱치 값을 비교하여 상기 제2 엔베스트 단어리스트를 생성하는 것
인 음성인식 장치.
제3항에 있어서, 상기 2차 처리부는
상기 제2 엔베스트 단어리스트를 상기 문맥종속 음소모델에 적용하여 정렬하고,
상기 정렬된 첫번째 단어를 기준으로 나머지 단어들을 기설정된 빔값과 비교 선별하여 상기 최종 엔베스트 단어리스트를 생성하는 것
인 음성인식 장치.
제3항에 있어서, 상기 비교 판단부는
대칭성을 갖는 쿨백레이블러 거리 방식을 기반으로 생성된 반음소 모델을 이용하여 음성인식 결과를 출력하는 것
인 음성인식 장치.
제2항에 있어서, 상기 음성인식 모듈은,
상기 문맥독립 음소모델을 이용하여 음소열을 인식하고, 상기 인식된 음소열를 이용하여 인식 대상 어휘 내에서 유사도가 높은 단어를 추출하고,
상기 추출된 단어로부터 상기 문맥독립 음소모델을 이용하여 상기 제1 엔베스트 단어리스트를 출력하는 것
인 음성인식 장치.
제7항에 있어서, 상기 음성인식 모듈은
편집거리 방식을 이용하여 상기 인식된 음소열과 상기 인식 대상 어휘내의 단어의 유사도를 측정하는 것
인 음성인식 장치.
입력된 음성 발화로부터 검출된 음성 데이터를 이용하여 제1 엔베스트 단어리스트를 출력하는 단계;
상기 제1 엔베스트 단어리스트의 단어 로그 우도값을 이용하여 제2 엔베스트 단어리스트를 생성하는 단계; 및
상기 제2 엔베스트 단어리스트로부터 문맥종속 음소모델을 이용하여 최종 엔베스트 단어리스트를 생성하는 단계
를 포함하는 음성인식 방법.
제9항에 있어서, 상기 제1 엔베스트 단어리스트를 출력하는 단계는
문맥독립 음소모델을 이용하여 음소인식 및 단어인식을 수행하는 단계; 및
상기 문맥독립 음소모델을 이용하여 상기 인식된 단어 중에서 상기 제1 엔베스트 단어리스트를 출력하는 단계를 포함하는 것
인 음성인식 방법.
제10항에 있어서, 상기 단어인식을 수행하는 단계는
상기 인식된 음소열을 이용하여 인식 대상 어휘내에서 유사도가 높은 단어를 추출하는 것
인 음성인식 방법.
제11항에 있어서,
상기 유사도는 편집거리 방식을 토대로 측정되는 것
인 음성인식 방법.
제9항에 있어서, 상기 제2 엔베스트 단어리스트를 생성하는 단계는
상기 제1 엔베스트 단어리스트 중 어느 하나의 단어에 대한 단어 로그 우도값과 나머지 단어들에 대한 단어 로그 우도값을 토대로 엔베스트 단어 로그 우도값을 산출하고,
상기 엔베스트 단어 로그 우도값과 기설정된 문턱치 값을 비교하여 상기 제2 엔베스트 단어리스트를 생성하는 것
인 음성인식 방법.
제10항에 있어서, 상기 최종 엔베스트 단어리스트를 생성하는 단계는
상기 제2 엔베스트 단어리스트를 상기 문맥종속 음소모델을 이용하여 정렬하고, 상기 정렬된 첫번째 출력단어를 기준으로 나머지 출력단어들을 기설정된 빔값과 비교 선별하여 상기 최종 엔베스트 단어리스트를 생성하는 것
인 음성인식 방법.
입력된 음성의 잡음처리 및 음성 구간을 검출하여 음성데이터를 검출하는 단계;
제1 모델을 토대로 상기 음성데이터로부터 제1 엔베스트 단어리스트를 출력하는 단계;
상기 제1 엔베스트 단어리스트로부터 제2 엔베스트 단어리스트를 생성하는 단계;
제2 모델을 토대로 상기 제2 엔베스트 단어리스트로부터 최종 엔베스트 단어리스트를 생성하는 단계; 및
상기 최종 엔베스트 단어리스트의 단어 로그 우도값과 반음소 모델(anti-model) 기반의 단어레벨 로그 우도값을 이용하여 발화 검증의 결과를 출력하는 단계
를 포함하는 음성인식 방법.
제15항에 있어서,
상기 제1 모델은 문맥독립 음소모델이고, 상기 제2 모델은 문맥종속 음소모델인 것
인 음성인식 방법.
제15항에 있어서,
상기 반음소 모델 기반의 단어레벨 로그 우도값은 문맥종속 단어에 대한 로그 우도값과 쿨백레이블러 거리 기반의 반음소 모델 단어에 대한 로그 우도값을 토대로 산출된 것
인 음성인식 방법.
제15항에 있어서, 상기 발화 검증의 결과를 출력하는 단계는
입력된 특징벡터를 이용하여 문맥독립 음소모델을 생성하는 단계;
상기 생성된 문맥독립 음소모델들 사이의 쿨백레이블러 거리를 구하는 단계;
상기 쿨백레이블러 거리를 상기 문맥독립 음소모델들에 대하여 대칭이 되도록 하는 단계;
상기 대칭화된 쿨백레이블러 거리를 이용하여 반음소 모델을 생성하는 단계; 및
상기 생성된 반음소 모델을 기반으로 상기 단어레벨 로그 우도값을 생성하는 단계를 포함하는 것
인 음성인식 방법.
제18항에 있어서, 상기 발화 검증의 결과를 출력하는 단계는
상기 최종 엔베스트 단어리스트의 단어 로그 우도값과 상기 반음소 모델(anti-model) 기반 단어레벨 로그 우도값을 이용하여 생성된 결합된 신뢰도 측정값과 기설정된 수락 임계치 및 기설정된 거절 임계치와 비교하여 발화검증의 결과를 출력하는 단계를 더 포함하는 것
인 음성인식 방법.
제18항에 있어서, 상기 대칭화하는 단계는
i번째 문맥독립 음소모델과 j번째 문맥독립 음소모델에 대한 쿨벡레이블러 거리와, j번째 문맥독립 음소모델과 i번째 문맥독립 음소모델에 대한 쿨벡레이블러 거리의 평균을 사용하는 것
인 음성인식 방법.