KR20100021204A

KR20100021204A - 가변 신뢰도 문턱치를 사용한 음성인식스위치 제어방법

Info

Publication number: KR20100021204A
Application number: KR1020080079989A
Authority: KR
Inventors: 정희석; 이상록
Original assignee: (주)파워보이스; 이상록
Priority date: 2008-08-14
Filing date: 2008-08-14
Publication date: 2010-02-24

Abstract

본 발명은 음성인식 분야에서 많이 사용되고 있는 가변어휘 단어 인식시스템에서 미등록어에 대한 거절 성능을 향상시켜 등록된 명령어에 대해서만 스위치가 작동하며, 등록되지 않은 명령어에 대해서는 반응하지 않음으로써 절전기능이 내재된 음성인식스위치 제어 방법이다.

본 발명에 따르면, 미등록어에 대한 거절 기능(Out-of-vocabulary word rejection algorithm)은 음성 인식기를 만들 때 미리 인식대상 단어를 정해놓고, 등록되지 않은 단어가 입력되었을 때 인식할 수 없는 단어로 분류하는 것을 말한다. 거절 기능을 구현하는 방식은 핵심어 검출(Keyword spotting)방식과 발화검증(Utterance verification)으로 구분이 된다. 발화 검증 방식은 각 음소마다 이와 유사한 반음소 모델(anti-phoneme model)을 생성한 후 정상적인 음소 모델과 반음소 모델의 유사도를 비교하여 결정하는 방식이다. 발화 검증 전에 화자확인 단계를 추가하여 화자 확률값을 구한다. 화자가 발성할 때마다 구해지는 화자확인 확률값을 신뢰도 문턱치를 결정할 때 적용하는 방법이다.

가변 신뢰도, 문턱치, 음성인식스위치

Description

가변 신뢰도 문턱치를 사용한 음성인식스위치 제어방법{A control method of the Speech-Recognition Switch using Variable Confidence Thresholds}

사람과 기계 상호간에 가장 편리한 인터페이스는 물리적인 접촉이 없이 의사전달이 가능한 음성이며 많은 곳에서 보다 나은 성능을 위한 연구가 진행되고 있다[1]. 현재 한국의 음성인식 시장은 홈오토메이션, 네비게이션, 소형 로보트 등을 통하여 시장이 형성되어 지고 있으며 제품들이 출시되어 지고 있다. 특히, 교통 안전과 직격되는 차량용 네비게이션 제품에 음성인식 기능에 대한 요구가 많았으며 최근에 음성인식기능이 탑재된 기기들이 출시되고 있다. 또한 홈오토메이션관련 기기도 주거환경의 고급화 경향에 힘입어 가전, 냉난방, 방범, 조명 등의 사용을 가족구성원의 음성으로 조절할 수 있도록 개발되어 출시되고 있다. 이러한 음성인식시스템 중에서 가변어휘 인식 시스템이 많이 사용 중인데 인식기에 등록이 되지 않은 단어를 발성하게 되면 처리할 수 없다는 단점을 가지고 있다. 따라서 사용자는 미리 정해진 등록어를 알고 있어야 하고 등록어 만을 사용해야하는 문제가 있었다. 이런 문제점을 극복하는 방법으로 인식대상으로 등록된 단어에 대해서만 인식을 하고 그 외의 단어에 대해서는 인식을 거절(rejection)하여 시스템의 인식성능을 향상시키는 미등록어 거절(out-of-vocabulary rejection)기능이 개발되어 성능향상을 위한 연구가 진행되고 있다.

미등록어 거절방식은 구현 방식에 따라 발화검증(utterance verification)방식과 핵심어 검출(keyword spotting) 방식으로 구분할 수 있다. 우선 핵심어 검출 방식은 문법을 설계할 때 핵심어만 고려하고 이외의 단어는 가비지(garbage)모델을 사용하여 불필요한 단어를 제거하는 방법이며, 이 방법은 가비지 모델의 우도비값이 인식대상 핵심어의 우도비값보다 클 경우 제거하는 방법이다[2]. 발화검증방식은 인식결과를 확인하는 과정이 추가되며 이때 필러(filler)모델을 이용하는 방법이 사용되었다. 하지만, 필러모델은 그 구성방식이 단어기반이므로 가변어휘 단어 인식시스템을 위한 발화 검증 구현을 위해서는 매 음소단위의 검증기능이 있어야 하는데 이를 위해서 반음소 모델(anti-phoneme model)을 사용하는 방식이 제안되었다[2]. 가변어휘 단어 인식기에서 인식된 단어의 등록여부를 판별하는 것이 발화검증의 역할이다. 일반적으로 유사도 비를 사용한 테스트를 많이 사용하는데, 입력단어가 등록어라고 가정하는 영가설(Null Hypothesis)과 미등록어라고 가정하는 대립 가설(Alternative Hypothesis)의 비를 이용하는 통계적인 가설 테스트를 음성인식의 많은 분야에서 사용하고 있다.

현재 자연어휘 인식 시스템은 인식률의 문제로 인해 사용이 제한적이나 가변어휘 단어독립 음성인식 시스템은 증권, 홈오토메이션, 자동차용 네비게이션 등 많은 분야에서 상용화되어 사용되고 있다. 이 시스템은 인식 대상 어휘가 바뀌어도 인식할 수 있는 시스템으로 인식 대상 어휘가 추가되어도 훈련과정을 새로 거치지 않고 기존의 훈련된 정보를 바탕으로 인식하는 시스템이다. 이는 단어단위의 인식 시스템 구현시 그보다 낮은 단위인 서브워드(sub-word), 음소(phoneme)나 그와 유사한 단위(PLU:Phoneme Like Unit)로 모델링을 하여 이 정보들을 바탕으로 인식을 하는 방법을 사용한다. 만일, 인식대상이 바뀌게 되면 인식대상이 되는 변경된 단어에 대한 PLU 단위의 정보는 미리 모델링된 상태이므로 단어 단위의 인식 결과 만들어 주는 과정만 변경해 주면 된다. 따라서, 추가적인 음성 훈련이 없이도 단어독립 음성인식이 가능하게 된다.

본 논문에서는 발화검증 단계에서 미등록어의 거절기능을 향상시킬 수 있는 방법을 제안하였다. 가변어휘 단어 인식기는 기존의 고립단어 인식기와는 다르다. 인식할 대상이 되는 단어가 매번 바뀌어도 인식할 어휘에 대한 훈련과정을 새로 수행하지 않고 발음사전을 교체하여 단어모델을 재구성하게 된다. 이론적으로는 인식할 대상 단어에 제한이 없어진다. 이런 인식기를 구현하려면 우선 한국어에 존재하는 모든 음소를 다양한 환경에서 모델링해야 한다. 또 이런 다양성을 잘 수용할 수 있는 음소 모델 구조를 만들어야 한다. 본 논문에서는 이러한 가변어휘 단어 인 식기의 요구사항을 충족시키기 위한 방법으로 네비게이션 기기나 홈 네트워크 시스템 등을 호출할 때 사용하는 호출 키워드(call_keyword)에 대하여 화자확인 방식을 적용하는 방법을 제안하였다. 인식된 호출키워드에서 유도된 가중치를 사용하여 인식대상이 되는 단어들을 발화 검증하는 방법을 제안하였으며 실험결과 기존의 등록된 단어 외에 새로운 단어가 추가되어도 패널티 조정 등의 추가적인 변화가 없이 거절율과 인식률이 사무실환경이나 잡음 환경에서도 모두 개선됨을 확인하였다. 또, 화자확인시 등록자에 대하여 적용되는 가중치로 인해 시스템의 인식성능이 잡음환경 하에서도 증가하였는데, 이는 등록된 화자에 대해서는 새로운 환경에 대한 모델링의 요구가 줄어들기 때문에 사용 환경이 계속적으로 변하는 자동차 환경에서는 더 큰 장점이 될 수 있다.

2장에서는 기존의 발화검증 시스템을 사용한 가변어휘 단어인식시스템에 대하여 설명하였고, 3장에서는 본 논문에서 제안한 가변 신뢰도 문턱치를 사용한 가변어휘 단어인식 시스템에 대하여, 4장에서는 실험 방법과 결과에 대하여 각각 기술하였다.

인식된 호출키워드에서 유도된 가중치를 사용하여 인식대상이 되는 단어들을 발화 검증하는 방법을 제안하였으며 실험결과 기존의 등록된 단어 외에 새로운 단어가 추가되어도 패널티 조정 등의 추가적인 변화가 없이 거절율과 인식률이 사무실환경이나 잡음 환경에서도 모두 개선됨을 확인하였다. 또, 화자확인시 등록자에 대하여 적용되는 가중치로 인해 시스템의 인식성능이 잡음환경 하에서도 증가하였는데, 이는 등록된 화자에 대해서는 새로운 환경에 대한 모델링의 요구가 줄어들기 때문에 사용 환경이 계속적으로 변하는 자동차 환경에서는 더 큰 장점이 될 수 있다.

기본적인 시스템은 음성인식 기능과 검증기능이 동시에 검색이 되도록 하는 One-pass 시스템과 인식기의 후처리 방식으로 검증기능을 구현하는 Two-pass방식이 있다, Two-pass 방식은 기존 시스템의 수정없이 검증 과정을 추가한 것으로 구현이 쉽다는 장점을 가지고 있다[4]. 발화 검증 시스템을 설계할 때 첫째, 미등록어와 잘못 인식된 단어를 잘 선별할 수 있는 검증 모델에 기반한 적정한 신뢰도(confidence measure)를 정의해야 하고, 둘째 훈련 데이터에서 검증 오류를 최소화할 수 있도록 검증모델을 적응시키는 훈련과정을 선택해야 하며, 셋째 유사도의 변화와 검증 문턱치의 변화, 훈련과 테스트 상태의 변화에 강해야 한다.

그림1 에서는 인식과 검증으로 구성된 2단계 시스템의 기본 구조를 보여주고 있다. 1단계에서 인식 모델을 사용해서 비터비(viterbi) 탐색 알고리즘에 의한 인식과정을 수행한다. 음소 모델들은 ML(Maximum Likelihood)를 이용하여 HMM의 파라미터를 최적화시켰다. 인식 과정 동안 각 단어의 발화는 음소 가설로 분할되며, 그 결과를 발화 검증 시스템으로 전달한다. 두 번째 단계인 발화 검증 과정은 인식된 후보 단어의 음소열에 대해 반음소 모델과의 신뢰도를 구해 그 단어의 신뢰도 값을 결정한다. 이 신뢰도 값이 미리 정해둔 문턱치보다 크면 인식단어로 인식이 되고 아니면 거절된다.

가변어휘 단어 인식기를 이용하여 비터비 탐색을 하기 때문에 기본적으로 단어 단위로 인식이 되지만, 그 인식된 단어는 내부적으로 음소 단위로 인식된다. 따라서, 인식된 음소 단위들을 각각의 반음소 모델과 비교하여 신뢰도를 구하고, 음소 단위의 신뢰도를 단어 단위의 신뢰도로 환산하기 위해서 음소 단위의 신뢰도 평균을 내었다. 본 논문에서도 이와같은 방법을 사용하였다.

시스템에서는 다른 패턴들, 즉 에 상응하는 발화검증모델을 사용하는 신뢰도를 선택했다. 각 패턴 에 대하여, 음소 모델을 라 표시하고, anti-model인 반음소 모델을 , 필러(filler) 모델을 라 표시했다. (즉, ). 등록어 는 원소들로 구성되어 졌으며, 음소 단위들을 평균낸 단어 단위의 신뢰도는 (1)가 되며[4], 이 신뢰도가 미리 정해둔 문턱치 이하라면 원소는 거절 시키게 된다. 여기서 음의 값을 가지는 상수이며, 등록패턴 의 모델에 대한 가중치이며, 는 에 상응하는 음성의 세그먼트이다. 각 음소의 반음소 모델과의 유사도비거리, 는 아래 식(2)와 같이 정의되어졌다. 패턴 인 일반적인 음소에 대하여 수식(1)의 신뢰도 측정은 키워드와 미등록어 간의 더 나은 식별력을 보일뿐만 아니라 음성인식에서 근소한 오류(near-misses) 의 검출 능력이 향상되었음을 보여준다[6][8]. 이론상 발화검증에서 등록어로 분류가 될 때 신뢰도 가 문턱치 보다 크며, 미등록어로 분류될 때는 문턱치 보다 작다. 이 실험을 성공적으로 수행하기 위해서 검증모델 는 미등록어에 대한 잘못된 인식을 최소화하고 등록어에 대한 인식을 최대화할 수 있는 방향으로 훈련되어져야 한다. 그러나, 기존의 시스템이 특정 환경에 성능이 최적화되었을지라도 다양한 배경잡음에 노출되게 되면 미리 정해졌던 문턱치 등을 새로 적용해야 하는 문제점이 있다. 본 논문에서는 이러한 문제점을 위해 다음과 같은 방법을 제안하였다.

<제안한 가변 신뢰도 문턱치를 사용한 미등록어 거절기법>

기존의 발화검증 시스템에서는 반음소 모델과 음소모델의 차이로써 신뢰도를 계산하고 사전에 미리 정해놓은 신뢰도의 문턱치에 따라 등록어인지 미등록어인지 구별하게 된다. 그러나, 이 방법은 음소마다 신뢰도의 분포가 다르기 때문에 단어마다 신뢰도의 분포가 다르고 단어마다 거절 성능이 균일하지 않는 문제점과 또 실제 환경에서는 잡음이 많이 추가되어지면 잡음에 따른 신뢰도의 분포 또한 달라진다[8]. 잡음환경에서의 가변어휘 단어 인식 시스템의 거절기능의 향상을 위해서 화자확인 시스템을 이용한 신뢰도를 결정하는 새로운 방법을 제안하였고 그림[4]와 같이 나타내었다. 기존의 가변어휘 단어인식 시스템과 발화검증 시스템사이에 호출 키워드(call_keyword)에 대한 화자확인 시스템과 제안한 가변 신뢰도 문턱치 계산 부분을 추가한 구조이다. 음성입력이 들어오게 되면 먼저 전처리 과정을 거치게 된다. 그 다음 가변어휘 단어 인식기를 통과한 입력 음성 파라메타에 대하여 호출 키워드 부분만을 추출한다. 추출된 호출키워드 부분에 대하여 화자확인을 실시하며 호출 키워드에 대한 화자모델을 구성한다. 이 화자모델은 인증된 화자의 새로운 호출이 있을 때마다 적응을 하게 된다. 화자확인 시스템에서 계산된 화자모델의 확률값을 이용하여 발화검증 시스템의 신뢰도 문턱치를 가변적으로 결정하게 된다. 발화 검증 시스템에서는 인식 시스템을 거친 인식 음소열과 제안한 화자확인 시스템을 거쳐 구한 가변 신뢰도 문턱치를 이용하여 발화 검증을 수행하여 수락(accept) 과 거절(reject)을 결정하게 된다. 그 방법은 다음 절에서 서술하였다.

화자가 초기에 호출 키워드를 5회 발성하면 DHMM(Discrete Hidden Markov Model)기반 화자 모델이 생성되고, 추후 인증된 화자에 대해 화자의 변화에 적응하기 위해서 또한, 화자 모델을 좀 더 강건하게 만들기 위해서 화자 적응 기법이 사용된다. 본 논문에서는 MAP 기법에 기초하여 화자의 변화에 적응하는 적응 기법을 사용하였다[9][10]. MAP(Maximum a Posteriori) 적응 기법은 학습 데이터에 포함되어 있는 선 지식 정보를 선 밀도 함수에 포함시켜 이를 적응 데이터와 최적의 방법으로 결합하여 적응하는 기법이다. MAP에서는 파라미터 가 어떤 분포를 갖는 랜덤 변수라 가정한다. 만약 가 상위모수(Hyperparameter) 을 갖는 선 확률밀도함수 와 유사도 를 갖는 관측 열로부터 추정된다면 MAP 기법은 다음과 같이 의 posterior model로 정의된다. 선 밀도 함수 는 관측열이 주어지기 전에 관심 있는 파라미터에 대한 통계적 특성을 포함하여 파라미터가 어떤 제약된 값을 갖도록 한다. 일반적으로 HMM과 같이 상태와 혼합 성분이 내재된 은닉 과정을 포함하는 경우에 MAP 추정은 매우 어렵다. 그러나 HMM 파라미터의 선 밀도 함수가 완전데이터 밀도의 공액족(conjugate family)에 속한다면 EM 알고리즘에 의해 MAP추정을 쉽게 할 수 있다. MAP 추정은 ML(Maximum Likelihood)에 비해 적은 적응 데이터에 대해 더 강인하게 파라미터를 추정한다. 적응 데이터의 양이 증가함에 따라 MAP은 ML 추정치로 수렴하는 장점을 가지고 있다. 그러나 MAP은 관측된 파라미터에 대해서만 적응된다. 그러므로 수백만 개의 파라미터를 갖는 대용량 인식기의 경우 적응 속도가 매우 느린 단점을 갖는다.

하지만, 추정해야 할 파라미터가 한정되어 있는 화자 인증 시스템에서는 MAP 추정이 가장 유효한 적응 기법이다. 따라서 다음과 같은 적응 식의 변형된 형태를 사용하였다.

음성인식을 통해 자동 분할된 호출 키워드 구간에 대한 신뢰도 측정 및 가변 문턱치 결정 기법을 제안하고 그림5와 같이 나타내었다.

여기서, 는 가변 신뢰도 문턱치 값을 정규화하기 위하여 시그모이드(sigmoid) 함수를 사용하여 만든 가중치이다. 제안한 가변 문턱치는 화자 인식 시스템을 음성 인식 시스템과 통합 운용시킴으로써 환경변화에 적응하도록 신뢰도 문턱치를 변화시키게 되어, 미등록어 거절 기능을 향상시킬 뿐 아니라, 잡음환경 하에서 등록어 임에도 불구하고 거절하는 오류까지도 감소시킬 수 있다.

본 논문에서는 가변어휘 단어 인식기의 미등록어 거절 성능을 향상시키기 위한 방법으로 입력 발성 중 호출키워드 부분을 추출하여 화자 인식 확률값을 추출하고 이를 바탕으로 발화검증시스템에서의 신뢰도 문턱치를 가변적으로 적용하는 방법을 제안하였다.

호출 키워드를 사용하는 시스템에서는 호출 키워드를 통하여 명령의 처리여부를 먼저 결정하게 되므로 상당부분 미등록어에 대한 사전 검증을 한다고 볼 수 있다. 즉, 화자가 호출 키워드를 발성하지 않은 상태에서 제어 명령어를 발성하여도 이는 인식되지 않게 되며 이 때문에 뜻하지 않는 상황에서의 오작동이나 미등록어에 대한 잘못된 인식을 방지할 수 있다. 호출 키워드를 통하여 화자 확인 확률값을 추출하여 발화 검증을 하게 되므로 한정된 인원이 사용하게 되는 홈 네트워크 시스템이나 네비게이션 시스템에서 인식 성능의 향상이 있음을 확인할 수 있었다.

기존의 발화 검증 시스템과 비교하였을 때 일반적인 사무실 환경과 사무실내 잡음환경 하에서 CA와 CR이 각각 향상되었다. 등록된 화자로 판별이 되었을 경우 낮은 화자확인 확률값으로 인해 가변 신뢰도 문턱치가 낮아져 CA가 높게 나타나서 등록된 단어에 대한 인식률이 높았고, 미등록 화자로 판별이 되었을 때는 높은 화자확인 확률값으로 인해 가변 신뢰도 문턱치가 높아져 CR이 높아져서 미등록어에 대한 거절 기능이 향상됨을 확인할 수 있었다.

본 논문에서 제안한 발화 검증방법은 CA와 CR이 서로 상반되는 방향으로 인식률이 변화되어 일관성이 떨어지는 것을 확인하였다. 향후 과제로는 이러한 CA와 CR의 일관성이 결여되는 문제를 해결할 방법을 연구하고, 자연어 형태의 명령어 인식에 대한 미등록어 검출 성능 향상에 대한 연구가 이루어 져야 하겠다.

그림 1. 발화 검증을 가지는 가변어휘 단어인식시스템

그림 2. 기존의 가변어휘 단어인식시스템의 네트워크

그림 3. 음소 및 단어 단위의 신뢰도 측정

그림4. 호출 키워드에 대한 화자확인 시스템

그림5. 가변 신뢰도 문턱치 결정 방법을 사용한 미등록어 거절 방법

Claims

기존의 가변어휘 단어인식 시스템과 발화검증 시스템사이에 호출 키워드(call_keyword)에 대한 화자확인 시스템과 제안한 가변 신뢰도 문턱치 계산 부분을 추가한 구조로서, 음성입력이 들어오게 되면 먼저 전처리 과정을 거치고,

그 다음 가변어휘 단어 인식기를 통과한 입력 음성 파라메타에 대하여 호출 키워드 부분만을 추출하고,

추출된 호출키워드 부분에 대하여 화자확인을 실시하며 호출 키워드에 대한 화자모델을 구성하고,

이 화자모델은 인증된 화자의 새로운 호출이 있을 때마다 적응을 하게 되며,

화자확인 시스템에서 계산된 화자모델의 확률값을 이용하여 발화검증 시스템의 신뢰도 문턱치를 가변적으로 결정하며,

발화 검증 시스템에서는 인식 시스템을 거친 인식 음소열과 제안한 화자확인 시스템을 거쳐 구한 가변 신뢰도 문턱치를 이용하여 발화 검증을 수행하여 수락(accept)과 거절(reject)을 결정하는, 가변 신뢰도 문턱치를 사용한 음성인식스위치 제어방법.
개인 코드북에 VQ 과정(관측열 1 발생)을 수행하는 단계;

화자모델, 월드 모델로부터 로그 우도비를 정규화하여 화자인식확률을 계산하는 단계;

화자인식 확률에 따라 신뢰도 문턱치를 계산하는 단계;

가변문턱치가 신뢰도보다 크면 미등록어, 작으면 등록어로 선택하는 단계;를 포함하는, 가변 신뢰도 문턱치를 사용한 음성인식스위치 제어방법.