KR100492089B1

KR100492089B1 - 반음소 모델을 이용한 발화검증시 계산량 감소 방법

Info

Publication number: KR100492089B1
Application number: KR10-2003-0008685A
Authority: KR
Inventors: 김순협; 이호준
Original assignee: (주)스피치사운드넷; 정보통신연구진흥원
Priority date: 2003-02-12
Filing date: 2003-02-12
Publication date: 2005-06-02
Also published as: AU2003223135A8; WO2004072953A1; KR20040072989A; AU2003223135A1

Abstract

본 발명은 반음소 모델을 이용한 발화검증시 계산량 감소 방법에 관한 것으로서, 음성 인식 응용 시스템에서 오인식으로 인한 시나리오 오류를 줄이기 위한 방법인 발화검증 기능에 있어서 그 계산량을 줄이고자 한 것이다.

이를 위해, 본 발명은 다수의 음소를 배열하는 단계; 바타챠라 거리법을 이용하여 각 음소간의 거리를 측정하는 단계; 상기 바타챠라 거리법의 측정 결과, 유사도가 가장 높은 음소부터 하나씩 통합하여 집적 계층 클러스터링을 실시하는 단계; 상기 집적 계층 클러스터링에 의거 유사한 음소들끼리 9개의 클래스로 분류된 반음소 모델 집합이 구비되는 단계; 발화검증시, 9개의 클래스에 각각 나누어진 반음소 모델 집합들을 기준으로 발성된 음소에 대한 유사도를 계산하는 단계로 이루어지는 것을 특징으로 하는 반음소 모델을 이용한 발화검증시 계산량 감소 방법을 제공한다.

Description

반음소 모델을 이용한 발화검증시 계산량 감소 방법{Method for reducing compute quantity amount uttrrance verification using anti-phoneme model}

본 발명은 반음소 모델을 이용한 발화검증시 계산량 감소 방법에 관한 것으로서, 더욱 상세하게는 음성 인식 응용 시스템에서 오인식으로 인한 시나리오 오류를 줄이기 위한 방법인 발화검증 기능에 있어서 그 계산량을 줄이는 방법에 관한 것이다.

통상적으로, 음성인식이란 기계로 하여금 인간의 일상적인 음성을 이해하고 이해된 음성에 따라 업무를 수행하는 것을 말한다.

음성인식(Speech recognition)의 기술은 컴퓨터와 정보통신의 발달로 인간이 직접 움직이지 않고 원거리에서도 정보를 손쉽게 얻을 수 있으며, 음성에 따라 작동하는 시스템으로 이루어진 기기들의 개발로 이어지고 있다.

이러한 음성 인식 기술을 바탕으로 다양한 음성인식 응용 분야(시스템)가 개발되고 있으며, 그 중에 하나는 발성과 함께 발성된 언어에 따라 원하는 정보를 안내하는 시스템에 있다.

예를들어, 어느 단체의 전화번호 안내 시스템이 있다고 가정하면, 찾고자 하는 부서의 명칭을 음성으로 발성을 하게 되면, 해당 부서의 전화번호가 모니터상에 디스플레이되는 시스템(이하, 음성인식 시스템이라 칭함)이 일종의 음성인식 응용 분야가 될 수 있다.

상기 음성 인식 시스템과 발화검증 시스템의 전체적인 구성 및 흐름을 설명하면 다음과 같다.

도 9는 통상적인 음성인식 시스템과 발화검증 시스템의 흐름을 도시하고 있다.

사용자가 발성을 하게 되면, 그 음성신호는 여러가지 패러메타(parameter)들을 추출하는 전처리 단계를 거쳐 등록어휘와 음소단위의 모델이 입력된 인식기 프로그램으로 입력된다.

다음으로, 상기 인식기 프로그램에서 해당 음성신호를 인식하여, 이를 거절 또는 인식(승인)하는 후처리 단계가 진행되는 바, 이를 발화검증 단계라고 한다.

즉, 상기 발화검증단계는 인식기 프로그램에 입력된 음성을 거절 또는 인식(승인)으로 검증하는 단계이다.

종래의 발화검증을 이용한 오입력 거절 방법은 단음소 모델을 이용하여 반음소 모델을 구축하고, 인식 엔진(프로그램)의 후처리 단계에서 인식 결과를 분석하여 프레임 수준의 음소 레이블 정보를 추출한다.

상기 추출된 레이블 정보에 기초하여 앞서 구축한 반음소 모델을 이용해 매 프레임마다 표기된 단음소 모델을 제외한 나머지 반음소 모델들로 집합을 구성하게 된다.

종래의 반음소 모델의 구성은 도 3에 나타낸 바와 같이 인식 단어를 훈련하는 과정 중에 생성되는 단음소 모델로 반음소 모델을 생성하는 것을 말하는데, 총 단음소 모델의 수는 45개이고, 이에 대한 반음소 모델은 44개가 된다.

참고적으로, 도 5에 나타낸 각각의 음소의 총수가 단음소 모델수이다.

이러한 반음소 모델을 기반으로, 발성된 음성에 대한 신뢰도 계산이 이루어지는데, 인식기 프로그램내에서 그 신뢰도 검출이 이루어진다.

예를들어, 도 11에 나타낸 바와 같이, 광운대라고 발성된 경우 각 단음소가 특징벡터별로 배열되어, 최초 배열된 단음소 K(ㄱ)가 반음소모델(나머지 44개 음소)과 비교되면서 그 신뢰도의 검출이 이루어진다.

즉, 상기 신뢰도 계산을 위한 대립가설을 표현하기 위해 모든 프레임에서 각각의 반음소 모델 집합에서 해당 프레임의 특징 파라미터와 가장 유사한 모델을 검색하고 이를 이용하여 신뢰도를 계산하여 입력 음성을 검증하는 것이다.

상기 신뢰도는 음성인식에서 근소한 오류의 검출을 잘해줄 뿐만 아니라, 등록어와 미등록어 사이의 분별력을 잘 주는 적도로 알려져 있다.

신뢰도는 인식된 모델과 인식되지 않은 모델들의 상대적인 유사도 이기 때문에 각 모델에 대해 가장 혼돈하기 쉬운 유사한 것들을 찾아 그에 대한 모델을 구성하며 이를 안티 모델이라 한다. 음소 단위로 인식하는 경우 모델들은 음소 모델이며, 이때 안티 모델을 반음소 모델(Anti-Phoneme Model)이라 한다.

여기서 상기 신뢰도의 검출시에 이루어지는 반음소 모델 검색시 그 계산량(연산량)은 인식된 음성의 길이와 유사 음소 단위의 수에 비례하여 증가하게 되어, 그 계산(연산)시간이 오래 걸리고 그에따른 응답시간이 오래 걸리는 단점이 있다.

보다 상세하게는, 발성된 음성중 최초 배열된 한 개의 단음소에서 마지막 한 개의 단음소까지 일일이 반음소 모델(44개)과 비교되며 유사음소 영역을 탐색하게 됨에 따라, 그 계산 시간이 오래 걸리는 단점이 있다.

현재 발화검증을 이용한 오입력 거절 방법은 상술한 바와 같이 모든 유사음소 영역을 탐색함으로서, 유사 음소 단위의 수에 비례하여 유사도 계산량이 증가하는 단점이 있는 것이다.

따라서, 본 발명은 상기와 같은 점을 감안하여 발명한 것으로서, 발화검증 방법으로 가장 일반적인 방법인 반음소 모델을 이용한 방법을 채택하되, 바타챠라 거리 측정 방법을 이용하여 각 음소간의 거리를 측정하고, 집적계측 클러스터링 방법을 이용하여 각 음소들을 유사한 것끼리 분류한 반음소 모델을 구축하여, 발화검증시 그 계산량(연산량)을 현격히 줄여서 계산속도를 빠르게 진행할 수 있도록 한 반음소 모델을 이용한 발화검증시 계산량 감소 방법을 제공하는데 그 목적이 있다.

상기한 목적을 달성하기 위한 본 발명은:

다수의 음소를 배열하는 단계;

바타챠라 거리법을 이용하여 각 음소간의 거리를 측정하는 단계;

상기 바타챠라 거리법의 측정 결과, 유사도가 가장 높은 음소부터 하나씩 통합하여 집적 계층 클러스터링을 실시하는 단계;

상기 집적 계층 클러스터링에 의거 유사한 음소들끼리 9개의 클래스로 분류된 반음소 모델 집합이 구비되는 단계;

발화검증시, 9개의 클래스에 각각 나누어진 반음소 모델 집합들을 기준으로 발성된 음소에 대한 유사도를 계산하는 단계로 이루어지는 것을 특징으로 하는 반음소 모델을 이용한 발화검증시 계산량 감소 방법을 제공한다.

바람직한 구현예로서, 상기 9개의 클래스와 각각에 포함된 반음소 모델들은: {ㅂ(종성), ㄷ(종성), ㄱ(종성), ㄴ, ㄹ(종성)}, {ㅗ, ㅓ, ㅡ, ㅜ, ㅝ}, {ㅞ, ㅔ, ㅕ, ㅑ, ㄹ(초성), ㅎ}, {ㅇ, ㅁ, ㅣ, ㅟ}, {ㄱ, ㅂ, ㄱ(초성), ㅎ(초성), ㅈ(초성)}, {ㅋ, ㅊ, ㅉ, ㅈ}, {ㅃ, ㄸ, ㅆ, ㅅ, ㅌ, ㅍ, ㄷ(초성), ㅂ(초성)}, {ㅠ, ㅛ, ㅖ, ㅢ}, {ㅏ, ㅘ, ㄲ, ㄷ}으로 이루어진 것을 특징으로 한다.

더욱 바람직한 구현예로서, 상기 발화검증과정에서 반음소 모델을 탐색할 때 9개로 분류된 클래스중 인식된 음소가 포함된 클래스만을 검색하여, 유사도 계산량 및 계산속도를 감소시킬 수 있도록 한 것을 특징으로 한다.

한편, 상기 바타챠라 거리 측정법은 두 개의 가우시안 분포 사이의 거리를 측정하는 방법으로서,

를 이용하여 거리를 측정하고, 두 분포간의 에러에 대한 경계는

으로 나타낼 수 있는 것을 특징으로 한다.

이하, 본 발명의 바람직한 실시예를 첨부도면을 참조로 설명한다.

도 1은 본 발명에 따른 음성인식 시스템과 발화검증 시스템의 전체 구성을 보여주는 블럭도이고, 도 2는 본 발명에 따른 반음소 모델 구축 방법을 나타내는 블럭도이다.

상술한 바와 같이, 사용자가 발성을 하게 되면 그 음성신호는 여러가지 패러메타(parameter)들을 추출하는 전처리 단계를 거쳐 등록어휘와 음소단위의 모델이 입력된 인식기 프로그램(ARS(Automatic Speech Recognition)System)으로 입력되어 있다.

이에, 상기 인식기 프로그램에서 해당 음성신호를 인식하여, 이를 거절 또는 인식(승인)하는 후처리 단계가 진행되는 바, 이를 발화검증 단계라고 하고, 상기 발화검증단계는 인식기 프로그램에 입력된 음성을 거절 또는 인식(승인)으로 검증하는 방법으로 진행된다.

일반적으로 반음소 모델은 인식된 음소를 제외한 모든 음소모델의 집합으로 구성된다. 이때 인식음소가 틀릴확률인 대립가설의 확률을 계산하기 위해 반음소 모델 중 유사도가 최대인 음소모델을 검색하게 된다.

종래에는 발화검증을 위해 프레임당 46개의 단음소 모델을 사용할 경우 45회의 유사도 계산이 필요하게 되었는 바, 이는 발성된 음성신호에 대한 신뢰도(유사도)의 검출시에 이루어지는 반음소 모델 검색시 그 계산량(연산량)은 인식된 음성의 길이와 유사 음소 단위의 수에 비례하여 증가하게 되어, 그 계산(연산)시간이 오래 걸리고 그에따른 응답시간이 오래 걸리는 단점을 초래하였다.

따라서, 본 발명은 유사도 계산량을 줄이기 위해 인식 모델 훈련 과정에서 추출한 단음소 모델들을 바타챠라 거리 측정법과 집적 계층 클러스터링 법을 이용하여 유사도가 가장 높은 음소부터 하나씩 통합한 점에 특징이 있고, 그에따라 발화검증과정에서 반음소 모델을 탐색할 때 미리 분류해 놓은 클러스터들 가운데 인식된 음소가 포함된 클러스터만을 검색함으로서, 유사도 계산을 프레임당 5회에서 3회로 크게 감소시켜 계산량을 줄이는 동시에 계산속도를 빠르게 진행된다.

즉, 본 발명에서는 바타챠라 거리 측정법과 집적 계층 클러스터링 방법에 의거 분류된 반음소 모델들에 대한 유사 음소 탐색으로 유사도 계산량을 크게 감소시키고, 계산속도가 빠르게 진행되어진다.

도 3은 본 발명에 따른 반음소 모델 구축 위하여 집적 계층 클러스터링 방법 과 바타챠랴 거리 법을 이용한 음소 분류 과정을 나타내는 순서도이다.

1) 다수의 음소들을 배열하는 단계,

2) 바타챠라 거리 측정법을 이용하여 각 음소에 대해 나머지 음소들과 비교하여 음성학적으로 거리가 가까운 것들과 묶어주는 단계,

3) 음소간의 최소거리를 찾고, 집적 계층 클러스터링 방법으로 클러스터링해주는 단계,

4) 클러스터링된 갯수가 목표 갯수에 도달할 때까지 2)와 3) 단계를 반복해주는 단계를 통하여 음소가 분류되어진다.

본 발명에서는 인식 음소 모델과 비슷한 반음소 모델을 찾아 유사 음소 집합으로 구성하여 그 탐색수를 줄여 탐색 수행 시간을 감소시키고자, 반음소 모델을 줄이는 방법으로 집적 계층 클러스터링을 이용한 것이다.

단순히 유사도가 큰 N개의 음소 모델을 이용할 수도 있지만 그렇게 구성된 집합은 음소들의 특성-음소에 따라 비슷한 음소의 수가 다름을 반영하는데 있어서 유연하지 못하다.

상기 집적 계층 클러스터링은 유사한 것을 클러스터링 하여 계층적인 분류를 구성하는 자율적 패턴 분류(unsupervised clustering)방법이므로 음소의 특성을 반영하여 유사 음소 집합을 구성할 수 있다.

이때, 거리 측정법으로 바타챠랴 거리 측정 방법을 이용하였는 바, 이 방법은 두 개의 가우시안 분포 사이의 거리를 측정할 수 있고, 계산이 매우 단순하며, 정확히 거리를 계산하는 것보다 에러에 대한 경계를 제공함으로써 유연성을 갖는다.

상기 바타챠라 거리 측정법은 두 개의 가우시안 분포 사이의 거리를 측정하는 방법으로서,

으로 나타낼 수 있다.

첨부한 도 4는 본 발명에 따른 반음소 모델 구축을 위하여 집적 계층 클러스터링 방법과 바타챠랴 거리 법을 이용한 음소 분류 트리를 나타내는 바, 음성학적으로 가까운 거리의 음소들을 측정하여 분류해주는 것을 보여주고 있다.

이러한 바타챠라 거리 측정법과 집적 계층 클러스터링 방법에 의하여 구축된 최종의 반음소 모델 집합은 도 5에 도시한 바와 같다.

도 5에서 보듯이, 반음소 모델들은 서로 유사하고 가까운 거리를 갖는 것들끼리 9개의 클래스로 나누어지게 되는데, 바람직하기로는 상기 9개의 클래스와 각각에 포함된 반음소 모델들은: {ㅂ(종성), ㄷ(종성), ㄱ(종성), ㄴ, ㄹ(종성)}, {ㅗ, ㅓ, ㅡ, ㅜ, ㅝ}, {ㅞ, ㅔ, ㅕ, ㅑ, ㄹ(초성), ㅎ}, {ㅇ, ㅁ, ㅣ, ㅟ}, {ㄱ, ㅂ, ㄱ(초성), ㅎ(초성), ㅈ(초성)}, {ㅋ, ㅊ, ㅉ, ㅈ}, {ㅃ, ㄸ, ㅆ, ㅅ, ㅌ, ㅍ, ㄷ(초성), ㅂ(초성)}, {ㅠ, ㅛ, ㅖ, ㅢ}, {ㅏ, ㅘ, ㄲ, ㄷ}으로 나누어진다.

첨부한 도 6은 본 발명에 따른 반음소 모델을 이용하여 발화검증을 실시하는 상태를 설명하는 개략도로서, 상기와 같이 구축된 반음소 모델을 기반으로 발화검증이 이루어지는 것을 나타내고 있다.

예를들어, 광운대라고 발성된 경우 각 단음소가 특징벡터별로 배열되어, 최초 배열된 단음소 K(ㄱ)가 반음소모델(도 5의 클래스 E에 포함된 반음소 모델들)과 비교되면서 그 신뢰도의 검출이 이루어진다.

즉, 발성된 음성신호의 최초 배열된 단음소 K(ㄱ)은 {ㅂ, ㄱ(초성), ㅎ(초성), ㅈ(초성)}과 비교되면서 그 신뢰도 검출이 이루어진다.

이와 같이, 발화검증과정에서 반음소 모델을 탐색할 때 미리 분류해 놓은 클러스터들 가운데 인식된 음소가 포함된 클러스터만을 검색함으로서, 유사도 계산을 프레임당 5회에서 3회로 크게 감소시켜 계산량을 줄이는 동시에 계산속도가 빠르게 진행된다.

도 7은 통상의 발화검증 기능의 성능 평가 기준이고, 도 8은 본 발명의 방법에 따른 발화검증 성능을 나타내며, 도 12은 종래의 방법에 따른 발화검증 성능을 나타내며, 도 13은 본 발명의 방법과 종래의 방법의 임계값에 따른 성능 비교도이다.

도 8과 도 12를 비교해보면, 전체 인식율은 본 발명에서 미세하게 떨어진 것으로 나타났으나, 이는 인식율에 크게 영향을 미치지는 않는 범위이다.

이상에서 본 바와 같이, 본 발명에 따른 반음소 모델을 이용한 발화검증시 계산량 감소 방법에 의하면, 바타챠라 거리 측정법과 집적 계층 클러스터링 방법을 이용하여 반음소 모델을 구축함에 따라, 음성인식 시스템에서 오인식으로 인한 시나리오 오류를 줄이기 위한 방법인 발화검증 기능에 있어서 유사음소 탐색시 계산량을 50% 이상 감소 시킬 수 있으며, 제한적인 영역을 검색함으로서 임계값 변화에 대한 영향을 최소화할 수 있다는 장점이 있다.

또한, 본 발명에 의하면 발화검증 단계에서 연산량을 최소화함으로서, 실제 현장에서 오인식으로 인한 시나리오 오류를 최소하기 위한 발화검증 기법을 응용할 수 있고, 따라서 사용자에게 좀 더 편리한 인터페이스를 제공할 수 있다.

도 1은 본 발명에 따른 음성인식 시스템과 발화검증 시스템의 전체 구성을 보여주는 블럭도이다.

도 2는 본 발명에 따른 반음소 모델 구축 방법을 나타내는 블럭도이다.

도 4는 본 발명에 따른 반음소 모델 구축을 위하여 집적 계층 클러스터링 방법과 바타챠랴 거리 법을 이용한 음소 분류 트리를 나타낸다.

도 5는 본 발명에 이용되는 집적 계층 클러스터링 방법과 바타챠라 거리 법에 의하여 구축된 최종 반음소 모델 집합을 나타낸다.

도 6은 본 발명에 따른 반음소 모델을 이용하여 발화검증을 실시하는 상태를 설명하는 개략도이다.

도 7은 통상의 발화검증 기능의 성능 평가 기준이다.

도 8은 본 발명의 방법에 따른 발화검증 성능을 나타낸다.

도 9는 통상적인 음성인식 시스템과 발화검증 시스템을 나타낸다.

도 10은 발화검증에서 사용되는 종래의 반음소 모델 구축 방법을 나타낸다.

도 11은 종래의 반음소 모델 구축 방법을 이용한 발화검증에 관한 설명도이다.

도 12는 종래의 방법을 이용한 발화검증 성능을 나타낸다.

도 13은 본 발명의 방법과 종래의 방법의 임계값에 따른 성능 비교도이다.

Claims

다수의 음소를 배열하는 단계;

바타챠라 거리법을 이용하여 각 음소간의 거리를 측정하는 단계;

상기 바타챠라 거리법의 측정 결과, 유사도가 가장 높은 음소부터 하나씩 통합하여 집적 계층 클러스터링을 실시하는 단계;

상기 집적 계층 클러스터링에 의거 유사한 음소들끼리 9개의 클래스로 분류된 반음소 모델 집합이 구비되는 단계;

발화검증시, 9개의 클래스에 각각 나누어진 반음소 모델 집합들을 기준으로 발성된 음소에 대한 유사도를 계산하는 단계로 이루어지는 것을 특징으로 하는 반음소 모델을 이용한 발화검증시 계산량 감소 방법.
제 1 항에 있어서, 상기 9개의 클래스와 각각에 포함된 반음소 모델들은:

{ㅂ(종성), ㄷ(종성), ㄱ(종성), ㄴ, ㄹ(종성)},

{ㅗ, ㅓ, ㅡ, ㅜ, ㅝ},

{ㅞ, ㅔ, ㅕ, ㅑ, ㄹ(초성), ㅎ}

{ㅇ, ㅁ, ㅣ, ㅟ}

{ㄱ, ㅂ, ㄱ(초성), ㅎ(초성), ㅈ(초성)}

{ㅋ, ㅊ, ㅉ, ㅈ}

{ㅃ, ㄸ, ㅆ, ㅅ, ㅌ, ㅍ, ㄷ(초성), ㅂ(초성)}

{ㅠ, ㅛ, ㅖ, ㅢ}

{ㅏ, ㅘ, ㄲ, ㄷ}

으로 이루어진 것을 특징으로 하는 반음소 모델을 이용한 발화검증시 계산량 감소 방법.
제 1 항 또는 제 2 항에 있어서, 상기 발화검증과정에서 반음소 모델을 탐색할 때 9개로 분류된 클래스중 인식된 음소가 포함된 클래스만을 검색하여, 유사도 계산량 및 계산속도를 감소시킬 수 있도록 한 것을 특징으로 반음소 모델을 이용한 발화검증시 계산량 감소 방법.
제 1 항에 있어서, 상기 바타챠라 거리 측정법은 두 개의 가우시안 분포 사이의 거리를 측정하는 방법으로서,

를 이용하여 거리를 측정하고, 두 분포간의 에러에 대한 경계는

으로 나타낼 수 있는 것을 특징으로 하는 반음소 모델을 이용한 발화검증시 계산량 감소 방법.