KR100406307B1

KR100406307B1 - 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템

Info

Publication number: KR100406307B1
Application number: KR10-2001-0048059A
Authority: KR
Inventors: 홍상진; 이성주; 김태수; 이태승; 최호진; 황병원
Original assignee: 삼성전자주식회사
Priority date: 2001-08-09
Filing date: 2001-08-09
Publication date: 2003-11-19
Also published as: WO2003015078A1; EP1417677A1; DE60128270T2; KR20030013855A; EP1417677B1; DE60128270D1; US20050033573A1; US7502736B2; JP2004538526A; EP1417677A4

Abstract

본 발명은, 음성인식을 위해 선행되는 음성등록방법 및 음성등록시스템과 이에 기초한 음성인식방법 및 음성인식시스템에 관한 것이다. 본 음성등록방법은, 외부로부터의 입력된 소리신호파형의 스펙트럼을 분석하는 소리분석단계와; 상기 소리신호파형중 음성에 해당되는 음성신호파형에서 화자인식을 위해 미리 설정된 언어단위를 추출하는 언어단위 추출단계와; 상기 추출된 언어단위마다 성량의 크기를 측정하는 성량측정단계와; 비교기준이 되는 다수의 배경화자에 대한 성량에 대한 정보를 포함하는 배경화자 음성정보가 저장된 음성 데이터베이스를 구축하는 단계와; 상기 측정된 각 언어단위에 대한 성량이 상기 음성 데이터베이스에 기초하여 미리 설정된 일정 성량범위 내에 속하는지 판단하는 성량검사단계와; 상기 각 언어단위중 적어도 일정 이상의 언어단위의 성량이 미리 설정된 일정범위 내에 속하는 경우, 다층 신경망을 이용하여 상기 각 언어단위에 대해 학습하는 학습단계와; 상기 학습된 각 언어단위에 대한 정보를 상기 화자의 인식정보로 저장하는 저장단계를 포함하는 것을 특징으로 한다. 이에 의해, 화자의 음성등록을 위한 학습시와 화자증명시 화자의 성량을 고려함으로써, 보다 정확한 화자의 증명이 가능하게 된다.

Description

음성등록방법 및 음성등록시스템과 이에 기초한 음성인식방법 및 음성인식시스템{VOICE RECOGNITION METHOD AND SYSTEM BASED ON VOICE REGISTRATION METHOD AND SYSTEM}

본 발명은 음성등록방법 및 음성등록시스템과 이에 기초한 음성인식방법 및 음성인식시스템에 관한 것으로서, 화자의 성량에 따른 음성학습 및 음성인식을 행하도록 함으로써, 화자의 성량에 따른 음성인식의 오류를 방지할 수 있도록 한 음성등록방법 및 음성등록시스템과 이에 기초한 음성인식방법 및 음성인식시스템에 관한 것이다.

일반적으로 신원을 확인하기 위한 보안시스템은, 종래에는 주로 국가 기밀을 요하는 정부나, 산업적인 보안을 위해 사용되었으나, 최근에는 개인 생활이나 정보를 보안하기 위해, 가정의 안전이나 컴퓨터내의 데이터 보안을 위해서 많이 사용되고 있다.

특히, 컴퓨터의 경우, 인터넷을 포함한 네트워크가 발달하면서 네트워크를 통해 컴퓨터에 침입하거나 인터넷을 통한 전자상거래시 사용자의 신상정보가 노출될 가능성이 크다. 또한, 오프라인 상에서도 컴퓨터에 직접 침입하여 정보가 유출될 수 있는 확률이 커졌다.

이러한 침입을 방지하기 위해, 일반적으로 ID와 패스워드를 사용하거나 인증키 등의 장비를 이용하는 방법과, 컴퓨터를 사용하는 개인의 생물학적인 특징을 이용한 방법으로 신원을 확인하여 미리 설정된 특정인에게만 접근이 허용되도록 하고 있다. 생물학적 특징을 이용하는 방법으로는, 음성이나, 지문, 손이나 손바닥 무늬, 망막 무늬 등이 사용된다.

이중 음성은 인간이 의사를 전달하는데 있어 가장 보편적이고 간편한 수단으로서, 음성을 이용한 기술로는, 인간의 자연스런 음성을 기기가 이해할 수 있는 표현으로 변환하는 음성인식 기술과, 음성을 입력받아 음성이 가리키는 메시지가 아닌 음성을 발성하는 화자를 구분하는 화자인식 기술을 들 수 있다.

이러한 화자인식 기술을 이용할 경우, ID와 패스워드를 일일이 기억할 필요가 없고, 다른 사람의 무단 사용을 차단할 수 있다. 또한, 일반적인 PC에서 보편적으로 장착되어 사용되고 있는 사운드카드와 마이크 설비만으로도 충분히 적용이 가능하므로, 적용이 간편하다. 그리고, PC 사용시 음성을 통해 PC의 작동을 제어하는 동시에 특정인의 음성에만 반응하도록 함으로써, 사용자 친화적인 PC 환경을 구축할 수 있다.

화자인식 기술은 화자 결정형태에 따라 화자식별 기술과 화자증명 기술로 나뉘어 지며, 화자식별 기술은 주어진 음성이 등록된 화자중 어느 화자의 것인지 판별하는 것이고, 화자증명 기술은 화자의 신원 주장을 수락하거나 거부하는 기술이다.

일반적으로 화자인식은 다음과 같은 과정을 통해 이루어진다.

먼저, 등록을 의뢰하는 의뢰화자의 음성이 입력되면, 입력된 소리신호파형을스펙트럼화한 다음, 스펙트럼을 분석하여 고립단어를 검출한다. 그리고, 고립단어중에서 음성변별의 기준이 되는 언어단위를 추출한다. 언어단위는 단위 음소로서 미리 정해져 있다. 그런 다음, 각 언어단위에 대한 화자의 패턴을 생성하고, 화자의 패턴과 기준이 되는 배경화자의 패턴을 상호 비교하여 화자의 특성을 학습한다.

이렇게 학습이 완료되면, 화자의 패턴이 등록된다. 그런 다음, 추후에 증명을 의뢰하는 화자의 음성이 입력되면, 의뢰화자의 음성을 상기와 마찬가지로 분석하여 패턴을 형성한다. 그리고, 등록된 화자의 패턴과 의뢰화자의 패턴을 비교하여 화자를 수락 또는 거절한다.

종래의 이러한 화자인식 기술에서는, 화자의 비교대상인 배경화자의 음성이 저장된 데이터베이스를 사용하여 화자의 패턴과 배경화자의 패턴을 비교하게 된다. 일반적으로 데이터베이스에 저장된 배경화자의 음성은 저잡음, 고성능 마이크, 일정한 성량 등 이상적인 조건 하에서 녹음되게 된다. 이에 따라, 배경화자의 음성은 일상에서 발생할 수 있는 음성의 조건의 일부분만이 표현된다.

이러한 문제는 데이터베이스와 다른 조건에서 발성된 음성을 시험에 사용하는 경우에는 심각한 성능저하를 일으킬 수 있으며, 특히 성량에 의한 음성신호의 차에 따라 발생하는 문제는 심각하다.

이에 따라, 음성 인식시스템에서 성량을 고려한 음성 학습 및 화자증명 기술이 제시되어야 할 것이다.

따라서 본 발명의 목적은, 화자의 음성등록을 위한 학습시와 화자증명시 화자의 성량을 고려함으로써, 보다 정확한 화자의 증명이 가능하도록 하는 음성등록방법 및 음성등록시스템과 이에 기초한 음성인식방법 및 음성인식시스템을 제공하는 것이다.

도 1은 본 발명에 따른 음성인식시스템의 구성도,

도 2는 본 발명에 따른 음성인식시스템의 필터뱅크의 배치도,

도 3은 도 2의 필터뱅크 배치에 따른 배경화자간 간의 중심거리 변화율을 나타낸 그래프,

도 4는 도 2의 필터뱅크 배치에 따른 집단내 배경화자의 분산도,

도 5는 본 발명에 따른 음성인식시스템의 고립단어 검출과정을 도시한 흐름도,

도 6은 본 발명에 따른 음성인식시스템의 음성등록과정을 도시한 흐름도,

도 7은 본 발명에 따른 음성인식시스템의 화자증명과정을 도시한 흐름도이다.

<도면의 주요부분에 대한 부호의 설명>

1 : 음성인식시스템 3 : 분석파트

5 : 학습파트 7 : 화자증명파트

11 : 음성분석수단 13 : 음성추출수단

15 : 성량판별수단 21 : 음성 데이터베이스

23 : 학습기 25 : 메모리

31 : 화자점수 산출부 33 : 제어부

상기 목적은, 본 발명에 따라, 음성인식을 위해 선행되는 음성등록방법에 있어서, 외부로부터의 입력된 소리신호파형의 스펙트럼을 분석하는 소리분석단계와; 상기 소리신호파형중 음성에 해당되는 음성신호파형에서 화자인식을 위해 미리 설정된 언어단위를 추출하는 언어단위 추출단계와; 상기 추출된 언어단위마다 성량의 크기를 측정하는 성량측정단계와; 비교기준이 되는 다수의 배경화자에 대한 성량에 대한 정보를 포함하는 배경화자 음성정보가 저장된 음성 데이터베이스를 구축하는 단계와; 상기 측정된 각 언어단위에 대한 성량이 상기 음성 데이터베이스에 기초하여 미리 설정된 일정 성량범위 내에 속하는지 판단하는 성량검사단계와; 상기 각 언어단위중 적어도 일정 이상의 언어단위의 성량이 미리 설정된 일정범위 내에 속하는 경우, 다층 신경망을 이용하여 상기 각 언어단위에 대해 학습하는 학습단계와; 상기 학습된 각 언어단위에 대한 정보를 상기 화자의 인식정보로 저장하는 저장단계를 포함하는 것을 특징으로 하는 음성인식을 위한 음성등록방법에 의해 달성된다.

여기서, 상기 음성분석단계는, 상기 화자의 음성신호파형의 스펙트럼을 형성하는 단계와, 상기 스펙트럼에 소정의 비율로 필터뱅크를 배치하여 상기 스펙트럼을 압축하는 단계를 포함하는 것이 바람직하다.

상기 스펙트럼에서 화자의 음성특성의 인식이 가능한 화자인식구간은 약 0-3kHz 정도이며, 상기 필터뱅크는 상기 화자인식구간에서 균등하게 배치되고, 약 3kHz 이상에서는 로그 스케일에 비례하여 상기 필터뱅크의 배치간격이 증가하는 것이 바람직하다.

발음시 지속되는 시간이 긴 비음, 모음, 유사음 중 복수 개의 음소를 선택하여 상기 언어단위로 설정하는 단계를 더 포함하며; 상기 언어단위 추출단계는, 상기 스펙트럼을 다수개로 분할하여 복수의 프레임을 형성하는 단계와, 상기 복수의 프레임중 언어단위를 포함하는 프레임을 추출하는 단계를 포함하는 것이 바람직하다.

상기 성량측정단계는, 상기 스펙트럼의 언어단위를 포함하는 프레임의 에너지값을 측정하는 단계인 것이 바람직하다.

상기 음성 데이터베이스에 저장된 상기 배경화자의 음성의 스펙트럼을 분석하고 상기 언어단위를 포함하는 프레임의 에너지값을 산출하여 최저성량과 최대성량을 추출하는 단계를 더 포함하며; 상기 성량검사단계는, 상기 화자의 스펙트럼의 프레임중 상기 최저성량과 상기 최대성량 사이에 속하는 성량을 갖는 프레임의 비율이 일정 이상인지를 판단하는 단계인 것이 바람직하다.

상기 다수의 배경화자에 대해 각 언어단위마다 복수의 기준패턴을 형성하는 단계와, 상기 화자에 대해 각 언어단위에 따라 복수의 화자패턴을 형성하는 단계를 더 포함하며; 상기 학습단계는, 오류역전파 알고리즘을 이용하여 상기 기준패턴과 상기 화자패턴을 비교하여 상기 화자패턴의 특성을 학습하는 단계를 포함하는 것이바람직하다.

상기 한 배경화자의 각 언어단위에 따라 형성된 복수의 기준패턴을 한 에폭으로 설정하여 배경화자와 언어단위의 수만큼 에폭을 형성하는 단계를 더 포함하며; 상기 학습단계는, 상기 각 에폭의 기준패턴과 상기 복수의 화자패턴을 비교하여 상기 화자패턴의 특성을 학습하는 단계인 것이 바람직하다.

상기 저장단계는, 상기 각 언어단위에 따른 복수의 화자패턴과, 상기 각 언어단위의 성량을 상기 화자인식정보로 저장할 수 있다.

상기 각 언어단위중 적어도 일정 이상의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하지 아니하는 경우, 상기 화자에게 음성의 재입력을 요구하는 단계를 더 포함할 수 있다.

한편, 상기 목적은, 본 발명의 다른 실시예에 따르면, 음성이 입력된 화자가 등록된 화자인지를 확인하기 위한 화자 인식방법에 있어서, 외부로부터의 입력된 소리신호파형의 스펙트럼을 분석하는 소리분석단계와; 상기 소리신호파형중 음성에 해당되는 음성신호파형에서 화자인식을 위해 미리 설정된 언어단위를 추출하는 언어단위 추출단계와; 상기 추출된 언어단위마다 성량의 크기를 측정하는 성량측정단계와; 상기 측정된 각 언어단위에 대한 성량이 미리 설정된 일정 성량범위 내에 속하는지 판단하는 성량검사단계와; 상기 각 언어단위중 적어도 일정 이상의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하는 경우, 다층신경망을 이용하여 상기 각 언어단위가 상기 화자의 것일 확률을 산출하고 상기 확률을 평균하여 화자점수를 산출하는 단계와; 상기 산출된 화자점수를 미리 설정된 화자확인을 위한 최소한의 화자점수인 문턱값과 비교하여 상기 화자점수가 문턱값 이상인 경우 상기 등록된 화자임을 확인하는 단계를 포함하는 것을 특징으로 하는 화자 인식방법에 의해서도 달성될 수 있다.

상기 화자점수는, 다음식에 의해 산출될 수 있다.

여기서는 i번째 언어단위 프레임의 등록화자일 확률점수이고 M은 고립단어 내에서 추출된 언어단위 프레임 수이다.

또한, 분별력에 따라 상기 각 언어단위에 가중치를 두고, 상기 가중치에 따라 화자점수를 산출할 수도 있다.

한편, 상기 목적은, 본 발명의 다른 분야에 따르면, 음성인식을 위해 선행되는 음성등록시스템에 있어서, 외부로부터의 입력된 소리신호파형의 스펙트럼을 분석하기 위한 음성분석수단과; 상기 입력된 소리중 음성에 해당하는 음성신호파형 부분을 추출하고, 상기 추출된 음성신호파형에서 화자인식을 위해 미리 설정된 언어단위를 추출하는 음성추출수단과; 비교기준이 되는 다수의 배경화자에 대한 성량에 대한 정보를 포함하는 배경화자 음성정보가 저장된 음성 데이터베이스와; 상기 추출된 언어단위마다 성량의 크기를 측정하고, 상기 각 언어단위에 대한 성량이 상기 음성 데이터베이스에 기초하여 미리 설정된 일정범위 내에 속하는지 판단하는 성량판별수단과; 상기 각 언어단위중 적어도 일정 이상의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하는 경우, 상기 각 언어단위에 대해 학습하는 학습기와; 상기 학습된 각 언어단위의 정보를 상기 화자의 인식정보로 저장하는 메모리와; 상기 음성이 입력되면 상기 각 수단 및 학습기의 작동을 제어하고, 상기 메모리에 상기 화자의 인식정보를 저장시키는 제어부를 포함하는 것을 특징으로 하는 음성인식을 위한 음성등록시스템에 의해서도 달성될 수 있다.

한편, 상기 목적은, 본 발명의 다른 실시예에 따르면, 음성이 입력된 화자가 등록된 화자인지를 확인하기 위한 화자 인식시스템에 있어서, 외부로부터의 입력된 소리신호파형의 스펙트럼을 분석하기 위한 음성분석수단과; 상기 입력된 소리중 음성에 해당하는 음성신호파형 부분을 추출하고, 상기 추출된 음성신호파형에서 화자인식을 위해 미리 설정된 언어단위를 추출하는 음성추출수단과; 상기 추출된 언어단위마다 성량의 크기를 측정하고, 상기 각 언어단위에 대한 성량이 미리 설정된 일정범위 내에 속하는지 판단하는 성량판별수단과; 상기 각 언어단위가 상기 화자의 것일 확률을 산출하고, 상기 확률을 평균하여 화자점수를 산출하는 화자점수 산출부와; 상기 각 언어단위중 적어도 일정 이상의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하는 경우, 상기 화자점수 산출부를 통해 화자점수를 산출하도록 하고, 상기 산출된 화자점수를 미리 설정된 문턱값과 비교하여 상기 화자점수가 문턱값 이상인 경우 상기 등록된 화자임을 확인하는 제어부를 포함하는 화자 인식시스템에 의해서도 달성될 수 있다.

이하, 도면을 참조하여 본 발명을 상세히 설명한다.

본 음성인식시스템에서 후술할 지속음소의 추출과, 화자증명을 위해 사용되는 다층신경망(MLP:MultiLayer Perceptron)은 음성인식시 단독 또는 HMM(HiddenMorkov Model)과의 혼합형태로 사용된다. MLP는, 경쟁 집단의 거부학습이 가능하고, 음성 특징의 통계적 특성에 대한 사전 지식이 불필요할 뿐만 아니라, 고도의 병렬성과 규칙성을 가지고 있어 고성능 하드웨어의 구현이 용이하다.

이러한 MLP는 본 발명에서 화자증명에 사용되며, 하기에서는 MLP가 화자증명에 사용될 수 있다는 것을 보이기 위해 먼저 화자증명을 위한 확률론적 접근방식을 설명한 뒤, MLP의 동작이 이러한 확률적 기반을 통해 설명됨을 기술한다.

화자증명에서 음성의 발화는 화자 S에 관련한 음성모델 M(S)으로 생성된 관측열인 샘플 O로 정의한다. 주어진 샘플과 음성모델 사이의 관계는 음성모델이 샘플을 생성하는 사후확률(A Posteriori Probability) P(M(S)｜O)로 측정된다. 증명처리 V(S)는 사후확률 P(M(S)｜O)와 사전에 설정된 문턱값과의 비교를 통해 수행된다.

[수학식 1]

즉, 화자의 증명은 사후확률이 문턱값보다 작을 때는 거절당하고, 사후확률이 문턱값보다 클 때는 인정된다는 것을 말한다.

여기서, 사후확률 P(M(S)｜O)은 Bayes 공식에 의해 다음과 같이 유도된다.

[수학식 2]

여기서, 현재 증명처리의 화자가 폐쇄집단이 아닌 개방집단에 속하므로, 폐쇄집단에서는 고정값이던 사전확률인 P(M(S))는 물론 증거인 P(O)도 정확한 값을 계산할 수 없다.

[수학식3]

따라서, 사전확률인 P(M(S))와 증거인 P(O)가 불확정적인 상태에서 P(0｜M(S))를 사후확률 계산에 사용하는 것은 곤란하다.

이러한 문제를 해결하기 위해 다른 화자와의 비교를 통해 P(0｜M(S))를 평준화하는 방법으로서, 화자의 유사도 점수를 화자의 비교대상인 배경화자의 유사도 점수로 평준화하는 방법이 제안되어 있다. 즉, 배경화자와 화자와의 음성을 비교하여 유사한 정도를 다음의 식과 같은 유사도 비율로 표시한다.

[수학식4]

여기서, L(O)은 유사도 비율이고,는 화자의 가능확률(Likelihood Probability)이고, P(0｜M(S))는 배경화자의 가능확률이다.

이러한 방법을 사용하면 배경화자 집단이 모든 화자를 대표할만큼 충분히 클 경우 수학식3를 근사화하여 사후확률 P(M(S)｜O)를 추정할 수 있다.

한편, Gish의 연구를 통해 MLP가 위와 같은 수학적 모델을 구현한다는 것을 알 수 있다.

먼저, MLP가 입력특징벡터 x와, MLP를 정의하는 전체 파라미터의 함수로 표현된다고 할 때, x가 화자에 해당하는 Cenr에 속할때 MLP의 목표출력을 a 라고 하고, x가 배경화자에 해당하는 Cbg에 속할 때 MLP의 목표출력을 b라고 하자. MLP의 성능을 평가하는 기준은 다음의 수학식5과 같이 오류제곱평균으로 주어진다.

[수학식5]

여기서, N은 학습을 위한 샘플의 총수이다.

N이 충분히 크고 두 집단의 샘플 수가 집단분포의 사전확률에 따라 제공된다면 E의 이산합을 적분으로 근사화할 수 있다.

[수학식6]

여기서, p(x,C)는 관측결과와 이것이 발생한 집단의 결합학률(Joint Probablity) 밀도함수이다. 이러한 결합확률 밀도함수를 다음의 수학식7과 같은 정의,

[수학식7]

를 사용하여 정리하면 다음의 수학식8과 같이 표현된다.

[수학식8]

수학식8에서 MLP 파라미터와 관계가 있는 부분은 첫 번째 항뿐이므로, E를 최소화하기 위해의 파라미터를 조정한다는 것은 MLP의 출력과 목표인 확률값 d(x) 사이의 오류제곱평균을 최소화한다는 것과 같은 의미가 된다.

학습중 MLP의 목표벡터로 a와 b에 [0 1]또는 [1 0]을 지정한다면, 수학식7은 다음의 수학식9와 같이 표현되며, 이는 목표값으로 두 집단중 어느 한 집단의 사후확률을 선택하게 된다는 것을 뜻한다.

[수학식9]

즉, 수학식8에 의해 MLP를 가중된 오류제곱평균의 기준으로, 선택한 사후확률에 근접하도록 학습시키는 것이다. 이런 해석이 정당하려면 학습후 오류제곱평균이 작아야 하며, 낮은 오류제곱평균을 달성하기 위해서는 MLP의 구조가 이를 뒷받침해야 한다.

한편, 다음으로 MLP의 동작 자체에 사후확률 평준화를 포함하고 있음을 보이도록 한다. MLP의 출력은 아래의 수학식10과 같이 시그모이드(Sigmoid) 함수로 표현된다.

[수학식10]

여기서,는 출력계층에서 시그모이드 함수에 대한 입력을 나타낸다. 수학식10의 역함수는 수학식11로 표현할 수 있고, 화자에 대한 MLP출력을 사후확률로 정의한다면, 수학식12로 표현된다.

[수학식11]

[수학식12]

이에 따라, 수학식11을 다음의 수학식13과 같이 고쳐 쓸 수 있다.

[수학식13]

이러한 결과에 따라 MLP가 수학식6의 유사도 비율을 효과적으로 표현하고 있음을 알 수 있다. 즉, MLP에서 유사도 비율을 적용할 수 있으므로, 수학식3를 근사화하여 P(M(S)??O)를 추정할 수 있게 된다. 이에 따라, 사후확률을 구할 수 있으므로, MLP에서 유사도 비율을 사용할 경우 개방집단에서의 화자증명이 가능해진다.

한편, 이하에서는 상술한 MLP를 적용한 본 음성인식시스템에 대해 설명한다.

본 음성인식시스템(1)은, 도 1에 도시된 바와 같이, 화자등록을 위해 선행되는 학습을 위한 학습파트(5)와, 화자의 증명을 위한 화자증명파트(7)와, 화자등록과 화자증명에 공통으로 사용되는 분석파트(3)를 포함한다.

분석파트(3)는, 화자의 음성신호파형을 분석하기 위한 음성분석수단(11)과, 입력된 소리중 음성에 해당하는 음성신호파형 부분을 추출하고 추출된 음성신호파형에서 화자인식을 위해 미리 설정된 언어단위를 추출하는 음성추출수단(13)과, 추출된 언어단위마다 성량의 크기를 측정하고 각 언어단위에 대한 성량이 미리 설정된 일정범위 내에 속하는지 판단하는 성량판별수단(15)을 포함한다.

그리고, 학습파트(5)는, 각 언어단위중 적어도 일정 수의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하는 경우 각 언어단위에 대해 학습하는 학습기(23)와, 학습된 각 언어단위의 정보를 화자의 인식정보로 저장하는 메모리(25)와, 화자와의 비교대상인 다수의 배경화자에 대한 성량 및 음성특성이 저장된 음성 데이터베이스(21)를 포함한다.

화자증명파트(7)는, 각 언어단위중 적어도 일정 수의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하는 경우 다층신경망을 통해 각 언어단위가 화자의 것일 확률을 산출하고 확률을 평균하여 화자점수를 산출하는 화자점수 산출부(31)와, 산출된 화자점수를 미리 설정된 문턱값과 비교하여 화자점수가 문턱값 이상인 경우 등록된 화자임을 확인하는 제어부(33)를 포함한다.

이러한 음성인식시스템(1)에 의해 분석되는 음성신호의 주파수는 일반적으로 순수한 음이든 복합적인 음성신호든 상관없이 비선형성을 띈다. Cristea et.al은음성의 공진주파수에 따른 화자인식 능력을 측정하였다. 실험 결과, 단지 무슨 말인지를 알아내는 음성인식의 경우 대략 300Hz - 2kHz 까지의 주파수 대역에서 80%이상의 인식률을 보이고, 어느 화자의 것인지를 알아내는 화자인식의 경우 1.5kHz - 2.7kHz까지의 주파수 대역에서 80%이상의 인식률을 보임을 밝혀냈다. 이에 따라, Criatea et.al은 0 - 2.5kHz 사이에 균일간격으로 필터뱅크를 배치하고, 0 - 1.5kHz 주파수 대역에 비해 1.5kHz - 2.5kHz 사이의 필터뱅크의 간격을 조밀하게 하여 향상된 화자인식 능력을 얻었다.

본 발명에서는, 도 2에 도시된 바와 같이, 화자인식을 위해 스펙트럼의 압축시 약 0 - 3kHz까지의 주파수 대역에서는 필터뱅크의 간격을 균등하게 배치시키고, 약 3kHz 이상에서는 로그 스케일에 비례하여 필터뱅크의 배치간격이 증가되도록 배치시킨다. 이 때, 약 0 - 3kHz까지의 주파수 대역에서는 50개의 필터뱅크 중 2/3인 약 33개를 배치하고, 약 3kHz 이상에서는 나머지 필터뱅크를 로그 스케일에 비례하여 배치한다.

한편, 다음의 수학식1-1과 수학식1-2는 각각 화자간 중심거리와, 화자간 집단내 분산도를 구하는 식이다.

[수학식1-1]

[수학식1-2]

상기의 수학식1-1과 수학식1-2를 이용하여 화자간 중심거리와 집단내 분산도를 각 언어단위별로 구한 결과, 본 발명에서와 같이 필터뱅크의 배치할 경우, Cristea et.al의 필터뱅크 배치에 비해, 화자간 중심거리는, 도 3에 도시된 바와 같이, 각 언어단위에 대해 평균적으로 20.7% 멀어지고, 분산도는, 도 4에 도시된 바와 같이, 각 언어단위에 대해 평균적으로 6.3% 작아진다. 일반적으로 언어단위의 분류성능은 집단의 중심거리가 멀수록 집단내 분산도가 작을 수록 높으며, 도 3 및 도 4에 나타난 바와 같이, 본 발명에서는 화자간 중심거리와 분산도 모두 지표가 향상된다.

이에 따라, 음성분석수단(11)은, 상술한 바와 같이, 약 0 - 3kHz까지의 주파수 대역에서는 필터뱅크의 간격을 균등하게 배치시키고, 약 3kHz 이상에서는 로그 스케일에 비례하여 필터뱅크의 배치간격이 증가되도록 배치하여 스펙트럼을 압축한다. 또한, 음성분석수단(11)은 스펙트럼의 압축에 앞서, 입력된 음성신호파형을 미리 설정된 일정 간격, 즉, 프레임 단위로 나눈 다음, 각 프레임의 스펙트럼을 추출한다.

한편, 본 발명에서는 음의 지속되는 부분이 비교적 많은 비음, 모음, 유사음에서 언어단위를 추출하여, /a/(아), /e/(애), /v/(어), /o/(오), /u/(우), /eu/(으), /i/(이), /liq/(종성ㄹ), /nas/(음,은,응)의 총 9개의 음소를 언어단위로 사용한다. 이하에서는 이 언어단위를 음의 지속되는 부분이 비교적 많음을 강조하여 지속음소라 한다.

음성추출수단(13)은, 압축된 스펙트럼에서 묵음, 지속음소, 기타 무성음을인식하여 고립단어를 검출한다. 고립단어라 함은 구, 단어, 음절, 음소 등 화자인식을 할 수 있는 모든 단위의 언어를 말한다. 음성추출수단(13)에서는 음성분석수단(11)에서 추출된 각 프레임의 스펙트럼을 MLP에 시간적 지연을 도입한 다층신경망인 TDNN(Time-Delay neural network)에 각 프레임을 입력하여 묵음, 9개의 지속음소, 기타 무성음의 총 11개의 상태를 분류한다. 그런 다음, TDNN으로부터의 결과와 각 프레임의 에너지를 고립단어검출 알고리즘에 입력한다.

고립단어검출 알고리즘에 의한 고립단어 검출과정을, 도 5를 참조하여 설명하면 다음과 같다. 먼저, 음성이 시작되는지를 감지하여 음성이 시작되면 음성지속시간이 고립단어로 판별할 수 있는 기준인 최소 음성지속시간(MinSD)을 초과하는지 판별한다. 이때, 음성지속시간이 최소 음성 지속시간을 초과하지 아니한 경우에는 음성이 시작되었는지를 다시 감지한다. 음성지속시간이 최소 음성 지속시간을 초과한 경우에는 음성이 아닌 비음성이 시작되는지 판단한다. 이때, 비음성이 시작되면, 비음성 지속시간이 최대 비음성 허용시간(MaxSD)을 초과하는지 판별하고, 비음성 지속시간이 최대 비음성 허용시간을 초과한 경우에는 고립단어검출을 중지시킨다.

이렇게 고립단어가 검출되면, TDNN의 결과를 통해 지속음소가 포함된 프레임을 추출할 수 있으며, 한 프레임에는 단일의 지속음소가 포함되어 있을 수도 있고, 복수의 지속음소가 포함되어 있을 수도 있다. 이렇게 추출된 지속음소가 포함된 프레임을 재분석하여 화자등록 및 화자증명을 위한 각 지속음소의 화자패턴으로 사용할 수 있다.

한편, 지속음소를 갖는 프레임이 추출되면, 성량판별수단(15)에서는, 각 프레임에 포함된 지속음소의 스펙트럼 에너지값을 측정하여 성량을 판단한다. 그리고, 미리 음성 데이터베이스(21)에 저장된 배경화자 음성의 성량을 기준으로 화자의 성량을 판단하여 화자등록에 사용할지 여부를 결정한다.

이러한 화자등록에 기준이 되는 음성 데이터베이스(21)는, 화자의 등록시 비교대상이 되는 다수의 배경화자의 음성을 데이터베이스화한 것으로서, 각 배경화자의 음성신호파형으로부터 각 지속음소에 대해 최대성량과 최소성량이 미리 파악되어 저장되어 있다. 이 때, 각 배경화자의 각 지속음소에 대한 성량은 배경화자의 프레임에 속한 지속음소의 에너지값을 계산하여 얻어낸다. 이에 따라, 화자 및 배경화자의 지속음소의 성량은 다음의 수학식1-3에 의해 산출될 수 있다.

[수학식1-3]

여기서, S는 음성샘플, P는 지속음소, M은 프레임의 음성샘플링 개수, n은 프레임번호를 나타낸다.

이러한 수학식1-3에 의해 지속음소가 포함된 각 프레임이 배경화자의 최대성량과 최소성량 사이에 속하는지 판단한다. 이 때, 지속음소를 갖는 프레임을 등록하도록 허용하는 방법에는 다음의 두 가지가 있다. 하나는, 화자의 음성으로부터 추출된 고립단어 전체의 수준을 고려하지 않고 검사된 지속음소를 갖는 프레임이 배경화자의 최대성량과 최소성량 사이에 속하면, 해당 프레임의 등록을 허용하는것이다. 다른 하나는, 지속음소를 갖는 프레임중 최대성량과 최소성량 사이에 속하는 프레임의 비율이 일정 이상이면, 해당 프레임을 화자의 음성정보로 등록을 허용하는 것이다. 일반적으로 긴 단어를 발성할 때의 강세나 문법적 조건에 따라 같은 지속음소라도 다른 성량으로 발성하게 되므로, 고립단어에 포함된 모든 프레임의 평균 성량을 고려한 후자의 방법을 적용함이 바람직하다 할 것이다.

한편, 본 발명에서 사용된 음성 데이터베이스(21)는, 화자증명 시스템(1)의 성능평가를 위해 한국과학기술대와 광운대에서 공동제작한 것이다. 음성 데이터베이스(21)에는 단독숫자, 지시어, 4연숫자, 단문, PBW(Phone-balanced word)의 발성목록을 가지며, 본 발명에서는 이들 중 PBW와 4연숫자 목록을 지속음소 인식을 위한 TDNN과 화자증명을 위한 MLP에 각각 사용하였다.

이러한 성량 측정에 의해 각 지속음소를 갖는 프레임이 등록 허용되면, 음성추출수단(13)은 화자에 대해 각 언어단위에 따라 복수의 화자패턴을 형성한다. 각 배경화자의 각 언어단위에 대한 기준패턴은 이미 생성되어 음성 데이터베이스(21)에 저장되어 있다.

화자를 등록하기 위해서는 고립단어가 표현하는 등록어 템플릿을 형성하여 저장하고, 추출된 지속음소를 사용하여 지속음소 별로 MLP를 이용하여 학습시킨다. 이렇게 템플릿 단위로 등록어를 저장시킬 때는 동일단어에 대해 2-3개의 템플릿을 저장하여야 한다. 이에 따라, 화자 등록시 제어부(33)는 화자에게 동일 단어를 수 회 발성하도록 지시한다.

한편, 종래에는 화자의 등록을 위한 지속음소의 학습시, 모든 배경화자의 기준패턴에 대해 화자의 패턴을 학습시켰다. 이렇게 모든 배경화자의 기준패턴에 대해 화자의 모든 패턴을 1회 학습시키는 것을 에폭(Epoch)이라 한다. 이렇게 기준패턴을 하나의 에폭으로 설정하여 학습시키는 경우, 학습중지 판단기준이 모든 배경화자에 고르게 영향을 미치므로, 화자와 근사한 패턴을 갖는 배경화자에 대한 변별도가 저하된다. 여기서, 학습중지 판단기준은 미리 설정된 사전설정 변화율이며, 사전설정 변화율은 MLP를 이용하여 학습시 충분히 학습되었다고 판단되는 오류 평균 제곱근 변화율로서, 실험에 의해 설정된다. 오류 평균 제곱근은, 각 배경화자간의 오류 발생가능한 범위를 나타내는 수치이다.

즉, 화자의 화자패턴이 배경화자의 기준패턴과 비교하여 학습되던 중 오류 평균 제곱근 변화율이 미리 설정된 사전설정 변화율에 근접하게 되면, 학습기(23)는 학습을 중지하게 된다. 그러나, 사전설정 변화율은 실험에 의해 바람직한 수치로 설정된 값이므로, 사전설정 변화율보다 더 작은 오류 발생가능한 범위를 갖는 배경화자가 있을 수 있다. 따라서, 화자와 배경화자간의 오류 발생가능한 범위가 사전설정 변화율보다 작은 배경화자에 대해서는 화자의 변별력이 떨어지게 되며, 오인 수락률(FA)이 증가되게 된다. 이러한 오인 수락률은, 등록된 화자가 아님에도 불구하고 허용이 되는 경우의 비율로서, 등록된 화자가 아닌 경우 허용이 되면 정보의 유출과 같은 치명적인 문제가 발생할 수 있으므로, 오인 수락률의 값은 최대한으로 감소시켜야 한다.

이에 따라, 본 발명에서는 화자의 특성을 정확히 학습할 수 있도록 한 배경화자의 각 지속음소에 따라 형성된 복수의 기준패턴을 하나의 학습그룹으로 설정한다. 이에 따라, 각 지속음소마다 하나의 학습그룹이 형성되므로, 각 배경화자는 복수의 학습그룹을 가지게 된다. 즉, 한 배경화자에 대해 지속음소가 9개이고, 각 지속음소의 패턴이 10개인 경우, 배경화자는 각각 패턴이 10개씩인 9개의 학습그룹을 갖는다.

MLP를 이용한 학습기(23)는, 각 배경화자의 기준패턴과 복수의 화자패턴을 비교하여 오류역전파 알고리즘에 따라 화자패턴의 특성을 학습한다. 이 때, 모든 배경화자의 기준패턴과 복수의 화자패턴을 모두 비교하여 1회 학습하는 것을 에폭이라 하므로, 배경화자의 학습그룹중 하나의 학습그룹에 대해 하나의 화자패턴을 비교하여 1회 학습하는 것을 서브에폭이라 한다.

따라서, 화자의 화자패턴은 배경화자의 기준패턴에 대해 복수의 서브에폭 과정을 거치게 되는 것이다. 이렇게 복수의 서브에폭 과정을 거치면서, 각 배경화자의 기준패턴과 화자패턴이 비교되며, 배경화자의 기준패턴이 화자패턴과 유사할수록 더 많은 학습이 이루어지도록 한다. 이에 따라, 화자패턴의 변별력이 향상된다.

이렇게 학습된 화자패턴은 메모리(25)에 저장되고, 추후에 화자의 음성입력이 있을 때, 화자증명의 기준값으로 사용된다.

한편, 화자증명 과정은 다음과 같다. 화자가 음성을 입력하면, 성량판별수단(15)은, 고립단어의 각 언어단위중 적어도 일정 이상의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하는지 판단한다. 이 때, 성량이 일정범위 내에 속하지 아니하는 경우, 화자에게 음성의 재입력을 요구한다. 적절한 성량을 갖는고립단어가 입력된 경우라면, 고립단어와, 저장된 등록어 템플릿을 DTW(Dynamic Time Warping) 알고리즘으로 정합하여 일치여부를 확인한다. 화자에 의해 입력된 고립단어와 저장된 등록어 템플릿이 일치할 경우, 학습된 MLP에서 추출한 지속음소의 화자패턴을 입력하여 화자점수를 계산한다. 화자점수는 다음의 수학식1-4에 의해 산출된다.

[수학식1-4]

여기서,는 i번째 언어단위 프레임의 등록화자일 확률점수이고 M은 고립단어 내에서 추출된 언어단위 프레임 수이다.

화자점수는 변별력이 좋은 지속음소에 가중치를 두어 산출할 수도 있다.

이렇게 산출된 화자점수를 미리 설정한 문턱값과 비교하여 화자점수가 문턱값을 초과할 경우에는 입력된 음성이 화자의 음성이라고 판단하여 수락을 결정한다. 여기서, 문턱값은 화자의 음성이라고 판단하기 위한 최소한의 화자점수를 지칭하며, 화자증명에서는 등록어의 확인이 그다지 중요하지 아니하므로 오인 거부율(FR)을 최소로 하는 수준에서 문턱값을 결정한다. 오인 거부율은 등록된 화자임에도 불구하고 거절당하는 경우이다.

이러한 구성에 의한 음성인식시스템(1)을 이용하여 음성을 등록하는 과정을, 도 6을 참조하여 설명하면 다음과 같다.

먼저, 등록을 의뢰하는 의뢰화자의 음성이 입력되면(S10), 음성분석수단(11)은 입력된 소리신호파형을 프레임 단위로 분할하여 스펙트럼화하고(S20,S30), 스펙트럼을 필터뱅크를 이용하여 압축한 다음, 고립단어를 추출한다(S40). 그런 다음, 음성추출수단(13)은 고립단어로 추출된 프레임중 언어단위가 포함된 프레임을 추출한다(S50). 성량판별수단(15)은 추출된 프레임에 포함된 각 언어단위의 성량을 측정하고(S60), 측정된 성량이 배경화자의 최대성량과 최소성량 사이에 포함되는지를 판단한다(S70). 이 때, 화자의 각 언어단위의 성량이 배경화자의 최대성량과 최소성량 사이에 포함되지 아니하는 경우에는 제어부(33)는 화자에게 음성의 재입력을 요구한다(S75).

화자의 각 언어단위의 성량이 최대성량과 최소성량 사이에 포함되는 경우에는, 화자에 대한 각 언어단위의 화자패턴을 생성한다(S80). 그리고, 학습기(23)에서는 화자패턴과 배경화자의 기준패턴을 상호 비교하여 MLP로 학습한다(S90). 여기서, 배경화자의 기준패턴이 각 언어단위에 따라 다수의 학습그룹으로 분리되어 있으며, 화자패턴을 각 언어단위별로 기준패턴과 비교하여 학습하게 된다. 이렇게 학습이 완료되면, 비교완료된 화자패턴과 성량을 등록화자의 것으로 저장한다(S100).

한편, 음성증명을 의뢰한 의뢰화자의 음성이 등록된 음성인지를 증명하는 화자증명과정을, 도 7을 참조하여 설명하면 다음과 같다.

의뢰화자의 음성이 입력되면(P10), 도 6과 마찬가지로, 의뢰화자의 음성신호파형을 프레임 단위로 분할하여 스펙트럼을 분석하고(P20,P30), 고립단어를 추출한 다음, 고립단어에 해당하는 프레임중 언어단위가 포함된 프레임을추출한다(P40,P50). 그런 다음, 추출된 프레임에 포함된 언어단위의 성량을 측정하고(P60), 측정된 성량이 배경화자의 최대성량과 최소성량 사이에 포함되는지 판단한다(P70). 그런 다음, 의뢰화자의 각 언어단위중 일정 비율 이상의 성량이 배경화자의 최대성량과 최소성량 사이에 포함되지 아니하면 재입력을 요구하고(P75), 포함되면 화자점수 산출부(31)에서는 MLP로 각 언어단위의 화자점수를 산출한다(P80). 그리고, 제어부(33)에서는 산출된 화자점수가 미리 설정된 문턱값 이상인지를 비교하고(P90), 화자점수가 문턱값 이상인 경우에는 등록화자로 확인하여 의뢰화자를 수락한다(P100). 산출된 화자점수가 문턱값 이하인 경우에는 등록화자가 아닌 것으로 판단하여 의뢰화자를 거절한다(P105).

한편, 하기의 표 4에서 표 6은, 이러한 음성인식시스템(1)을 이용하여, 화자등록시 원음성의 180%, 140%, 120%, 100%, 80% 크기의 성량으로 각각 등록한 뒤, 각 성량크기에 따라 180%, 140%, 120%, 100%, 80% 성량으로 발성하여 화자증명을 시도한 실험결과이다. 표 1에서 표 3은 종래의 음성인식시스템에서의 각각 오인 거부율, 오인 수락율, 고립단어 수락율에 대한 것이다. 표 4는 본 음성인식시스템(1)을 이용하여 얻어진 오인 거부율, 표 5는 오인 수락율, 표 6은 고립단어 수락율에 관한 실험결과이다. 여기서, 오인 거부율(FR)은 등록된 화자임에도 불구하고 거절하는 경우를 비율로 나타낸 것이고, 고립단어 수락율은 등록화자가 등록한 등록어를 의뢰한 화자가 발성했을 때의 수락 비율이다.

[표 1] 종래의 음성인식시스템에서의 오인 거부율

[표 2] 종래의 음성인식시스템에서의 오인 수락율

[표 3] 본 음성인식시스템에서의 고립단어 수락율

[표 4] 본 음성인식시스템에서의 오인 거부율

표 4에서 나타난 바와 같이, 증명의뢰시 발성하는 음성의 성량을 등록을 위한 학습시 성량과 동일하게 발성한 경우 오인 거부율이 가장 낮으며, 증명의뢰시 성량과 학습시 성량의 차가 많을수록 오인 거부율이 증가하게 된다. 특히, 학습시의 성량이 크고, 증명의뢰시 성량이 작은 경우에 가장 큰 오인 거부율을 보인다.

[표 5] 본 음성인식시스템에서의 오인 수락율

상기의 표 5에 나타난 바와 같이, 등록화자가 아닌 화자를 등록화자로 인식하는 오인 수락율은 성량이 학습시 또는 화자증명시의 성량이 100% 경우 가장 적은 것으로 나타났고, 학습시 또는 화자증명시의 성량이 이보다 크거나 작게 되면, 오인 수락율이 증가한다. 이러한 본 음성인식시스템(1)의 오인 수락율을 종래의 표 2와 비교해 보면, 본 음성인식시스템(1)의 오인 수락율이 종래의 오인 수락율에 비해 전반적으로 개선되었음을 알 수 있다.

[표 6] 본 음성인식시스템에서의 고립단어 수락율

상기의 표 6에 나타난 바와 같이, 고립단어 수락율은 학습시와 증명시 성량이 180%인 경우에 가장 낮게 나타났으며, 종래의 표 3과 비교해 볼 때, 전반적으로 낮음을 알 수 있다. 이는 화자의 음성 발성시 적당한 성량으로 발성하지 아니한 경우에는 거부하여 화자에게 재 발성의 기회를 줌으로써, 최대한 정확하게 등록화자를 가려내기 위함이다.

이와 같이, 본 발명의 음성인식시스템(1)에서는, 등록을 원하는 화자의 음성학습시 화자의 성량이 미리 마련된 배경화자의 성량 범위내에 속하는지를 판단하고, 성량 범위에 속하는 음성만을 분석하여 화자패턴을 형성한다. 그리고, 화자가 화자증명을 요구하는 경우에도, 화자가 발성한 음성이 배경화자의 성량 범위내에 속하는지 먼저 판단하고, 성량 범위내에 속하는 음성에 대해서 화자점수를 산출하여 화자를 거절 또는 수락한다.

이에 따라, 본 음성인식시스템(1)에 의하면, 학습시와 화자증명시의 성량이 100%일 때 가장 높은 인식률을 나타내고, 이 외의 성량에서는 100%로부터의 차이가 커질수록 인식률이 떨어졌다. 즉, 종래에는 성량의 크기에 상관없이 인식률이 그대로 반영되지만, 본 음성인식시스템(1)에서는 성량의 차이가 클수록 고립단어의 수락율이 하락함으로써, 화자가 다시 발성할 기회를 증가시킨다. 따라서, 등록화자가 아닌 화자를 오인하는 오인 수락율을 감소시키고, 배경화자의 성량을 벗어나는 경우에는 재 발성할 기회를 줌으로써, 음성인식시스템(1)의 신뢰성을 향상시킬 수 있다.

이상에서 설명한 바와 같이, 본 발명에 따르면, 화자의 음성등록을 위한 학습시와 화자증명시 화자의 성량을 고려함으로써, 보다 정확한 화자의 증명이 가능하게 된다.

Claims

음성인식을 위해 선행되는 음성등록방법에 있어서,

외부로부터의 입력된 소리신호파형의 스펙트럼을 분석하는 소리분석단계와;

상기 소리신호파형중 음성에 해당되는 음성신호파형에서 화자인식을 위해 미리 설정된 언어단위를 추출하는 언어단위 추출단계와;

상기 추출된 언어단위마다 성량의 크기를 측정하는 성량측정단계와;

비교기준이 되는 다수의 배경화자에 대한 성량에 대한 정보를 포함하는 배경화자 음성정보가 저장된 음성 데이터베이스를 구축하는 단계와;

상기 측정된 각 언어단위에 대한 성량이 상기 음성 데이터베이스에 기초하여 미리 설정된 일정 성량범위 내에 속하는지 판단하는 성량검사단계와;

상기 각 언어단위중 적어도 일정 이상의 언어단위의 성량이 미리 설정된 일정범위 내에 속하는 경우, 다층 신경망을 이용하여 상기 각 언어단위에 대해 학습하는 학습단계와;

상기 학습된 각 언어단위에 대한 정보를 상기 화자의 인식정보로 저장하는 저장단계를 포함하는 것을 특징으로 하는 음성인식을 위한 음성등록방법.
제 1 항에 있어서,

상기 음성분석단계는,

상기 화자의 음성신호파형의 스펙트럼을 형성하는 단계와,

상기 스펙트럼의 화자의 음성특성의 인식이 가능한 화자인식구간에 일정 비율로 필터뱅크를 배치하여 상기 스펙트럼을 압축하는 단계를 포함하는 것을 특징으로 하는 음성인식을 위한 음성등록방법.
제 2 항에 있어서,

상기 스펙트럼의 화자인식구간은 약 0-3kHz 정도이며, 상기 필터뱅크는 상기 화자인식구간에서 균등하게 배치되고, 약 3kHz 이상에서는 로그 스케일에 비례하여 상기 필터뱅크의 배치간격이 증가하는 것을 특징으로 하는 음성인식을 위한 음성등록방법.
제 3 항에 있어서,

발음시 지속되는 시간이 긴 비음, 모음, 유사음 중 복수 개의 음소를 선택하여 상기 언어단위로 설정하는 단계를 더 포함하며;

상기 언어단위 추출단계는, 상기 스펙트럼을 다수개로 분할하여 복수의 프레임을 형성하는 단계와, 상기 복수의 프레임중 언어단위를 포함하는 프레임을 추출하는 단계를 포함하는 것을 특징으로 하는 음성인식을 위한 음성등록방법.
제 4 항에 있어서,

상기 성량측정단계는, 상기 스펙트럼의 언어단위를 포함하는 프레임의 에너지값을 측정하는 단계인 것을 특징으로 하는 음성인식을 위한 음성등록방법.
제 5 항에 있어서,

상기 음성 데이터베이스에 저장된 상기 배경화자의 음성의 스펙트럼을 분석하고 상기 언어단위를 포함하는 프레임의 에너지값을 산출하여 최저성량과 최대성량을 추출하는 단계를 더 포함하며;

상기 성량검사단계는, 상기 화자의 스펙트럼의 프레임중 상기 최저성량과 상기 최대성량 사이에 속하는 성량을 갖는 프레임의 비율이 일정 이상인지를 판단하는 단계인 것을 특징으로 하는 음성인식을 위한 음성등록방법.
제 6 항에 있어서,

상기 다수의 배경화자에 대해 각 언어단위마다 복수의 기준패턴을 형성하는 단계와, 상기 화자에 대해 각 언어단위에 따라 복수의 화자패턴을 형성하는 단계를 더 포함하며;

상기 학습단계는, 오류역전파 알고리즘을 이용하여 상기 기준패턴과 상기 화자패턴을 비교하여 상기 화자패턴의 특성을 학습하는 단계를 포함하는 것을 특징으로 하는 음성인식을 위한 음성등록방법.
제 7 항에 있어서,

상기 한 배경화자의 각 언어단위에 따라 형성된 복수의 기준패턴을 하나의학습그룹으로 설정하여 배경화자와 언어단위의 수만큼 학습그룹을 형성하는 단계를 더 포함하며;

상기 학습단계는, 상기 각 학습그룹의 기준패턴과 상기 복수의 화자패턴을 비교하여 상기 화자패턴의 특성을 학습하는 단계인 것을 특징으로 하는 음성인식을 위한 음성등록방법.
제 1 항 내지 제 8 항중 어느 한 항에 있어서,

상기 저장단계는, 상기 각 언어단위에 따른 복수의 화자패턴과, 상기 각 언어단위의 성량을 상기 화자인식정보로 저장하는 것을 특징으로 하는 음성인식을 위한 음성등록방법.
제 1 항에 있어서,

상기 각 언어단위중 적어도 일정 이상의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하지 아니하는 경우, 상기 화자에게 음성의 재입력을 요구하는 단계를 더 포함하는 것을 특징으로 하는 음성인식을 위한 음성등록방법.
음성이 입력된 화자가 등록된 화자인지를 확인하기 위한 화자 인식방법에 있어서,

외부로부터의 입력된 소리신호파형의 스펙트럼을 분석하는 소리분석단계와;

상기 소리신호파형중 음성에 해당되는 음성신호파형에서 화자인식을 위해 미리 설정된 언어단위를 추출하는 언어단위 추출단계와;

상기 추출된 언어단위마다 성량의 크기를 측정하는 성량측정단계와;

상기 측정된 각 언어단위에 대한 성량이 미리 설정된 일정 성량범위 내에 속하는지 판단하는 성량검사단계와;

상기 각 언어단위중 적어도 일정 이상의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하는 경우, 다층신경망을 이용하여 상기 각 언어단위가 상기 화자의 것일 확률을 산출하고 상기 확률을 평균하여 화자점수를 산출하는 단계와;

상기 산출된 화자점수를 미리 설정된 화자확인을 위한 최소한의 화자점수인 문턱값과 비교하여 상기 화자점수가 문턱값 이상인 경우 상기 등록된 화자임을 확인하는 단계를 포함하는 화자 인식방법.
제 11 항에 있어서,

상기 화자점수는 다음식에 의해 산출되는 것을 특징으로 하는 화자인식방법.

여기서는 i번째 언어단위 프레임의 등록화자일 확률점수이고, M은 고립단어 내에서 추출된 언어단위 프레임 수이다.
제 12 항에 있어서,

분별력에 따라 상기 각 언어단위에 가중치를 두고, 상기 가중치에 따라 화자점수를 산출하는 것을 특징으로 하는 화자인식방법.
음성인식을 위해 선행되는 음성등록시스템에 있어서,

외부로부터의 입력된 소리신호파형의 스펙트럼을 분석하기 위한 음성분석수단과;

상기 입력된 소리중 음성에 해당하는 음성신호파형 부분을 추출하고, 상기 추출된 음성신호파형에서 화자인식을 위해 미리 설정된 언어단위를 추출하는 음성추출수단과;

비교기준이 되는 다수의 배경화자에 대한 성량에 대한 정보를 포함하는 배경화자 음성정보가 저장된 음성 데이터베이스와;

상기 추출된 언어단위마다 성량의 크기를 측정하고, 상기 각 언어단위에 대한 성량이 상기 음성 데이터베이스에 기초하여 미리 설정된 일정범위 내에 속하는지 판단하는 성량판별수단과;

상기 각 언어단위중 적어도 일정 이상의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하는 경우, 상기 각 언어단위에 대해 학습하는 학습기와;

상기 학습된 각 언어단위의 정보를 상기 화자의 인식정보로 저장하는 메모리와;

상기 음성이 입력되면 상기 각 수단 및 학습기의 작동을 제어하고, 상기 메모리에 상기 화자의 인식정보를 저장시키는 제어부를 포함하는 것을 특징으로 하는 음성인식을 위한 음성등록시스템.
제 14 항에 있어서,

상기 음성분석수단은, 상기 화자의 음성신호파형의 스펙트럼을 분석하고, 상기 스펙트럼중 화자의 인식이 가능한 화자인식구간에서 소정의 비율로 필터뱅크를 배치하여 상기 스펙트럼을 압축하는 것을 특징으로 하는 음성인식을 위한 음성학습 시스템.
제 15 항에 있어서,

상기 화자인식구간은 약 0-3kHz 정도이며, 상기 음성분석수단은, 상기 필터뱅크를 상기 화자인식구간에서 균등하게 배치시키고, 약 3kHz 이상에서는 로그 스케일에 비례하여 상기 필터뱅크의 배치간격을 증가시키는 것을 특징으로 하는 음성인식을 위한 음성등록시스템.
제 16 항에 있어서,

상기 음성추출수단은, 상기 스펙트럼을 다수개로 분할하여 복수의 프레임을 형성하며, 상기 복수의 프레임중 발음시 지속되는 시간이 긴 비음, 모음, 유사음 중 선택된 음소로 설정된 언어단위를 포함하는 프레임을 추출하는 것을 특징으로 하는 음성인식을 위한 음성등록시스템.
제 17 항에 있어서,

상기 성량판별수단은, 상기 스펙트럼의 언어단위를 포함하는 프레임의 에너지값을 측정하는 것을 특징으로 하는 음성인식을 위한 음성등록시스템.
제 18 항에 있어서,

상기 성량판별수단은, 상기 음성 데이터베이스에 저장된 상기 배경화자의 음성의 스펙트럼을 분석하고 상기 언어단위를 포함하는 프레임의 에너지값을 산출하여 최저성량과 최대성량을 미리 판별하고, 상기 화자의 스펙트럼의 프레임중 상기 최저성량과 상기 최대성량 사이에 속하는 성량을 갖는 프레임의 비율이 일정 이상인지를 판단하는 것을 특징으로 하는 음성인식을 위한 음성등록시스템.
제 19 항에 있어서,

상기 음성추출수단은, 상기 배경화자에 대해 각 언어단위마다 복수의 기준패턴을 형성하고, 상기 화자에 대해 각 언어단위에 따라 복수의 화자패턴을 형성하며; 상기 한 배경화자의 각 언어단위에 따라 형성된 복수의 기준패턴을 하나의 학습그룹으로 설정하여 복수의 학습그룹을 형성하는 것을 특징으로 하는 음성인식을 위한 음성등록시스템.
제 20 항에 있어서,

상기 학습기는, 상기 음성추출수단에 의해 설정된 각 학습그룹의 기준패턴과 상기 복수의 화자패턴을 비교하여 오류역전파 알고리즘에 따라 상기 화자패턴의 특성을 학습하는 것을 특징으로 하는 음성인식을 위한 음성등록시스템.
제 21 항에 있어서,

상기 메모리에는, 상기 각 언어단위에 따른 복수의 화자패턴과, 상기 각 언어단위의 성량이 상기 화자인식정보로 저장되는 것을 특징으로 하는 음성인식을 위한 음성등록시스템.
제 22 항에 있어서,

상기 제어부는, 상기 각 언어단위중 적어도 일정 이상의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하지 아니하는 경우, 상기 화자에게 음성의 재입력을 요구하는 단계를 더 포함하는 것을 특징으로 하는 음성인식을 위한 음성등록시스템.
음성이 입력된 화자가 등록된 화자인지를 확인하기 위한 화자 인식시스템에 있어서,

외부로부터의 입력된 소리신호파형의 스펙트럼을 분석하기 위한 음성분석수단과;

상기 입력된 소리중 음성에 해당하는 음성신호파형 부분을 추출하고, 상기 추출된 음성신호파형에서 화자인식을 위해 미리 설정된 언어단위를 추출하는 음성추출수단과;

상기 추출된 언어단위마다 성량의 크기를 측정하고, 상기 각 언어단위에 대한 성량이 미리 설정된 일정범위 내에 속하는지 판단하는 성량판별수단과;

상기 각 언어단위가 상기 화자의 것일 확률을 산출하고, 상기 확률을 평균하여 화자점수를 산출하는 화자점수 산출부와;

상기 각 언어단위중 적어도 일정 이상의 언어단위가 판단된 성량이 미리 설정된 일정범위 내에 속하는 경우, 상기 화자점수 산출부를 통해 화자점수를 산출하도록 하고, 상기 산출된 화자점수를 미리 설정된 문턱값과 비교하여 상기 화자점수가 문턱값 이상인 경우 상기 등록된 화자임을 확인하는 제어부를 포함하는 화자 인식시스템.
제 24 항에 있어서,

상기 화자점수는 다음식에 의해 산출되는 것을 특징으로 하는 화자인식시스템.

여기서는 i번째 언어단위 프레임의 등록화자일 확률점수이고, M은 고립단어 내에서 추출된 언어단위 프레임 수이다.
제 25 항에 있어서,

상기 화자점수 산출부는, 분별력에 따라 상기 각 언어단위에 가중치를 두고,상기 가중치에 따라 화자점수를 산출하는 것을 특징으로 하는 화자인식시스템.