KR100766761B1

KR100766761B1 - 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치

Info

Publication number: KR100766761B1
Application number: KR1020037000496A
Authority: KR
Inventors: 비닝
Original assignee: 퀄컴 인코포레이티드
Priority date: 2000-07-13
Filing date: 2001-07-11
Publication date: 2007-10-17
Also published as: US6735563B1; ES2275700T3; WO2002007145A2; TW514867B; BR0112405A; JP4202124B2; CN1205601C; AU2001273410A1; HK1056427A1; DE60124551T2; JP2004504641A; KR20030014332A; ATE345562T1; DE60124551D1; EP1301919B1; EP1301919A2; CN1441947A; WO2002007145A3

Abstract

화자-독립형 보이스 인식 시스템에 대하여 보이스 템플릿을 구성하는 장치 및 방법은, 트레이닝 발화를 세그먼트화하여, 각각이 평균으로 표현되는 시간-클러스터링된 세그먼트를 발생시키는 단계를 포함한다. 주어진 단어의 모든 발화에 대한 평균은 양자화되어, 템플릿 벡터를 발생시킨다. 각각의 템플릿 벡터는 테스팅 발화와 비교되어 비교 결과를 발생시킨다. 통상, 비교는, 동적 시간 워핑 계산이다. 트레이닝 발화는, 비교 결과가 하나 이상의 소정의 임계값을 초과하는 경우, 템플릿 벡터와 매칭되어, 최적의 경로 결과를 발생시키고, 트레이닝 발화는 그 최적의 경로 결과에 따라서 분할된다. 통상, 분할은, K-평균 분할 계산이다. 그 후, 분할된 발화는, 하나 이상의 소정의 임계값이 초과되지 않을 때까지, 재양자화되고 테스팅 발화와 재비교된다.

Description

화자-독립형 보이스 인식 시스템용 보이스 템플릿을 구성하는 방법 및 장치 {METHOD AND APPARATUS FOR CONSTRUCTING VOICE TEMPLATES FOR A SPEAKER-INDEPENDENT VOICE RECOGNITION SYSTEM}

발명의 배경

발명의 분야

본 발명은 일반적으로 통신 분야에 관한 것으로, 보다 구체적으로는 화자-독립형 보이스 인식 시스템용 보이스 템플릿에 관한 것이다.

배경

보이스 인식 (VR) 은, 사용자 또는 사용자의 보이스 커맨드를 인식하고 인간-기계간 인터페이스를 용이하게 하도록, 기계에 모의 지능 (simulated intelligence) 을 부여하는 가장 중요한 기술중의 하나를 나타낸다. 또한, VR 은 인간의 스피치 이해를 위한 주요 기술을 나타낸다. 음향학적 스피치 신호로부터 언어적 메시지를 복구하는 기술들을 사용하는 시스템은 보이스 인식기라고 불리운다. 여기서, 용어 "보이스 인식기" 는 일반적으로 임의의 화자 인터페이스 가능 (spoken-user-interface-enabled) 디바이스를 의미하기 위해서 사용된다. 통상, 보이스 인식기는 음향 프로세서와 워드 디코더를 포함한다. 음향 프로세서는, 입력되는 원래의 스피치 (raw speech) 의 VR 을 달성하기 위해서 필요한 일련의 정보 포함 특성이나 벡터를 추출한다. 워드 디코더는, 일련의 특성이나 벡터를 디코딩하여, 입력 발화 (utterance; 發話) 에 대응하는 일련의 언어적 단어 (linguistic word) 와 같이 의미있고 원하는 출력을 산출한다.

음향 프로세서는 보이스 인식기의 전단 스피치 분석 서브시스템을 나타낸다. 입력 스피치 신호에 응답하여, 음향 프로세서는 시변 스피치 신호를 특성화하기 위해서 적절한 표현을 제공한다. 음향 프로세서는, 배경잡음, 채널 왜곡, 화자 특성, 및 스피킹 방식 등의 관련없는 정보를 버려야 한다. 효율적인 음향 처리는 보이스 인식기에 향상된 음향 판별력을 제공한다. 이런 목적에서, 분석될 유용한 특성은 단시간 스펙트럼 포락선이다. 단시간 스펙트럼 포락선을 특성화하기 위해 일반적으로 사용되는 2 가지 스펙트럼 분석 기술은, 선형 예측 코딩 (LPC) 과 필터-뱅크-기반 스펙트럼 모델링이다. 예시적인 LPC 기술들은, 본 발명의 양수인에게 양도되고 여기서 전부 참조하는 미국특허번호 제5,414,796호 및 또한 여기서 전부 참조하는 L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396~453 (1978) 에 설명되어 있다.

VR (일반적으로, 스피치 인식이라고도 불리움) 의 사용은 안전상의 이유로 점차 중요해지고 있다. 예를 들어, VR 은 무선 전화기 키패드상의 버튼을 누르는 수작업을 대체하는 데 사용될 수 있다. 이는, 차량을 운전하는 동안, 사용자가 전화 통화를 개시할 때 특히 중요하다. VR 이 없는 전화기를 사용할 때, 운전자는, 통화를 다이얼링하기 위해서 버튼을 누르는 동안, 운전대로부터 한 손을 제거하고 전화기 키패드를 응시해야만 한다. 이런 행동은 차량 사고의 가능성을 증대시킨다. 스피치 가능 전화기 (즉, 스피치 인식용으로 설계된 전화기) 는, 운전자로 하여금 계속하여 도로를 응시하면서 전화통화를 걸 수 있게 한다. 또한, 추가적으로, 핸즈프리 카-키트 시스템은, 운전자로 하여금 통화를 개시하는 동안에 운전대에 양손을 유지할 수 있게 한다.

스피치 인식 디바이스는 화자-의존형이나 화자-독립형 디바이스 중의 하나로 분류된다. 보다 일반적인 화자-의존형 디바이스는, 특정한 사용자들로부터의 커맨드를 인식하도록 트레이닝된다. 대조적으로, 화자-독립형 디바이스는 임의의 사용자로부터의 음성 커맨드를 수용할 수 있다. 주어진 VR 시스템의 성능을 증대시키기 위해서는, 화자-의존형이건 화자-독립형이건 간에, 시스템에 유효 파라미터를 갖추기 위해서 트레이닝이 요구된다. 즉, 시스템은 최적으로 기능할 수 있기 전에 학습을 필요로 한다.

화자-의존형 VR 디바이스는, 통상적으로, 2 가지 상태, 즉 트레이닝 상태와 인식 상태로 동작한다. 트레이닝 상태에서, VR 시스템은, 사용자로 하여금 시스템의 단어집 (vocaburary) 의 단어 각각을 1회 또는 2회 (일반적으로, 2회) 말하도록 하여, 시스템이 이들 특정 단어나 구에 대한 사용자의 스피치 특성을 학습할 수 있게 한다. 핸즈프리 카-키트용의 예시적인 단어집은, 키패드 상의 디지트; 키워드 "통화(call)", "발신(send)", "다이얼(dial)", "취소(cancel)", "제거(clear)", "추가(add)", "삭제(delete)", "히스토리(history)", "프로그램(program)", "예(yes)", 및 "아니오(no)"; 및 일반적으로 통화하는 소정 수의 동료, 친구 또는 가족의 이름을 포함한다. 일단 트레이닝이 완료되면, VR 디바이스가 말해진 발화를 (템플릿으로서 저장된) 이전에 트레이닝된 발화와 비교하고 최선의 매칭을 취하여 인식한, 트레이닝된 키워드를 말함으로써, 사용자는 인식 상태에서 통화를 개시할 수 있다. 예를 들어, "죤 (John)" 이라는 이름이 트레이닝된 이름중의 하나였다면, 사용자는 "통화 죤 (Call John)" 이라는 구를 말함으로써, 죤에게 통화를 개시할 수 있다. VR 시스템은, 단어 "통화" 와 "죤" 을 인식할 수 있고, 사용자가 이전에 죤의 전화번호로서 입력한 번호를 다이얼링한다.

또한, 화자-독립형 VR 디바이스는 소정 사이즈의 미리 기록된 단어집을 포함하고 있는 트레이닝 템플릿 (예를 들어, 일부 제어 워드, 0 부터 9 까지의 숫자, 및 예와 아니오) 을 사용한다. 대다수의 화자 (예를 들어, 100명) 가 단어집의 각각의 단어를 말하여 기록되어야 한다.

종래에는, 화자-독립형 VR 템플릿은, 제 1 세트의 화자 (일반적으로, 100 명의 화자) 가 말한 단어를 포함하는 테스팅 데이터베이스를, (제 1 세트 만큼의) 제 2 세트의 화자가 말한 동일한 단어를 포함하는 트레이닝 데이터베이스와 비교함으로써 구성된다. 한명의 사용자가 말한 하나의 단어는 통상, 발화 (utterance) 라고 불리운다. 트레이닝 데이터베이스의 각각의 발화는, 우선, 정규화된 후, 테스팅 데이터베이스의 발화와의 수렴에 대해 테스팅하기 전에 양자화된다 (통상, 공지된 기술에 따라서 벡터 양자화됨). 그러나, 시간 정규화기술 (time normalization technique) 은, 오직, 이전 프레임과 최대의 차이를 갖는 개별 프레임 (발화의 주기적인 세그먼트) 으로부터 획득된 정보에 의존한다. 주어진 발화에서 더 많은 정보를 사용하는 화자-독립형 VR 템플릿을 형성하는 방법을 제공하는 것이 바람직할 것이다. 또한, 발화의 유형에 기초하여 화자-독립형 VR 템플릿을 형성하는 종래기술의 정확도 또는 수렴도를 증대시키는 것이 더 바람직할 것이다. 따라서, 향상된 정확도를 제공하고 발화에서 더 많은 양의 정보를 사용하는 화자-독립형 스피치 인식 템플릿을 구성하는 방법이 요청되고 있다.

발명의 요약

본 발명은, 향상된 정확도를 제공하고 발화에서 더 많은 양의 정보를 사용하는 화자-독립형 스피치 인식 템플릿을 구성하는 방법에 관한 것이다. 따라서, 본 발명의 일 양태에서는, 화자-독립형 스피치 인식 시스템에 사용하기 위한 스피치 템플릿을 생성하는 방법이 제공된다. 바람직하게는, 본 방법은, 제 1 복수의 발화의 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각이 스펙트럼 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 발생시키는 단계; 제 1 복수의 발화 모두에 대한 복수의 스펙트럼 평균을 양자화하여, 복수의 템플릿 벡터를 발생시키는 단계; 복수의 템플릿 벡터들 중 각각의 하나의 벡터를 제 2 복수의 발화와 비교하여, 하나 이상의 비교 결과를 발생시키는 단계; 하나 이상의 비교 결과가 하나 이상의 소정의 임계값을 초과하는 경우, 제 1 복수의 발화를 복수의 템플릿 벡터와 매칭시켜서 최적의 매칭 경로 결과 (optimal matching pass result) 를 발생시키는 단계; 최적의 매칭 경로 결과에 따라서 제 1 복수의 발화를 시간적으로 분할하는 단계; 및 하나 이상의 비교 결과가 임의의 하나 이상의 소정의 임계값을 초과하지 않을 때까지, 양자화, 비교, 매칭, 및 분할을 반복하는 단계를 포함한다.

도 1 은, 화자-독립형 보이스 인식용 보이스 템플릿을 구성하고 구현하는 시스템의 블록도이다.

도 2 는, 도 1 의 시스템에서 사용될 수 있는 보이스 인식 서브시스템의 블록도이다.

도 3 은, 입력 스피치 샘플을 인식하기 위해서, 도 2 의 서브시스템과 같은 보이스 인식 서브시스템에 의해 수행되는 방법 단계들을 나타내는 플로우 차트이다.

도 4 는, 도 1 의 시스템에서 사용될 수 있는 템플릿-형성 서브시스템의 블록도이다.

도 5 는, 도 1 의 시스템에서 사용될 수 있는 템플릿-형성 서브시스템의 블록도이다.

도 6 은, 보이스 템플릿을 구성하기 위해서, 도 4 의 서브시스템이나 도 5 의 서브시스템과 같은 템플릿-형성 서브시스템에 의해 수행되는 방법 단계들을 나타내는 플로우 차트이다.

바람직한 실시형태의 상세한 설명

일 실시형태에 따르면, 도 1 에 나타낸 바와 같이, 화자-독립형 보이스 인식용 보이스 템플릿을 구성하고 구현하는 시스템 (10) 은, 화자-독립형 템플릿-형성 서브시스템 (12) 과 스피치 인식 서브시스템 (14) 을 포함한다. 화자-독립형 템플릿-형성 서브시스템 (12) 은 스피치 인식 서브시스템 (14) 에 커플링된다.

화자-독립형 보이스 템플릿은, 도 4 내지 도 6 을 참조하여 후술되는 바와 같이, 화자-독립형 템플릿-형성 서브시스템 (12) 으로 구성된다. 템플릿은, 도 2 내지 도 3 을 참조하여 후술되는 바와 같이, 사용자로부터의 입력 스피치를, 인식하는 데 사용하기 위한 스피치 인식 서브시스템 (14) 에 제공된다.

일 실시형태에 따르면, 도 2 에 나타낸 바와 같이, 스피치 인식 서브시스템 (100) 은 아날로그-디지털 컨버터 (A/D; 102), 전단 음향 프로세서 (104), 특성 추출기 (106), 스피치 템플릿 데이터베이스 (108), 패턴 비교 로직 (110), 및 판정 로직 (112) 을 포함한다. 특정 실시형태에서, 음향 프로세서 (104) 와 특성 추출기 (106) 는, 예를 들어, 파라미터 추출기의 하나의 디바이스로서 제공된다. 일 실시형태에서, 음향 프로세서 (104) 는 주파수 분석 모듈 (114) 를 포함한다. 일 실시형태에서, 특성 추출기 (106) 는, 종단점 검출기 (116), 시간-클러스터링 스피치 세그먼트화 모듈 (118), 및 스피치 레벨 정규화기 (120) 를 포함한다.

A/D (102) 는 음향 프로세서 (104) 에 커플링된다. 음향 프로세서 (104) 는 특성 추출기 (106) 에 커플링된다. 일 실시형태에서, 프레임 추출기 (106) 내에서, 종단점 검출기 (116) 는, 진폭 양자화기 (120) 에 커플링된 시간-클러스터링 스피치 세그먼트화 모듈 (118) 에 커플링된다. 특성 추출기 (106) 는 패턴 비교 로직 (110) 에 커플링된다. 패턴 비교 로직 (110) 은 템플릿 데이터베이스 (108) 와 판정 로직 (112) 에 커플링된다.

스피치 인식 서브시스템 (100) 은, 예를 들어, 무선 전화기나 핸즈프리-카 키트에 상주할 수도 있다. 사용자 (미도시) 는 단어나 구를 말하여, 스피치 신호를 발생시킨다. 종래의 트랜스듀서 (미도시) 로, 스피치 신호는 전기 스피치 신호, s(t) 로 컨버팅된다. 스피치 신호, s(t) 는, A/D (102) 에 제공되며, 예를 들어, 펄스 코드 변조 (PCM), A 법칙이나 μ법칙과 같은 공지된 샘플링 방법에 따라서, 스피치 신호를 디지털화된 스피치 샘플, s(n) 으로 컨버팅한다.

스피치 샘플, s(n) 은, 파라미터 결정을 위해 음향 프로세서 (104) 에 제공된다. 음향 프로세서 (104) 는, 입력 스피치 신호, s(t) 의 특성을 모델링하는 파라미터 세트를 생성한다. 파라미터는, 상기 언급된 미국특허번호 제5,414,796호와 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition (1993) 에 설명된, 예를 들어, 스피치 코더 인코딩, 이산 푸리에 변환 (DFT)-기반 셉스트럼 계수 (예를 들어, 고속 푸리에 변환 (FFT)-기반 셉스트럼 계수), 선형 예측 계수 (LPC), 또는 Bark 스케일 분석을 포함하는 다수의 공지된 스피치 파라미터 결정 기술 중 임의의 것에 따라서 결정될 수 있다. 바람직하게는, 파라미터 세트는 프레임 기반이다 (주기적인 프레임들로 세그먼트화됨). 음향 프로세서 (104) 는 디지털 신호 프로세서 (DSP) 로서 구현될 수도 있다. DSP 는 스피치 코더를 포함할 수도 있다. 다른 방법으로, 음향 프로세서 (104) 는 스피치 코더로서 구현될 수도 있다.

파라미터의 각각의 프레임은 특성 추출기 (106) 에 제공된다. 특성 추출기 (106) 에서, 종단점 검출기 (116) 는 발화 (즉, 단어) 의 종단점을 검출하기 위해서 추출된 파라미터를 이용한다. 일 실시형태에서, 종단점 검출은, 바람직하게는, 본 발명의 양수인에게 양도되었으며 여기서 전부 참조하는 발명의 명칭이 "METHOD AND APPARATUS FOR ACCURATE ENDPOINTING OF SPEECH IN THE PRESENCE OF NOISE" 인 1999년 2월 8일자 출원의 미국출원번호 제09/246,414호에 설명된 기술에 따라서 수행된다. 이 기술에 따르면, 발화는, 발화의 제 1 시작점과 제 1 종단점을 결정하기 위해서, 예를 들어, 신호-대-잡음비 (SNR) 임계값 등의 제 1 임계값과 비교된다. 그 후, 제 1 시작점보다 선행하는 발화의 일부분은, 발화의 제 2 시작점을 결정하기 위해서 제 2 SNR 임계값과 비교된다. 그 후, 제 1 종단점에 후속하는 발화의 일부분은, 발화의 제 2 종단점을 결정하기 위해서 제 2 SNR 임계값과 비교된다. 제 1 및 제 2 SNR 임계값은, 바람직하게는, 주기적으로 재계산되고, 제 1 SNR 임계값은, 바람직하게는, 제 2 SNR 임계값을 초과한다.

검출된 발화에 대한 주파수 영역 파라미터의 프레임은, 일 실시형태에 따라, 본 발명의 양수인에게 양도되었으며 여기서 전부 참조하는 발명의 명칭이 "SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITION OF SPEECH SIGNALS" 인 1999년 1월 4일자 출원의 미국출원번호 제09/225,891호에 설명된 압축 기술을 구현하는 시간-클러스터링 스피치 세크먼트화 모듈 (118) 에 제공된다. 이 기술에 따르면, 주파수-영역 파라미터의 각각의 스피치 프레임은 스피치 프레임과 연관된 하나 이상의 스펙트럼값으로 표현된다. 그 후, 스펙트럼 차이값은 인접하는 각각의 프레임쌍에 대하여 결정된다. 스펙트럼 차이값은 그 쌍내의 2개의 프레임과 연관된 스펙트럼 값들 사이의 차이를 나타낸다. 초기 클러스터 경계는 인접하는 프레임의 각각의 쌍 사이에 설정되어, 파라미터에 클러스터를 생성하고, 분산값 (variance value) 이 각각의 클러스터에 할당된다. 바람직하게는, 분산값은 결정된 스펙트럼 차이값중 하나와 동일하다. 그 후, 각각이 한쌍의 인접하는 클러스터들과 연관되는 복수의 클러스터 병합 파라미터 (cluster merge parameter) 가 계산된다. 최소의 클러스터 병합 파라미터가 복수의 클러스터 병합 파라미터로부터 선택된다. 그 후, 최소 클러스터 병합 파라미터와 연관된 클러스터들 사이의 클러스터 경계를 삭제하고 병합된 분산값을 병합된 클러스터에 할당함으로써, 병합된 클러스터가 형성된다. 병합된 분산값은 최소의 클러스터 병합 파라미터와 연관된 클러스터에 할당된 분산값을 나타낸다. 바람직하게는, 복수의 병합된 클러스터를 형성하기 위해서 프로세스가 반복되고, 세그먼트화된 스피치 신호가 복수의 병합된 클러스터에 따라서 형성될 수도 있다.

당업자는, 시간-클러스터링 스피치 세크먼트화 모듈 (118) 이, 예를 들어, 시간 정규화 모듈 등의 다른 디바이스에 의해 대체될 수 있음을 이해할 수 있다. 그러나, 당업자는, 시간-클러스터링 스피치 세그먼트화 모듈 (118) 이 이전 프레임에 비교하여 최소의 차이를 갖는 프레임을 클러스터로 병합하고, 개별 프레임 대신에 산술 평균 (mean average) 을 이용하기 때문에, 시간-클러스터링 스피치 세그먼트화 모듈 (118) 이 프로세싱된 발화에서 더 많은 정보를 이용한다는 것을 이해할 수 있다. 또한, 바람직하게는, 시간-클러스터링 스피치 세그먼트화 모듈 (118) 이 당해 기술분야에 공지되고 후술되는 동적 시간 워핑 (dynamic time warping; DTW) 모델을 이용하는 패턴 비교 로직 (110) 과 연동하여 사용될 수 있음을 이해할 수 있다.

클러스터 평균은 스피치 레벨 정규화기 (120) 로 제공된다. 일 실시형태에서, 스피치 레벨 정규화기 (120) 는, 각각의 클러스터 평균에 채널당 2 비트 (즉, 주파수당 2 비트) 를 할당함으로써 스피치 진폭을 양자화한다. 셉스트럼 계수 (cepstrum coefficient) 가 추출되는 다른 실시형태에서, 스피치 레벨 정규화기 (120) 는 클러스터 평균을 양자화하는 데 사용될 수 없으며 이는 당업자들에 의해 이해될 수 있다. 스피치 레벨 정규화기 (120) 에 의해 발생된 출력은 특성 추출기 (106) 에 의해 패턴 비교 로직 (110) 에 제공된다.

스피치 인식 서브시스템 (100) 의 단어집 단어 모두에 대한 템플릿 세트는 템플릿 데이터베이스 (108) 에 영구적으로 저장된다. 바람직하게는, 템플릿 세트는, 후술되는 화자-독립형 템플릿-형성 서브시스템으로 구성된 화자-독립형 템플릿 세트이다. 바람직하게는, 템플릿 데이터베이스 (108) 는, 예를 들어, 플래쉬 메모리 등의 임의의 종래 형태의 비휘발성 저장 매체로서 구현된다. 이는, 스피치 인식 서브시스템 (100) 으로의 전력이 턴오프될 때, 템플릿은 템플릿 데이터베이스 (108) 에 남아 있게 된다.

패턴 비교 로직 (110) 은 특성 추출기 (106) 로부터의 벡터를 템플릿 데이터베이스 (108) 에 저장된 템플릿 모두와 비교한다. 템플릿 데이터베이스 (108) 에 저장된 템플릿 모두와 벡터들간의 비교 결과나 거리는 판정 로직 (112) 에 제공된다. 판정 로직 (112) 은, 템플릿 데이터베이스 (108) 로부터 벡터들과 가장 근접하게 매칭하는 템플릿을 선택한다. 다른 방법으로, 판정 로직 (112) 은, 소정의 매칭 임계값내에서 매칭하는 가장 근접한 N 개를 선택하는 종래의 "N-최적의" 선택 알고리즘 ("N-best" selection algorithm) 을 이용할 수도 있다. 그 후, 사용자는 어떤것을 선택하고자 의도했는지 질의를 받는다. 판정 로직 (112) 의 출력은 단어집의 어떤 단어가 말해지는지에 대한 판정이다.

일 실시형태에서, 패턴 비교 로직 (110) 과 판정 로직 (112) 은 수렴에 대하여 테스팅하기 위해서 DTW 기술을 이용한다. DTW 기술은, 당해 기술분야에 공지되었으며, 여기서 전부 참조하는 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 200~238 (1993) 에 설명되어 있다. DTW 기술에 따르면, 템플릿 데이터베이스 (108) 에 저장된 각각의 발화에 대한 시간 시퀀스에 대하여 테스팅될 발화의 시간 시퀀스를 좌표로 나타내어 트렐리스 (trellis) 가 형성된다. 그 후, 테스팅되는 발화가 점대점으로 (예를 들어, 매 10ms 마다), 템플릿 데이터베이스 (108) 의 각각의 발화와, 한번에 하나의 발화씩 비교된다. 템플릿 데이터베이스 (108) 의 각각의 발화에 대하여, 템플릿 데이터베이스 (108) 의 발화와 가장 근접하게 가능한 매칭을 획득할 때까지, 특정한 시점들에 압축되거나 확장되어, 테스팅되는 발화가 적시에 조절되거나 "워핑(warp)" 된다. 각각의 시점에, 2 개의 발화가 비교되고, 그 시점 (제로 비용) 에 매칭이 선언되거나 비매칭이 선언된다. 특정 시점에서 비매칭의 경우에, 테스팅되는 발화는 압축되거나, 확장되거나, 또는 필요한 경우, 비매칭된다. 서로에 대하여 2 개의 발화가 완전히 비교될 때까지, 프로세스가 계속된다. 대다수의 (일반적으로, 수천의) 서로 다르게 조절된 발화가 가능하다. 최저 비용함수 (cost function) 을 갖는 조절된 발화 (즉, 최소 개수의 압축 및/또는 확장 및/또는 비매칭을 요구하는) 가 선택된다. 비터비 (Viterbi) 디코딩 알고리즘과 유사한 방식에서, 선택은, 바람직하게는, 최저 총비용을 갖는 경로를 결정하기 위해서 템플릿 데이터베이스 (108) 의 발화의 각각의 시점으로부터 파악함으로써 수행된다. 이는, 최저 비용 (즉, 가장 근접하게 매칭되는) 조절된 발화가 서로다르게 조절된 발화 중 모든 가능한 하나의 발화를 발생시키는 "brute-force" 법에 의존하기 않고 결정되도록 한다. 그 후, 템플릿 데이터베이스 (108) 의 발화 모두에 대한 최저 비용 조절된 발화가 비교되고, 최저 비용을 갖는 하나가 테스팅된 발화에 가장 근접하게 매칭되는 저장된 발화로서 선택된다.

바람직하게는, 패턴 비교 로직 (110) 과 판정 로직 (112) 은 마이크로프로세서로서 구현될 수도 있다. 스피치 인식 서브시스템 (100) 은, 예를 들어, ASIC 일 수도 있다. 스피치 인식 서브시스템 (100) 의 인식 정확도는, 스피치 인식 서브시스템 (100) 이 단어집에서 말해진 단어나 구를 얼마나 잘 정확하게 인식하는 지에 대한 측정값이다. 예를 들어, 95% 의 인식 정확도는, 스피치 인식 서브시스템 (100) 이 단어집의 단어를 100 번중에 95 번을 정확하게 인식한다는 것을 나타낸다.

일 실시형태에 따르면, 스피치 인식 서브시스템 (미도시) 은 스피치 입력을 스피치 인식 서브시스템으로 인식하기 위해서 도 3 의 플로우 차트에 나타낸 알고리즘 단계들을 수행한다. 단계 200 에서, 입력 스피치는 스피치 인식 서브시스템에 제공된다. 그 후, 제어 플로우는 단계 202 로 진행한다. 단계 202 에서는, 발화의 종단점이 검출된다. 특정 실시형태에서, 발화의 종단점은 상기 언급된 미국출원번호 제09/246,414호에 설명된 기술에 따라서 도 2 를 참조하여 상술된 바와 같이 검출된다. 그 후, 제어 플로우는 단계 204 로 진행한다.

단계 204 에서는, 시간-클러스터링 스피치 세그먼트화가 추출된 발화에 대해 수행된다. 특정 실시형태에서는, 사용되는 시간-클러스터링 스피치 세그먼트화 기술은, 상기 언급된 미국출원번호 제09/225,891호에 설명되고, 도 2 를 참조하여 상술된 기술이다. 그 후, 제어 플로우는 단계 208 로 진행한다. 단계 206 에서, 화자-독립형 템플릿은, 단계 204 에서 발생된 스피치 클러스터 평균과 매칭시키기 위해 제공된다. 바람직하게는, 화자-독립형 템플릿은, 도 4 내지 도 6 을 참조하여 후술되는 기술에 따라서 구성된다. 그 후, 제어 플로우는 단계 208 로 진행한다. 단계 208 에서, DTW 매칭은, 특정 발화에 대한 클러스터와 모든 화자-독립형 템플릿간에 수행되며, 가장 근접한 매칭 템플릿이 인식된 발화로서 선택된다. 특정 실시형태에서, DTW 매칭은, Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 200~238(1993) 에 설명되고 도 2 를 참조하여 상술된 기술에 따라서 수행된다. 당업자는, 시간-클러스터링 스피치 세그먼트화가 아닌 방법들이 단계 204 에서 수행될 수 있음을 이해할 수 있다. 예를 들어, 이런 방법은 시간 정규화를 포함한다.

일 실시형태에 따르면, 도 4 에 나타낸 바와 같이, 화자-독립형 템플릿-형성 서브시스템 (300) 은 프로세서 (302) 와 저장 매체 (304) 를 포함한다. 바람직하게는, 프로세서 (100) 는 마이크로 프로세서이지만, 임의의 종래 유형의 프로세서, 전용 프로세서, 디지털 신호 프로세서 (DSP), 제어기, 또는 스테이트 머신일 수도 있다. 바람직하게는, 프로세서 (302) 는, 바람직하게는, 플래쉬 메모리, EEPROM 메모리, RAM 메모리, 펌웨어 명령을 수용하도록 구성된 ROM 메모리, 및 프로세서 (302) 상에서 구동하는 소프트웨어 모듈, 또는 임의의 다른 종래 유형의 메모리로서 구현되는 저장매체 (304) 에 커플링된다. 바람직하게는, 화자-독립형 템플릿-형성 서브시스템 (300) 은, UNIX

운영 체제상에서 구동하는 컴퓨터로서 구현된다. 다른 실시형태에서, 저장 매체 (304) 는, 온-보드 RAM 메모리 (On-board RAM Memory), 또는 프로세서 (302) 일 수도 있고, 저장 매체 (304) 는 ASIC 에 상주할 수 있다. 일 실시형태에서, 프로세서 (302) 는, 도 6 을 참조하여 후술되는 단계들과 같은 알고리즘 단계들을 수행하기 위하여 저장 매체 (304) 에 의해서 수용된 명령 세트를 실행하도록 구성된다.

또다른 실시형태에 따르면, 도 5 에 나타낸 바와 같이, 화자-독립형 템플릿-형성 서브시스템 (400) 은, 종단점 검출기 (402), 시간-클러스터링 스피치 세그먼트화 로직 (404), 벡터 양자화기 (406), 수렴 테스터 (408; convergence tester), 및 K-평균 스피치 세그먼트화 로직 (410; K-means speech segmentation logic) 을 포함한다. 바람직하게는, 제어 프로세서 (미도시) 는, 화자-독립형 템플릿-형성 서브시스템 (400) 이 수행하는 반복 회수를 제어하기 위해 이용될 수 있다.

종단점 검출기 (402) 는 시간-클러스터링 스피치 세그먼트화 로직 (404) 에 커플링된다. 시간-클러스터링 스피치 세그먼트화 로직 (404) 은 벡터 양자화기 (406) 에 커플링된다. 벡터 양자화기 (406) 는 수렴 테스터 (408) 와 K-평균 스피치 세그먼트화 로직 (410) 에 커플링된다. 바람직하게는, 제어 프로세서는, 제어 버스 (미도시) 를 통해서, 종단점 검출기 (402), 시간-클러스터링 스피치 세그먼트화 로직 (404), 벡터 양자화기 (406), 수렴 테스터 (408), 및 K-평균 스피치 세그먼트화 로직 (410) 에 커플링된다.

트레이닝될 발화의 트레이닝 샘플, S_x(n) 은, 종단점 검출기 (402) 에 프레임으로서 제공된다. 바람직하게는, 트레이닝 샘플은, 트레이닝될 발화가 저장되는 트레이닝 데이터베이스 (미도시) 로부터 제공된다. 일 실시형태에서, 트레이닝 데이터베이스는, 총10,000개의 저장된 발화에 대하여, 각각이 100명의 다른 화자들에 의해 말해진 100단어를 포함한다. 종단점 검출기 (402) 는 발화의 시작점과 종단점을 검출한다. 일 실시형태에서, 종단점 검출기 (402) 는, 상기 언급된 미국출원번호 제09/246,414호에 설명되고 도 2 를 참조하여 상술된 기술에 따라서 동작한다.

종단점 검출기 (402) 는 검출된 발화를 시간-클러스터링 스피치 세그먼트화 로직 (404) 에 제공한다. 시간-클러스터링 스피치 세그먼트화 로직 (404) 은, 검출된 발화에 대해 압축 알고리즘을 수행한다. 일 실시형태에서, 시간-클러스터링 스피치 세그먼트화 로직 (404) 은, 상기 언급된 미국출원번호 제09/225,891호와 도 2 를 참조하여 상술된 기술에 따라서 동작한다. 일 실시형태에서, 시간-클러스터링 스피치 세그먼트화 로직 (404) 은, 그 검출된 발화를, 각각이 클러스터 평균을 포함하는 20 개의 세그먼트로 압축한다.

시간-클러스터링 스피치 세그먼트화 로직 (404) 은, 주어진 단어에 대한 트레이닝 발화 모두에 대하여 클러스터 평균을 벡터 양자화기 (406) 에 제공한다. 벡터 양자화기 (406) 는 발화에 대한 클러스터 평균을 벡터양자화하고, 그 벡터 양자화된 벡터를 발화에 대한 잠재적인 화자-독립형 (SI) 템플릿으로서 수렴 테스터 (408) 에 제공한다. 바람직하게는, 벡터 양자화기 (406) 는 공지된 임의의 다양한 벡터 양자화 (VQ) 기술에 따라서 동작한다. 다양한 VQ 기술이, 예를 들어, A. Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992) 에 설명되어 있다. 특정 실시형태에서, 벡터 양자화기 (406) 는 4-클러스터 벡터를 발생시킨다. 따라서, 예를 들어, 각각의 세그먼트는, 각각의 세그먼트를 4개의 클러스터로 나타내는 벡터 양자화기 (406) 에 순차적으로 (serially) 제공된다. 각각의 클러스터는, 화자 마다의 특정 단어에 대해 나타내고, 단어마다 다수의 클러스터가 존재한다. 일 실시형태에 따르면, 템플릿당 80개 (20개의 세그먼트 곱하기 4개의 클러스터) 의 벡터가 존재한다.

수렴 테스터 (408) 는 잠재적인 SI 템플릿을 테스팅될 발화의 테스팅 샘플, S_y(n) 과 비교한다. 테스팅 샘플은 수렴 테스터 (408) 에 프레임으로 제공된다. 바람직하게는, 테스팅 샘플은, 테스팅될 발화가 저장되는 테스팅 데이터베이스 (미도시) 로부터 제공된다. 일 실시형태에서, 테스팅 데이터베이스는, 총 10,000 개의 저장된 발화에 대하여 각각이 100명의 서로 다른 화자에 의해 말해진 100 단어를 포함한다. 바람직하게는, 그 단어는 트레이닝 데이터베이스에 포함된 동일한 단어이지만 100 명의 서로 다른 화자에 의해 말해진다. 수렴 테스터 (408) 는 트레이닝될 발화에 대한 잠재적인 SI 템플릿을 테스팅될 발화에 대한 샘플에 대하여 비교한다. 일 실시형태에서, 수렴 테스터 (408) 는 수렴에 대하여 테스팅하기 위해서 DTW 알고리즘을 이용하도록 구성된다. 바람직하게는, 이용되는 DTW 알고리즘은, Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 200~238(1993), 및 도 2 를 참조하여 상술된 기술이다.

일 실시형태에서, 수렴 테스터 (408) 는, 데이터베이스의 모든 단어에 대한 결과의 정확도, 및 잠재적인 SI 템플릿을 갖는 데이터베이스의 분산 모두를 분석하도록 구성된다. 우선, 분산이 체크된 후, 분산이 소정의 임계값 아래로 떨어지는 경우 정확도가 체크된다. 바람직하게는, 분산은, 세그먼트마다 계산된 후, 합산되어 전체적인 분산값을 산출한다. 특정 실시형태에서, 분산은, 4개의 클러스터의 최선 매칭에 대한 평균 제곱 오차 (mean square error) 를 계산함으로써 획득된다. 평균 제곱 오차 기술은 당해 기술분야에 공지되어 있다. 수렴 테스트는, 테스팅 데이터베이스로부터의 발화가 트레이닝 데이터베이스에 의해 발생된 잠재적인 SI 템플릿과 매칭하는 경우(즉, 인식이 데이터베이스 내의 모든 단어에 대하여 정확한 경우) 에 정확한 것으로 정의된다.

또한, 잠재적인 SI 템플릿은 벡터 양자화기 (406) 로부터 K-평균 스피치 세그먼트화 로직 (410) 으로 제공된다. 또한, K-평균 스피치 세그먼트화 로직 (410) 은, 바람직하게는, 프레임들로 분할된 트레이닝 샘플을 수신한다. 수렴 테스터 (408) 가 수렴에 대하여 제 1 테스트를 수행한 후에, 분산이나 정확도중의 하나에 대한 결과는, 분산 및 정확도에 대하여 소정의 임계값 아래로 떨어질 수 있다. 일 실시형태에 있어서, 분산이나 정확도중의 하나에 대한 결과가 분산 및 정확도에 대한 소정의 임계값 아래로 떨어지는 경우, 또한번의 반복이 수행된다. 따라서, 제어 프로세서는 K-평균 스피치 세그먼트화 로직 (410) 에, 트레이닝 샘플에 대해 K-평균 세그먼트화를 수행하도록 명령하여, 후술되는 바와 같이 세그먼트화된 스피치 프레임을 발생시킨다. K-평균 스피치 세그먼트화에 따르면, 트레이닝 샘플은, 바람직하게는, DTW 기술로, 잠재적인 SI 템플릿과 매칭하여, 도 2 를 참조하여 상술된 바와 같이 최적의 경로를 발생시킨다. 그 후, 트레이닝 샘플은 최적의 경로에 따라서 세그먼트화된다. 예를 들어, 트레이닝 샘플의 처음 5 개의 프레임은, 잠재적인 SI 템플릿의 제 1 프레임과 매칭할 수도 있고, 트레이닝 샘플의 그 다음의 3 개의 프레임은, 잠재적인 SI 템플릿의 제 2 프레임과 매칭할 수도 있으며, 트레이닝 샘플의 그 다음 10 개의 프레임은, 잠재적인 SI 템플릿의 제 3 프레임과 매칭할 수도 있다. 이 경우, 트레이닝 샘플의 처음 5 개의 프레임은 하나의 프레임으로 세그먼트화될 수 있고, 그 다음의 3 개의 프레임은 제 2 프레임으로 세그먼트화될 수 있으며, 그 다음 10 개의 프레임은 제 3 프레임으로 세그먼트화될 수 있다. 일 실시형태에서, K-평균 스피치 세그먼트화 로직 (410) 은, 여기서 전부 참조하는 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 382~384 (1993) 에 설명된 예시적인 K-평균 세그먼트화 기술에 따라서 K-평균 세그먼트화를 수행한다. 그 후, K-평균 스피치 세그먼트화 로직 (410) 은, 클러스터 평균의 갱신된 프레임을 벡터 양자화기 (406) 로 제공하고, 이 벡터 양자화기는 클러스터 평균을 벡터 양자화하고, 다른 수렴 테스트를 수행하기 위해서 그 벡터 양자화된 벡터 (새로운 잠재적인 SI 템플릿을 포함함) 를 수렴 테스터 (408) 에 제공한다. 당업자는, 소정의 임계값보다 높은 분산 및 정확도 결과를 달성하기 위해 필요하다면 이 반복 프로세스가 계속되어야 함을 이해할 수 있을 것이다.

일단 수렴 테스트가 통과되면, 잠재적인 (이제, 최종) SI 템플릿은, 바람직하게는, 도 2 의 보이스 인식 서브시스템과 같은 보이스 인식 서브시스템에 사용될 수도 있다. 최종 SI 템플릿은, 도 2 의 템플릿 데이터베이스 (108) 에 저장되거나, 도 3 의 플로우 차트의 단계 206 에서 사용될 수 있다.

일 실시형태에서, 화자-독립형 템플릿-형성 서브 시브템 (미도시) 은, 도 6 의 플로우 차트에 나타낸 방법 단계들을 수행하여 발화에 대한 화자-독립형 템플릿을 구성할 수 있다. 바람직하게는, 단계 500 에서 발화의 트레이닝 샘플은, 트레이닝 데이터베이스 (미도시) 로부터 획득된다. 바람직하게는, 트레이닝 데이터베이스는, 각각이 대다수의 화자 (예를 들어, 단어당 100명의 화자) 에 의해 말해진 다수의 단어 (예를 들어, 100단어) 를 포함한다. 그 후, 제어 플로우는 단계 502 로 진행한다.

단계 502 에서, 종단점 검출이 발화를 검출하도록 트레이닝 샘플에 대해 수행된다. 일 실시형태에서, 종단점 검출은 상기 언급된 미국출원번호 제09/246,414호, 및 도 2 를 참조하여 상술된 기술에 따라서 수행된다. 그 후, 제어 플로우는 단계 504 로 진행한다.

단계 504 에서, 시간-클러스터링 스피치 세그먼트화가 검출된 발화에 대해 수행되어, 발화를, 각각이 평균으로 표현되는 다중 세그먼트로 압축한다. 특정 실시형태에서, 발화는, 각각이 클러스터 평균을 포함하는 20개의 세그먼트로 압축된다. 일 실시형태에서, 시간-클러스터링 스피치 세그먼트화는 상기 언급된 미국출원번호 제09/225,891호, 및 도 2 를 참조하여 상술된 기술에 따라서 수행된다. 그 후, 제어 플로우는 단계 506 으로 진행한다.

단계 506 에서, 동일한 단어의 모든 화자에 대한 샘플을 트레이닝하는 클러스터 평균은 벡터 양자화된다. 특정 실시형태에서, 클러스터 평균은, A. Gersho & R.M. Gray, Vector Quantization and Signal Compression(1992) 에 설명된 다양한 임의의 공지된 VQ 기술에 따라서 벡터 양자화된다. 특정 실시형태에서는, 4-클러스터 벡터가 발생된다. 따라서, 예를 들어, 각각의 세그먼트는 4개의 클러스터로서 표현된다. 각각의 클러스터는, 화자마다, 특정 단어에 대해 나타내며, 단어당 다수의 클러스터가 존재한다. 일 실시형태에 따르면, 80개의 벡터 (20개의 세그먼트 곱하기 4개의 클러스터) 가 템플릿마다 발생된다. 그 후, 제어 플로우는 단계 510 으로 진행한다.

단계 508 에서, 테스팅 샘플은 수렴에 대하여 테스팅하기 위해서 테스팅 데이터베이스 (미도시) 로부터 획득되었다. 바람직하게는, 테스팅 데이터베이스는, 각각이 대다수의 화자 (예를 들어, 발화당 100명의 화자) 에 의해 말해지는, 트레이닝 데이터베이스에 포함된 동일한 단어를 포함한다. 그 후, 제어 플로우는 단계 510 으로 진행한다.

단계 510 에서, 양자화된 벡터는 잠재적인 SI 템플릿으로서 수렴에 대하여 테스팅하도록 테스팅 샘플과 비교된다. 일 실시형태에서, 수렴 테스트는 DTW 알고리즘이다. 바람직하게는, 사용되는 DTW 알고리즘은, Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 200~238 (1993), 및 도 2 를 참조하여 상술된 기술일 수도 있다.

일 실시형태에서, 단계 510 의 수렴 테스트는, 데이터베이스내의 모든 단어에 대한 결과의 정확도, 및 잠재적인 SI 템플릿을 갖는 데이터베이스의 분산 모두를 분석한다. 우선, 분산이 체크되고, 분산이 소정의 임계값 아래로 떨어지는 경우, 정확도가 체크된다. 바람직하게는, 분산이 세그먼트마다 계산된 후, 합산되어 전체 분산값을 산출한다. 특정 실시형태에서, 분산은, 4개의 클러스터의 최선의 매칭에 대한 평균 제곱 오차를 계산함으로써 획득된다. 평균 제곱 오차 기술은 당해 기술분야에 공지되어 있다. 수렴 테스트는, 테스팅 데이터베이스에 의해 발생된 잠재적인 SI 템플릿이 트레이닝 데이터베이스로부터의 발화와 매칭하는 경우 (즉, 인식이 데이터베이스의 모든 단어에 대하여 정확한 경우), 정확하다고 정의된다. 그 후, 제어 플로우는 단계 512 로 진행한다.

단계 512 에서, 분산이나 정확도중 하나에 대한 단계 510 의 수렴 테스트의 결과가 분산 및 정확도에 대한 소정의 임계값 아래로 떨어지는 경우, 또다른 반복이 수행된다. 따라서, K-평균 스피치 세그먼트화가 트레이닝 샘플에 대해 수행된다. K-평균 스피치 세그먼트화는, 바람직하게는, DTW 기술로, 트레이닝 샘플을 잠재적인 SI 템플릿과 매칭시켜서, 도 2 를 참조하여 상술된 최적의 경로를 발생시킨다. 그 후, 트레이닝 샘플은 최적의 경로에 따라서 세그먼트화된다. 일 실시형태에서, K-평균 스피치 세그먼트화는, Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 382~384(1993) 에 설명된 기술에 따라서 수행된다. 그 후, 제어 플로우는 단계 506 으로 복귀하여, 클러스터 평균의 갱신된 프레임이 벡터 양자화되고, 단계 510 에서, 테스팅 데이터베이스로부터 샘플과의 수렴에 대하여 테스팅된다 (새로운 잠재적인 SI 템플릿으로서). 당업자는 소정의 임계값보다 높은 분산 및 정확도 결과를 달성하는 것이 필요하다면 이 반복 프로세스가 계속될 수 있음을 이해할 수 있다.

일단 수렴 테스트가 통과되면 (즉, 임계값이 달성되면), 잠재적인 (이제, 최종) SI 템플릿이, 바람직하게는 도 2 의 보이스 인식 서브시스템과 같은 보이스 인식 서브시스템에서 사용될 수도 있다. 최종 SI 템플릿은, 도 2 의 템플릿 데이터베이스 (108) 에 저장되거나 도 3 의 플로우 차트의 단계 206 에서 사용될 수 있다.

따라서, 화자-독립형 보이스 인식 시스템에 대한 보이스 템플릿을 구성하는 신규하고 개선된 방법 및 장치가 설명되었다. 당업자는 상기 설명 전반에 걸처서 언급될 수 있는 데이터, 커맨드, 명령, 정보, 신호, 비트, 심볼 및 칩을 바람직하게는 전압, 전류, 전자기파, 자기장이나 자기입자, 광학장이나 광입자, 또는 그들의 조합으로 나타낼 수 있음을 이해할 수 있다. 또한, 당업자는, 여기 개시된 실시형태들과 관련하여 설명한 다양한 예시적인 논리 블록, 모듈, 회로 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합으로서 구현될 수 있음을 이해할 수 있다. 다양한 예시적인 부품, 블록, 모듈, 회로 및 단계들은, 일반적으로 그들의 기능의 관점에서 설명되었다. 기능이 하드웨어 또는 소프트웨어로 구현되는지 여부는 전체 시스템에 부여된 특정 응용 및 설계 제한에 의존한다. 당업자는, 이런 환경에서 하드웨어와 소프트웨어의 상호 교환성 및 각각의 특정 응용에 대하여 설명한 기능을 어떻게 최선으로 구현할지를 인식한다. 예로서, 여기 개시된 실시형태들과 관련하여 설명한 다양한 예시적인 논리 블록, 모듈, 회로 및 알고리즘 단계들이 디지털 신호 프로세서 (DSP), 주문형 집적회로 (ASIC), 필드 프로그램가능 게이트 어레이 (FPGA) 나 다른 논리 장치, 이산 게이트나 트랜지스터 로직, 예를 들어, 레지스터와 FIFO 와 같은 이산 하드웨어 부품, 펌웨어 명령 세트를 실행하는 프로세서, 임의의 종래 프로그램가능 소프트웨어 모듈과 프로세서, 및 여기 설명한 기능들을 수행하도록 설계한 그들의 조합으로 구현되거나 수행될 수도 있다. 바람직하게는, 프로세서는 마이크로 프로세서일 수도 있으나, 다른 방법으로는, 프로세서가 임의의 종래 프로세서, 컨트롤러, 마이크로컨트롤러, 또는 스테이트 머신일 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래쉬 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM, 및 당해 기술분야에 공지된 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 프로세서는 저장 매체에 커플링되어, 정보를 저장 매체로부터 판독하고 정보를 저장매체에 기록한다. 다른 방법으로, 저장 매체는 프로세서에 통합될 수 있다. 프로세서와 저장 매체는 ASIC 에 상주할 수도 있다. ASIC 는 전화기에 상주할 수도 있다. 다른 방법으로, 프로세서와 저장 매체는 전화기에 상주할 수도 있다. 프로세서는 DSP 와 마이크로 프로세서의 조합으로서, 또는 DSP 코어 등과 커플링되어 2 개의 마이크로 프로세서로서 구현될 수도 있다.

이상, 본 발명의 바람직한 실시형태들을 나타내고 설명하였다. 그러나, 본 발명의 정신과 범위를 벗어나지 않고서 다수의 변경이 여기 개시한 실시형태들에 행해질 수 있음은 당업자에게는 명백하다. 따라서, 본 발명은 후속하는 청구항에 따른 것을 제외하여 제한되지 않는다.

Claims

화자-독립형 스피치 인식 시스템에서 사용하기 위한 스피치 템플릿을 생성하는 방법으로서,

제 1 복수의 발화의 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각이 스펙트럼 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 발생시키는 단계;

상기 제 1 복수의 발화 모두에 대한 복수의 스펙트럼 평균을 양자화하여, 복수의 템플릿 벡터를 발생시키는 단계;

상기 복수의 템플릿 벡터들 중 각각의 하나의 벡터를 제 2 복수의 발화와 비교하여, 하나 이상의 비교 결과를 발생시키는 단계;

상기 하나 이상의 비교 결과가 하나 이상의 소정의 임계값을 초과하는 경우, 상기 제 1 복수의 발화를 상기 복수의 템플릿 벡터와 매칭시켜서, 최적의 매칭 경로 결과를 발생시키는 단계;

상기 최적의 매칭 경로 결과에 따라서 상기 제 1 복수의 발화를 시간적으로 분할하는 단계; 및

상기 하나 이상의 비교 결과가 임의의 하나 이상의 소정의 임계값을 초과하지 않을 때까지, 양자화, 비교, 매칭, 및 분할을 반복하는 단계를 포함하는, 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 비교는, 분산 측정치를 계산하는 단계를 포함하는, 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 비교는, 정확도 측정치를 계산하는 단계를 포함하는, 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 비교는, 우선, 분산 측정치를 계산하고, 다음으로, 상기 분산 측정치가 제 1 소정의 임계값을 초과하지 않는 경우, 정확도 측정치를 계산하는 단계를 포함하는, 스피치 템플릿의 생성 방법.
제 4 항에 있어서,

상기 매칭은, 상기 분산 측정치가 상기 제 1 소정의 임계값을 초과하거나, 상기 정확도 측정치가 제 2 소정의 임계값을 초과하는 경우, 상기 제 1 발화를 상기 복수의 템플릿 벡터와 매칭시키는 단계를 포함하는, 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 비교는, 동적 시간 워핑 계산 (dynamic time warping computation) 을 수행하는 단계를 포함하는, 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 매칭은, 동적 시간 워핑 계산을 수행하는 단계를 포함하는, 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 매칭 및 상기 분할은, K-평균 세그먼트화 계산을 수행하는 단계를 포함하는, 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 제 1 발화의 종단점을 검출하는 단계를 더 포함하는, 스피치 템플릿의 생성 방법.
화자-독립형 스피치 인식 시스템에서 사용하기 위한 스피치 템플릿을 생성하도록 구성된 장치로서,

제 1 복수의 발화의 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각이 스펙트럼 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 발생시키는 수단;

상기 제 1 복수의 발화 모두에 대한 상기 복수의 스펙트럼 평균을 양자화하여, 복수의 템플릿 벡터를 발생시키는 수단;

상기 복수의 템플릿 벡터들 중 각각의 하나의 벡터를 제 2 복수의 발화와 비교하여, 하나 이상의 비교 결과를 발생시키는 수단;

상기 하나 이상의 비교 결과가 하나 이상의 소정의 임계값을 초과하는 경우, 상기 제 1 복수의 발화를 상기 복수의 템플릿 벡터와 매칭시켜서 최적의 매칭 경로 결과를 발생시키는 수단;

상기 최적의 매칭 경로 결과에 따라서 상기 제 1 복수의 발화를 시간적으로 분할하는 수단; 및

상기 하나 이상의 비교 결과가 임의의 하나 이상의 소정의 임계값을 초과하지 않을 때까지, 양자화, 비교, 매칭, 분할을 반복하는 수단을 포함하는, 스피치 템플릿의 생성 장치.
화자-독립형 스피치 인식 시스템에서 사용하기 위한 스피치 템플릿을 생성하도록 구성된 장치로서,

제 1 복수의 발화의 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각이 스펙트럼 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 발생시키도록 구성된 세그먼트화 로직;

상기 세그먼트화 로직에 커플링되고, 상기 제 1 복수의 발화 모두에 대하여 상기 복수의 스펙트럼 평균을 양자화하여 복수의 템플릿 벡터를 발생시키도록 구성된 양자화기;

상기 양자화기에 커플링되고, 상기 복수의 템플릿 벡터들 중 각각의 하나의 벡터를 제 2 복수의 발화와 비교하여 하나 이상의 비교 결과를 발생시키도록 구성된 수렴 테스터; 및

상기 양자화기 및 상기 수렴 테스터에 커플링되며, 하나 이상의 비교 결과가 하나 이상의 소정의 임계값을 초과하는 경우, 상기 제 1 복수의 발화를 상기 복수의 템플릿 벡터와 매칭시켜서 최적의 매칭 경로 결과를 발생시키고, 상기 최적의 매칭 경로 결과에 따라서 상기 제 1 복수의 발화를 시간적으로 분할하도록 구성된 분할 로직을 포함하며,

상기 양자화기, 상기 수렴 테스터, 및 상기 분할 로직은, 또한, 상기 하나 이상의 비교 결과가 임의의 하나 이상의 소정의 임계값을 초과하지 않을 때까지, 양자화, 비교, 매칭 및 분할을 반복하도록 구성되는, 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 하나 이상의 비교 결과는 분산 측정치인, 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 하나 이상의 비교 결과는 정확도 측정치인, 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 하나 이상의 비교 결과는, 분산 측정치 및 정확도 측정치이며,

상기 수렴 테스터는, 우선, 상기 분산 측정치를 계산하고, 다음으로, 상기 분산 측정치가 제 1 소정의 임계값을 초과하지 않는 경우, 상기 정확도 측정치를 계산하도록 구성되는, 스피치 템플릿의 생성 장치.
제 14 항에 있어서,

상기 매칭은, 상기 분산 측정치가 상기 제 1 소정의 임계값을 초과하거나, 상기 정확도 측정치가 제 2 소정의 임계값을 초과하는 경우, 상기 제 1 발화를 상기 복수의 템플릿 벡터와 매칭시키는 단계를 포함하는, 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 수렴 테스터는, 동적 시간 워핑 계산을 수행하도록 구성되는, 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 분할 로직은, 동적 시간 워핑 계산을 수행하도록 구성되는, 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 분할 로직은, K-평균 스피치 세그먼트화 로직을 포함하는, 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 세그먼트화 로직에 커플링되어, 상기 제 1 발화의 종단점을 검출하도록 구성된 종단점 검출기를 더 포함하는, 스피치 템플릿의 생성 장치.
화자-독립형 스피치 인식 시스템에서 사용하기 위한 스피치 템플릿을 생성하도록 구성된 장치로서,

프로세서; 및

상기 프로세서에 커플링되며, 제 1 복수의 발화의 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각이 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 발생시키고, 상기 제 1 복수의 발화 모두에 대한 상기 복수의 스펙트럼 평균을 양자화하여, 복수의 템플릿 벡터를 발생시키며, 상기 복수의 템플릿 벡터들 중 각각의 하나의 벡터를 제 2 복수의 발화와 비교하여, 하나 이상의 비교 결과를 발생시키며, 상기 하나 이상의 비교 결과가 하나 이상의 소정의 임계값을 초과하는 경우, 상기 제 1 복수의 발화를 상기 복수의 템플릿 벡터와 매칭시켜서 최적의 매칭 경로 결과를 발생시키며, 상기 최적의 매칭 경로 결과에 따라서 상기 제 1 복수의 발화를 시간적으로 분할하며, 상기 하나 이상의 비교 결과가 임의의 하나 이상의 소정의 임계값을 초과하지 않을 때까지, 양자화, 비교, 매칭, 및 분할을 반복하도록 상기 프로세서에 의해 실행가능한 명령 세트를 포함하는 저장 매체를 포함하는, 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 하나 이상의 비교 결과는 분산 측정치인, 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 하나 이상의 비교 결과는 정확도 측정치인, 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 하나 이상의 비교 결과는, 분산 측정치 및 정확도 측정치이고,

상기 명령 세트는, 우선, 상기 분산 측정치를 계산하고, 다음으로, 상기 분산 측정치가 제 1 소정의 임계값을 초과하지 않는 경우, 상기 정확도 측정치를 계산하도록 상기 프로세서에 의해 실행가능한, 스피치 템플릿의 생성 장치.
제 23 항에 있어서,

상기 명령 세트는, 또한, 상기 분산 측정치가 상기 제 1 소정의 임계값을 초과하거나, 상기 정확도 측정치가 제 2 소정의 임계값을 초과하는 경우, 상기 제 1 발화를 상기 복수의 템플릿 벡터와 매칭시키도록 상기 프로세서에 의해 실행가능한, 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 명령 세트는, 동적 시간 워핑 계산을 수행함으로써 상기 복수의 템플릿 벡터들 중 각각의 하나의 벡터를 상기 복수의 발화와 비교하도록 상기 프로세서에 의해 실행가능한, 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 명령 세트는, 동적 시간 워핑 계산을 수행함으로써, 제 1 발화를 상기 복수의 템플릿 벡터와 매칭시키도록 상기 프로세서에 의해 실행가능한, 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 명령 세트는, K-평균 스피치 세그먼트화 계산을 수행함으로써, 상기 제 1 발화를 분할하도록 상기 프로세서에 의해 실행가능한, 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 명령 세트는, 또한, 상기 제 1 발화의 종단점을 검출하도록 상기 프로세서에 의해 실행가능한, 스피치 템플릿의 생성 장치.
제 1 복수의 발화의 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각이 스펙트럼 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 발생시키고;

상기 제 1 복수의 발화 모두에 대한 상기 복수의 스펙트럼 평균을 양자화하여, 복수의 템플릿 벡터를 발생시키며;

상기 복수의 템플릿 벡터들 중 각각의 하나의 벡터를 제 2 복수의 발화와 비교하여, 하나 이상의 비교 결과를 발생시키며;

상기 하나 이상의 비교 결과가 하나 이상의 소정의 임계값을 초과하는 경우, 상기 제 1 복수의 발화를 상기 복수의 템플릿 벡터와 매칭시켜서, 최적의 매칭 경로 결과를 발생시키며;

상기 최적의 매칭 경로 결과에 따라서 상기 제 1 복수의 발화를 시간적으로 분할하며;

상기 하나 이상의 비교 결과가 임의의 하나 이상의 소정의 임계값을 초과하지 않을 때까지, 양자화, 비교, 매칭, 및 분할을 반복하도록, 프로세서에 의해 실행가능한 명령 세트를 포함하는, 프로세서 판독가능 매체.