KR100629669B1

KR100629669B1 - 분산 음성인식 시스템

Info

Publication number: KR100629669B1
Application number: KR1020017009886A
Authority: KR
Inventors: 창치엔청
Original assignee: 퀄컴 인코포레이티드
Priority date: 1999-02-08
Filing date: 2000-02-04
Publication date: 2006-09-29
Also published as: US6411926B1; CN1168070C; WO2000046794A1; EP1159736A1; HK1044403B; CN1352787A; ATE426888T1; JP2002536692A; EP1159736B1; HK1044403A1; DE60041869D1; AU3589400A; JP4607334B2; KR20010093326A

Abstract

분산 음성인식 시스템은 디지털 신호 프로세서(DSP)(104), 비휘발성 저장매체(108), 및 마이크로 프로세서(106)를 포함한다. DSP(104)는 디지털화된 입력 스피치 샘플들로부터 파라미터들을 추출하고 상기 추출된 파라미터들을 마이크로 프로세서(106)로 제공하도록 구성된다. 비휘발성 저장매체는 스피치 템플레이트들의 데이터 베이스를 포함한다. 마이크로 프로세서는 비휘발성 저장매체(108)의 내용을 판독하고, 파라미터들을 상기 내용과 비교하며, 상기 비교에 기초하여 음성 템플레이트를 선택하도록 구성된다. 비휘발성 저장매체는 플래시 메모리일 수 있다. DSP(104)는 보코더일 수 있다. DSP(104)가 보코더라면, 파라미터들은 보코더에 의해 생성된 진단 데이터일 수 있다. 분산 음성인식 시스템은 주문형 집적회로(ASIC)상에 존재할 수 있다.

Description

분산 음성인식 시스템{DISTRIBUTED VOICE RECOGNITION SYSTEM}

본 발명은 일반적으로 통신분야에 관련된 것이며 특히 음성인식 시스템에 관련된 것이다.

음성인식(VR)은 기기에 유저 또는 유저 음성 명령들을 인식하고, 시뮬레이션된 지능을 부여하고 기기와 인간의 인터페이스를 용이하게 하는 가장 중요한 기술들중 하나를 나타낸다. VR 은 또한 휴먼 스피치 이해를 위한 중요한 기술을 나타낸다. 음향적 스피치 신호로부터 언어적 메시지를 복구하기 위한 기술들을 이용하는 시스템은 음성 인식기로 불리운다. 음성 인식기는, 인커밍 로우 스피치(incoming raw speech)의 VR 을 성취하는데 필요한, 벡터들, 또는 정보를 포함하는 특성들의 시퀀스를 추출하는 음향 프로세서, 및 벡터들 또는 특성들의 시퀀스를 디코드하여 입력된 발성에 대응하는 언어적 단어들의 하나의 시퀀스와 같은 의미있고 소망되는 출력 포맷을 산출하는 워드 디코더를 포함하는 것이 보통이다. 소정의 시스템의 성능을 증가시키기 위하여 시스템이 유효한 파라미터들을 구비하도록 트레이닝이 요구된다. 즉, 시스템은 최적으로 기능하기 전에 트레이닝할 필요가 있다.

음향 프로세서는 음성 인식기에서 프론트 엔드(front-end) 스피치 분석 서브 시스템을 나타낸다. 입력 스피치 신호에 응답하여, 음향 프로세서는 시변 스피치 신호의 특징을 나타내는 적절한 표시를 제공한다. 음향 프로세서는 배경 잡음, 채널 왜곡, 스피커 특성, 및 화법과 같은 부적절한 정보를 제거해야 한다. 효율적인 음향 프로세싱은 증대된 음향 식별력을 음성 인식기에 제공한다. 이것을 목적으로, 분석하기에 유용한 특성은 단기 스펙트럼 엔벨로프이다. 단시간 스펙트럼 엔벨로프의 특징을 나타내기 위한 두 개의 통상적으로 사용되는 스펙트럼 분석기술은 선형 예측 코딩(LPC) 및 필터-뱅크 기초의 스펙트럼 모델링이 있다. 예시적인 LPC 기술들이 본 발명의 양수인에게 양수되고 참고로 여기에 포함된 미국특허 제 5,414,796 호, 및 역시 참고로 여기에 포함되는 L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453(1978)에서 개시된다.

VR(통상적으로 스피치 인식으로도 언급됨)의 사용은 안전을 이유로 점점 중요해진다. 예를 들어, VR 은 무선 전화기 키패드상의 버튼들을 누르는 수동적인 조작를 대체하는데 이용될 수 있다. 이것은 특히 유저가 자동차를 운전하면서 전화번호 호출을 개시하는 경우 중요하다. VR 없이 전화기를 사용하는 경우, 운전자는 운전대로부터 한 손을 놓고 호출을 다이얼하기 위하여 버튼을 누르는 동안 전화기 키패드를 쳐다보아야 한다. 이런 행위들은 자동차 사고의 가능성을 높인다. 스피치 인에이블 전화기(즉, 스피치 인식용으로 설계된 전화기)는 운전자가 지속적으로 도로를 주시하면서 전화 호출을 하도록 허용할 것이다. 그리고 핸즈-프리 자동차 키트 시스템은 추가적으로 운전자가 호출 개시동안 운전대에 두 손을 유지하도록 허용할 것이다.

스피치 인식 장치들은 화자종속(speaker-dependent) 또는 화자독립(speaker-independent) 장치들로서 분류된다. 화자 독립 장치들은 어떠한 유저로부터 음성 명령들을 받을 수 있다. 더욱 통상적인 화자 종속 장치들은 특정의 유저들로부터의 명령을 인식하도록 트레이닝된다. 화자 종속 VR 장치는 트레이닝 단계 및 인식 단계의 두 단계로 동작하는 것이 보통이다. 트레이닝 단계에서는, VR 시스템은 유저가 시스템의 어휘(vocabulary)에서 각각의 단어를 한 번 또는 두 번 말하도록 하여 시스템이 이 특정의 단어들이나 어구들에 대하여 유저의 스피치의 특성을 트레이닝할 수 있게 된다. 또한, 음성(phonetic) VR 장치의 경우, 언어의 모든 음소를 커버하도록 특별히 스크립트된 하나 이상의 간단한 기사를 읽음으로써 트레이닝이 성취된다. 핸즈-프리 자동차 키트를 위한 예시적인 어휘는 키패드상의 디지트들; 키워드 "call", "send", "dial", "cancel", "clear", "add", "delete", "history", "program", "yes", 및 "no"; 및 통상적으로 호출되는 소정 수의 동료, 친구, 또는 가족 구성원들의 이름들을 포함할 수 있다. 트레이닝이 완료되면, 유저는 트레이닝된 키워드를 말함으로써 유저는 인식 단계에서 호출을 개시할 수 있다. 예를 들어, "존" 이라는 이름이 트레이닝된 이름들중 하나라면, 유저는 유저는 어구 "존 호출" 을 말함으로써 존에게로의 호출을 개시할 수 있다. VR 시스템은 단어 "호출" 및 "존" 을 인식하고 유저가 이전에 존의 전화번호로서 입력한 번호를 다이얼할 것이다.

종래의 VR 장치들은 통상적으로 디지털 신호 프로세서(DSP) 또는 마이크로 프로세서를 사용하여 인커밍 스피치 샘플들을 분석하고, 적절한 파라미터들을 추출 하고, 파라미터들을 디코드하며, VR 장치의 어휘를 포함하는, 저장된 한 세트의 단어들, 또는 VR 템플레이트들과 디코드된 파라미터들을 비교한다. 어휘는 예를 들어 플래시 메모리와 같은 비휘발성 메모리에 저장된다. 예를 들어 디지털 셀룰러 전화기 같은, DSP 와 마이크로 프로세서 모두를 구비한 종래의 VR 시스템에서, 비휘발성 메모리는 일반적으로 마이크로 프로세서에 의해서 액세스 가능하지만 DSP 에 의해서는 그렇지 않다. 그런 시스템에서는, VR 이 전적으로 마이크로 프로세서에서 수행되면, 마이크로 프로세서는 합당한 대기시간(latency)으로 인식 결과들을 전달하는 계산력이 부족한 것이 보통이다. 한편, VR 이 전적으로 DSP 에서 수행되면, DSP 는 큰 VR 템플레이트들을 홀드하는데 충분하지 못한 온칩(on-chip) 메모리의 비교적 작은 크기를 가지므로, 마이크로 프로세서는 플래시 메모리를 판독하고 판독 내용을 DSP 로 보낼 필요가 있다. 이것은 긴 프로세스인데 그 이유는 DSP 와 마이크로 프로세서 사이의 인터페이스의 전형적으로 낮은 대역폭이, 소정 시간에 두 장치들 사이에서 전송될 수 있는 데이터량을 제한하기 때문이다. 따라서, 마이크로 프로세서의 메모리 용량과 DSP 의 계산력을 효율적으로 결합하는 VR 장치가 필요하다.

발명의 개요

본 발명은 마이크로 프로세서의 메모리 용량과 DSP 의 계산력을 효율적으로 결합하는 VR 장치를 위한 것이다. 따라서, 본 발명의 일 측면에서, 분산 음성인식 시스템은 디지털화된 스피치 샘플들을 수신하고 그로부터 복수의 파라미터들을 추출하도록 구성된 디지털 신호 프로세서; 복수의 스피치 템플레이트들을 포함하는 저장매체; 및 상기 저장매체 및 디지털 신호 프로세서에 연결되는 프로세서를 포함하며, 상기 프로세서는 상기 디지털 신호 프로세서로부터 복수의 파라미터들을 수신하고 상기 복수의 스피치 템플레이트들과 상기 복수의 파라미터들을 비교하도록 구성되는 것이 바람직하다.

본 발명의 또 다른 측면에서, 분산 음성인식 프로세싱 방법은 디지털 신호 프로세서에서 복수의 디지털화된 스피치 샘플들로부터 복수의 파라미터들을 추출하는 단계; 상기 복수의 파라미터들을 마이크로 프로세서로 제공하는 단계; 및 마이크로 프로세서에서 상기 복수의 파라미터들을 복수의 스피치 템플레이트들과 비교하는 단계를 포함하는 것이 바람직하다.

본 발명의 또 다른 측면에서, 분산 음성인식 시스템은 복수의 디지털화된 스피치 샘플들로부터 복수의 파라미터들을 추출하기 위한 수단; 복수의 스피치 템플레이트들을 영구적으로 저장하기 위한 수단; 및 상기 추출 수단으로부터 복수의 파라미터들을 수신하고 복수의 파라미터들을 복수의 스피치 템플레이트들과 비교하기 위한 수단을 포함하는 것이 바람직하다.

도 1 는 종래의 음성인식 시스템의 블럭도이다.

도 2 는 분산 음성인식 시스템의 블럭도이다.

도 3 는 프론트-엔드 프로세싱을 위한 보코더를 사용하는 분산 음성인식 시스템의 블럭도이다.

바람직한 실시예들의 상세한 설명

도 1 에 도시된 대로, 종래의 음성인식 시스템(10)은 아날로그 디지털 변환기(A/D)(12), 음향 프로세서(14), VR 템플레이트 데이터 베이스(16), 패턴 비교 로직(18), 및 결정 로직(20)을 포함한다. VR 시스템(10)은 예를 들어 무선 전화기 또는 핸즈-프리 자동차 키트에 존재할 수 있다.

VR 시스템(10)이 스피치 인식 단계에 있는 경우, 사람(도시하지 않음)은 하나의 단어 또는 어구를 말하여, 음성 신호를 생성한다. 스피치 신호는 종래의 트랜스듀서(역시 도시하지 않음)에 의해 전기적 스피치 신호 s(t) 로 변환된다. 스피치 신호 s(t) 는 A/D(12)로 제공되는데, 여기서는 스피치 신호 s(t) 를 예를 들어 펄스 코드 변조(PCM)와 같은 공지된 샘플링법에 따라 디지털화된 스피치 샘플들 s(n) 로 변환한다.

음성 샘플 s(n)은 파라미터 결정을 위하여 음향 프로세서(14)로 제공된다. 음향 프로세서(14)는 입력 스피치 신호 s(t)의 특성을 모델링하는 한 세트의 파라미터들을 생성한다. 파라미터들은, 예를 들면 스피치 코더 인코딩을 포함하고, 이전에 언급된 미국특허 제 5,414,796 호에서 개시된 고속 푸리에 변환(FFT) 기초의 스펙트럼 계수들을 사용하는 임의의 다수의 공지된 스피치 파라미터 결정 기술들에 따라 결정될 수 있다. 음향 프로세서(14)는 디지털 신호 프로세서(DSP)로서 구현될 수 있다. DSP 는 스피치 코더를 포함할 수 있다. 또한, 음향 프로세서(14)는 스피치 코더로서 구현될 수 있다.

파라미터 결정은 또한 VR 시스템(10)의 트레이닝동안 수행되며, VR 시스템(10)의 모든 어휘 단어를 위한 한 세트의 템플레이트(template)는 영구 저장을 위하여 VR 템플레이트 데이터베이스(16)로 라우트된다. VR 템플레이트 데이터베이스 (16)는 예를 들면, 플래시 메모리같은 비휘발성 저장매체의 임의의 종래 형태로서 구현되는 것이 바람직하다. 이것은 VR 시스템(10)으로의 파워가 턴오프되는 경우 VR 템플레이트 데이터베이스(16)에서 템플레이트가 유지되도록 허용한다.

파라미터의 세트는 패턴비교 로직(18)으로 제공된다. 패턴비교 로직(18)은 발성의 시작점 및 종료점을 검출하고, 동적 음향 특성(예를 들면, 시간 도함수(time derivatives), 2 차 시간 도함수(second time derivatives), 등)을 계산하고, 적절한 프레임들을 선택함으로써 음향 특성들을 압축하며, 정적 및 동적 음향 특성들을 양자화하는 것이 바람직하다. 종료점 검출, 동적 음향 특성 미분, 패턴 압축, 및 패턴 양자화의 다양한 공지된 방법들은 예를 들면, 참고로 여기에 포함된, Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition(1993)에 개시된다. 패턴비교 로직(18)은 파라미터들의 결과적인 세트를 VR 템플레이트 데이터베이스(16)에 저장된 모든 템플레이트들과 비교한다. 비교 결과들, 또는 파라미터 세트와 VR 템플레이트 데이터베이스(16)에 저장된 모든 템플레이트 사이의 거리는 결정 로직(20)으로 제공된다. 결정 로직(20)은 VR 템플레이트 데이터베이스(16)로부터 파라미터 세트를 가장 근사적으로 매치시키는 템플레이트를 선택한다. 또한, 결정 로직(20)은, 소정의 매칭 스레시홀드내에서 N 개의 가장 근사적인 매치들을 선택하는 종래의 "N-best" 선택 알고리즘을 사용할 수 있다. 사람은 그리고 나서 어느 것을 선택할지에 대하여 질문을 받는다. 결정 로직(20)의 출력은 어휘에서 어느 단어가 말해졌는지에 대한 결정이다.

패턴비교 로직(18) 및 결정 로직(20)은 마이크로 프로세서로서 구현되는 것이 바람직할 수 있다. VR 시스템(10)은 예를 들면, 주문형 집적회로(ASIC)일 수 있다. VR 시스템(10)의 인식 정확도는 VR 시스템(10)이 어휘에서 말해진 단어 또는 어구들을 얼마나 정확히 인식하는지에 대한 기준이다. 예를 들면, 95 % 의 인식 정확도는 VR 시스템(10)이 어휘에서 단어를 100 회중 95 회 정확히 인식하는 것을 나타낸다.

도 2 에서 도시된 바와 같이, 일 실시예에서, 분산 VR 시스템은 ASIC(100)에 존재하다. ASIC(100)은 예를 들어 무선 전화기에 존재한다. ASIC(100)은 A/D(102), DSP(104), 프로세서(106), 비휘발성 저장매체(108), 및 디지털 아날로그 변환기(D/A)(110)를 포함한다. 프로세서(106)는 마이크로 프로세서(106)인 것이 바람직하지만, 또한 프로세서(106)는 임의의 종래 프로세서, 제어기, 또는 상태기기일 수 있다. 비휘발성 저장매체(108)는 플래시 메모리(108)인 것이 바람직하지만, 또한 비휘발성 저장매체(108)는 임의의 종래 형태의 비휘발성 기록가능 메모리일 수 있다. DSP(104)는 스피치 코더(도시하지 않음) 및 스피치 디코더(역시 도시하지 않음)를 포함한다. DSP(104)는 예를 들어 보코딩, VR 프론트-엔트 드로세싱(즉, 음성 분석), 배경 잡음 억제, 및 음향 에코 캔슬을 포함하는 몇 몇 기능들을 수행할 수 있다. 또한, DSP(104)는 초당 8 킬로비트 코드 여기 선형 예 측(CELP) 코더, 13kbps CELP 코더(미국특허 제 5,414,796 호에 개시됨), 또는 코드분할 다중접속(CDMA) 강화 가변 속도 코딩(EVRC) 코더같은 종래의 보코더일 수 있다.

마이크로폰(112)는 A/D(102)로의 입력으로서 ASIC(100)에 연결된다. 화자(도시하지 않음)는 마이크로폰(112)으로 말하는데, 여기서는 아날로그 스피치 신호 s(t) 를 A/D(102)로 제공한다. A/D(102)는 아날로그 스피치 신호 s(t) 를 예를 들어 PCM 과 같은 공지된 방법에 따라 디지털 샘플 s(n) 로 변환한다. A/D(102)는 DSP(104)에 연결된다. 디지털화된 스피치 샘플들 s(n) 은 프론트-엔트 프로세싱을 위하여 DSP(104)로 연결된다. 디지털화된 음성 샘플들 s(n) 은 프론트-엔드 프로세싱을 위하여 DSP(104)로 제공된다.

DSP(104)에서, 디지털화된 스피치 샘플들 s(n) 에 대하여 푸리에 변환이 수행되어, 시간 영역 샘플들 s(n) 을 주파수 영역 값들로 변환한다. 복수의 밴드패스 필터들(도시하지 않음)을 통하여 신호를 패스함으로써 주파수 영역은 몇 몇 인접한 주파수 대역폭들로 분할된다. 밴드패스 필터들은 유한 임펄스 응답(FIR) 필터들인 것이 바람직할 수 있다. 필터 탭들은 각각의 연속적인 필터를 통하여 더 넓은 주파수 대역폭을 패스하도록 설정되며, 연속적인 필터들간의 폭의 변화는 로그함수적으로 증가한다. 모든 필터들에 의해 패스된 주파수의 범위는 인간 음성 범위를 포함한다. 하단에서, 패스된 대역폭들은 비교적 좁은 한편, 상단에서는 패스된 대역폭들이 비교적 넓다. 이것은 인간의 귀가 저주파수에서 더 잘 구별하므로 인간의 귀가 소리를 더욱 정확히 인식하는 것을 돕는다. 로그함수 주 파수 스케일은 바크 스케일(Bark scale)일 수 있고, 또는 스케일은 멜 스케일(Mel scale)일 수 있다. 그런 스케일들은 공지되어 있고 예를 들면 전술된 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition (1993)에에서 개시된다.

일 실시예에서 13 개의 밴드패스 필터들이 이용된다. 다음 식은 필터들의 뱅크를 설명하는데,

여기서 C 및 f₁ 는 각각 제 1 필터의 임의의 세트 대역폭 및 중심 주파수이고,

는 로그 성장 인자(logarithmic growth factor)이다.

각각의 프레임에 대하여, 예를 들어 전술된 미국특허 제 5,414,796 호, Rabiner & Schafer, supra, 및 Rabiner & Juang, supra, 69-140 에 개시된, 종래의 특성 추출법에 따라 DSP(104)가 밴드 파워값들의 벡터를 추출한다. 일 실시예에서 13 개의 밴드 파워 값들의 벡터가 매 프레임당 추출되고, 프레임들은 20 밀리초의 길이이고 50 퍼센트만큼 중첩된다. 밴드 파워 값들은 패킷화되고 마이크로 프로세서(106)로 패킷으로서 제공된다.

마이크로 프로세서(106)는 플래시 메모리(108)로 액세스하여 플래시 메모리(108)의 저장된 템플레이트 어휘 내용을 판독한다. 마이크로 프로세서(106)는, 종료점들이 VR 디코더(도시되지 않음)에 필요하다면, 수신된 데이터 패킷들에 기초하여, 발성의 시작점 및 종료점들을 검출한다. 마이크로 프로세서(106)는 그리고 나서 동적 음향 특성들(예를 들어, 시간 도함수(time derivatives), 2 차 시간 도함수(second time derivatives), 등과 같음))을 계산하고, 적절한 프레임들을 선택함으로써 음향적인 특성들을 압축하고, 정적 및 동적 음향적 특성들을 양자화한다. 종료점 검출, 동적 음향 특성 미분, 패턴 압축, 및 패턴 양자화의 다양한 공지된 방법들은 전술된 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition(1993)에 개시된다.

마이크로 프로세서(106)는 발성과 플래시 메모리(108)의 내용을 비교한다. 마이크로 프로세서(106)는 패킷과 가장 유사한 저장된 단어를 선택한다. 다양한 패턴 인식 기술들은 Rabiner & Juang, supra, 141-241 에서 개시된다. 마이크로 프로세서(106)는 그리고 나서, 예를 들어, 마이크로 프로세서(106)에 연결된 안테나(114)를 통하여 기지국(도시하지 않음)과 통신함으로써 특정인에게로의 전화 호출을 개시하는 것과 같이, 저장된 단어와 연관된 명령을 수행한다.

대화가 시작하면, 트래픽 채널 스피치 패킷들은 DSP(104)에 의해서 인코드되고, 마이크로 프로세서(106)로 라우트되며, 변조회로(도시하지 않음)에 의해서 무선으로 송신하기 위하여 변조된다. 패킷들은 또한 마이크로 프로세서(106)에서 인코딩 로직(도시하지 않음)으로 변조하기 전에 인코드될 수 있다. 패킷들은 그리고 나서 안테나(114)를 통하여 무선으로 송신된다. 대화의 타측으로부터 수신 된 스피치 패킷들은 안테나(114)로부터 복조회로(도시하지 않음)로 라우트된다. 복조된 패킷들은 마이크로 프로세서(106)에서 디코딩 로직(도시하지 않음)으로 디코드될 수 있다. 패킷들은 그리고 나서 마이크로 프로세서(106)로부터 DSP(104)로 라우트되는데, 여기서는 패킷들을 벡터 비양자화(vector unquantization)시킨다. 패킷들은 그리고 나서 아날로그 스피치 신호로의 변환을 위하여 D/A(110)로 제공된다. 아날로그 스피치 신호는 확성기(116)로 제공되는데, 여기서는 화자에 의해 들린 단어들을 생성한다.

일 실시예에서, ASIC(200)은 VR 을 위한 프론트-엔드 프로세싱을 수행하기 위한 보코더(202)를 포함한다. 보코더(202)는 패킷 버퍼(204)로 연결된다. 패킷 버퍼(204)는 프로세서(206)로 연결된다. 프로세서(206)는 비휘발성 저장매체(208)로 연결된다. ASIC(200)은 예를 들어, 무선 전화기 핸드세트에 존재할 수 있다. 보코더(202)는 전술된 미국특허 제 5,414,796 호에 개시된 바와 같이 가변속도 13kbps CELP 보코더이지만, 동등하게 8kbps CELP 보코더 또는 CDMA EVRC 보코더일 수 있을 것이다. 프로세서(206)는 마이크로 프로세서인 것이 바람직하지만, 대신에 임의의 종래 형태의 프로세서, 제어기, 또는 상태기기(state machine)일 수 있다. 비휘발성 저장매체(208)는 플래시 메모리로 구현되는 것이 바람직하지만, 또한 임의의 종래 형태의 기록가능 비휘발성 메모리로 구현될 수 있다. 패킷 버퍼(204)는 종래의 버퍼 소자이다.

디지털화된 스피치 샘플들 s(n) 은 보코더(202)로 제공된다. 보코더(202)는 전술된 미국특허 제 5,414,796 호에 개시된 공지된 보코딩 기술로 스피치 샘플 들 s(n) 을 인코드한다. 전술된 특정의 실시예에서, 보코더(202)는 프레임당 128 바이트들을 생성하고, 각각의 프레임은 20 밀리초의 길이이다. 각각의 프레임, 128 바이트들이 패킷 버퍼(204)로 제공된다. 마이크로 프로세서(206)는 매 프레임당 패킷 버퍼(204)로부터 128 바이트(하나의 패킷)를 판독한다. 마이크로 프로세서(206)는 그리고 나서, VR 디코더(도시하지 않음)에 종료점들이 요구되면, 수신된 데이터 패킷들에 기초하여 발성의 시작점 및 종료점들을 검출한다. 마이크로 프로세서(206)는 그리고 나서 동적 음향 특성들(예를 들어 시간 도함수(time derivatives), 2 차 시간 도함수(second time derivatives), 등과 같음)을 계산하고, 적절한 프레임들을 선택함으로써 음향 특성들을 압축하고, 정적 및 동적 음향 특성들을 양자화한다. 종료점 검출, 동적 음향 특성 미분, 패턴 압축, 및 패턴 양자화의 다양한 공지된 방법들은 예를 들어 전술된 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition(1993)에 개시된다. 마이크로 프로세서(206)는 그리고 나서 플래시 메모리(208)에 액세스하고, 패킷 버퍼(204)로부터 판독된 각각의 패킷과 메모리 내용을 비교하고, Rabiner & Juang, supra, 141-241 에 개시된 공지된 패턴 인식 기술에 따라 단어 결정을 한다.

전술된 특정의 실시예에서, 보코더(202)가 전속도로 인코딩하면, 프레임당 35 바이트가 생성되고, 128 바이트의 나머지는 보코더 진단 데이터를 위하여 이용 가능하다. 보코더(202)가 반속도로 인코딩하면, 프레임당 17 바이트가 생성되고, 128 바이트의 나머지는 보코더 진단 데이터를 위하여 이용 가능하다. 보코더(202)가 4분의 1 속도로 인코딩하면, 프레임당 7 바이트가 생성되고, 128 바이트 의 나머지는 보코더 진단 데이터를 위하여 이용 가능하다. 보코더(202)가 8분의 1 속도로 인코딩하면, 프레임당 3 바이트가 생성되고 128 바이트의 나머지는 보코더 진단 데이터를 위하여 이용 가능하다. 보코더(202)는 음성 인식동안 반속도로 인코드하는 것이 바람직하다. 따라서, 111 바이트들이 보코더 진단 데이터를 위하여 이용 가능하다.

전술된 특정의 실시예에서 보코더(202)의 코딩 속도와 무관하게 진단 데이터를 위하여 51 바이트가 필요하다. 보코더(202)가 전속도로 코딩한다면 보코더 진단 데이터를 위하여 추가적인 40 바이트가 필요하다. 코딩 속도가 반속도라면 보코더 진단 데이터를 위하여 오직 16 개의 추가적인 바이트들이 필요하다. 코딩 속도가 4분의 1 속도라면 보코더 진단 데이터를 위하여 오로지 추가적인 5 바이트만이 필요하다. 그리고 코딩 속도가 8 분의 1 속도라면 보코더 진단 데이터를 위하여 오로지 추가적인 1 바이트만이 필요하다.

보코더 패킷들이 양자화된 파라미터들(예를 들어, 반속도에서 17 개의 보코더 바이트들이 양자화됨)을 포함하는 한편, 보코더 진단 데이터 바이트들은 비양자화 파라미터들(예를 들어 반속도에서 보코더 진단 데이터의 최대 128-17=111 바이트까지 양자화되지 않음)을 포함한다. 더욱이, 보코더 진단 데이터가 모든 보코더 데이터를 포함하지 않을 지라도, 보코더 진단 데이터는 VR 에 관련된 모든 보코더 데이터를 포함한다. 따라서, 보코더 진단 데이터는 VR 목적으로 사용될 수 있다. 이것은 이하에 기술된 대로, 상당한 이점을 제공한다.

보코더 패킷들로부터 적절한 VR 파라미터들을 획득하는 것은 패킷들이 먼저 비양자화될 것을 요구한다. 예를 들어, 보코더(202)에서, 선형 예측 코딩(LPC) 계수들은 라인 스펙트럼쌍(line spectral pair, LSP) 주파수들로 변환된다. 프레임당 10 개의 LSP 주파수들은 벡터 양자화되고 정규 보코더 패킷들로 팩된다. 마이크로 프로세서(206)에서, 비양자화된 LSP 주파수들은 수신된 보코더 패킷들을 프레임 기준으로 언팩하고 그들을 비양자화함으로써 획득된다. 비양자화된 LSP 주파수들은 그리고 나서 LPC 계수들로 변환된다. LPC 계수들은 그리고 나서 스펙트럼 계수들로 변환되며, 이들은 로그 크기 스펙트럼의 푸리에 변환 표시의 계수들이다. 스펙트럼 계수들은 디지털화된 스피치 샘플들 s(n) 의 푸리에 변환 계수들의 로그의 역푸리에 변환을 취함으로써 획득된다. LSP 주파수들을 LPC 계수들로 그리고 스펙트럼 계수들로 변환하는 기술들, 및 LPC 계수들을 LSP 주파수들로 그리고 보코더 패킷들로 변환하기 위한 기술들은 전술된 미국특허 제 5,414,796 호에 상세히 개시된다.

전술된 방식으로 보코더 패킷들로부터 데이터를 벡터 비양자화(vector unquantization), 또는 "비압축"시키는 것은 계산적으로 비용이 많이 들고 많은 양의 프로세싱 용량을 필요로 할 것이다. 또한, 마이크로 프로세서(206)가 플래시 메모리(208)에 영구적으로 저장해야할 큰 LSP 벡터 양자화(VQ) 코드북이 필요할 것이다. 바람직한 실시예에서, VR 을 위하여 보코더 패킷들을 역양자화(de-quantizing)하는 대신 VR 을 위하여 보코더 진단 데이터가 사용되므로, 필수의 계산력 및 메모리 용량이 회피된다.

따라서, 신규하고 향상된 분산 음성 인식 시스템이 개시되었다. 당업자는 여기에 제시된 실시예들과 연관되어 설명된 다양한 예시적인 로직 블록들 및 알고리즘 단계들은 디지털 신호 프로세서(DSP), 주문형 집적회로(ASIC), 이산 게이트 또는 트랜지스터 로직, 예들 들어 레지스터 및 FIFO 같은 이산 하드웨어 구성요소들, 한 세트의 펌웨어 명령들을 실행하는 프로세서, 또는 임의의 종래의 프로그램 가능한 소프트웨어 모듈 및 프로세서로 구현 또는 수행될 수 있음을 이해할 것이다. 프로세서는 마이크로 프로세서인 것이 바람직할 수 있지만, 또한, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로 제어기, 또는 상태기기일 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터, 또는 임의의 다른 형태의 공지된 기록 가능한 저장매체에 존재할 수 있다. 당업자는 상기의 명세서에 걸쳐 참조될 수 있는 데이터, 지시, 명령, 정보, 신호, 비트, 심볼 및 칩은 전압, 전류, 전자기파, 자계 필드 또는 입자, 광학적 필드 또는 입자, 또는 그들의 임의의 조합에 의해 표시되는 것이 바람직하다는 것 또한 이해할 것이다.

따라서 본 발명의 바람직한 실시예들이 도시되고 설명되었다. 그러나, 본발명의 취지나 범위에서 벗어나지 않고 여기에 서술된 실시예들에 대한 수많은 변형들이 가능하다는 것이 당업자에게는 명백할 것이다. 따라서, 본 발명은 이하의 청구범위에 의해서만 제한된다.

Claims

진단 데이터 및 보코더 패킷들을 생성하도록 구성되는 보코더를 구비하고, 디지털화된 스피치 샘플들을 수신하고 그로부터 복수의 파라미터들을 추출하도록 구성되는 디지털 신호 프로세서;

복수의 스피치 템플레이트들을 포함하는 저장매체; 및

상기 저장매체와 상기 디지털 신호 프로세서에 연결되는 프로세서를 구비하며,

상기 프로세서는 상기 디지털 신호 프로세서로부터 복수의 파라미터들을 수신하고 상기 스피치 템플레이트들과 상기 복수의 파라미터들을 비교하도록 구성되는 것을 특징으로 하는 분산 음성인식 시스템.
제 1 항에 있어서,

상기 프로세서는 상기 보코더 패킷을 리코딩하고, 상기 복수의 파라미터들을 상기 복수의 스피치 템플레이트들과 비교하는 것에 기초하여 상기 복수의 스피치 템플레이트들중 하나를 선택하도록 더 구성되는 것을 특징으로 하는 분산 음성인식 시스템.
제 1 항에 있어서,

상기 디지털 신호 프로세서, 상기 저장매체, 및 상기 프로세서는 주문형 집적회로(ASIC)상에 상주하는 것을 특징으로 하는 분산 음성인식 시스템.
제 1 항에 있어서,

상기 복수의 파라미터는 상기 보코더에 의해 생성되는 진단 데이터중의 적어도 일부를 포함하는 것을 특징으로 하는 분산 음성인식 시스템.
제 4 항에 있어서,

상기 보코더, 상기 저장매체, 및 상기 프로세서는 주문형 집적회로(ASIC)상에 상주하는 것을 특징으로 하는 분산 음성인식 시스템.
디지털 신호 프로세서에서, 진단 데이터 및 보코더 패킷들을 생성하도록 구성된 보코더로 복수의 디지털화된 스피치 샘플들로부터 복수의 파라미터들을 추출하는 단계,

상기 복수의 파라미터들과 상기 보코터 패킷들을 마이크로 프로세서에 제공하는 단계, 및

상기 마이크로 프로세서에서, 상기 복수의 파라미터들을 복수의 스피치 템플레이트들과 비교하는 단계를 포함하는 것을 특징으로 하는 음성인식 분산처리 방법.
제 6 항에 있어서,

상기 마이크로프로세서에 상기 보코더 패킷들을 리코딩하는 단계 및 상기 마이크로 프로세서에서, 상기 비교하는 단계의 결과에 기초하여 스피치 템플레이트들중 하나를 선택하는 단계를 더 포함하는 것을 특징으로 하는 음성인식 분산처리 방법.
제 6 항에 있어서,

상기 복수의 파라미터들은 상기 보코더에 의해 생성되는 진단 데이터의 적어도 일부를 포함하는 것을 특징으로 하는 음성인식 분산처리 방법.
보코더 패킷 및 진단 데이터를 생성하는 수단을 구비하고, 복수의 디지털화된 스피치 샘플들로부터 복수의 파라미터들을 추출하는 추출 수단;

복수의 스피치 템플레이트들을 저장하는 저장 수단; 및

상기 추출 수단으로부터 상기 복수의 파라미터들 및 상기 보코더 패킷들을 수신하고 상기 복수의 파라미터들을 상기 복수의 스피치 템플레이트들과 비교하는 수신 및 비교 수단을 포함하는 것을 특징으로 하는 분산 음성인식 시스템.
제 9 항에 있어서,

상기 수신 및 비교 수단은 상기 보코더 패킷들을 리코딩하고 상기 복수의 파라미터들을 상기 복수의 스피치 템플레이트들과 비교하는 것에 기초하여 상기 복수의 스피치 템플레이트들중 하나를 선택하는 수단을 포함하는 것을 특징으로 하는 분산 음성인식 시스템.
제 9 항에 있어서,

상기 추출 수단, 상기 저장 수단, 및 상기 수신 및 비교 수단은 주문형 집적회로(ASIC)상에 상주하는 것을 특징으로 하는 분산 음성인식 시스템.
제 9 항에 있어서,

상기 복수의 파라미터들은 보코더 패킷과 진단 데이터를 생성하는 수단에 의해 생성되는 진단 데이터의 적어도 일부를 포함하는 것을 특징으로 하는 분산 음성인식 시스템.
제 9 항에 있어서,

상기 저장 수단은 플래시 메모리를 포함하는 것을 특징으로 하는 분산 음성인식 시스템.
제 9 항에 있어서,

상기 보코더, 상기 저장 수단, 및 상기 수신 및 비교 수단은 주문형 집적회로(ASIC)상에 상주하는 것을 특징으로 하는 시스템.