KR20040028784A

KR20040028784A - 분산형 음성 인식 시스템에서 음성 활성을 송신하는 방법및 장치

Info

Publication number: KR20040028784A
Application number: KR10-2003-7016365A
Authority: KR
Inventors: 가루대드리해리나스
Original assignee: 퀄컴 인코포레이티드
Priority date: 2001-06-14
Filing date: 2002-06-13
Publication date: 2004-04-03
Also published as: US20070192094A1; US20030061042A1; US7203643B2; KR100923896B1; MXPA03011559A; EP1428204A1; CN1543640A; WO2002103679A1; TW561453B; US8050911B2; IL159277A0

Abstract

분산형 음성 인식 시스템에서 음성 활성을 송신하는 시스템 및 방법. 분산형 음성 인식 시스템은 가입자 유닛 (102) 에 로컬 VR 엔진을 그리고 서버 (160) 에는 서버 VR 엔진을 포함한다. 로컬 VR 엔진은 음성 신호로부터 특징을 추출하는 AFE (advanced feature extraction) 모듈 (104) 및 음성 신호내에서 음성 활성을 검출하는 VAD (voice activity detection) 모듈 (106) 을 구비한다. VAD 모듈 (106) 과 특징 추출 모듈 (104) 로부터의 조합된 결과는 고수준 전단 특징의 형태로, 서버 (160) 와 같은 원격 장치에 효율적인 방식으로 제공됨으로써, 서버 (160) 가 침묵 영역없이 음성 세그먼트를 프로세싱할 수 있게 한다. 효율적인 음성 세그먼트 송신의 다양한 태양들이 개시되어 있다.

Description

분산형 음성 인식 시스템에서 음성 활성을 송신하는 방법 및 장치 {METHOD AND APPARATUS FOR TRANSMITTING SPEECH ACTIVITY IN DISTRIBUTED VOICE RECOGNITION SYSTEMS}

배경

분야

본 발명은 일반적으로 통신 분야에 관한 것으로, 보다 구체적으로는, 분산형 음성 인식 시스템에서 음성 활성을 송신하는 것에 관한 것이다.

배경

음성 인식 (VR ; Voice Recognition) 은, 모의 지능을 가진 머신이 사용자-음성 명령어를 인식할 수 있게 하며 머신과의 휴먼 인터페이스를 용이하게 할 수 있는 중요한 기술을 의미한다. 또한, VR 은 인간의 음성을 식별하는 주된 기술을 의미한다. 음향의 음성 신호로부터 언어적 메시지를 복구하는 기술을 이용하는 시스템을 음성 인식자 (voice recognizers) 라 한다.

음성 인식이라고도 하는 VR 은 일반인들에게 몇가지 안전에 관한 이점을 제공한다. 예를 들어, VR 은 무선 키패드상의 버튼을 누르는 수동적인 작업을 대체하는데 이용될 수 있는데, 이것은 오퍼레이터가 자동차를 운전하면서 무선 핸드셋을 이용하는 경우에 특히 유용한 대체이다. 사용자가 VR 기능없이 무선 전화기를 이용할 경우, 운전자는 핸들에서 손을 떼야 하며 전화를 다이얼링하기 위해 버튼을 누르는 동안 전화기의 키패드를 응시해야 한다. 이러한 행동들은 자동차 사고의 확률을 증가시키는 경향이 있다. 음성-구동형 카폰 (speech-enabled automobile telephone) 또는 음성 인식용으로 설계된 전화기는, 운전자가 도로를 계속 모니터링하면서 전화를 걸 수 있게 한다. 또한, 핸즈프리 무선 카폰 시스템은, 운전자가 전화 통화를 시작하는 동안에도 양손을 핸들에 올려놓을 수 있게 한다. 간단한 핸즈프리 무선 카폰 키트를 위한 예시적인 용어로는 10 개의 숫자, "call", "send", "dial", "cancel", "clear", "add", "delete", "history", "program", "yes" 와 "no" 의 키워드, 및 자주 통화하는 동료들, 친구들, 또는 가족 구성원의 소정 수의 이름들을 들 수 있다.

음성 인식자 또는 VR 시스템은, 음성 인식자의 전단 (front end) 이라고도 하는 음향 프로세서, 및 음성 인식자의 후위 (back end) 라고도 하는 워드 디코더를 구비한다. 음향 프로세서는 입력되는 원발성 (raw speech) 에 대한 음성 인식을 수행하는데 필요한 특징 또는 벡터를 포함하고 있는 정보의 시퀀스를 추출함으로써, 시스템을 위한 특징 추출을 수행한다. 워드 디코더는 특징 또는 벡터의 시퀀스를 후속적으로 디코딩하여, 수신된 입력 발성에 대응하는 단어의 시퀀스와 같이, 의미있는 소정 출력을 제공한다.

분산형 시스템 구조를 이용하는 음성 인식자 구현의 경우, 대체로, 워드 디코딩 작업은 계산 부하 및 메모리 부하를 적절히 관리할 수 있는, 네트워크 서버와같은 서브 시스템상에 위치하는 것이 바람직하다. 보코더와 관련된 역효과를 감소시키기 위해, 음향 프로세서는 물리적으로 음성 소스에 최대한 가깝게 상주해야 한다. 보코더는 송신하기 전에 음성을 압축하며, 어떤 환경에서는 신호 프로세싱 및/또는 채널 유도형 오류로 인한 역특성 (adverse characteristics) 을 도입할 수 있다. 이들 효과는 통상적으로 사용자 장치에서의 보코딩에 기인한다. 분산형 음성 인식 (DVR) 시스템의 이점은, 음향 프로세서는 사용자 장치내에 상주하고 워드 디코더는, 예를 들어, 네트워크상에 원격적으로 상주함으로써, 사용자 장치의 신호 프로세싱 에러 또는 채널 에러의 위험을 감소시킨다는 점이다.

DVR 시스템은 셀폰, 개인 통신 장치, PDA (personal digital assistants), 및 인터넷과 같은 무선 네트워크로부터의 정보와 서비스를 액세스하는 다른 장치 등의 장치들이 음성형 명령어를 이용할 수 있게 한다. 이들 장치는 네트워크상의 음성 인식 서버에 액세스하며, 한정된 어휘 세트만을 인식하는 시스템보다 훨씬 다기능적이고 강건하며 유용하다.

무선 애플리케이션에서, 무선 인터페이스 방법은 음성 인식 시스템의 전반적인 정확성을 저하시킨다. 어떤 환경에서는, 사용자의 음성 명령어로부터 VR 특징을 추출하는 것에 의해, 이러한 저하가 완화될 수 있다. 추출은, 가입자국, 이동국, 모바일, 원격국, 원격 터미널, 액세스 터미널, 또는 사용자 장치라고도 하는 가입자 유닛과 같은 장치상에서 발생한다. 가입자 유닛은, 발성된 워드를 음성 트래픽으로 송신하지 않고, VR 특징 (features) 을 데이터 트래픽으로 송신할 수 있다.

따라서, DVR 시스템에서, 전단 특징은 장치에서 추출되어 네트워크로 송신된다. 장치는 모바일이거나 고정일 수 있으며, 셀룰러 기지국, 셀 기지국, BTS (base transceiver system), 기지국 송수신기, 중앙 통신 센터, 액세스 포인트, 액세스 노드, 노드 기지국, 및 MPT (modem pool transceivers) 라고도 하는 하나 이상의 기지국 (BS) 과 통신할 수 있다.

복잡한 음성 인식 작업은 상당한 계산 리소스를 요한다. 이러한 시스템은 실제로, 한정된 CPU, 배터리, 및 메모리 리소스를 갖는 가입자 유닛상에 상주할 수 없다. 분산형 시스템은 네트워크상의 이용가능한 계산 리소스에 지레 작용을 한다 (leverage). 통상적인 DVR 시스템에서, 워드 디코더는 음성 인식자의 후위보다 상당히 높은 계산 요구치 및 메모리 요구치를 갖는다. 따라서, 네트워크내의 서버 기반 음성 인식 시스템이 음성 인식 시스템의 후위로 이용되며 워드 디코딩을 수행한다. 서버 기반 VR 시스템을 후위로 이용하는 것은 사용자 장치 리소스가 아닌 네트워크 리소스를 이용하여 복잡한 VR 작업을 수행하는 이점을 제공한다. 본 발명의 양수인에게 양도되고 여기에서 참조하는 "Distributed Voice Recognition System" 이란 명칭의 미국특허 제 5,956,683 호에, DVR 시스템의 일례들이 개시되어 있다.

가입자 장치는 특징 추출 기능외에 간단한 VR 작업을 수행할 수 있다. 사용자 터미널에서 이러한 기능들을 수행하는 것에 의해, 네트워크가 간단한 VR 작업에 연관될 필요가 없어지며, 그에 의해, 네트워크 트래픽 및 음성 구동형 서비스를 제공하는 것에 관련된 비용이 감소된다. 어떤 환경에서는, 네트워크상의 트래픽 정체로 인해 가입자 유닛에 대한 서버 기반 VR 시스템으로부터의 열등한 서비스가 발생할 수 있다. 분산형 VR 시스템은, 증가된 네트워크 트래픽과 비정규 지연의 불리한 점을 갖는, 복잡한 VR 작업을 이용하는 풍부한 사용자 인터페이스 특징을 가능하게 한다.

VR 시스템의 일부로서, 무선 인터페이스를 통해, 음성 특징 또는 다른 음성 파라미터와 같이, 실제 음성보다 작은 데이터를 송신하는 것에 의해 네트워크 트래픽을 감소시키는 것이 유리할 수 있다. 모바일 장치에 VAD (Voice Activity Detection) 모듈을 이용하면 음성을 프레임으로 변환하고 무선 인터페이스를 통해 이들 프레임을 송신하는 것에 의해 네트워크 트래픽을 감소시킬 수 있다는 것을 알 수 있다. 그러나, 어떤 상황에서는, 이들 프레임 내용의 본질과 품질이 전반적인 시스템 성능에 상당한 영향을 미칠 수 있다. 한 세트의 상황하에서 동작하는 음성 서브세트가 다른 상황에서는 서버에서의 과도한 프로세싱을 요함으로써, 대화의 질을 저하시킨다.

DVR 시스템에서는, 제시된 상황에 기초하여 시스템에 대한 효율적인 음성 활성 검출 기능을 제공할 수 있어야 할 뿐만 아니라 전반적인 네트워크 정체 및 시스템에서의 지연량을 감소시킬 필요가 있다.

요약

여기에 개시된 태양들은 네트워크 정체와 지연을 감소시킬 수 있는, 음성 활성의 송신 시스템 및 방법에 관한 것이다. 음성 활성을 송신하는 시스템 및 방법의 음성 인식은, 일 태양으로, 가입자 유닛상에 위치할 수 있는, VAD (Voice Activity Detection) 모듈 및 FE (Feature Extraction) 모듈을 포함한다.

일 태양에서, 음성 신호에 관련하여 검출된 음성 활성 정보는 어셈블링되고, 음성 신호에 관련된 특징 추출 정보가 식별되며, 특징 추출 정보는 선택적으로 이용되어 AFE (advanced front end) 데이터를 형성한다. AFE 데이터는 음성 활성 데이터를 구비하며, 원격 장치로 제공된다.

다른 태양에서, 시스템은 음성 활성 검출기, 실질적으로 음성 활성 검출기와 실질적으로 병렬로 동작하는 특징 추출기, 송신기, 및 수신 장치를 포함하는데, 이 경우, 특징 추출기 및 음성 활성 검출기는 음성으로부터 특징을 추출하고 음성으로부터 음성 활성 정보를 검출하며 추출된 특징과 검출된 음성 활성 정보를 선택적으로 이용하여 AFE 데이터를 형성한다.

또 다른 태양에서는, 음성 데이터로부터 음성 활성 데이터를 추출하고, 음성 데이터로부터 특징 추출 데이터를 식별하며, 음성 활성 데이터와 특징 추출 데이터에 관련되는 정보를 AFE 데이터 형태로 원격 장치에 선택적으로 송신하는 것에 의해, 음성 데이터가 원격 장치로 송신된다.

도면의 간단한 설명

이하, 유사한 참조 부호가 전체에 걸쳐 대응적으로 사용되는 도면을 참조하여, 본 발명의 특징, 본질 및 이점을 상세히 설명한다.

도 1 은 일 태양에 따른, 음향 프로세서 및 워드 디코더를 포함하는 음성 인식 시스템을 나타낸다.

도 2 는 분산형 음성 인식 시스템의 예시적 태양을 나타낸다.

도 3 은 분산형 음성 인식 시스템의 예시적 태양에서의 지연을 나타낸다.

도 4 는 시스템의 일 태양에 따른 VAD 모듈의 블록도를 나타낸다.

도 5 는 시스템의 일 태양에 따른 VAD 서브모듈의 블록도를 나타낸다.

도 6 은 시스템의 일 태양에 따른 VAD 서브모듈과 FE 모듈의 조합에 대한 블록도를 나타낸다.

도 7 은 시스템의 일 태양에 따른 VAD 모듈의 상태도를 나타낸다.

도 8 은 시스템의 일 태양에 따른 시간 (timeline) 상의 음성 및 VAD 이벤트의 일부를 나타낸다.

도 9 는 터미널 및 서버 컴포넌트를 포함하는 전반적인 시스템 블록도를 나타낸다.

도 10 은 m 번째 프레임에 대한 프레임 정보를 나타낸다.

도 11 은 CRC 보호형 패킷 스트림이다.

도 12 는 서버의 특징 벡터 생성을 나타낸다.

상세한 설명

도 1 은 현재 시스템의 일 태양에 따른, 음향 프로세서 (4) 및 워드 디코더 (6) 를 포함하는 음성 인식 시스템 (2) 을 나타낸다. 워드 디코더 (6) 는 음향 패턴 매칭 소자 (8) 및 언어 모델링 소자 (10 ; language medeling element) 를 포함한다. 언어 모델링 소자 (10) 를 업계에서는 문법 스펙 소자 (grammar specification element) 라고도 한다. 음향 프로세서 (4) 는 워드 디코더 (6) 의 음향 패턴 매칭 소자 (8) 에 결합되어 있다. 음향 패턴 매칭 소자 (8) 는 언어 모델링 소자 (10) 에 결합되어 있다.

음향 프로세서 (4) 는 입력되는 음성 신호로부터 특징을 추출하고 이들 특징을 워드 디코더 (6) 에 제공한다. 일반적으로, 워드 디코더 (6) 는 음향 프로세서 (4) 로부터 수신된 음향 특징을 화자의 원본 워드 스트링에 대한 추정치로 변환한다. 이 추정치는 음향 패턴 매칭 및 언어 모델링을 거쳐 생성된다. 분리된 워드의 인식 애플리케이션과 같은 소정 상황에서는 언어 모델링이 생략될 수 있다. 음향 패턴 매칭 소자 (8) 는 음운, 음절, 워드 등과 같이, 가능한 음향 패턴을 검출하고 분류한다. 음향 패턴 매칭 소자 (8) 는 언어 모델링 소자 (10) 에 후보 패턴을 제공하며, 언어 모델링 소자 (10) 는 구문론적인 제한 규칙 (syntactic constraint rules) 을 모델링하여 문법적으로 양호하며 의미를 지닌 워드 시퀀스를 결정한다. 음향 정보만으로는 불명료할 경우, 음성 인식에 구문 정보가 이용될 수 있다. 음성 인식 시스템은 음향 특징 매칭 결과를 순차적으로 해석하며 언어 모델링에 기초하여 추정된 워드 스트링을 제공한다.

워드 디코더 (6) 의 음향 패턴 매칭 및 언어 모델링 모두는 화자의 음운론적 변경 및 음향-발음적 변경을 설명하기 위해 결정론적이거나 확률론적인 모델링을 요한다. 음성 인식 시스템의 성능은 패턴 매칭과 언어 모델링의 품질에 관련된다. 당업자에게 공지되어 널리 이용되는 2 개의 음향 패턴 매칭용 모델은 템플릿-기반의 DTW (dynamic time warping) 와 확률론적인 HMM (hidden Markov modeling) 이다.

음향 프로세서 (4) 는 음성 인식자 (2) 의 전단 음성분석 서브시스템을 나타낸다. 입력되는 음성 신호에 응답하여, 음향 프로세서 (4) 는 시간에 따라 변하는 음성 신호를 특징화 하기에 적절한 표현을 제공한다. 음향 프로세서 (4) 는 배경 잡음, 채널 왜곡, 화자의 특징, 및 발성 방식과 같이 관련이 없는 정보를 파기할 수 있다. 음향 특징은 음성 인식자에 더 높은 음향 식별력을 제공할 수 있다. 시스템의 이 태양에서, 단시간 스펙트럼 엔빌로우프 (short time spectral envelope) 는 아주 유용한 특성이다. 단시간 스펙트럼 엔빌로우프를 특징화할 경우에, 널리 이용되는 스펙트럼 분석 기술은 필터-뱅크 기반의 스펙트럼 분석 (filter-bank based spectral analysis) 이다.

다수의 VR 시스템 또는 VR 엔진의 조합은 향상된 정확성을 제공하며, 하나의 VR 시스템보다 입력되는 음성 신호로부터 더 많은 양의 정보를 이용한다. 본 발명의 양수인에게 양도되고 여기에서 그 전부를 참조하는, "Combined Engine System and Method for Voice Recognition" 이라는 명칭으로 2000년 7월 18일에 출원된 미국 특허출원 제 09/618,177 호 및 "System and Method for Automatic Voice Recognition Using Mapping" 이라는 명칭으로 2000년 9월 8일에 출원된 미국 특허출원 제 09/657,760 호에는, VR 엔진을 조합하는 하나의 시스템이 개시되어 있다.

본 시스템의 일 태양에서는, 다수의 VR 엔진이 분산형 VR 시스템으로 조합된다. 다수의 VR 엔진은 가입자 유닛과 네트워크 서버 모두에 VR 엔진을 제공한다. 가입자 유닛상의 VR 엔진은 로컬 VR 엔진이라 하고, 서버상의 VR 엔진은 네트워크 VR 엔진이라 한다. 로컬 VR 엔진은 로컬 VR 엔진을 실행하는 프로세서 및 음성 정보를 저장하는 메모리를 구비한다. 네트워크 VR 엔진은 네트워크 VR 엔진을 실행하는 프로세서 및 음성 정보를 저장하는 메모리를 구비한다.

본 발명의 양수인에게 양도되고 여기에서 참조하는 "System and Method for Improving Voice Recognition in a Distributed Voice Recognition System" 이라는 명칭으로 2001년 1월 5일에 출원된 미국 특허출원 제 09/755,651 호에, 분산형 VR 시스템의 일례가 개시되어 있다.

도 2 는 본 발명의 일 태양을 나타낸다. 도 2 에서, 환경은 가입자 유닛 (40) 및 셀 기지국 (42) 으로 공지되어 있는 중앙 통신 센터를 구비하는 무선 통신 시스템이다. 이러한 태양에서, 분산형 VR 은 가입자 유닛 (40) 에 상주하는 음향 프로세서 또는 특징 추출 소자 (22) 및 중앙 통신 센터에 상주하는 워드 디코더 (42) 를 포함한다. 가입자 유닛상에만 음성 인식이 구현되는 것과 관련된 높은 계산 비용으로 인해, 비분산형 음성 인식 시스템에서의 음성 인식은 중간 사이즈의 어휘에 대해서도 실행이 불가능할 정도로 고비용이다. VR 이 기지국에 또는 원격 네트워크상에 하나만 상주하면, 음성 코덱 및 채널 효과와 관련된 음성 신호의 열화로 인해 정확성이 현저하게 감소할 수 있다. 분산형 시스템의 이점으로는 워드 디코더 하드웨어의 부재로 인한 가입자 유닛의 비용 감소 및 계산 집약적인 워드 디코더 동작의 로컬 성능과 관련되는 가입자 유닛의 배터리 소비 감소를 들 수 있다. 분산형 시스템은 음성 인식 기능의 유연성과 확장성 (flexibilityand extensibility) 을 제공할 뿐만 아니라 인식 정확성을 향상시킨다.

음성은 음성 신호를 전기 신호로 변환하는 마이크로폰 (20) 에 제공되며, 음성은 특징 추출 소자 (22) 에 제공된다. 마이크로폰 (20) 으로부터의 신호는 아날로그 또는 디지털일 수 있다. 아날로그이면, (나타내지 않은) A/D 컨버터가 마이크로폰 (20) 과 특징 추출 소자 (22) 사이에 개재될 수 있다. 음성 신호는 특징 추출 소자 (22) 에 제공되는데, 특징 추출 소자 (22) 는 입력되는 음성의 언어적 해석을 디코딩하는데 이용하기 위해 입력되는 음성의 관련 특징을 추출한다. 음성을 추정하는데 이용되는 특징의 일례로는 입력되는 음성 프레임의 주파수 특징을 들 수 있다. 입력되는 음성 프레임의 특징은 입력되는 음성 프레임에 대한 선형의 예측 코딩 파라미터 (linear predictive coding parameters) 로서 빈번하게 이용된다. 추출된 음성 특징은 추출된 특징 신호를 코딩하고 변조하며 증폭하여, 듀플렉서 (26) 를 통해 이러한 특징들을 안테나 (28) 에 제공하는 송신기 (24) 로 제공되며, 안테나 (28) 에서 음성 특징들은 셀룰러 기지국 또는 중앙 통신 센터 (42) 로 송신된다. 업계에 공지되어 있는 다양한 타입의 디지털 코딩, 변조, 및 송신 방식이 송신기 (24) 에 의해 이용될 수 있다.

중앙 통신 센터 (42) 에서, 송신된 특징들은 안테나 (44) 에서 수신되어 수신기 (46) 에 제공된다. 수신기 (46) 는 수신된 송신 특징의 복조 및 디코딩 기능을 수행할 수 있으며, 수신기 (46) 는 이러한 특징들을 워드 디코더 (48) 에 제공한다. 워드 디코더 (48) 는 음성 특징으로부터 음성에 대한 언어적 추정치를 결정하며, 행동 신호 (action signal) 를 송신기 (50) 에 제공한다. 송신기(50) 는 행동 신호를 증폭하고 변조하며 코딩하여, 증폭된 신호를 안테나 (52) 에 제공한다. 안테나 (52) 는 추정된 워드 또는 명령어 신호를 휴대폰 (40) 에 송신한다. 송신기 (50) 또한 업계에 공지되어 있는 디지털 코딩, 변조 또는 송신 기술을 이용할 수 있다.

가입자 유닛 (40) 에서, 추정된 워드 또는 명령어 신호는 안테나 (28) 에서 수신되는데, 안테나 (28) 는 수신된 신호를 듀플렉서 (26) 를 통해 수신기 (30) 에 제공하고, 수신기 (30) 는 이 신호를 복조하고 디코딩하며 명령어 신호 또는 추정된 워드를 제어 소자 (38) 에 제공한다. 수신된 명령어 신호 또는 추정된 워드에 응답하여, 제어 소자 (38) 는 전화번호의 다이얼링, 휴대폰의 디스플레이 스크린에 정보를 제공하는 것 등의 의도된 응답을 제공한다.

본 시스템의 일 태양에서, 중앙 통신 센터 (42) 로부터 송신된 정보가 송신된 음성의 해석일 필요는 없지만, 대신에, 휴대폰에 의해 송신된 디코딩 메시지에 대한 응답일 수 있다. 예를 들어, 통신 네트워크를 통해 중앙 통신 센터 (42) 에 결합되어 있는 원격 응답기상의 메시지에 관해 문의할 수 있는데, 이 경우, 중앙 통신 센터 (42) 로부터 가입자 유닛 (40) 으로 송신되는 신호는 응답기로부터의 메시지일 수 있다. 응답기와 같이 데이터를 제어하는 제 2 의 제어 소자가 중앙 통신 센터에 위치할 수도 있다.

VR 엔진은 PCM (Pulse Code Modulation) 신호의 형태로 음성 데이터를 획득한다. VR 엔진은 유용한 인식이 행해지거나 사용자가 발성을 멈추고 모든 음성이 프로세싱이 될 때까지 신호를 프로세싱한다. 일 태양에서, DVR 구조는 PCM데이터를 획득하며 전단 정보를 송신하는 로컬 VR 엔진을 포함한다. 전단 정보는 켑스트랄 (cepstral) 파라미터이거나 입력되는 음성 신호를 특징화하는 임의 타입의 정보 또는 특징일 수 있다. 업계에 공지되어 있는 임의 타입의 정보가 입력되는 음성 신호를 특징화하는데 이용될 수 있다.

통상적인 인식 작업의 경우, 로컬 VR 엔진은 메모리로부터 한 세트의 트레인형 템플릿 (trained templates) 을 획득한다. 로컬 VR 엔진은 애플리케이션으로부터 문법 스펙을 획득한다. 애플리케이션은, 사용자가 가입자 유닛을 이용하여 작업을 완수할 수 있게 하는 서비스 로직이다. 이러한 로직은 가입자 유닛상의 프로세서에 의해 실행된다. 이는 가입자 유닛의 사용자 인터페이스 모듈에 대한 컴포넌트이다.

본 발명의 양수인에게 양도되고 여기에서 전부를 참조하는 "System And Method For Efficient Storage Of Voice Recognition Models" 라는 명칭으로 2001년 1월 12일에 출원된 미국 특허출원 제 09/760,076 호에는, 음성 인식 시스템에서 템플릿의 저장을 향상시키는 시스템 및 방법이 개시되어 있다. 본 발명의 양수인에게 양도되고 여기에서 전부를 참조하는 "System and Method for Improving Voice Recognition In Noisy Environments and Frequency Mismatch Conditions" 라는 명칭으로 2000년 10월 30일에 출원된 미국 특허출원 제 09/703,191 호에는, 잡음이 있는 환경과 주파수 미스매칭 조건에서 음성 인식을 향상시키고 템플릿의 저장을 향상시키는 시스템 및 방법이 개시되어 있다.

"문법"은 서브-워드 모델을 이용하여 능동적 어휘 (active vocabulary) 를상술한다. 통상적인 문법에는 7 개 숫자의 전화번호, 금액 (dollar amounts), 및 한 세트의 이름으로부터의 도시명이 포함된다. 통상적인 문법 스펙에는 입력되는 음성 신호에 기초하여 자신있는 인식 판정이 수행될 수 없는 상황을 나타내는 "OCV (Out of Vocabulary)" 조건이 포함된다.

일 태양에서, 로컬 VR 엔진이 문법에 의해 상술된 VR 작업을 핸들링할 수 있으면, 로컬 VR 엔진은 국부적으로 인식 가설을 생성한다. 문법 스펙이 너무 복잡하여 로컬 VR 엔진에 의해 프로세싱될 수 없을 경우, 로컬 VR 엔진은 전단 데이터를 VR 서버로 송신한다.

여기에서 사용되는 바와 같이, 포워드 링크는 네트워크 서버로부터 가입자 유닛으로의 송신을 의미하고 리버스 링크는 가입자 유닛으로부터 네트워크 서버로의 송신을 의미한다. 송신 시간은 타임 유닛으로 분할된다. 본 시스템의 일 태양에서, 송신 시간은 프레임으로 분할될 수 있다. 다른 태양에서, 송신 시간은 타임 슬롯으로 분할될 수 있다. 일 태양에 따르면, 시스템은 데이터를 데이터 패킷으로 분할하고 각 데이터 패킷을 하나 이상의 타임 유닛을 통해 송신한다. 각각의 타임 유닛에서, 기지국은 기지국과 통신하고 있는 임의의 가입자 유닛으로의 데이터 송신을 지시할 수 있다. 일 태양에서, 프레임은 복수개의 타임 슬롯으로 더 분할될 수 있다. 다른 태양에서, 타임 슬롯은 1/2-슬롯 및 1/4-슬롯과 같이 더 분할될 수 있다.

도 3 은 분산형 음성 인식 시스템 (100) 의 예시적 태양에서의 지연을 나타낸다. DVR 시스템 (100) 은 가입자 유닛 (102), 네트워크 (150), 및 음성 인식(SR) 서버 (160) 를 구비한다. 가입자 유닛 (102) 은 네트워크 (150) 에 결합되고, 네트워크 (150) 는 SR 서버 (160) 에 결합된다. DVR 시스템 (100) 의 전단은 가입자 유닛 (102) 인데, 가입자 유닛 (102) 은 특징 추출 (FE) 모듈 (104) 이나 고수준 특징 추출 모듈 (AFE), 및 음성 활성 검출 (VAD) 모듈 (106) 을 구비한다. FE 는 음성 신호로부터의 특징 추출 및 얻어진 특징의 압축을 수행한다. 일 태양에서, VAD 모듈 (106) 은 어느 프레임이 가입자 유닛에서 SR 서버로 송신될지를 결정한다. VAD 모듈 (106) 은 입력되는 음성을, 음성이 검출된 프레임과 검출된 음성을 갖는 프레임 전후의 인접 프레임을 구비하는 세그먼트로 분할한다. 일 태양에서, 각 세그먼트의 끝 (EOS) 은 널 프레임 (null frame) 을 송신하는 것에 의해 페이로드 (payload) 로 표시된다.

모두가 본 발명의 양수인에게 양도되고 여기에서 참조하는, "Systems and Method for Transmitting Speech Activity in a Distributed Voice Recognition System"이라는 명칭으로 본 출원과 동시에 출원되고 관련이 있는 미국 특허출원 뿐만 아니라 "Method for Reducing Response Time in Distributed Voice Recognition Systems"라는 명칭으로 2001년 5월 17일에 출원된 가출원 제 60/292,043 호 및 "Method and Apparatus for Transmitting Speech Activity in Distributed Voice Recognition Systems"라는 명칭으로 2001년 6월 14일에 출원된 가출원 제 60/298,502 호에, VAD 모듈을 가진 DVR 시스템의 일례가 개시되어 있다.

다른 방법으로, 여기에서 참조하는 "Method for Reducing Response Time in Distributed Voice Recognition Systems"라는 명칭으로 2001년 5월 17일에 출원된가출원 제 60/292,043 호에서는, 서버가 전단 특징에 앞서 VAD 정보를 수신한다. 전단 특징 이전의 VAD 정보 수신은 AFE 에 이용되는 긴 알고리즘 레이턴시 (latency) 로 인한 긴 응답 시간없이 향상된 인식 정확성을 제공한다.

VR 전단은 음성 세그먼트를 특징화하기 위해 전단 프로세싱을 수행한다. 벡터 S 는 음성 신호이고 벡터 F 와 벡터 V 는 각각 FE 와 VAD 벡터이다. 일 태양에서, VAD 벡터는 1 개 요소 (element) 의 길이이고 이러한 1 개 요소는 이진값 (binary value) 을 포함한다. 다른 태양에서, VAD 벡터는 부가적 특징과 관련되는 이진값이다. 일 태양에서, 부가적 특징은 서버가 끝-위치 지정 (end-pointing) 을 정교하게 할 수 있게 하는 대역 에너지 (band energies) 이다. 끝-위치 지정은 음성 신호를 침묵 (silence) 과 음성 세그먼트로 분할하는 것으로 구성된다. 서버의 정교한 끝-위치 지정을 가능하게 하는 대역 에너지의 이용은 추가적인 계산 리소스의 이용을 가능하게 하여 보다 신뢰할 수 있는 VAD 판정에 이르게 한다.

대역 에너지는 바크 (bark) 진폭에 해당한다. 바크 스케일은 인간의 청각 인지에 대응하는 임계 대역의 왜곡된 주파수 스케일 (warped frequency scale of critical bands) 이다. 바크 진폭 계산은 업계에 공지되어 있으며, 여기에서 그 전부를 참조하는 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition (1993) 에 개시되어 있다. 일 태양에서, 디지털화된 PCM 음성 신호는 대역 에너지로 변경된다.

도 3 은 DVR 시스템에 도입될 수 있는 지연을 나타낸다. S 는 음성 신호를 나타내며, F 는 AFE 벡터이고 V 는 VAD 벡터이다. VAD 벡터는 이진값이거나, 다른 방법으로, 추가적 특징과 관련된 이진값일 수 있다. 이러한 추가적 특징들로는 서버에서의 미세한 끝-위치 지정을 가능하게 하는 대역 에너지를 들 수 있지만, 이에 한정되는 것은 아니다. F 와 V 를 계산하고 네트워크를 통해 이들을 송신함에 있어서의 지연이 도 3 에 Z 표시법 (notation) 으로 표시되어 있다. F 의 계산시에 도입되는 알고리즘 레이턴시는 k 이고, k 는 100 내지 250 msec 범위를 포함하는 다양한 값을 취할 수 있지만, 이에 한정되는 것은 아니다. VAD 정보 계산을 위한 알고리즘 레이턴시는 j 이다. j 는 10 내지 30 msec 를 포함하는 다양한 값을 취할 수 있지만, 이에 한정되는 것은 아니다. 따라서, AFE 벡터는 k 의 지연을 그리고 VAD 정보는 j 의 지연을 가질 수 있다. 네트워크를 통해 정보를 송신할 때 도입되는 지연은 n 이고, 네트워크 지연은 F 와 V 모두에 대해 동일하다.

도 4 는 VAD 모듈 (400) 의 블록도를 나타낸다. 프레이밍 모듈 (402 ; framing module) 은 (나타내지 않은) 아날로그-대-디지털 변환기를 포함한다. 일 태양에서, 아날로그-대-디지털 변환기의 출력 음성 샘플링 레이트는 8 kHz 이다. 당업자는, 다른 출력 샘플링 레이트가 이용될 수 있다는 것을 알 수 있다. 음성 샘플은 오버래핑 프레임으로 분할된다. 일 태양에서, 프레임 길이는 25 ms (200 개 샘플) 이고 프레임 레이트는 10 ms (80 개 샘플) 이다.

현 시스템의 일 태양에서, 각 프레임은 해밍 윈도우 함수 (Hamming window function) 를 이용하는 윈도윙 모듈 (404 ; windowing module) 에 의해 윈도윙된다.

이 경우, N 은 프레임 길이이고, s(n) 과 s_w(n) 은 각각 윈도윙 블록의 입력과 출력이다.

FFT (fast Fourier transform) 모듈 (406) 은 각각의 윈도우 프레임에 대한 크기 스펙트럼을 계산한다. 일 태양에서, 시스템은 길이 256 의 FFT 를 이용하여 각각의 윈도우 프레임에 대한 크기를 계산한다. 크기 스펙트럼으로부터의 처음의 129 빈 (bins) 은 추가적인 프로세싱을 위해 보유될 수 있다. FFT 는 다음과 같은 등식에 따라 수행되는데,

이 경우, s_w(n) 은 FFT 모듈 (406) 로의 입력이고, FFTL 은 블록의 길이 (256) 이며, bin_k는 얻어진 복소수 벡터의 절대값이다. 전력 스펙트럼 (PS) 모듈 (408) 은 크기 스펙트럼의 제곱을 취함으로써 전력 스펙트럼을 계산한다.

일 태양에서, MEL-필터링 모듈 (409) 은 완전 주파수 범위 [0 ~ 4000 Hz] 를 이용하여 MEL-왜곡형 스펙트럼 (MEL-warped spectrum) 을 계산한다. 이 대역은 MEL 주파수 스케일로 등거리인 23 개 채널로 분할되어, 프레임마다 23 개의 에너지값을 제공한다. 이러한 태양에서, MEL-필터링은 다음의 등식에 대응하는데,

이 경우, floor(.) 는 가장 근접한 정수로의 내림을 의미한다. MEL 필터의 출력은 각 대역의 FFT 전력 스펙트럼값 (bin_i) 에 대해 가중화된 합이다. 다음의 등식에 따라 삼각형의 1/2 오버래핑 윈도윙 (triangular, half overlapped windowing) 이 이용될 수 있는데,

이 경우, k = 1, ..., 23 이다. 다음과 같은 cbin₀및 cbin₂₄는 각각 시작 주파수 및 샘플링 주파수의 절반에 대응하는 FFT 빈 인덱스를 나타낸다.

당업자는, 환경에 따라 다른 MEL-필터링 등식과 파라미터가 이용될 수 있다는 것을 알 수 있다.

MEL-필터링 모듈 (409) 의 출력은 각 대역에서의 FFT 전력 스펙트럼값의 가중화된 합이다. MEL-필터링 모듈 (409) 의 출력은 MEL-필터링 출력에 대해 비선형의 변환을 수행하는 로그 모듈 (410) 을 통과한다. 일 태양에서, 비선형변환은 자연 로그이다. 당업자는, 다른 비선형 변환이 이용될 수 있다는 것을 알 수 있다.

VAD (Voice Activity Detector) 서브-모듈 (412) 은 로그 모듈 (410) 의 변환된 출력을 입력으로 취하며 음성과 비음성 프레임들을 구별한다. 도 4 에 나타낸 바와 같이, 로그 모듈의 변환된 출력은 VAD 서브모듈 (412) 을 통과하지 않고 직접 송신될 수 있다. VAD 서브-모듈 (412) 의 바이패싱 (bypassing) 은, 데이터 프레임이 존재하지 않는 경우와 같이, VAD 가 불필요할 경우에 발생한다. VAD 서브-모듈 (412) 은 프레임내에서 음성 활성의 존재를 검출한다. VAD 서브-모듈 (412) 은 프레임이 음성 활성을 갖는지 여부를 결정한다. 일 태양에서, VAD 서브-모듈 (412) 은 3 개 층의 FFNN (Feed-Forward Neural Net) 이다. FFNN 은 역방향으로 전파하는 (Backpropagating) 알고리즘을 이용해 음성과 비음성 프레임을 구별하도록 조작될 수 있다. 시스템은 Aurora2-TIDigits and SpeechDatCar-Italian의 조작 부분 (training part), 인위적으로 변조된 TIMIT 및 SPINE (Speech in Noise Environment) 데이터베이스와 같이 잡음이 있는 데이터베이스를 이용하여 오프라인 조작을 수행한다.

도 5 는 VAD 서브-모듈 (500) 의 블록도를 나타낸다. 일 태양에서, 다운샘플링 모듈 (420) 은 2 의 팩터만큼 로그 모듈의 출력을 다운샘플링한다.

DCT (Discrete Cosine Transform) 모듈 (422) 은 MEL 스케일상의 다운샘플링된 23 개의 로그 에너지로부터 켑스트럴 계수를 계산한다. 일 태양에서, DCT 모듈 (422) 은 15 개의 켑스트럴 계수를 계산한다.

NN (neural net) 모듈 (424) 은 현재의 프레임이 음성 또는 비음성일 경험적인 확률 (posterior probability) 에 대한 추정치를 제공한다. 임계치 모듈 (426) 은 추정치를 2 진 특징 (binary feature) 으로 변환하기 위해 NN 모듈 (424) 로부터의 추정치에 임계치를 적용한다. 일 태양에서, 시스템은 0.5 의 임계치를 이용한다.

중앙값 필터 모듈 (427 ; Median Filter module) 은 2 진 특징을 평활화한다. 일 태양에서, 2 진 특징은 11-포인트 중앙값 필터를 이용해 평활화된다. 일 태양에서, 중앙값 필터 모듈 (427) 은 음성에서 40 ms 미만의 짧은 정지나 짧은 버스트를 전부 제거한다. 일 태양에서, 중앙값 필터 모듈 (427) 은 또한 침묵에서 발성으로의 트랜지션 (transition) 전후에 7 개의 프레임을 부가한다. 일 태양에서, 시스템은 프레임이 음성 활성으로 또는 침묵으로 결정되는지에 따라 하나의 비트를 설정한다.

NN 모듈 (424) 과 중앙값 필터 모듈 (427) 은 다음과 같이 동작할 수 있다. NN 모듈 (424) 은 6 개의 입력 유닛, 15 개의 은닉 유닛 (hidden units), 및 하나의 출력을 갖는다. NN 모듈 (424) 로의 입력은 2 개의 켑스트럴 계수에 대한 3 개의 프레임, 현재의 프레임 및 2 개의 인접 프레임, 로그-MEL-필터뱅크 에너지로부터 유도된 C0 와 C1 으로 이루어질 수 있다. 3 개의 프레임이 다운샘플링 이후에 이용되기 때문에, 이들은 5 개 프레임의 정보를 효과적으로 나타낸다. 조작하는 동안, NN 모듈 (424) 은 2 개의 출력을 갖는데, 각각은 음성 및 비음성 목표치를 위한 것이다. 조작되는 NN 모듈 (424) 의 출력은 현재의 프레임이 음성 또는 비음성일 경험적인 확률에 대한 추정치를 제공할 수 있다. 정상적인 조건하에서 테스트하는 동안에는, 비음성의 경험적인 확률에 대응하는 출력만이 이용된다. 0.5 의 임계치가 출력에 적용되어 출력을 2 진 특징으로 변환할 수 있다. 2 진 특징은 중앙값 필터 모듈 (427) 에 대응하는 11 개 포인트의 중앙값 필터를 이용하여 평활화될 수 있다. 약 40 ms 미만의 음성의 짧은 정지 또는 짧은 버스트가 이러한 필터링에 의해 모두 제거된다. 필터링은 침묵으로부터 발성으로의 그리고 발성으로부터 침묵으로의 검출된 트랜지션 전후에 7 개의 프레임을 부가한다. 11 개 포인트의 중앙값 필터에도 불구하고, 이후의 5 개 프레임과 이전의 5 개 프레임으로 인해 10 개 프레임의 지연, 즉, 약 100 ms 의 지연이 발생한다. 이러한 지연은 다운샘플링의 결과이며, 후속의 LDA 필터링에 의해 발생되는 200 ms 지연에 흡수된다.

도 6 은 FE 모듈 (600) 의 블록도를 나타낸다. 프레이밍 모듈 (602), 윈도윙 모듈 (604), FFT 모듈 (606), PS 모듈 (608), MF 모듈 (609), 및 로그 모듈 (610) 또한 FE 의 일부로서, VAD 모듈 (400) 에서 이들이 수행하는 것과 동일한 기능을 FE 모듈 (600) 에서 수행한다. 일 태양에서, 이러한 공통 모듈들은 VAD 모듈 (400) 과 FE 모듈 (600) 사이에서 공유된다.

VAD 서브-모듈 (612) 은 로그 모듈 (610) 에 결합된다. LDA (Linear Discriminant Analysis) 모듈 (428) 은 VAD 서브-모듈 (612) 에 결합되며, VAD 서브-모듈 (610) 의 출력에는 대역통과 필터가 적용된다. 일 태양에서, 대역통과 필터는 RASTA 필터이다. VR 전단에 이용될 수 있는 예시적인 대역통과 필터는,여기에서 참조하고 있는 "Auditory Model for Parametrization of Speech"라는 명칭으로 1995년 9월 12일에 출원된 미국특허 제 5,450,522 호에 개시되어 있는 RASTA 필터이다. 여기에서 이용되는 바와 같이, 시스템은 41-탭 FIR 필터를 이용하여 23 개 채널 각각에 대한 로그 에너지의 시궤도 (time trajectory) 를 필터링할 수 있다. 필터 계수는 업계에 공지되어 있는, 발음에 따라 라벨링된 OGI-Stories 데이터베이스에 대해 LDA 기술을 이용함으로써 유도되는 것일 수 있다. 메모리 요구를 감소시키기 위해 2 개의 필터가 보유될 수 있다. 이들 2 개 필터는 41 탭의 대칭 FIR 필터를 이용하여 더 근사될 수 있다. 6 Hz 의 컷오프 (cutoff) 필터가 MEL 채널 1 및 2 에 적용되며, 16 Hz 의 컷오프 필터가 채널 3 내지 23 에 적용된다. 필터의 출력은 현재의 프레임 주변에 중심이 위치하는 시궤도의 가중화된 합이며, 가중화는 필터 계수만큼 부여된다. 이러한 일시적 필터링은 약 20 프레임, 즉, 약 200 ms 의 예견 능력을 가정한다. 또한, 당업자는 환경과 원하는 성능에 따라 상이한 계산과 계수들을 이용할 수 있다.

다운샘플링 모듈 (430) 은 LDA 모듈의 출력을 다운샘플링한다. 일 태양에서, 다운샘플링 모듈 (430) 은 2 의 팩터만큼 LDA 모듈의 출력을 다운샘플링한다. 23 개 MEL 채널의 시궤도는 매 2 개 프레임마다 필터링될 수 있다.

DCT 모듈 (432) 은 MEL 스케일상의 다운샘플링된 23 개 로그 에너지로부터 켑스트럴 계수를 계산한다. 일 태양에서, DCT 모듈 (432) 은 다음의 등식에 따라 15 개의 켑스트럴 계수를 계산한다.

잡음을 보상하기 위해, OLN (online normalization) 모듈 (434) 은 DCT 모듈 (432) 로부터의 켑스트럴 계수에 평균 및 분산 정규화 (mean and variance normalization) 를 적용한다. 로컬 평균과 분산에 대한 추정치가 각 프레임에 대해 업데이트된다. 일 태양에서는, 실험적으로 결정된 바이어스가 특징들을 정규화하기 전의 분산 추정치에 부가된다. 바이어스는 긴 침묵 영역의 분산에 대한 저잡음 추정치의 영향을 제거한다. 정규화된 통계적 특징들로부터 동적 특징이 유도된다. 이러한 바이어스는 정규화에 필요한 계산을 감소시킬 뿐만 아니라 보다 양호한 인식 성능을 제공한다. 정규화는 다음과 같은 등식을 이용할 수 있는데,

이 경우, x_t는 시간 t 에서의 켑스트럴 계수이고, m_t와 σ_t ²은 시간 t 에서 추정된 켑스트럴 계수의 평균과 분산이며, x_t' 은 시간 t 에서의 정규화된 켑스트럴 계수이다. α값은 분산에 대해 양의 추정치를 제공하는 1 미만일 수 있다. α값은 0.1 일 수 있고 바이어스 θ는 1.0 으로 고정될 수 있다. 마지막 특징벡터는 C0 를 포함하여 15 개의 켑스트럴 계수를 포함할 수 있다. 이들 15 개의 켑스트럴 계수는 전단 출력을 구성한다.

특징 압축 모듈 (436) 은 특징 벡터를 압축한다. 비트 스트림 포맷팅 및 프레이밍 모듈 (438) 은 압축된 특징 벡터에 대한 비트스트림 포맷팅을 수행함으로써, 이들의 송신을 준비한다. 일 태양에서, 특징 압축 모듈 (436) 은 포맷팅된 비트 스트림의 에러 보호 (error protection) 를 수행한다.

본 발명의 일 태양에서, FE 또는 AFE 모듈 (600) 은 벡터 FZ^-k와 벡터 VZ^-j를 연관시킨다. 도 3 에 대한 설명에 따르면, FE 또는 AFE 특징 벡터 각각은 벡터 FZ^-k와 벡터 VZ^-j의 연관으로 이루어진다. 본 시스템의 일 태양에서, 시스템은 페이로드에 앞서 VAD 출력을 송신하는데, VAD 의 전단 프로세싱이 AFE 전단 프로세싱보다 짧기 때문에 (j<k), 페이로드는 DVR 시스템의 전반적인 레이턴시를 감소시킨다. 일 태양에서, 서버상에서 실행 중인 애플리케이션은, 벡터 V 가 S_hangover의 시간보다 긴 침묵을 지시할 경우, 사용자 발성의 끝 (end of user's utterance) 을 결정할 수 있다. S_hangover는 발성 캡처가 완료되기 위해 능동적인 대화에 수반되는 침묵 기간이다. S_hangover는 통상적으로 발성에 포함되도록 허용되는 침묵보다 길다. S_hangover> k 이면, AFE 알고리즘 레이턴시는 응답 시간을 증가시키지 않는다. 시간 t-k 에 대응하는 FE 특징과 시간 t-j 에 대응하는 VAD 특징은 조합되어 확장된 AFE 특징을 형성할 수 있다. 시스템은 이용가능할 경우 VAD 출력을 송신하며, 송신을 위해 AFE 출력의 이용가능성에 의존하지 않는다. VAD 출력과 AFE 출력 모두는 송신 페이로드와 동기될 수 있다. 음성 세그먼트 각각에 대응하는 정보는 프레임의 누락없이 송신될 수 있다.

다른 방법으로, 본 발명의 다른 태양에 따르면, 채널 대역폭은 침묵 기간 동안 감소될 수 있다. 벡터 V 가 침묵 영역을 지시할 경우, 벡터 F 는 더 낮은 비트 레이트로 양자화 (quantizing) 될 수 있다. 이러한 낮은 레이트의 양자화는 음성 활성 검출에 기초하여 비트 레이트가 변경되는 가변 레이트 및 다중-레이트 보코더와 유사하다. 시스템은 VAD 출력과 FE 출력 모두를 송신 페이로드와 동기화한다. 그 다음, 시스템은 음성 세그먼트 각각에 대응하는 정보를 송신함으로써, VAD 출력을 송신한다. 침묵을 가진 프레임에 대해 비트 레이트는 감소된다. 또한, 각각의 음성 세그먼트에 대응하는 정보는 프레임의 누락없이 모바일로 송신될 수 있다.

다른 방법으로, 음성 프레임만을 서버로 송신할 수도 있다. 침묵 프레임은 완전히 누락된다. 음성 프레임만이 서버로 송신될 경우, 서버는 사용자가 발성을 종결하였다는 것을 확인하려 할 수 있다. 이러한 발성 종결은 레이턴시값 (k, j 및 n) 에 상관없이 발생한다. "Portland <PAUSE> Maine" 또는 "617-555- <PAUSE> 1212"와 같은 다중-워드를 살펴본다. 시스템은 개별적인 채널을 이용하여 VAD 정보를 송신한다. <PAUSE> 영역에 대응하는 AFE 특징은 가입자 유닛에서 누락된다. 따라서, 개별적인 채널 없이는, 서버가, 사용자가 발성을 종결하였다는 것을 추론할 수 있는 정보가 없다. 이러한 태양에서는 VAD 정보를 송신하기 위한 개별적인 채널을 이용할 수 있다.

본 발명의 또 다른 태양에서, 도 7 의 상태도 및 표 1 의 이벤트와 액션의 각 경우와 같이, 사용자의 발성에 긴 중단이 있을 경우에도, 인식자의 상태는 보존될 수 있다. 시스템이 음성 활성을 검출할 경우, 시스템은 누락된 프레임과 음성 프레임의 송신 이전에 누락된 프레임의 총 수에 대응하는 AFE 모듈 (600) 의 평균 벡터를 송신한다. 또한, 터미널 또는 모바일이 S_hangover프레임의 침묵이 관찰되었음을 검출할 경우, 이는 사용자 발성의 끝을 나타낸다. 일 태양에서, 음성 프레임과 누락된 프레임의 총 수는 동일한 채널상의 AFE 모듈 (600) 에 대한 평균 벡터와 함께 서버로 송신된다. 따라서, 페이로드는 특징과 VAD 출력 모두를 포함한다. 일 태양에서, VAD 출력은 페이로드의 마지막에서 송신되어 발성의 끝을 나타낸다.

통상적인 발성의 경우, VAD 모듈 (400) 은 아이들 상태 (702 ; idle state) 에서 시작하여 이벤트 A 의 결과로서 초기 침묵 상태 (704) 로 트랜지션한다. 모듈을 초기 침묵 상태에 머무르게 하며, 수 회의 B 이벤트가 발생할 수 있다. 시스템이 음성을 검출할 경우, 이벤트 C 가 능동적 음성 상태 (706) 로의 트랜지션을 발생시킨다. 그 다음, 모듈은 이벤트 D 와 E 로 인해, 능동적 음성 상태 (706) 와 삽입된 침묵 상태 (708) 사이에서 토글링한다. 삽입된 침묵이 S_hangover보다 길 경우, 이는 발성의 끝을 구성하며, 이벤트 F 가 아이들 상태 (702) 로의 트랜지션을 발생시킨다. 이벤트 Z 는 발성시의 긴 초기 침묵을 나타낸다.사용자의 음성이 검출되지 않을 경우, 이러한 긴 초기 침묵으로 인해 TIME OUT 에러 조건이 만족된다. 이벤트 X 는 소정 상태를 중단하고 모듈을 아이들 상태 (702) 로 되돌린다. 이는 사용자 또는 시스템에 의해 개시되는 이벤트일 수 있다.

도 8 은 시간상의 음성과 VAD 이벤트 일부를 나타낸다. 도 8 과 표 2 를 참조하면, 상태 트랜지션을 일으키는 이벤트가 VAD 모듈 (400) 에 대해 도시되어 있다.

표 1 에서, S_before와 S_after는 능동적 음성 전후에 서버로 송신되는 침묵 프레임의 수이다.

상태도와 모바일상의 대응하는 액션을 나타내는 표 1 의 이벤트로부터, 상태의 트랜지션을 개시하는데 소정의 임계치가 이용된다. 이러한 임계치로 소정의 디폴트값을 이용할 수 있다. 그러나, 당업자는 표 1 에 나타낸 임계치에 다른 값이 이용될 수 있다는 것을 알 수 있다. 예를 들어, 한정하는 방식이 아니라, 서버가 이들 디폴트값을 애플리케이션에 따라 변경할 수도 있다. 디폴트값은 표 2 에서 확인되는 바와 같이 프로그램될 수 있다.

일 태양에서, 최소의 발성 기간 (S_min) 은 약 100 msec 이다. 다른 태양에서, 능동적 음성에 선행하여 송신될 침묵 영역의 양 (S_before) 은 약 200 msec 이다. 다른 태양에서, 능동적 음성에 수반하여 송신될 침묵의 양 (S_after) 은 약 200 msec 이다. 다른 태양에서, 발성 캡처를 완결하기 위해 능동적 음성에 수반되는 침묵 기간의 양 (S_hangover) 은 VR 애플리케이션에 따라 500 내지 1500 msec 이다. 또 다른 태양에서, 8 비트 카운터는 초당 100 프레임에서 2.5 초의 S_maxsil을 가능하게 한다. 또 다른 태양에서, 능동적 음성 전후에서 예상되는 최소 침묵 기간 (S_minsil) 은 약 200 msec 이다.

도 9 는 전반적인 시스템 설계를 나타낸다. 음성은 도 4, 도 5 및 도 6에 나타낸 바와 같이 동작하는 터미널 특징 추출 모듈 (901) 을 통과한다. 터미널 압축 모듈 (902) 은 추출된 특징을 압축하는데 이용되며 터미널 압축 모듈로부터의 출력은 채널을 통해 서버로 전달된다. 서버 압축 해제 모듈 (911) 은 데이터를 압축 해제하여 서버 특징벡터 발생 모듈 (912) 로 전달하는데, 서버 특징벡터 발생 모듈 (912) 은 데이터를 음성 인식 서버 모듈 (913) 로 전달한다.

터미널 압축 모듈 (902) 은 벡터 양자화를 이용하여 이 특징들을 양자화한다. 전단으로부터 수신된 특징 벡터는 터미널 압축 모듈 (902) 에서, 분리된 벡터 양자화기 (split vector quantizer) 를 이용해 양자화된다. 수신된 계수는 C0 를 제외하고 쌍으로 분류되며, 각 쌍은 고유한 벡터 양자화 코드북을 이용해 양자화된다. 얻어진 인덱스값의 세트는 음성 프레임을 나타내는데 이용된다. 대응하는 코드북 사이즈를 갖는 계수 편성의 일 태양이 표 3 에 도시되어 있다. 당업자는 다른 편성과 코드북 사이즈가 이용될 수 있음을 알 수 있으며, 이 또한 본 시스템의 범위내이다.

인덱스를 결정하기 위해, 시스템은 유클리드 거리를 이용해, 고유 행렬에 대해 가중치 행렬을 갖는, 가장 근접한 VQ (vector quantized) 중심을 발견할 수 있다. 비트 스트림에 대한 인덱스를 패킹한 후에 하나의 프레임을 기술하는데 필요한 비트의 수는 약 44 개일 수 있다. 업계에 공지되어 있는 LBG 알고리즘은 코드북을 조작하는데 이용된다. 시스템은 조작 데이터의 평균값으로 코드북을 초기화한다. 모든 단계에서, 시스템은 각각의 중심을 2 개로 분리하며, 2 개의 값은 재추정된다. 분리 (splitting) 는 다음의 등식에 따라 0.2 만큼 배율되는 표준 편차 벡터 (standard deviation vector) 의 양의 방향과 음의 방향에서 수행되는데,

이 경우, μ_i와 σ_i는 각각 i 번째 클러스터의 평균과 표준 편차이다.

압축된 특징 벡터를 송신하는데 이용되는 비트 스트림은 도 10 에 나타낸 바와 같다. 프레임 구조는 업계에 널리 공지되어 있으며 이 프레임은 변형된 프레임 패킷 스트림 정의를 갖는다. 여기에서 참조하는, 2000년 4월의 "Distributed Speech Recognition; Front-end Feature Extraction Algorithm; Compression Algorithm" ("the ETSI document"), ETSI ES 201 108 V1.1.2 에, 프레임 구조의 공통적인 일례가 정의되어 있다. ETSI 문서는 다중 프레임 포맷, 동기화 시퀀스 및 헤더 필드에 관해 논의한다. 단일 프레임에 대한 인덱스는 도 10 에 나타낸 바와 같이 포맷된다. 옥텟 경계의 정확한 배열은 프레임마다 달라질 수 있다. 도 10 으로부터, 2 개 프레임의 인덱스 또는 88 비트가 함께 쌍으로 분류된다. 특징은 다운샘플링될 수 있으며, 따라서, 도 11 에 나타낸 바와 같이 동일한 프레임이 반복된다. 이러한 프레임 반복은 특징 송신시의 지연을 방지한다. 시스템은 4 비트의 CRC (cyclic redundancy check) 를 이용하며, 프레임 쌍 패킷을 조합하여, ETSI 문서에서와 같이, 공통적으로 이용되는 138 개 옥텟의 특징 스트림을 채운다. 얻어진 포맷은 4800 비트/s 의 데이터 레이트를 요한다.

서버측에서, 서버는 다음과 같이 비트 스트림 디코딩 및 에러 완화를 수행한다. 비트 스트림 디코딩의 일례로서, 동기화 시퀀스 검출, 헤더 디코딩, 및 특징의 압축 해제를 ETSI 문서에서 찾아볼 수 있다. 본 시스템에서 에러 완화는 먼저 잘못 수신된 프레임을 검출한 다음, 잘못 수신된 프레임에 대한 파라미터값을 대체함으로써 수행된다. 시스템은 프레임 쌍 패킷이 잘못 수신되었는지를 결정하기 위해, CRC 및 데이터 일관성 (Data Consistency) 의 2 가지 방법을 이용할 수 있다. CRC 방법의 경우, 수신된 프레임 쌍 패킷 데이터의 인덱스로부터 다시 계산된 CRC 가 프레임 쌍에 대해 수신된 CRC 와 일치하지 않을 경우, 에러가 존재한다. 데이터 일관성 방법의 경우, 서버는 프레임 패킷 쌍내의 2 개 프레임에 대한 각 인덱스 (idx^i,i+1) 에 대응하는 파라미터를 비교하여, 다음의 등식에 따라 인덱스 중 하나가 잘못 수신되었는지를 결정한다.

만약 다음과 같으면, 프레임 쌍 패킷은 잘못 수신된 것으로 분류된다.

프레임 쌍 패킷이 CRC 테스트를 통과하지 못했음을 서버가 검출할 경우, 시스템은 잘못된 데이터에 데이터 일관성 체크를 적용할 수 있다. 서버는 데이터 일관성 테스트를 통과했다는 것을 알게 될 때까지, CRC 테스트에 실패하기 전에 수신된 프레임 쌍 패킷에, 다음으로는 CRC 테스트에 실패한 후의 프레임들에 데이터 일관성 체크를 적용할 수 있다.

서버가 프레임에 에러가 있는지를 판정한 후, 서버는 ETSI 문서에 제시된 방식으로, 잘못 수신된 프레임에 대한 파라미터값을 대체한다.

서버 특징벡터 생성은 도 12 에 따라 수행된다. 도 12 로부터, 서버 압축 해제는 20 msec 내에 15 개 특징을 송신한다. 델타 계산 모듈 (1201) 은 시간 도함수 (time derivatives), 또는 델타 (deltas) 를 계산한다. 시스템은 다음과 같은 회귀 등식 (regression equation) 에 따라 도함수를 계산하는데,

이 경우, x_t는 특징 벡터의 t 번째 프레임이다.

시스템은 이 등식을 이미 계산된 델타에 적용하여 2 차 도함수를 계산한다. 그 다음, 시스템은 연관 블록 (1202 ; concatenation block) 에서 도함수 및 2 차 도함수에 의해 원래의 15-차원 특징을 연관시켜, 보강된 45-차원의 특징 벡터를 생성한다. 1 차 도함수를 계산할 때, 시스템은 사이즈 2 의 L 을 이용할 수 있지만, 2 차 도함수를 계산할 때는 사이즈 1 의 L 을 이용할 수 있다. 당업자는, 본 시스템의 범위내에서 다른 파라미터가 이용될 수 있으며, 델타와 도함수를 계산하는데 다른 계산이 이용될 수 있다는 것을 알 수 있다. 낮은 L 사이즈의 이용은, 장래 입력의 2 개 프레임에 대응하는, 40 ms 의 오더 (order) 와 같이, 레이턴시를 상대적으로 낮게 유지한다.

KLT 블록 (1203) 은 Contextual Karhunen-Loeve Transformation (Principal Component Analysis) 를 나타내는데, 이에 의해, 45-차원 벡터의 연속적인 3 개 프레임 (이전의 1 개 프레임 + 현재의 프레임 + 이후의 1 개 프레임) 이 함께 적층되어 1 ×135 벡터를 형성한다. 평균 정규화 이전에, 서버는 PCA (principal component analysis) 를 통해 획득된 기본 함수를 이용해 이러한 벡터를 잡음이 있는 조작 데이터상에 투영한다. 이용될 수 있는 PCA 의 일례로는, 8 KHz 로 다운 샘플링되어 상이한 신호 대 잡음비에서 다양한 타입의 잡음에 의해 인위적으로 왜곡된 TIMIT 데이터베이스 부분을 들 수 있다. 보다 구체적으로, PCA 는 TIMIT 의 코어 조작 세트로부터 5040 개의 발성을 취하여, 이 세트를 균등 사이즈의 20 개 세트로 균등하게 분할한다. 그 다음, PCA 는 클린 (clean), 20, 15, 10 및 5 dB 의 신호 대 잡음비에서 Aurora2 의 Test A 세트의 영문자, 즉, subway, babble, car 및 exhibition 에서 발견된 4 개 잡음을 가산할 수 있다. PCA 는 최대 고유치에 대응하는 처음의 45 개 소자만을 유지하며, 벡터-행렬 승산을 적용한다.

서버는, MLP 모듈 (1204 ; multilayer perceptron module) 에 피드-포워드 (feed-forward) MLP 를 이용하는 것과 같이, 확장된 45-차원 특징 벡터에 비선형 변환을 적용할 수 있다. 여기에서 그 전부를 참조하는, Bourlard and Morgan, "Connectionist Speech Recognition a Hybrid Approach", Kluwer Academic Publishers, 1994 에, MLP 의 일례가 개시되어 있다. 서버는 연속적인 5 개의 특징 프레임을 함께 적층하여 MLP 로의 225 차원 입력 벡터를 생성한다. 이러한 적층은 2 개 프레임의 지연 (40 ms) 을 생성할 수 있다. 그 다음, 서버는 조작 총체 (training corpus) 로부터의 특징들에 대해 계산된 전역 평균과 표준 편차를 각각 감산하고 제산하여, 이러한 225 차원의 입력 벡터를 정규화한다. MLP 는 입력 계층을 제외하고 2 개의 계층을 갖는데, 은닉 계층은 시그모이드 활성화 함수 (sigmoid activation function) 를 갖는 500 개의 유닛으로 이루어지고, 출력 계층은 소프트맥스 활성화 함수 (softmax activation function) 을 갖는 56 개의 출력 유닛으로 이루어진다. PCA 변환에 대해 개략적으로 설명한 바와 같이, MLP 는 잡음이 더해진, 라벨링된 데이터베이스로부터의 발음에 따른 목표치 (ICSI 에 통상적으로 이용되는 56 개의 영어 모노폰 (monophones of English)) 에 대해 조작된다. 인식하는 동안, 서버는 출력 유닛에 소프트맥스 함수를 이용하지 않을 수도 있는데, 이러한 블록의 출력은 MLP 의 은닉 계층에 대한 "선형 출력"에 해당한다. 또한, 서버는 다음의 등식에 따라 각각의 "선형 출력"으로부터56 개 "선형 출력"의 평균을 감산하는데,

이 경우, LinOut_i는 i 번째 출력 유닛의 선형 출력이고, LinOut_i ^*는 감산된 선형 출력의 평균이다.

서버는 MLP 의 가중치 각각을 2 바이트의 워드로 저장할 수 있다. MLP 모듈 (1204) 의 일례는 은닉 가중치로의 225*500=112500 개 입력, 출력 가중치로의 500*56=28000 개의 은닉, 및 500+56=556 개의 바이어스 가중치를 갖는다. 가중치를 저장할 필요가 있는 이러한 구성을 위한 총 메모리량은 141056 워드이다. MLP 모듈 (1204) 로부터의 각 출력 프레임에 대해, 서버는 MLP 의 각 유닛으로 하여금 그 입력에 대한 가중치만큼의 승산, 누산을 수행하게 하며, 은닛 계층에 대해서는, 시그모이드 함수의 평가를 위한 표에서의 검색을 수행하게 한다. 검색 표는 2 바이트 워드 4000 개의 사이즈를 가질 수 있다. 다른 MLP 모듈 구성이 이용될 수 있으며, 이 또한 본 시스템의 범위내이다.

서버는 PCA 블록 (1205) 의 PCA 를 이용하여 DRD (Dimensionality Reduction and Decorrelation) 를 수행한다. 서버는 MLP 모듈 (1204) 의 56-차원 "선형 출력"에 PCA 를 적용한다. 이러한 PCA 애플리케이션은 특징들을 직교 베이시스의 공간상에 투영한다. 이들 베이시스는, 상술한 바와 같이 MLP 를 조작하는데 이용되는 동일한 데이터상에 PCA 를 이용하여 미리 계산된다. 56 개의 특징들중에서, 서버는 최대 고유치에 해당하는 28 개 특징을 선택할 수 있다. 이러한 계산은 1 ×56 벡터를 56 ×28 행렬로 승산하는 것과 관련이 있다.

제 2 의 연관 블록 (1206) 은 각 프레임에 대한 2 개의 경로에서 출력되는 벡터들을 연관하여 73-차원의 특징 벡터를 생성한다. 업샘플링 모듈 (1207) 이 특징 스트림을 2 만큼 업샘플링한다. 서버는 연속적인 프레임들간에 선형 보간을 이용하여 업샘플링된 프레임을 얻는다. 이로써, 73 개 특징이 SRS (Speech Recognition Server) 알고리즘으로 송신된다.

이와 같이, 음성 인식을 위한 신규하고 향상된 방법 및 장치를 개시하였다. 당업자는, 여기에서 개시된 태양들과 관련하여 설명된 다양한 예시적 논리 블록, 모듈 및 매핑이 전자적 하드웨어, 컴퓨터 소프트웨어 또는 양자의 조합으로 구현될 수 있다는 것을 알 수 있다. 다양한 예시적 컴포넌트, 블록, 모듈, 회로 및 단계들을 기능적인 관점에서 일반적으로 설명하였다. 이러한 기능을 하드웨어로 또는 소프트웨어로 구현할 것인지의 여부는 구체적인 애플리케이션과 전체 시스템에 부과된 설계 제한에 따른다. 당업자는, 이러한 환경들에서의 하드웨어와 소프트웨어의 상호변경성 및 각각의 구체적 애플리케이션에 대해 설명된 기능을 구현하는 최선의 방법을 알 수 있다.

일례로서, 여기에 개시된 태양들과 관련하여 설명된 다양한 예시적 논리 블록, 모듈 및 매핑은 한 세트의 펌웨어 명령어를 실행하는 프로세서, ASIC (application specific integrated circuit), FPGA (field programmable gate array) 또는 다른 프로그램가능한 논리 장치, 개별적인 게이트 또는 트랜지스터 로직, 예를 들어, 레지스터, 종래의 프로그램가능한 임의의 소프트웨어 모듈 및 프로세서와 같은 개별적인 하드웨어 컴포넌트, 또는 여기에 설명된 기능들을 수행하도록 설계된 이들의 임의 조합을 이용해 구현되거나 수행될 수 있다. VAD 모듈 (400) 과 FE 모듈 (600) 은 마이크로프로세서에서 실행되는 것이 바람직하지만, 다른 방법으로, VAD 모듈 (400) 과 FE 모듈 (600) 이 임의의 종래 프로세서, 컨트롤러, 마이크로컨트롤러, 또는 스테이트 머신에서 실행될 수도 있다. 템플릿은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 이동가능한 디스크, CD-ROM, 또는 업계에 공지되어 있는 다른 형태의 저장 매체에 상주할 수 있다. (나타내지 않은) 메모리는 (나타내지 않은) 상술한 임의의 프로세서에 집적될 수 있다. (나타내지 않은) 프로세서와 (나타내지 않은) 메모리는 (나타내지 않은) ASIC 에 상주할 수 있다. ASIC 은 전화기에 상주할 수 있다.

당업자가 본 발명을 이용할 수 있도록 하기 위해, 본 발명의 실시형태를 상술하였다. 당업자는 이들 실시형태의 다양한 변형이 가능하다는 것을 알 수 있으며, 여기에서 정의된 일반적인 원리는 창의력을 이용하지 않고도 다른 실시형태에 적용될 수 있다. 따라서, 본 발명은 여기에 개시된 실시형태에 한정되지 않으며, 여기에 개시된 원리 및 신규한 특징과 일치하는 최광의로 해석되어야 한다.

Claims

음성 신호와 관련하여 검출된 음성 활성 정보를 원격 장치에 제공하는 방법으로서,

상기 음성 신호와 관련하여 검출된 음성 활성 정보를 어셈블링하는 단계;

상기 음성 신호에 관련하여 특징 추출 정보를 식별하는 단계;

상기 검출된 음성 활성 정보와 상기 특징 추출 정보를 선택적으로 이용하여 고수준 전단 데이터를 형성하는 단계; 및

상기 검출된 음성 활성 정보를 구비하는 상기 고수준 전단 데이터를 상기 원격 장치에 제공하는 단계를 포함하는, 음성 활성 정보를 원격 장치에 제공하는 방법.
제 1 항에 있어서,

상기 특징 추출 정보를 식별하는 단계는, 상기 음성 신호의 세그먼트들에 대응하는 한 세트의 특징들을 추출하는 단계를 포함하는, 음성 활성 정보를 원격 장치에 제공하는 방법.
제 1 항에 있어서,

상기 어셈블링하는 단계, 식별하는 단계, 및 선택적으로 이용하는 단계는 가입자 장치에서 수행되는, 음성 활성 정보를 원격 장치에 제공하는 방법.
제 3 항에 있어서,

상기 제공하는 단계는, 상기 가입자 장치가 침묵 세그먼트들을 제거하는 단계 및 침묵이 제거된 음성 세그먼트들을 상기 원격 장치에 제공하는 단계를 포함하는, 음성 활성 정보를 원격 장치에 제공하는 방법.
제 3 항에 있어서,

상기 제공하는 단계는,

상기 가입자 장치가 침묵을 포함하는 모든 음성을 상기 원격 장치에 송신하는 단계;

상기 가입자 장치가 침묵 영역이 존재하는 곳에 대한 하나 이상의 지시자를 송신하는 단계; 및

상기 원격 장치가 침묵으로부터 음성 세그먼트들을 분리하여 그 음성 세그먼트들을 이용하는 단계를 포함하는, 음성 활성 정보를 원격 장치에 제공하는 방법.
제 5 항에 있어서,

상기 하나 이상의 지시자는 음성 송신 채널과는 별개의 채널을 통해 송신되는, 음성 활성 정보를 원격 장치에 제공하는 방법.
제 1 항에 있어서,

상기 검출된 음성 활성 정보를 상기 특징 추출 식별과 실질적으로 병렬로 어셈블링하는 단계를 더 포함하는, 음성 활성 정보를 원격 장치에 제공하는 방법.
제 7 항에 있어서,

상기 특징 추출 식별이 침묵 영역을 지시할 경우, 음성 검출 활성은 낮은 레이트에서 양자화되는, 음성 활성 정보를 원격 장치에 제공하는 방법.
제 7 항에 있어서,

상기 검출된 음성 활성 정보를 어셈블링하는 단계는 음성 활성 벡터를 결정하는 단계를 포함하고,

세그먼트를 추출하는 단계는 특징 벡터를 결정하는 단계를 포함하며,

상기 방법은,

상기 음성 활성 벡터와 상기 특징 벡터를 연관시켜 고수준 전단 특징들을 프로세싱하고 결정하는 단계를 더 포함하는, 음성 활성 정보를 원격 장치에 제공하는 방법.
제 1 항에 있어서,

상기 특징 추출을 식별하는 단계는 특징 벡터를 결정하는 단계를 포함하는, 음성 활성 정보를 원격 장치에 제공하는 방법.
제 10 항에 있어서,

상기 결정하는 단계는,

음성 활성을 검출하고, 음성 활성의 검출시에, 누락된 프레임에 대응하는 평균 특징 벡터를 계산하는 단계; 및

음성 프레임을 송신하기 전에, 누락된 프레임의 총 수를 송신하는 단계를 포함하는, 음성 활성 정보를 원격 장치에 제공하는 방법.
음성 활성 검출기;

상기 음성 활성 검출기와 실질적으로 병렬로 동작하는 특징 추출기;

송신기; 및

수신 장치를 구비하고,

상기 특징 추출기와 상기 음성 활성 검출기는 음성으로부터 특징을 추출하고 음성으로부터 음성 활성 정보를 검출하며 추출된 특징과 검출된 음성 활성 정보를 선택적으로 이용하여 고수준 전단 데이터를 형성하도록 동작하는, 음성 활성의 송신 장치
제 12 항에 있어서,

상기 음성 활성 검출기, 상기 특징 추출기, 및 상기 송신기는 가입자 유닛상에 상주하는, 음성 활성의 송신 장치.
제 13 항에 있어서,

상기 가입자 유닛은 침묵 세그먼트들을 제거하며 침묵이 제거된 음성 세그먼트들을 원격 장치에 제공하는, 음성 활성의 송신 장치.
제 13 항에 있어서,

상기 가입자 장치는 침묵을 포함하는 모든 음성을 상기 원격 장치에 송신하고,

상기 가입자 장치는 하나 이상의 침묵 영역에 대한 하나 이상의 지시자를 송신하며,

상기 원격 장치는 침묵으로부터 음성 세그먼트들을 분리하여 그 음성 세그먼트들을 이용하는, 음성 활성의 송신 장치.
제 15 항에 있어서,

상기 하나 이상의 지시자는 상기 송신기에 의해 음성 송신 채널과는 별개의 채널을 통해 송신되는, 음성 활성의 송신 장치.
제 12 항에 있어서,

특징 추출이 침묵 영역을 지시할 경우, 상기 장치는, 상기 음성 검출기로부터의 음성 검출 활성을 낮은 레이트에서 양자화하는, 음성 활성의 송신 장치.
제 12 항에 있어서,

상기 음성 활성 검출기는 음성 활성 벡터를 결정하고,

상기 특징 추출기는 특징 벡터를 결정하는, 음성 활성의 송신 장치.
제 18 항에 있어서,

상기 장치는 상기 음성 활성 벡터와 상기 특징 벡터를 연관시켜 고수준 전단 데이터를 프로세싱하고 결정하는, 음성 활성의 송신 장치.
제 12 항에 있어서,

상기 특징 추출기는 특징 벡터를 결정하는, 음성 활성의 송신 장치.
제 20 항에 있어서,

상기 장치는 음성 활성의 검출시에 누락된 프레임에 해당하는 특징 벡터의 평균을 계산하고, 음성 프레임을 송신하기 전에, 누락된 프레임의 총 수를 송신하는, 음성 활성의 송신 장치.
음성 데이터로부터 음성 활성 데이터를 추출하는 단계;

상기 음성 데이터로부터 특징 추출 데이터를 식별하는 단계; 및

상기 음성 활성 데이터에 관련되는 정보와 상기 특징 추출 데이터를, 고수준 전단 데이터의 형태로 원격 장치에 선택적으로 송신하는 단계를 포함하는, 음성 데이터를 원격 장치에 송신하는 방법.
제 22 항에 있어서,

상기 특징 추출 데이터를 식별하는 단계는 상기 음성 신호의 세그먼트들에 대응하는 한 세트의 특징들을 추출하는 단계를 포함하는, 음성 데이터를 원격 장치에 송신하는 방법.
제 22 항에 있어서,

상기 추출하는 단계 및 상기 식별하는 단계는 가입자 장치에서 수행되는, 음성 데이터를 원격 장치에 송신하는 방법.
제 24 항에 있어서,

상기 선택적으로 정보를 송신하는 단계는, 상기 가입자 장치가 침묵 세그먼트를 제거하는 단계 및 침묵이 제거된 음성 세그먼트를 상기 원격 장치에 제공하는 단계를 포함하는, 음성 데이터를 원격 장치에 송신하는 방법.
제 24 항에 있어서,

상기 선택적으로 정보를 송신하는 단계는,

상기 가입자 장치가 침묵을 포함하는 모든 음성을 상기 원격 장치에 송신하는 단계;

상기 가입자 장치가 하나 이상의 침묵 영역이 존재하는 곳에 대한 하나 이상의 지시자를 송신하는 단계; 및

상기 원격 장치가 침묵으로부터 음성 세그먼트들을 분리하여 그 음성 세그먼트들을 이용하는 단계를 포함하는, 음성 데이터를 원격 장치에 송신하는 방법.
제 26 항에 있어서,

상기 하나 이상의 지시자는 음성 송신 채널과는 별개의 채널을 통해 송신되는, 음성 데이터를 원격 장치에 송신하는 방법.
제 22 항에 있어서,

상기 특징 추출 데이터의 식별과 실질적으로 병렬로 음성 활성 데이터를 추출하는 단계를 더 포함하는, 음성 데이터를 원격 장치에 송신하는 방법.
제 28 항에 있어서,

상기 추출하는 단계와 식별하는 단계가 침묵 영역을 지시할 경우, 음성 활성 데이터는 낮은 레이트에서 고수준 전단 데이터로 양자화되는, 음성 데이터를 원격 장치에 송신하는 방법.
제 28 항에 있어서,

상기 음성 활성을 검출하는 단계는 음성 활성 벡터를 결정하는 단계를 포함하고,

상기 특징을 추출하는 단계는 특징 벡터를 결정하는 단계를 포함하며,

상기 방법은,

상기 음성 활성 벡터와 상기 특징 벡터를 연관시켜 확장된 특징들을 프로세싱하고 결정하는 단계를 더 포함하는, 음성 데이터를 원격 장치에 송신하는 방법.
제 22 항에 있어서,

특징 세그먼트를 추출하는 단계는 특징 벡터를 결정하는 단계를 포함하는, 음성 데이터를 원격 장치에 송신하는 방법.
제 31 항에 있어서,

상기 결정하는 단계는,

음성 활성을 검출하고, 음성 활성의 검출시에, 누락된 프레임에 대응하는 평균 특징 벡터를 계산하는 단계; 및

음성 프레임을 송신하기 전에, 누락된 프레임의 총 수를 송신하는 단계를 포함하는, 음성 데이터를 원격 장치에 송신하는 방법.