KR20140021680A

KR20140021680A - 노이즈에 강인한 스피치 코딩 모드 분류

Info

Publication number: KR20140021680A
Application number: KR1020137033796A
Authority: KR
Inventors: 에단 로버트 두니; 비베크 라젠드란
Original assignee: 퀄컴 인코포레이티드
Priority date: 2011-05-24
Filing date: 2012-04-12
Publication date: 2014-02-20
Also published as: CN103548081A; TWI562136B; KR101617508B1; EP2715723A1; CA2835960A1; US20120303362A1; RU2013157194A; BR112013030117A2; JP5813864B2; RU2584461C2; JP2014517938A; CA2835960C; BR112013030117B1; CN103548081B; US8990074B2; WO2012161881A1; TW201248618A

Abstract

노이즈에 강인한 스피치 분류의 방법이 개시된다. 외부 컴포넌트들로부터 스피치 분류기에 분류 파라미터들이 입력된다. 스피치 분류기에서, 입력 파라미터들 중 적어도 하나로부터 내부 분류 파라미터들이 발생된다. 정규화된 자기-상관 계수 함수 임계값이 설정된다. 신호 환경에 따라 파라미터 분석기가 선택된다. 입력 스피치의 다수의 프레임들의 노이즈 추정치에 기초하여 스피치 모드 분류가 결정된다.

Description

노이즈에 강인한 스피치 코딩 모드 분류{NOISE-ROBUST SPEECH CODING MODE CLASSIFICATION}

관련 출원들

본 출원은 "Noise-Robust Speech Coding Mode Classification" 명칭으로 2011년 5월 24일자로 출원된 미국 가특허출원 제61/489,629호와 관련되며, 이로부터 우선권을 주장한다.

기술 분야

본 개시물은 일반적으로 스피치 프로세싱의 분야에 관한 것이다. 보다 구체적으로, 개시된 구성들은 노이즈에 강인한 스피치 코딩 모드 분류에 관한 것이다.

디지털 기법들에 의한 음성의 송신은 특히 장거리 및 디지털 무선 전화기 애플리케이션들에서 널리 퍼져 있다. 이것은 결국 재구성된 스피치의 지각된 품질을 유지하면서 채널을 통해 전송될 수 있는 최소 양의 정보의 결정에 관심을 불러일으켰다. 스피치가 단순히 샘플링 및 디지털화함으로써 송신된다면, 종래의 아날로그 전화기의 스피치 품질을 달성하기 위해서는 초당 64 킬로비트 (kbps) 정도의 데이터 레이트가 요구된다. 그러나, 적절한 코딩, 송신, 및 수신기에서의 재합성이 후속되는, 스피치 분석의 이용을 통하여, 데이터 레이트의 상당한 감소가 달성될 수 있다. 스피치 분석이 더 정확히 수행되는 것이 가능할수록, 데이터가 더 적절히 인코딩될 수 있어, 데이터 레이트가 감소될 수 있다.

인간 스피치 발생의 모델에 관한 파라미터들을 추출함으로써 스피치를 압축하기 위한 기법들을 채용하는 디바이스들은 스피치 코더들이라 불린다. 스피치 코더는 인입 스피치 신호를 시간의 블록들, 또는 분석 프레임들로 분할한다. 스피치 코더들은 통상 인코더 및 디코더, 또는 코덱을 포함한다. 인코더는 인입 스피치 프레임을 분석하여 소정의 관련 파라미터들을 추출한 후, 파라미터들을 이진 표현, 즉, 비트들의 세트 또는 이진 데이터 패킷으로 양자화한다. 그 데이터 패킷들은 통신 채널을 통해 수신기 및 디코더에 송신된다. 디코더는 데이터 패킷들을 프로세싱하고, 그들을 역양자화하여 파라미터들을 생성한 후, 역양자화된 파라미터들을 이용하여 스피치 프레임들을 재합성한다.

최신 스피치 코더들은 입력 스피치의 다양한 특징들에 따라, 입력 프레임들을 상이한 타입들로 분류하는 멀티-모드 코딩 접근법을 이용할 수도 있다. 멀티-모드 가변 비트 레이트 인코더들은 프레임당 최소 수의 비트들을 이용하여 높은 비율의 스피치 세그먼트들을 정확히 캡처 및 인코딩하기 위해 스피치 분류를 이용한다. 더 정확한 스피치 분류는 더 낮은 평균 인코딩된 비트 레이트, 및 더 높은 품질 디코딩된 스피치를 생성한다. 이전에는, 스피치 분류 기법들은 단지 스피치의 분리된 프레임들에 대해 최소 수의 파라미터들을 고려하여, 적고 부정확한 스피치 모드 분류들을 생성하였다. 따라서, 고성능 스피치 분류기가 멀티-모드 가변 비트 레이트 인코딩 기법들의 최대 성능을 가능하게 하기 위하여 가변하는 환경적 조건들 하에서 스피치의 다수의 모드들을 정확히 분류할 필요가 있다.

도 1 은 무선 통신용 시스템을 예시하는 블록도이다.
도 2a 는 노이즈에 강인한 스피치 코딩 모드 분류를 이용할 수도 있는 분류기 시스템을 예시하는 블록도이다.
도 2b 는 노이즈에 강인한 스피치 코딩 모드 분류를 이용할 수도 있는 다른 분류기 시스템을 예시하는 블록도이다.
도 3 은 노이즈에 강인한 스피치 분류의 방법을 예시하는 플로우 차트이다.
도 4a 내지 도 4c 는 노이즈에 강인한 스피치 분류를 위한 모드 의사 결정 프로세스의 구성들을 예시한다.
도 5 는 스피치를 분류하기 위한 임계값들을 조정하는 방법을 예시하는 플로우도이다.
도 6 은 노이즈에 강인한 스피치 분류를 위한 스피치 분류기를 예시하는 블록도이다.
도 7 은 연관된 파라미터 값들 및 스피치 모드 분류들과 함께 수신된 스피치 신호의 하나의 구성을 예시하는 타임라인 그래프이다.
도 8 은 전자 디바이스/무선 디바이스 내에 포함될 수도 있는 소정의 컴포넌트들을 예시한다.

스피치 코더의 기능은 스피치에 내재하는 자연 발생적인 리던던시 (redundancy) 들 모두를 제거함으로써 디지털화된 스피치 신호를 낮은 비트 레이트 (low-bit-rate) 신호로 압축하는 것이다. 디지털 압축은 입력 스피치 프레임을 파라미터들의 세트로 표현하고, 양자화를 채용하여 그 파라미터들을 비트들의 세트로 표현함으로써 달성된다. 입력 스피치 프레임이 다수의 비트들 (Ni) 을 갖고 스피치 코더에 의해 생성된 데이터 패킷이 다수의 비트들 (No) 을 갖는다면, 스피치 코더에 의해 달성된 압축 팩터는 Cr = Ni/No 이다. 도전과제는 타겟 압축 팩터를 달성하면서 디코딩된 스피치의 높은 음성 품질을 유지하는 것이다. 스피치 코더의 성능은 (1) 스피치 모델, 또는 상기 설명된 분석 및 합성 프로세스의 조합이 얼마나 잘 수행되는지, 그리고 (2) 파라미터 양자화 프로세스가 프레임당 No 비트들의 타겟 비트 레이트에서 얼마나 잘 수행되는지에 의존한다. 따라서, 스피치 모델의 목표는 각각의 프레임에 대해 작은 세트의 파라미터들을 이용하여, 스피치 신호의 본질, 또는 타겟 음성 품질을 캡처하는 것이다.

스피치 코더들은 시간-도메인 코더들로서 구현될 수도 있으며, 이 시간-도메인 코더들은 높은 시간-레졸루션 프로세싱을 채용하여 한번에 작은 세그먼트들의 스피치 (통상 5 밀리초 (ms) 서브-프레임들) 를 인코딩함으로써 시간-도메인 스피치 파형을 캡쳐하려고 시도한다. 각각의 서브-프레임에 대해, 코드북 공간 (codebook space) 으로부터의 고정밀 (high-precision) 표본이 다양한 검색 알고리즘들에 의해 발견된다. 대안적으로, 스피치 코더들은 주파수-도메인 코더들로서 구현될 수도 있으며, 이 주파수-도메인 코더들은 입력 스피치 프레임의 단기 (short-term) 스피치 스펙트럼을 파라미터들의 세트로 캡처 (분석) 하고 대응하는 합성 프로세스를 채용하여 스펙트럼 파라미터들로부터 스피치 파형을 재생하려고 시도한다. 파라미터 양자화기는 A. Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992) 에 기재되어 있는 양자화 기법들에 따라 파라미터들을 코드 벡터들의 저장된 표현들로 표현함으로써 그 파라미터들을 보존한다.

하나의 가능한 시간-도메인 스피치 코더는 L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396 ~ 453 (1978) 에 기재되어 있는 코드 여기 선형 예측 (Code Excited Linear Predictive; CELP) 코더이며, 이는 여기에 참조로 완전히 포함된다. CELP 코더에서, 스피치 신호 내의 단기 상관들, 또는 리던던시들은 단기 포먼트 필터 (short-term formant filter) 의 계수들을 발견하는 선형 예측 (linear prediction; LP) 분석에 의해 제거된다. 단기 예측 필터를 인입 스피치 프레임에 적용하는 것은 LP 잔여 신호 (residue signal) 를 발생시키며, LP 잔여 신호는 또한 장기 (long-term) 예측 필터 파라미터들 및 후속의 확률적 코드북 (stochastic codebook) 을 이용하여 모델링 및 양자화된다. 따라서, CELP 코딩은 시간-도메인 스피치 파형을 인코딩하는 태스크를 LP 단기 필터 계수들을 인코딩하고 LP 잔여물을 인코딩하는 개별의 태스크들로 분할한다. 시간-도메인 코딩은 고정된 레이트에서 (즉, 각각의 프레임에 대해 동일한 수의 비트들 (N0) 을 이용하여) 또는 가변 레이트에서 (여기서 상이한 비트 레이트들은 상이한 타입들의 프레임 콘텐츠들에 대해 이용된다) 수행될 수 있다. 가변 레이트 코더들은 단지 타겟 품질을 획득하는데 충분한 레벨로 코덱 파라미터들을 인코딩하는데 필요한 비트들의 양만을 이용하려고 시도한다. 하나의 가능한 가변 레이트 CELP 코더는 미국 특허 제5,414,796호에 기재되어 있으며, 이는 현재 개시된 구성들의 양수인에게 양도되며 여기에 참조로 완전히 포함된다.

CELP 코더와 같은 시간-도메인 코더들은 통상 시간-도메인 스피치 파형의 정확성을 보존하기 위해 프레임당 높은 수의 비트들 (N0) 에 의존한다. 이러한 코더들은 통상 프레임당 비트들의 수 (N0) 가 비교적 크다 (예를 들어, 8kbps 또는 그 이상) 면 훌륭한 음성 품질을 전달한다. 그러나, 낮은 비트 레이트들 (4kbps 및 그 이하) 에서, 시간-도메인 코더들은 제한된 수의 이용가능한 비트들로 인해 높은 품질 및 강인한 성능을 유지하지 못한다. 낮은 비트 레이트들에서는, 제한된 코드북 공간이 종래의 시간-도메인 코더들의 파형-매칭 능력을 제한 (clip) 하며, 이는 더 높은 레이트 상업용 애플리케이션들에서 매우 성공적으로 전개된다.

통상, CELP 방식들은 단기 예측 (short term prediction; STP) 필터 및 장기 예측 (long term prediction; LTP) 필터를 채용한다. 합성에 의한 분석 (Analysis by Synthesis; AbS) 접근법이 LTP 지연들 및 이득들은 물론 최선의 확률적 코드북 이득들 및 인덱스들을 발견하기 위해 인코더에서 채용된다. 강화된 가변 레이트 코더 (Enhanced Variable Rate Coder; EVRC) 와 같은 현재 최신식 CELP 코더들은 대략 초당 8 킬로비트들의 데이터 레이트에서 양호한 품질 합성된 스피치를 얻을 수 있다.

더욱이, 무성음 (unvoiced) 스피치는 주기성을 보이지 않는다. 종래의 CELP 방식들에서 LTP 필터의 인코딩하여 소비된 대역폭은, 스피치의 주기성이 강하고 LTP 필터링이 중요한 유성음 (voiced) 스피치에 대해서 만큼 무성음 스피치에 대해서는 효율적으로 이용되지 않는다. 따라서, 더 효율적인 (즉, 더 낮은 비트 레이트) 코딩 방식이 무성음 스피치에 대해 바람직하다. 정확한 스피치 분류가 가장 효율적인 코딩 방식들을 선택하고 가장 낮은 데이터 레이트를 달성하는데 필요하다.

더 낮은 비트 레이트들에서 코딩하기 위해, 스피치의 스펙트럼, 또는 주파수-도메인 코딩의 다양한 방법들이 개발되었으며, 여기서 스피치 신호는 스펙트럼들의 시변 에볼루션 (time-varying evolution) 으로서 분석된다. 예를 들어, R.J. McAulay & T.F. Quatieri, Sinusoidal Coding, in Speech Coding and Synthesis ch. 4 (W.B. Kleijn & K.K. Paliwal eds., 1995) 를 참조한다. 스펙트럼 코더들에서, 목적은 시변 스피치 파형을 정확히 모방하기보다는, 스피치의 각각의 입력 프레임의 단기 스피치 스펙트럼을 스펙트럼 파라미터들의 세트로 모델링, 또는 예측하는 것이다. 스펙트럼 파라미터들은 그 후 인코딩되며, 스피치의 출력 프레임이 디코딩된 파라미터들로 생성된다. 결과의 합성된 스피치는 오리지널 입력 스피치 파형에 매칭하지 않고 유사한 지각된 품질을 제공한다. 주파수-도메인 코더들의 예들은 멀티대역 여기 코더 (multiband excitation coder; MBE) 들, 사인곡선 변환 코더 (sinusoidal transform coder; STC) 들, 및 고조파 코더 (harmonic coder; HC) 들을 포함한다. 이러한 주파수-도메인 코더들은 낮은 비트 레이트들에서 이용가능한 낮은 수의 비트들로 정확히 양자화될 수 있는 파라미터들의 콤팩트한 세트를 갖는 고품질 파라메트릭 모델을 제공한다.

그럼에도 불구하고, 낮은 비트 레이트 코딩은 단일 코딩 메커니즘의 효과성을 제한하는, 제한된 코딩 레졸루션, 또는 제한된 코드북 공간의 결정적 제약을 부과하여, 코더가 동일한 정확성을 가진 다양한 백그라운드 조건들 하에서 다양한 타입들의 스피치 세그먼트들을 표현할 수 없게 만든다. 예를 들어, 종래의 낮은 비트 레이트, 주파수-도메인 코더들은 스피치 프레임들에 대한 위상 정보를 송신하지 않는다. 그 대신에, 위상 정보는 랜덤, 인위적으로 발생된, 초기 위상 값 및 선형 보간 기법들을 이용함으로써 재구성된다. 예를 들어, H. Yang et al., Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model, in 29 Electronic Letters 856-57 (1993년 5월) 을 참조한다. 위상 정보는 인위적으로 발생되기 때문에, 사인곡선 (sinusoid) 들의 진폭들이 양자화-역양자화 프로세스에 의해 완벽히 보존되는 경우라도, 주파수-도메인 코더에 의해 생성된 출력 스피치는 오리지널 입력 스피치와 정렬되지 않을 것이다 (즉, 주된 펄스들은 동기화되지 않을 것이다). 따라서, 주파수-도메인 코더들에서, 예를 들어, 신호 대 노이즈비 (signal-to-noise ratio; SNR) 또는 지각적 (perceptual) SNR 과 같은 임의의 폐루프 (closed-loop) 성능 측정을 채택하기 어렵다는 것이 입증되었다.

낮은 비트 레이트에서 효율적으로 스피치를 인코딩하기 위한 하나의 효과적인 기법은 멀티-모드 코딩이다. 멀티-모드 코딩 기법들은 개루프 모드 결정 프로세스와 함께 낮은 레이트 스피치 코딩을 수행하기 위해 채용되어 왔다. 하나의 이러한 멀티-모드 코딩 기법은 Amitava Das et al., Multi-mode and Variable-Rate Coding of Speech, in Speech Coding and Synthesis ch. 7 (W.B. Kleijn & K.K. Paliwal eds., 1995) 에 기재되어 있다. 종래의 멀티-모드 코더들은 상이한 모드들, 또는 인코딩-디코딩 알고리즘들을 상이한 타입들의 입력 스피치 프레임들에 적용한다. 각각의 모드, 또는 인코딩-디코딩 프로세스는 가장 효율적인 방식으로 예를 들어 유성음 스피치, 무성음 스피치, 또는 백그라운드 노이즈 (넌-스피치) 와 같은 소정 타입의 스피치 세그먼트를 표현하기 위해 커스텀화된다. 이러한 멀티-모드 코딩 기법들의 성공은 정확한 모드 결정들, 또는 스피치 분류들에 매우 의존한다. 외부, 개루프 모드 결정 메커니즘은 입력 스피치 프레임을 검사하고 어느 모드를 프레임에 적용할지에 관하여 결정한다. 개루프 모드 결정은 통상 입력 프레임으로부터 다수의 파라미터들을 추출하고, 그 파라미터들을 소정의 시간 및 스펙트럼 특성들에 대해 평가하며, 그 평가 시에 모드 결정을 기반으로 함으로써 수행된다. 따라서, 그 모드 결정은 사전에 출력 스피치의 정확한 조건, 즉 출력 스피치가 음성 품질 또는 다른 성능 측정치들의 관점에서 입력 스피치에 얼마나 밀접한지를 모르고 행해진다. 스피치 코덱에 대한 하나의 가능한 개루프 모드 결정은 미국 특허 제5,414,796호에 기재되어 있으며, 이는 본 발명의 양수인에게 양도되고 여기에 참조로 완전히 포함된다.

멀티-모드 코딩은 각각의 프레임에 대해 동일한 수의 비트들 (N0) 을 이용하여 고정된 레이트일 수 있고, 또는 상이한 비트 레이트들이 상이한 모드들에 대해 이용되는 가변 레이트일 수 있다. 가변 레이트 코딩의 목표는 단지 타겟 품질을 획득하는데 충분한 레벨로 코덱 파라미터들을 인코딩하는데 필요한 비트들의 양만을 이용하는 것이다. 그 결과, 고정된 레이트, 더 높은 레이트 코더의 것과 동일한 타겟 음성 품질이 가변 비트 레이트 (VBR) 기법들을 이용하여 상당한 더 낮은 평균 레이트에서 획득될 수 있다. 하나의 가능한 가변 레이트 스피치 코더는 미국 특허 제5,414,796호에 기재되어 있다. 중간 내지 낮은 비트 레이트들 (즉, 2.4 내지 4kbps 의 범위 및 그 이하) 에서 동작하는 고품질 스피치 코더를 개발하기 위한 연구 관심 및 강한 상업적 필요의 급증이 현재 존재한다. 애플리케이션 영역들은 무선 전화, 위성 통신들, 인터넷 전화, 다양한 멀티미디어 및 음성-스트리밍 애플리케이션들, 음성 메일, 및 다른 음성 저장 시스템들을 포함한다. 구동력들은 고용량의 필요 및 패킷 손실 상황 하에서의 강인한 성능의 요구이다. 다양한 최근의 스피치 코딩 표준화 노력들이 낮은 레이트 스피치 코딩 알고리즘들의 연구 및 개발을 추진하는 다른 직접적인 구동력이다. 낮은 레이트 스피치 코더는 허용가능한 애플리케이션 대역폭당 더 많은 채널들, 또는 사용자들을 생성한다. 적합한 채널 코딩의 추가적인 계층과 연관된 낮은 레이트 스피치 코더는 코더 사양들의 전체 비트-버짓을 피팅하고 채널 에러 조건들 하에서 강인한 성능을 전달할 수 있다.

따라서 멀티-모드 VBR 스피치 코딩은 낮은 비트 레이트에서 스피치를 인코딩하기 위한 효과적인 메커니즘이다. 종래의 멀티-모드 방식들은 스피치의 다양한 세그먼트들 (예를 들어, 무성음, 유성음, 트랜지션) 에 대한 효율적인 인코딩 방식들, 또는 모드들은 물론 백그라운드 노이즈, 또는 무음 (silence) 에 대한 모드의 설계를 요구한다. 스피치 코더의 전체 성능은 모드 분류의 강인성 및 각각의 모드를 얼마나 잘 수행하는지에 의존한다. 코더의 평균 레이트는 스피치의 무성음, 유성음, 및 다른 세그먼트들에 대한 상이한 모드들의 비트 레이트들에 의존한다. 낮은 평균 레이트에서 타겟 품질을 달성하기 위하여, 가변하는 조건들 하에서 스피치 모드를 정확히 결정할 필요가 있다. 통상, 유성음 및 무성음 스피치 세그먼트들은 높은 비트 레이트에서 캡처되고, 백그라운드 노이즈 및 무음 세그먼트들은 상당히 더 낮은 레이트에서 작동하는 모드들로 표현된다. 멀티-모드 가변 비트 레이트 인코더들은 프레임당 최소 수의 비트들을 이용하여 높은 비율의 스피치 세그먼트들을 정확히 캡처 및 인코딩하기 위해 정확한 스피치 분류를 요구한다. 더 정확한 스피치 분류는 더 낮은 평균 인코딩된 비트 레이트, 및 더 높은 품질 디코딩된 스피치를 생성한다.

즉, 소스-제어된 가변 레이트 코딩에서, 이 프레임 분류기의 성능은 입력 스피치의 특징들 (에너지, 보이싱 (voicing), 스펙트럼 틸트 (spectral tilt), 피치 콘투어 (pitch contour), 등) 에 기초하여 평균 비트 레이트를 결정한다. 스피치 분류기의 성능은, 입력 스피치가 노이즈에 의해 손상될 때 열화할 수도 있다. 이것은 품질 및 비트 레이트에 대해 바람직하지 않은 효과를 야기할 수도 있다. 따라서, 노이즈의 존재를 검출하고 분류 로직을 적절히 조정하기 위한 방법들이 실세계 유즈 케이스들에서 강인한 동작을 보장하기 위해 이용될 수도 있다. 더욱이, 스피치 분류 기법들은 이전에는 단지 스피치의 분리된 프레임들에 대해 최소 수의 파라미터들을 고려하여, 적고 부정확한 스피치 모드 분류들을 생성하였다. 따라서, 고성능 스피치 분류기가 멀티-모드 가변 비트 레이트 인코딩 기법들의 최대 성능을 가능하게 하기 위하여 가변하는 환경적 조건들 하에서 스피치의 다수의 모드들을 정확히 분류할 필요가 있다.

개시된 구성들은 보코더 애플리케이션들에서 개선된 스피치 분류를 위한 방법 및 장치를 제공한다. 분류 파라미터들은 비교적 높은 정확성으로 스피치 분류들을 생성하기 위해 분석될 수도 있다. 의사 결정 프로세스가 프레임 단위 기준으로 스피치를 분류하기 위해 이용된다. 오리지널 입력 스피치로부터 도출된 파라미터들은 상태 기반 의사 결정자에 의해 스피치의 다양한 모드들을 정확히 분류하기 위해 채용될 수도 있다. 스피치의 각각의 프레임은 현재 프레임은 물론 과거 및 미래 프레임들을 분석함으로써 분류될 수도 있다. 개시된 구성들에 의해 분류될 수 있는 스피치의 모드들은 적어도 트랜지언트, 활성 스피치로의 그리고 단어들의 말미에서의 트랜지션들, 유성음, 무성음, 및 무음을 포함한다.

분류 로직의 강인성을 보장하기 위해, 본 시스템들 및 방법들은 (통상 음성 활동 검출기와 같은 표준 업-스트림 스피치 코딩 컴포넌트들에 의해 제공되는) 백그라운드 노이즈 추정치의 멀티-프레임 측정을 이용하고 이것에 기초하여 분류 로직을 조정할 수도 있다. 대안적으로는, 2 개 이상의 프레임에 관한 정보를 포함한다면, 예를 들어, 다수의 프레임들에 대해 평균화된다면 SNR 이 분류 로직에 의해 이용될 수도 있다. 즉, 다수의 프레임들에 대해 비교적 안정된 임의의 노이즈 추정치가 분류 로직에 의해 이용될 수도 있다. 분류 로직의 조정은 스피치를 분류하는데 이용되는 하나 이상의 임계값들을 변화시키는 것을 포함할 수도 있다. 구체적으로, 프레임을 "무성음" 으로서 분류하기 위한 에너지 임계값은 ("무음" 프레임들의 높은 레벨을 반영하여) 증가될 수도 있고, 프레임을 "무성음" 으로서 분류하기 위한 보이싱 임계값은 (노이즈 하의 보이싱 정보의 손상을 반영하여) 증가될 수도 있고, 프레임을 "유성음 (voiced)" 으로서 분류하기 위한 보이싱 임계값은 (다시 보이싱 정보의 손상을 반영하여) 감소될 수도 있으며, 또는 이들의 조합을 행할 수도 있다. 어떠한 노이즈도 존재하지 않는 경우에, 분류 로직에는 어떠한 변화도 도입되지 않을 수도 있다. 높은 노이즈 (예를 들어, 20dB SNR, 통상 스피치 코덱 표준화에서 테스트된 가장 낮은 SNR) 를 가진 하나의 구성에서, 무성음 에너지 임계값은 10dB 만큼 증가될 수도 있고, 무성음 보이싱 임계값은 0.06 만큼 증가될 수도 있으며, 유성음 보이싱 임계값은 0.2 만큼 감소될 수도 있다. 이 구성에서, 중간 노이즈 케이스들은 입력 노이즈 측정치에 기초하여, "클린 (clean)" 과 "노이즈" 설정들 간에 보간하거나, 또는 일부 중간 노이즈 레벨에 대해 설정된 하드 임계값을 이용하거나 함으로써 핸들링될 수 있다.

도 1 은 무선 통신용 시스템 (100) 을 예시하는 블록도이다. 시스템 (100) 에서, 제 1 인코더 (110) 는 디지털화된 스피치 샘플들 (s_(n)) 을 수신하고, 그 샘플들 (s_(n)) 을 송신 매체 (112), 또는 통신 채널 (112) 을 통한 제 1 디코더 (114) 로의 송신을 위해 인코딩한다. 디코더 (114) 는 인코딩된 스피치 샘플들을 디코딩하고 출력 스피치 신호 (s_SYNTH _(n)) 를 합성한다. 반대 방향으로의 송신의 경우, 제 2 인코더 (116) 는 디지털화된 스피치 샘플들 (s_(n)) 을 인코딩하며, 그 디지털화된 스피치 샘플들 (s_(n)) 은 통신 채널 (118) 을 통해 송신된다. 제 2 디코더 (120) 는 인코딩된 스피치 샘플들을 수신 및 디코딩하여, 합성된 출력 스피치 신호 (s_SYNTH _(n)) 를 발생시킨다.

스피치 샘플들 (s_(n)) 은 예를 들어, 펄스 코드 변조 (pulse code modulation; PCM), 압신된 (companded) μ-법칙, 또는 A-법칙을 포함하는 다양한 방법들 중 임의의 방법에 따라 디지털화 및 양자화된 스피치 신호들을 표현한다. 하나의 구성에서, 스피치 샘플들 (s_(n)) 은 입력 데이터의 프레임들로 조직화되고, 여기서 각각의 프레임은 미리 결정된 수의 디지털화된 스피치 샘플들 (s_(n)) 을 포함한다. 하나의 구성에서, 8kHz 의 샘플링 레이트가 채용되고, 여기서 각각의 20ms 프레임은 160 개의 샘플들을 포함한다. 이하에 설명된, 그 구성들에서, 데이터 송신의 레이트는 프레임 단위 기준으로 8kbps (풀 레이트) 로부터 4kbps (1/2 레이트) 로 2kbps (1/4 레이트) 로 1kbps (1/8 레이트) 로 가변될 수도 있다. 대안적으로, 다른 데이터 레이트들이 이용될 수도 있다. 여기에 사용한 바와 같이, 용어들 "풀 레이트" 또는 "높은 레이트" 는 일반적으로 8kbps 이상인 데이터 레이트들을 지칭하고, 용어들 "1/2 레이트" 또는 "낮은 레이트" 는 일반적으로 4kbps 이하인 데이터 레이트들을 지칭한다. 데이터 송신 레이트를 가변시키는 것은 더 낮은 비트 레이트들이 비교적 적은 스피치 정보를 포함하는 프레임들에 대해 선택적으로 채용될 수도 있기 때문에 유익하다. 특정 레이트들이 여기에 설명되지만, 임의의 적합한 샘플링 레이트들, 프레임 사이즈들, 및 데이터 송신 레이트들이 본 시스템들 및 방법들과 함께 이용될 수도 있다.

제 1 인코더 (110) 및 제 2 디코더 (120) 는 함께 제 1 스피치 코더, 또는 스피치 코덱을 구성할 수도 있다. 유사하게, 제 2 인코더 (116) 및 제 1 디코더 (114) 는 함께 제 2 스피치 코더를 구성한다. 스피치 코더들은 디지털 신호 프로세서 (DSP), 주문형 집적 회로 (ASIC), 별개의 게이트 로직, 펌웨어, 또는 임의의 종래의 프로그램가능 소프트웨어 모듈 및 마이크로프로세서로 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터들, 또는 임의의 다른 형태의 기입가능한 저장 매체에 상주할 수 있다. 대안적으로, 임의의 종래의 프로세서, 제어기, 또는 상태 머신은 마이크로프로세서로 대체될 수 있다. 스피치 코딩을 위해 특별히 설계된 가능한 AISC들은 본 발명의 양수인에게 양도되고 여기에 참조로 완전히 포함된 미국 특허 제5,727,123호 및 미국 특허 제5,784,532호에 기재되어 있다.

제한 없이, 일 예로서, 스피치 코더는 무선 통신 디바이스에 상주할 수도 있다. 여기에 사용한 바와 같이, 용어 "무선 통신 디바이스" 는 무선 통신 시스템을 통한 음성 및/또는 데이터 통신을 위해 이용될 수도 있는 전자 디바이스를 지칭할 수도 있다. 무선 통신 디바이스들의 예들은 셀룰러폰들, 개인 휴대 정보 단말기 (PDA) 들, 핸드헬드 디바이스들, 무선 모뎀들, 랩톱 컴퓨터들, 개인용 컴퓨터들, 태블릿들 등을 포함한다. 무선 통신 디바이스는 대안적으로 액세스 단말기, 모바일 단말기, 이동국, 원격국, 사용자 단말기, 단말기, 가입자 유닛, 가입자국, 모바일 디바이스, 무선 디바이스, 사용자 장비 (UE) 또는 일부 다른 유사한 용어로 지칭될 수도 있다.

도 2a 는 노이즈에 강인한 (noise-robust) 스피치 코딩 모드 분류를 이용할 수도 있는 분류기 시스템 (200a) 을 예시하는 블록도이다. 도 2a 의 분류기 시스템 (200a) 은 도 1 에 예시된 인코더들에 상주할 수도 있다. 다른 구성에서, 분류기 시스템 (200a) 은 도 1 에 예시된 인코더들과 같은 디바이스들에 스피치 분류 모드 출력 (246a) 을 제공하면, 스탠드 얼론일 수도 있다.

도 2a 에서, 입력 스피치 (212a) 가 노이즈 억제기 (202) 에 제공된다. 입력 스피치 (212a) 는 음성 신호의 아날로그 투 디지털 컨버전에 의해 발생될 수도 있다. 노이즈 억제기 (202) 는 입력 스피치 (212a) 로부터의 노이즈 컴포넌트들을 필터링하여 노이즈 억제된 출력 스피치 신호 (214a) 를 생성한다. 하나의 구성에서, 도 2a 의 스피치 분류 장치는 강화된 가변 레이트 CODEC (EVRC) 을 이용할 수도 있다. 도시한 바와 같이, 이 구성은 노이즈 추정치 (216a) 및 SNR 정보 (218) 를 결정하는 내장형 노이즈 억제기 (202) 를 포함할 수도 있다.

노이즈 추정치 (216a) 및 출력 스피치 신호 (214a) 가 스피치 분류기 (210a) 에 입력될 수도 있다. 노이즈 억제기 (202) 의 출력 스피치 신호 (214a) 는 또한 음성 활동 검출기 (204a), LPC 분석기 (206a), 및 개루프 피치 추정기 (208a) 에 입력될 수도 있다. 노이즈 추정치 (216a) 는 또한 노이즈 억제기 (202) 로부터의 SNR 정보 (218) 와 함께 음성 활동 검출기 (204a) 에 공급될 수도 있다. 노이즈 추정치 (216a) 는 스피치 분류기 (210a) 에 의해, 주기성 임계값들을 설정하고 클린과 노이지 스피치 간을 구별하기 위해 이용될 수도 있다.

스피치를 분류하기 위한 하나의 가능한 방법은 SNR 정보 (218) 를 이용하는 것이다. 그러나, 본 시스템들 및 방법들의 스피치 분류기 (210a) 는 SNR 정보 (218) 대신에 노이즈 추정치 (216a) 를 이용할 수도 있다. 대안적으로, SNR 정보 (218) 는 다수의 프레임들, 예를 들어, 다수의 프레임들에 대한 SNR 정보 (218) 를 포함하는 메트릭에 걸쳐 비교적 안정된다면 이용될 수도 있다. 노이즈 추정치 (216a) 는 입력 스피치에 포함된 노이즈의 비교적 장기 표시자일 수도 있다. 노이즈 추정치 (216a) 는 이하에 ns_est 로 지칭된다. 출력 스피치 신호 (214a) 는 이하에 t_in 으로 지칭된다. 하나의 구성에서, 노이즈 억제기 (202) 가 존재하지 않거나, 또는 턴 오프된다면, 노이즈 추정치 (216a) (ns_est) 는 디폴트 값으로 사전-설정될 수도 있다.

SNR 정보 (218) 를 이용하는 대신에 노이즈 추정치 (216a) 를 이용하는 하나의 이점은, 노이즈 추정치가 프레임 단위 기준으로 비교적 고정적일 수도 있다는 것이다. 노이즈 추정치 (216a) 는 단지 백그라운드 노이즈 레벨을 추정한 것이며, 그 백그라운드 노이즈 레벨은 장기간 동안 비교적 일정한 경향이 있다. 하나의 구성에서, 노이즈 추정치 (216a) 는 특정 프레임에 대한 SNR 정보 (218) 를 결정하기 위해 이용될 수도 있다. 그에 반해서, SNR 정보 (218) 는 순시 음성 에너지에 의존하여 비교적 큰 스윙들을 포함할 수도 있는 프레임 단위 측정치일 수도 있으며, 예를 들어, SNR 은 무음 프레임들과 활성 스피치 프레임들 간에 많은 dB 만큼 스윙할 수도 있다. 따라서, SNR 정보 (218) 가 분류를 위해 이용된다면, 입력 스피치 (212a) 의 2 개 이상의 프레임에 대해 평균화될 수도 있다. 노이즈 추정치 (216a) 의 상대적 안정성은 단순히 소음이 없는 프레임들로부터 높은 노이즈 상황들을 구별하는데 있어서 유용할 수도 있다. 노이즈가 없어도, SNR 정보 (218) 는 화자가 말하고 있지 않은 프레임들에서 여전히 매우 낮을 수도 있고, 그래서 SNR 정보 (218) 를 이용하는 모드 결정 로직이 그 프레임들에서 활성화될 수도 있다. 노이즈 추정치 (216a) 는 주변 노이즈 조건들이 변화하지 않으면 비교적 일정할 수도 있어, 이슈를 회피할 수도 있다.

음성 활동 검출기 (204a) 는 현재 스피치 프레임에 대한 음성 활동 정보 (220a) 를 즉 출력 스피치 (214a), 노이즈 추정치 (216a) 및 SNR 정보 (218) 에 기초하여 스피치 분류기 (210a) 로 출력할 수도 있다. 출력된 음성 활동 정보 (220a) 는 현재 스피치가 활성인지 또는 비활성인지를 표시한다. 하나의 구성에서, 출력된 음성 활동 정보 (220a) 는 이진, 즉, 활성 또는 비활성일 수도 있다. 다른 구성에서, 출력된 음성 활동 정보 (220a) 는 다중값 (multi-valued) 일 수도 있다. 음성 활동 정보 파라미터 (220a) 는 여기서 vad 로 지칭된다.

LPC 분석기 (206a) 는 현재 출력 스피치에 대한 LPC 반사 계수들 (222a) 을 스피치 분류기 (210a) 로 출력한다. LPC 분석기 (206a) 는 또한 LPC 계수들 (미도시) 과 같은 다른 파라미터들을 출력할 수도 있다. LPC 반사 계수 파라미터 (222a) 는 여기서 refl 로 지칭된다.

개루프 피치 추정기 (208a) 는 NACF (Normalized Auto-correlation Coefficient Function) 값 (224a), 피치 부근의 NACF (NACF around pitch) 값들 (226a) 을 스피치 분류기 (210a) 로 출력한다. NACF 파라미터 (224a) 는 이하에 nacf 로 지칭되고, 피치 부근의 NACF 파라미터 (226a) 는 이하에 nacf_at_pitch 로 지칭된다. 더 주기적인 스피치 신호가 더 높은 값의 nacf_at_pitch (226a) 를 생성한다. 더 높은 값의 nacf_at_pitch (226a) 는 변하지 않는 음성 출력 스피치 타입과 연관될 가능성이 더 크다. 스피치 분류기 (210a) 는 서브-프레임 기준으로 컴퓨팅될 수도 있는 nacf_at_pitch 값들 (226a) 의 어레이를 유지한다. 하나의 구성에서, 2 개의 개루프 피치 추정치들은 프레임당 2 개의 서브-프레임들을 측정함으로써 출력 스피치 (214a) 의 각각의 프레임에 대해 측정된다. 피치 부근의 NACF (nacf_at_pitch) (226a) 는 각각의 서브-프레임에 대한 개루프 피치 추정치로부터 컴퓨팅될 수도 있다. 하나의 구성에서, nacf_at_pitch 값들 (226a) 의 5 차원 어레이 (즉, nacf_at_pitch[4]) 는 출력 스피치 (214a) 의 2 와 1/2 프레임들에 대한 값들을 포함한다. nacf_at_pitch 어레이는 출력 스피치 (214a) 의 각각의 프레임에 대해 업데이트된다. nacf_at_pitch 파라미터 (226a) 에 대한 어레이의 이용은 스피치 분류기 (210a) 에, 현재, 과거, 및 룩 어헤드 (look ahead) (미래) 신호 정보를 이용하여 더 정확하고 노이즈에 강인한 스피치 모드 결정들을 행하는 능력을 제공한다.

외부 컴포넌트들로부터의 스피치 분류기 (210a) 로의 정보 입력에 더하여, 스피치 분류기 (210a) 는 스피치 모드 의사 결정 프로세스에서 이용하기 위해 출력 스피치 (214a) 로부터의 도출된 파라미터들 (282a) 을 내부적으로 발생시킨다.

하나의 구성에서, 스피치 분류기 (210a) 는 이하에 zcr 로 지칭되는, 제로 크로싱 레이트 파라미터 (228a) 를 내부적으로 발생시킨다. 현재 출력 스피치 (214a) 의 zcr 파라미터 (228a) 는 스피치의 프레임당 스피치 신호 내의 사인 (sign) 변화들의 수로서 정의된다. 유성음 스피치에서, zcr 값 (228a) 은 낮은 한편, 무성음 스피치 (또는 노이즈) 는 신호가 매우 랜덤이기 때문에 높은 zcr 값 (228a) 을 갖는다. zcr 파라미터 (228a) 는 스피치 분류기 (210a) 에 의해 유성음 및 무성음 스피치를 분류하기 위해 이용된다.

하나의 구성에서, 스피치 분류기 (210a) 는 이하에 E 로 지칭되는, 현재 프레임 에너지 파라미터 (230a) 를 내부적으로 발생시킨다. E (230a) 는 스피치 분류기 (210a) 에 의해 현재 프레임의 에너지를 과거 및 미래 프레임들의 에너지와 비교함으로써 트랜지언트 스피치를 식별하기 위해 이용될 수도 있다. 파라미터 vEprev 는 E (230a) 로부터 도출된 이전 프레임 에너지이다.

하나의 구성에서, 스피치 분류기 (210a) 는 이하에 Enext 로 지칭되는, 룩 어헤드 프레임 에너지 파라미터 (232a) 를 내부적으로 발생시킨다. Enext (232a) 는 현재 프레임의 일부 및 출력 스피치의 다음 프레임의 일부로부터의 에너지 값들을 포함할 수도 있다. 하나의 구성에서, Enext (232a) 는 현재 프레임의 제 2 절반의 에너지 및 출력 스피치의 다음 프레임의 제 1 절반의 에너지를 표현한다. Enext (232a) 는 스피치 분류기 (210a) 에 의해 트랜지셔널 (transitional) 스피치를 식별하기 위해 이용된다. 스피치의 마지막에, 다음 프레임의 에너지 (232a) 는 현재 프레임의 에너지 (230a) 와 비교하여 급격히 강하한다. 스피치 분류기 (210a) 는 현재 프레임의 에너지 (230a) 와 다음 프레임의 에너지 (232a) 를 비교하여 스피치의 마지막과 스피치의 시작 조건들, 또는 업 트랜지언트 및 다운 트랜지언트 스피치 모드들을 식별할 수 있다.

하나의 구성에서, 스피치 분류기 (210a) 는 log2(EL/EH) 로서 정의되는, 대역 에너지 비율 파라미터 (234a) 를 내부적으로 발생시키며, 여기서 EL 은 0 내지 2kHz 의 저대역 현재 프레임 에너지이고, EH 는 2kHz 내지 4kHz 의 고대역 현재 프레임 에너지이다. 대역 에너지 비율 파라미터 (234a) 는 이하에 bER 로 지칭된다. bER (234a) 파라미터는 일반적으로, 유성음 스피치가 저대역에 에너지를 집중시키는 한편, 노이지 무성음 스피치가 고대역에 에너지를 집중시키기 때문에, 스피치 분류기 (210a) 가 유성음 스피치 및 무성음 스피치 모드들을 식별하는 것을 허용한다.

하나의 구성에서, 스피치 분류기 (210a) 는 이하에 vEav 로 지칭되는, 출력 스피치 (214a) 로부터 3-프레임 평균 유성음 에너지 파라미터 (236a) 를 내부적으로 발생시킨다. 다른 구성들에서, vEav (236a) 는 3 개가 아닌 다수의 프레임들에 대해 평균화될 수도 있다. 현재 스피치 모드가 활성이고 유성음이라면, vEav (236a) 는 출력 스피치의 마지막 3 개의 프레임들의 에너지의 러닝 평균을 계산한다. 출력 스피치의 마지막 3 개의 프레임들의 에너지를 평균화하는 것은 스피치 분류기 (210a) 에 단일 프레임 에너지 계산들 단독보다는 스피치 모드 결정들을 기반으로 할 더 안정된 통계치들을 제공한다. vEav (236a) 는 스피치 중단 시, 현재 프레임 에너지 (230a) (E) 가 평균 유성음 에너지 (236a) (vEav) 와 비교하여 급격히 강하될 것이기 때문에 스피치 분류기 (210a) 에 의해 음성 스피치의 마지막, 또는 다운 트랜지언트 모드를 분류하기 위해 이용된다. vEav (236a) 는 현재 프레임이 유성음인 경우에만 업데이트되거나, 또는 무성음 또는 비활성 스피치에 대해 고정된 값으로 재설정된다. 하나의 구성에서, 고정된 리셋 값은 .01 이다.

하나의 구성에서, 스피치 분류기 (210a) 는 이하에 vEprev 로 지칭되는, 이전 3 프레임 평균 유성음 에너지 파라미터 (238a) 를 내부적으로 발생시킨다. 다른 구성들에서, vEprev (238a) 는 3 개가 아닌 다수의 프레임들에 대해 평균화될 수도 있다. vEprev (238a) 는 스피치 분류기 (210a) 에 의해 트랜지셔널 스피치를 식별하기 위해 이용된다. 스피치의 시작에, 현재 프레임의 에너지 (230a) 는 이전 3 유성음 프레임들의 평균 에너지 (238a) 와 비교하여 급격히 상승한다. 스피치 분류기 (210) 는 현재 프레임의 에너지 (230a) 와 이전 3 프레임들의 에너지 (238a) 를 비교하여 스피치의 시작 조건들, 또는 업 트랜지언트 및 스피치 모드들을 식별할 수 있다. 유사하게는, 유성음 스피치의 마지막에, 현재 프레임의 에너지 (230a) 는 급격히 줄어든다. 따라서, vEprev (238a) 는 또한 스피치의 마지막에서의 트랜지션을 분류하기 위해 이용될 수도 있다.

하나의 구성에서, 스피치 분류기 (210a) 는 10*log10(E/vEprev) 로서 정의되는, 현재 프레임 에너지 대 이전 3-프레임 평균 유성음 에너지 비율 파라미터 (240a) 를 내부적으로 발생시킨다. 다른 구성들에서, vEprev (238a) 는 3 개가 아닌 다수의 프레임들에 대해 평균화될 수도 있다. 현재 에너지 대 이전 3-프레임 평균 유성음 에너지 비율 파라미터 (240a) 는 이하에 vER 로 지칭된다. vER (240a) 은 vER (240a) 이 스피치가 다시 시작되었을 때 크고 유성음 스피치의 마지막에 작기 때문에, 스피치 분류기 (210a) 에 의해 유성음 스피치의 시작과 유성음 스피치의 마지막, 또는 업 트랜지언트 모드 및 다운 트랜지언트 모드를 분류하기 위해 이용된다. vER (240a) 파라미터는 트랜지언트 스피치를 분류하는데 있어서 vEprev (238a) 파라미터와 함께 이용될 수도 있다.

하나의 구성에서, 스피치 분류기 (210a) 는 MIN(20,10*log10(E/vEav)) 로서 정의되는, 현재 프레임 에너지 대 3-프레임 평균 유성음 에너지 파라미터 (242a) 를 내부적으로 발생시킨다. 현재 프레임 에너지 대 3-프레임 평균 유성음 에너지 (242a) 는 이하에 vER2 로 지칭된다. vER2 (242a) 는 스피치 분류기 (210a) 에 의해 유성음 스피치의 마지막에서의 트랜지언트 음성 모드들을 분류하기 위해 이용된다.

하나의 구성에서, 스피치 분류기 (210a) 는 최대 서브-프레임 에너지 인덱스 파라미터 (244a) 를 내부적으로 발생시킨다. 스피치 분류기 (210a) 는 출력 스피치 (214a) 의 현재 프레임을 서브-프레임들로 균일하게 분할하고, 각각의 서브-프레임의 제곱 평균 (Root Means Squared; RMS) 에너지 값을 컴퓨팅한다. 하나의 구성에서, 현재 프레임은 10 개의 서브-프레임들로 분할된다. 최대 서브-프레임 에너지 인덱스 파라미터는 현재 프레임의, 또는 현재 프레임의 제 2 절반의 가장 큰 RMS 에너지 값을 갖는 서브-프레임에 대한 인덱스이다. 최대 서브-프레임 에너지 인덱스 파라미터 (244a) 는 이하에 maxsfe_idx 로 지칭된다. 현재 프레임을 서브-프레임들로 분할하는 것은 프레임 내의, 가장 큰 피크 에너지의 로케이션을 포함하여, 피크 에너지의 로케이션들에 관한 정보를 스피치 분류기 (210a) 에 제공한다. 프레임을 더 많은 서브-프레임들로 분할함으로써 더 큰 레졸루션이 달성된다. maxsfe_idx 파라미터 (244a) 는 에너지가 트랜지언트 스피치 모드에서 픽업 또는 테이퍼 오프되는 동안, 무성음 또는 무음 스피치 모드들의 에너지들이 일반적으로 안정되기 때문에, 스피치 분류기 (210a) 에 의해 트랜지언트 스피치 모드들을 분류하기 위해 다른 파라미터들과 함께 이용된다.

스피치 분류기 (210a) 는 인코딩 컴포넌트들로부터 직접 입력된 파라미터들, 및 내부적으로 발생된 파라미터들을 이용하여 이전에 가능한 것보다 더 정확히 그리고 강인하게 스피치의 모드들을 분류할 수도 있다. 스피치 분류기 (210a) 는 직접 입력되고 내부적으로 발생된 파라미터들에 의사 결정 프로세스를 적용하여 개선된 스피치 분류 결과들을 생성할 수도 있다. 의사 결정 프로세스는 도 4a 내지 도 4c 및 표 4 내지 표 6 을 참조하여 이하 더 상세히 설명된다.

하나의 구성에서, 스피치 분류기 (210a) 에 의해 출력된 스피치 모드들은 : 트랜지언트, 업-트랜지언트, 다운-트랜지언트, 유성음, 무성음, 및 무음 모드들을 포함한다. 트랜지언트 모드는 풀 레이트 CELP 에 의해 최적으로 인코딩된, 유성음이지만 덜 주기적인 스피치이다. 업-트랜지언트 모드는 풀 레이트 CELP 에 의해 최적으로 인코딩된, 활성 스피치 내의 제 1 유성음 프레임이다. 다운-트랜지언트 모드는 1/2 레이트 CELP 에 의해 최적으로 인코딩된, 통상 단어의 말미의 낮은 에너지 유성음 스피치이다. 유성음 모드는 주로 모음들을 포함하여, 매우 주기적인 유성음 스피치이다. 유성음 모드 스피치는 풀 레이트, 1/2 레이트, 1/4 레이트, 또는 1/8 레이트로 인코딩될 수도 있다. 유성음 모드 스피치를 인코딩하기 위한 데이터 레이트는 평균 데이터 레이트 (Average Data Rate; ADR) 요건들을 충족하기 위해 선택된다. 무성음 모드는, 주로 자음들을 포함하여, 1/4 레이트 노이즈 여기 선형 예측 (Noise Excited Linear Prediction; NELP) 에 의해 최적으로 인코딩된다. 무음 모드는 1/8 레이트 CELP 에 의해 최적으로 인코딩된, 비활성 스피치이다.

적합한 파라미터들 및 스피치 모드들이 개시된 구성들의 특정 파라미터들 및 스피치 모드들에 제한되지는 않는다. 추가적인 파라미터들 및 스피치 모드들이 개시된 구성들의 범위로부터 벗어남 없이 채용될 수 있다.

도 2b 는 노이즈에 강인한 스피치 코딩 모드 분류를 이용할 수도 있는 다른 분류기 시스템 (200b) 을 예시하는 블록도이다. 도 2b 의 분류기 시스템 (200b) 은 도 1 에 예시된 인코더들에 상주할 수도 있다. 다른 구성에서, 분류기 시스템 (200b) 은 도 1 에 예시된 인코더들과 같은 디바이스들에 스피치 분류 모드 출력을 제공하면, 스탠드 얼론일 수도 있다. 도 2b 에 예시된 분류기 시스템 (200b) 은 도 2a 에 예시된 분류기 시스템 (200a) 에 대응하는 엘리먼트들을 포함할 수도 있다. 구체적으로, 도 2b 에 예시된 LPC 분석기 (206b), 개루프 피치 추정기 (208b) 및 스피치 분류기 (210b) 는 각각 도 2a 에 예시된 LPC 분석기 (206a), 개루프 피치 추정기 (208a) 및 스피치 분류기 (210a) 에 대응하고 이들과 유사한 기능성을 포함할 수도 있다. 유사하게, 도 2b 의 스피치 분류기 (210b) 입력들 (음성 활동 정보 (220b), 반사 계수들 (222b), NACF (224b) 및 피치 부근의 NACF (226b)) 은 각각 도 2a 의 스피치 분류기 (210a) 입력들 (음성 활동 정보 (220a), 반사 계수들 (222a), NACF (224a) 및 피치 부근의 NACF (226a)) 에 대응할 수도 있다. 유사하게, 도 2b 의 도출된 파라미터들 (282b) (zcr (228b), E (230b), Enext (232b), bER (234b), vEav (236b), vEprev (238b), vER (240b), vER2 (242b) 및 maxsfe_idx (244b)) 은 각각 도 2a 의 도출된 파라미터들 (282a) (zcr (228a), E (230a), Enext (232a), bER (234a), vEav (236a), vEprev (238a), vER (240a), vER2 (242a) 및 maxsfe_idx (244a)) 에 대응할 수도 있다.

도 2b 에는, 노이즈 억제기가 포함되지 않는다. 하나의 구성에서, 도 2b 의 스피치 분류 장치는 강화된 음성 서비스들 (Enhanced Voice Services; EVS) CODEC 을 이용할 수도 있다. 도 2b 의 그 장치는 스피치 코덱 외부의 노이즈 억제 컴포넌트로부터 입력 스피치 프레임들 (212b) 을 수신할 수도 있다. 대안적으로, 노이즈 억제가 수행되지 않을 수도 있다. 노이즈 억제기 (202) 가 포함되어 있지 않기 때문에, 노이즈 추정치 (ns_est) (216b) 는 음성 활동 검출기 (204a) 에 의해 결정될 수도 있다. 도 2a 및 도 2b 는 노이즈 추정치 (216b) 가 각각 노이즈 억제기 (202) 및 음성 활동 검출기 (204b) 에 의해 결정되는 2 가지 구성들을 설명하지만, 노이즈 추정치 (216a 및 216b) 는 임의의 적합한 모듈, 예를 들어, 일반 노이즈 추정기 (미도시) 에 의해 결정될 수도 있다.

도 3 은 노이즈에 강인한 스피치 분류의 방법 (300) 을 예시하는 플로우 차트이다. 단계 302 에서, 외부 컴포넌트들로부터 입력된 분류 파라미터들이 노이즈 억제된 출력 스피치의 각각의 프레임에 대해 프로세싱된다. 하나의 구성 (예를 들어, 도 2a 에 예시된 분류기 시스템 (200a)) 에서, 외부 컴포넌트들로부터 입력된 분류 파라미터들은 노이즈 억제기 컴포넌트 (202) 로부터 입력된 ns_est (216a) 및 t_in (214a), 개루프 피치 추정기 컴포넌트 (208a) 로부터 입력된 nacf (224a) 및 nacf_at_pitch (226a) 파라미터들, 음성 활동 검출기 컴포넌트 (204a) 로부터 입력된 vad (220a), 및 LPC 분석 컴포넌트 (206a) 로부터 입력된 refl (222a) 을 포함한다. 대안적으로, ns_est (216b) 는 도 2b 에 예시한 바와 같이 상이한 모듈, 예를 들어, 음성 활동 검출기 (204b) 로부터 입력될 수도 있다. t_in (214a 및 214b) 입력은 도 2a 에서와 같은 노이즈 억제기 (202) 로부터의 출력 스피치 프레임들 (214a) 또는 도 2b 의 212b 와 같은 입력 프레임들일 수도 있다. 제어 플로우는 단계 304 로 진행한다.

단계 304 에서, 추가적인 내부적으로 발생된 도출된 파라미터들 (282a 및 282b) 이 외부 컴포넌트들로부터 입력된 분류 파라미터들로부터 컴퓨팅된다. 하나의 구성에서, zcr (228a 및 228b), E (230a 및 230b), Enext (232a 및 232b), bER (234a 및 234b), vEav (236a 및 236b), vEprev (238a 및 238b), vER (240a 및 240b), vER2 (242a 및 242b) 및 maxsfe_idx (244a 및 244b) 가 t_in (214a 및 214b) 으로부터 컴퓨팅된다. 내부적으로 발생된 파라미터들이 각각의 출력 스피치 프레임에 대해 컴퓨팅된 경우, 제어 플로우는 단계 306 으로 진행한다.

단계 306 에서, NACF 임계값들이 결정되고, 파라미터 분석기가 스피치 신호의 환경에 따라 선택된다. 하나의 구성에서, NACF 임계값은 단계 302 에서 입력된 ns_est 파라미터 (216a 및 216b) 를 노이즈 추정치 임계값과 비교함으로써 결정된다. ns_est 정보 (216a 및 216b) 는 주기성 결정 임계값의 적응적 제어를 제공할 수도 있다. 이 방식으로, 상이한 주기성 임계값들이 분류 프로세스에서 노이즈 컴포넌트들의 상이한 레벨들을 가진 스피치 신호들에 대해 적용된다. 이것은 스피치 신호의 노이즈 레벨에 대한 가장 적절한 NACF, 또는 주기성, 임계값이 출력 스피치의 각각의 프레임에 대해 선택될 때 비교적 정확한 스피치 분류 결정을 생성할 수도 있다. 스피치 신호에 대한 가장 적절한 주기성 임계값을 결정하는 것은 스피치 신호에 대한 최선의 파라미터 분석기의 선택을 허용한다. 대안적으로, SNR 정보 (218) 는 SNR 정보 (218) 가 다수의 프레임들에 관한 정보를 포함하고 프레임 간에 비교적 안정된다면, NACF 임계값을 결정하기 위해 이용될 수도 있다.

클린 및 노이지 스피치 신호들은 주기성이 내재적으로 상이하다. 노이즈가 존재하는 경우, 스피치 손상이 존재한다. 스피치 손상이 존재하는 경우, 주기성의 측정치, 또는 nacf (224a 및 224b) 는 클린 스피치의 것보다 더 낮다. 따라서, NACF 임계값은 노이지 신호 환경을 보상하기 위해 낮춰지거나 또는 클린 신호 환경을 위해 상승된다. 개시된 시스템들 및 방법들의 스피치 분류 기법은 상이한 환경들에 대해 주기성 (즉, NACF) 임계값들을 조정하여, 노이즈 레벨들에 상관없이 비교적 정확하고 강인한 모드 결정을 생성할 수도 있다.

하나의 구성에서, ns_est (216a 및 216b) 의 값이 노이즈 추정치 임계값 이하이면, 클린 스피치에 대한 NACF 임계값들이 적용된다. 클린 스피치에 대한 가능한 NACF 임계값들은 다음의 표에 의해 정의될 수도 있다 :

그러나, ns_est (216a 및 216b) 의 값에 따라, 다양한 임계값들이 조정될 수도 있다. 예를 들어, ns_est (216a 및 216b) 의 값이 노이즈 추정치 임계값보다 더 크다면, 노이지 스피치에 대한 NACF 임계값들이 적용될 수도 있다. 노이즈 추정치 임계값은 임의의 적합한 값, 예를 들어, 20dB, 25dB 등일 수도 있다. 하나의 구성에서, 노이즈 추정치 임계값은 클린 스피치 하에 관찰되는 것보다 높은 것으로 설정되고 매우 노이지 스피치에서 관찰되는 것보다 낮은 것으로 설정된다. 노이지 스피치에 대한 가능한 NACF 임계값들이 다음의 표에 의해 정의될 수도 있다 :

어떠한 노이즈도 존재하지 않는 경우에 (즉, ns_est (216a 및 216b) 는 노이즈 추정치 임계값을 초과하지 않는다), 보이싱 임계값들은 조정되지 않을 수도 있다. 그러나, 프레임을 "유성음" 으로서 분류하기 위한 보이싱 NACF 임계값은 입력 스피치의 노이즈가 높을 때 (보이싱 정보의 손상을 반영하여) 감소될 수도 있다. 즉, "유성음" 스피치를 분류하기 위한 보이싱 임계값은 표 1 과 비교할 때 표 2 에서 보여진 바와 같이 0.2 만큼 감소될 수도 있다.

대안적으로, 또는 "유성음" 프레임들을 분류하기 위한 NACF 임계값들을 변경하는 것에 더하여, 스피치 분류기 (210a 및 210b) 는 ns_est (216a 및 216b) 의 값에 기초하여 "무성음 (unvoiced)" 프레임들을 분류하기 위한 하나 이상의 임계값들을 조정할 수도 있다. ns_est (216a 및 216b) 의 값에 기초하여 조정되는 "무성음" 프레임들을 분류하기 위한 2 가지 타입들의 NACF 임계값들이 있을 수도 있다 : 보이싱 임계값 및 에너지 임계값. 구체적으로, 프레임을 "무성음" 으로서 분류하기 위한 보이싱 NACF 임계값은 (노이즈 하의 보이싱 정보의 손상을 반영하여) 증가될 수도 있다. 예를 들어, "무성음" 보이싱 NACF 임계값은 높은 노이즈의 존재 시에 (즉, ns_est (216a 및 216b) 가 노이즈 추정치 임계값을 초과할 때) 0.06 만큼 증가하여, 분류기가 프레임들을 "무성음" 으로서 분류하는데 있어서 더 많이 허용적일 수도 있다. 멀티-프레임 SNR 정보 (218) 가 ns_est (216a 및 216b), (높은 노이즈의 존재를 표시하는) 낮은 SNR 대신에 이용된다면, "무성음" 보이싱 임계값은 0.06 만큼 증가할 수도 있다. 조정된 보이싱 NACF 임계값들의 예들이 표 3 에 따라 주어질 수도 있다 :

프레임을 "무성음" 으로서 분류하기 위한 에너지 임계값이 또한 높은 노이즈의 존재 시에, 즉, ns_est (216a 및 216b) 가 노이즈 추정치 임계값을 초과할 때 ("무음" 프레임들의 높은 레벨을 반영하여) 증가될 수도 있다. 예를 들어, 무성음 에너지 임계값은 높은 노이즈 프레임들에서 10dB 만큼 증가할 수도 있으며, 예를 들어, 에너지 임계값은 클린 스피치 경우의 -25dB 로부터 노이지 경우의 -15dB 로 증가될 수도 있다. 프레임을 "무성음" 으로서 분류하기 위한 에너지 임계값 및 보이싱 임계값을 증가시키는 것은 노이즈 추정치가 높아짐에 따라 (또는 SNR 이 낮아짐에 따라) 프레임을 무성음으로서 분류하기 더 쉬워질 수도 있다 (즉, 더 많이 허용적일 수도 있다). (예를 들어, ns_est (216a 및 216b) 가 노이즈 추정치 임계값을 초과하지 않고 최소 노이즈 측정치보다 높을 때) 중간 노이즈 프레임들에 대한 임계값들은 입력 노이즈 추정치에 기초하여, "클린" 설정들 (표 1) 과 "노이즈" 설정들 (표 2 및/또는 표 3) 간에 보간함으로써 조정될 수도 있다. 대안적으로, 하드 임계값 세트들이 일부 중간 노이즈 추정치들에 대해 정의될 수도 있다.

"유성음" 보이싱 임계값이 "무성음" 보이싱 및 에너지 임계값들과 관계없이 조정될 수도 있다. 예를 들어, "유성음" 보이싱 임계값이 조정될 수도 있지만, "무성음" 보이싱 또는 에너지 임계값들 중 어느 것도 조정되지 않을 수도 있다. 대안적으로, "무성음" 보이싱 및 에너지 임계값들 중 하나 또는 양자가 조정될 수도 있지만, "유성음" 보이싱 임계값은 조정되지 않을 수도 있다. 대안적으로, "유성음" 보이싱 임계값은 "무성음" 보이싱 및 에너지 임계값들 중 단 하나와 함께 조정될 수도 있다.

노이지 스피치는 부가된 노이즈를 가진 클린 스피치와 동일하다. 적응적 주기성 임계값 제어에 의해, 강인한 스피치 분류 기법은 이전에 가능한 것보다 클린 및 노이지 스피치에 대해 동일한 분류 결정들을 생성할 가능성이 더 클 수도 있다. nacf 임계값들이 각각의 프레임에 대해 설정되었을 때, 제어 플로우는 단계 308 로 진행한다.

단계 308 에서, 스피치 모드 분류 (246a 및 246b) 가 노이즈 추정치에 적어도 부분적으로 기초하여 결정된다. 신호 환경에 따라 선택된 분석의 상태 머신 또는 임의의 다른 방법이 파라미터들에 적용된다. 하나의 구성에서, 외부 컴포넌트들로부터 입력된 파라미터들 및 내부적으로 발생된 파라미터들은 도 4a 내지 도 4c 및 표 4 내지 표 6 을 참조하여 상세히 설명된 상태 기반 모드 의사 결정 프로세스에 적용된다. 의사 결정 프로세스는 스피치 모드 분류를 생성한다. 하나의 구성에서, 트랜지언트, 업-트랜지언트, 다운 트랜지언트, 유성음, 무성음, 또는 무음의 스피치 모드 분류 (246a 및 246b) 가 생성된다. 스피치 모드 결정 (246a 및 246b) 이 생성된 경우, 제어 플로우는 단계 310 으로 진행한다.

단계 310 에서, 상태 변수들 및 다양한 파라미터들이 현재 프레임을 포함하기 위해 업데이트된다. 하나의 구성에서, vEav (236a 및 236b), vEprev (238a 및 238b), 및 현재 프레임의 유성음 상태가 업데이트된다. 현재 프레임 에너지 (E) (230a 및 230b), nacf_at_pitch (226a 및 226b), 및 현재 프레임 스피치 모드 (246a 및 246b) 가 다음 프레임을 분류하기 위해 업데이트된다. 단계 302 내지 단계 310 은 스피치의 각각의 프레임에 대해 반복될 수도 있다.

도 4a 내지 도 4c 는 노이즈에 강인한 스피치 분류를 위한 모드 의사 결정 프로세스의 구성들을 예시한다. 의사 결정 프로세스는 스피치 프레임의 주기성에 기초하여 스피치 분류를 위한 상태 머신을 선택한다. 스피치의 각각의 프레임에 대해, 스피치 프레임의 주기성, 또는 노이즈 컴포넌트와 가장 호환가능한 상태 머신이 스피치 프레임 주기성 측정치, 즉, nacf_at_pitch 값 (226a 및 226b) 을 도 3 의 단계 304 에서 설정된 NACF 임계값들과 비교함으로써 의사 결정 프로세스를 위해 선택된다. 스피치 프레임의 주기성의 레벨은 모드 결정 프로세스의 상태 트랜지션들을 제한 및 제어하여, 더 강인한 분류를 생성한다.

도 4a 는 vad (220a 및 220b) 가 1 이고 (활성 스피치가 있다) nacf_at_pitch (226a 및 226b) 의 제 3 값 (즉, nacf_at_pitch[2], 제로 인덱싱됨) 가 매우 높거나, 또는 VOICEDTH 보다 더 클 때의 하나의 구성에서 선택된 상태 머신의 하나의 구성을 예시한다. VOICEDTH 는 도 3 의 단계 306 에서 정의된다. 표 4 는 각각의 상태에 의해 평가된 파라미터들을 예시한다 :

표 4 는 하나의 구성에 따라, 각각의 상태에 의해 평가된 파라미터들, 및 nacf_at_pitch (226a 및 226b) 의 제 3 값 (즉, nacf_at_pitch[2]) 이 매우 높거나, 또는 VOICEDTH 보다 더 클 때의 상태 트랜지션들을 예시한다. 표 4 에 예시된 결정 표가 도 4a 에 설명된 상태 머신에 의해 이용된다. 스피치의 이전 프레임의 스피치 모드 분류 (246a 및 246b) 가 가장 왼쪽의 컬럼에 도시된다. 파라미터들이 각각의 이전 모드와 연관된 로우에 도시한 바와 같이 값 지정되는 경우, 스피치 모드 분류는 연관된 컬럼의 가장 높은 로우에서 식별된 현재 모드로 트랜지션한다.

초기 상태는 무음 (450a) 이다. 현재 프레임은 항상 이전 상태에 상관없이 vad = 0 (즉, 어떠한 음성 활동도 없다) 이라면 무음 (450a) 으로서 분류될 것이다.

이전 상태가 무음 (450a) 인 경우, 현재 프레임은 무성음 (452a) 이나 업-트랜지언트 (460a) 중 어느 하나로서 분류될 수도 있다. 현재 프레임은, nacf_at_pitch[3] 이 매우 낮고, zcr (228a 및 228b) 이 높고, bER (234a 및 234b) 이 낮으며 vER (240a 및 240b) 이 매우 낮다면, 또는 이들 조건들의 조합이 충족된다면 무성음 (452a) 으로서 분류된다. 그렇지 않다면, 그 분류는 업-트랜지언트 (460a) 에 대해 디폴트이다.

이전 상태가 무성음 (452a) 인 경우, 현재 프레임은 무성음 (452a) 또는 업-트랜지언트 (460a) 로서 분류될 수도 있다. 현재 프레임은 nacf (224a 및 224b) 가 매우 낮고, nacf_at_pitch[3] 이 매우 낮고, nacf_at_pitch[4] 가 매우 낮고, zcr (228a 및 228b) 이 높고, bER (234a 및 234b) 이 낮고, vER (240a 및 240b) 이 매우 낮으며, E (230a 및 230b) 가 vEprev (238a 및 238b) 보다 더 작다면, 또는 이들 조건들의 조합이 충족된다면 계속 무성음 (452a) 으로서 분류된 상태가 된다. 그렇지 않다면, 그 분류는 업-트랜지션 (460a) 에 대해 디폴트이다.

이전 상태가 유성음 (456a) 인 경우, 현재 프레임은 무성음 (452a), 트랜지언트 (454a), 다운-트랜지언트 (458a), 또는 유성음 (456a) 으로서 분류될 수도 있다. 현재 프레임은, vER (240a 및 240b) 이 매우 낮고, E (230a) 가 vEprev (238a 및 238b) 보다 더 작다면 무성음 (452a) 으로서 분류된다. 현재 프레임은 nacf_at_pitch[1] 및 nacf_at_pitch[3] 이 낮고, E (230a 및 230b) 가 vEprev (238a 및 238b) 의 1/2 보다 더 크거나, 또는 이들 조건들의 조합이 충족된다면 트랜지언트 (454a) 로서 분류된다. 현재 프레임은 vER (240a 및 240b) 이 매우 낮고, nacf_at_pitch[3] 이 중간 값을 갖는다면 다운-트랜지언트 (458a) 로서 분류된다. 그렇지 않다면, 현재 분류는 유성음 (456a) 에 대해 디폴트이다.

이전 상태가 트랜지언트 (454a) 또는 업-트랜지언트 (460a) 인 경우, 현재 프레임은 무성음 (452a), 트랜지언트 (454a), 다운-트랜지언트 (458a) 또는 유성음 (456a) 으로서 분류될 수도 있다. 현재 프레임은 vER (240a 및 240b) 이 매우 낮고, E (230a 및 230b) 가 vEprev (238a 및 238b) 보다 더 작다면 무성음 (452a) 으로서 분류된다. 현재 프레임은 nacf_at_pitch[1] 이 낮고, nacf_at_pitch[3] 이 중간 값을 갖고, nacf_at_pitch[4] 가 낮으며, 이전 상태가 트랜지언트 (454a) 가 아니라면, 또는 이들 조건들의 조합이 충족된다면 트랜지언트 (454a) 로서 분류된다. 현재 프레임은 nacf_at_pitch[3] 이 중간 값을 갖고, E (230a 및 230b) 가 vEav (236a 및 236b) 의 .05 배보다 더 작다면 다운-트랜지언트 (458a) 로서 분류된다. 그렇지 않다면, 현재 분류는 유성음 (456a 및 456b) 에 대해 디폴트이다.

이전 프레임이 다운-트랜지언트 (458a) 인 경우, 현재 프레임은 무성음 (452a), 트랜지언트 (454a) 또는 다운-트랜지언트 (458a) 로서 분류될 수도 있다. 현재 프레임은 vER (240a 및 240b) 이 매우 낮다면 무성음 (452a) 으로서 분류될 것이다. 현재 프레임은 E (230a 및 230b) 가 vEprev (238a 및 238b) 보다 더 크다면 트랜지언트 (454a) 로서 분류될 것이다. 그렇지 않다면, 현재 분류는 계속 다운-트랜지언트 (458a) 상태가 된다.

도 4b 는 vad (220a 및 220b) 가 1 이고 (활성 스피치가 있다) nacf_at_pitch (226a 및 226) 의 제 3 값이 매우 낮거나, 또는 UNVOICEDTH 보다 더 작을 때의 하나의 구성에서 선택된 상태 머신의 하나의 구성을 예시한다. UNVOICEDTH 는 도 3 의 단계 306 에서 정의된다. 표 5 는 각각의 상태에 의해 평가된 파라미터들을 예시한다.

표 5 는 하나의 구성에 따라, 각각의 상태에 의해 평가된 파라미터들, 및 제 3 값 (즉, nacf_at_pitch[2]) 이 매우 낮거나, 또는 UNVOICEDTH 보다 더 작을 때의 상태 트랜지션들을 예시한다. 표 5 에 예시된 결정 표가 도 4b 에 설명된 상태 머신에 의해 이용된다. 스피치의 이전 프레임의 스피치 모드 분류 (246a 및 246b) 는 가장 왼쪽의 컬럼에 도시된다. 파라미터들이 각각의 이전 모드와 연관된 로우에 도시한 바와 같이 값 지정되는 경우, 스피치 모드 분류는 연관된 컬럼의 가장 높은 로우에서 식별된 현재 모드 (246a 및 246b) 로 트랜지션한다.

초기 상태는 무음 (450b) 이다. 현재 프레임은 항상 이전 상태에 상관없이, vad = 0 (즉, 어떠한 음성 활동도 없다) 이라면 무음 (450b) 으로서 분류될 것이다.

이전 상태가 무음 (450b) 인 경우, 현재 프레임은 무성음 (452b) 이나 업-트랜지언트 (460b) 중 어느 하나로서 분류될 수도 있다. 현재 프레임은 nacf_at_pitch[2~4] 가 증가하는 경향을 보이고, nacf_at_pitch[3~4] 가 중간 값을 갖고, zcr (228a 및 228b) 이 매우 낮은 것에서 중간 정도이고, bER (234a 및 234b) 이 높으며, vER (240a 및 240b) 이 중간 값을 가지면, 또는 이들 조건들의 조합이 충족된다면 업-트랜지언트 (460b) 로서 분류된다. 그렇지 않다면, 그 분류는 무성음 (452b) 에 대해 디폴트이다.

이전 상태가 무성음 (452b) 인 경우, 현재 프레임은 무성음 (452b) 또는 업-트랜지언트 (460b) 로서 분류될 수도 있다. 현재 프레임은 nacf_at_pitch[2~4] 가 증가하는 경향을 보이고, nacf_at_pitch[3~4] 가 중간 정도 내지 매우 높은 값을 갖고, zcr (228a 및 228b) 이 매우 낮거나 또는 중간 정도이고, vER (240a 및 240b) 이 낮지 않고, bER (234a 및 234b) 이 높고, refl (222a 및 222b) 이 낮고, nacf (224a 및 224b) 가 중간 값을 가지며, E (230a 및 230b) 가 vEprev (238a 및 238b) 보다 더 크다면, 또는 이들 조건들의 조합이 충족된다면 업-트랜지언트 (460b) 로서 분류된다. 이들 조건들에 대한 조합들 및 임계값들은 파라미터 ns_est (216a 및 216b) 에서 반영한 바와 같은 스피치 프레임의 노이즈 레벨 (또는 가능하게는 멀티-프레임 평균화된 SNR 정보 (218)) 에 따라 가변할 수도 있다. 그렇지 않다면, 그 분류는 무성음 (452b) 에 대해 디폴트이다.

이전 상태가 유성음 (456b), 업-트랜지언트 (460b), 또는 트랜지언트 (454b) 인 경우, 현재 프레임은 무성음 (452b), 트랜지언트 (454b), 또는 다운-트랜지언트 (458b) 로서 분류될 수도 있다. 현재 프레임은 bER (234a 및 234b) 이 0 이하이고, vER (240a) 이 매우 낮고, bER (234a 및 234b) 이 0 보다 더 크며, E (230a 및 230b) 가 vEprev (238a 및 238b) 보다 더 작다면, 또는 이들 조건들의 조합이 충족된다면 무성음 (452b) 으로서 분류된다. 현재 프레임은 bER (234a 및 234b) 이 0 보다 더 크고, nacf_at_pitch[2~4] 가 증가하는 경향을 보이고, zcr (228a 및 228b) 이 높지 않고, vER (240a 및 240b) 이 낮지 않고, refl (222a 및 222b) 이 낮고, nacf_at_pitch[3] 및 nacf (224a 및 224b) 가 중간 정도이며, bER (234a 및 234b) 이 0 이하이면, 또는 이들 조건들의 소정의 조합이 충족된다면 트랜지언트 (454b) 로서 분류된다. 이들 조건들에 대한 조합들 및 임계값들은 파라미터 ns_est (216a 및 216b) 에서 반영한 바와 같은 스피치 프레임의 노이즈 레벨에 따라 가변할 수도 있다. 현재 프레임은 bER (234a 및 234b) 이 0 보다 더 크고, nacf_at_pitch[3] 이 중간 정도이고, E (230a 및 230b) 가 vEprev (238a 및 238b) 보다 더 작고, zcr (228a 및 228b) 이 높지 않으며, vER2 (242a 및 242b) 가 -15 보다 더 작다면 다운-트랜지언트 (458a 및 458b) 로서 분류된다.

이전 프레임이 다운-트랜지언트 (458b) 인 경우, 현재 프레임은 무성음 (452b), 트랜지언트 (454b) 또는 다운-트랜지언트 (458b) 로서 분류될 수도 있다. 현재 프레임은 nacf_at_pitch[2~4] 가 증가하는 경향을 보이고, nacf_at_pitch[3~4] 가 중간 정도로 높고, vER (240a 및 240b) 이 낮지 않으며, E (230a 및 230b) 가 vEprev (238a 및 238b) 의 2배보다 더 크다면, 또는 이들 조건들의 조합이 충족된다면 트랜지언트 (454b) 로서 분류될 것이다. 현재 프레임은 vER (240a 및 240b) 이 낮지 않고 zcr (228a 및 228b) 이 낮다면 다운-트랜지언트 (458b) 로서 분류될 것이다. 그렇지 않다면, 현재 분류는 무성음 (452b) 에 대해 디폴트이다.

도 4c 는 vad (220a 및 220b) 가 1 이고 (활성 스피치가 있다) nacf_at_pitch (226a 및 226b) 의 제 3 값 (즉, nacf_at_pitch[3]) 이 중간 정도, 즉 UNVOICEDTH 보다 더 크고 VOICEDTH 보다 더 작은 경우의 하나의 구성에서 선택된 상태 머신의 하나의 구성을 예시한다. UNVOICEDTH 및 VOICEDTH 는 도 3 의 단계 306 에서 정의된다. 표 6 은 각각의 상태에 의해 평가된 파라미터들을 예시한다.

표 6 은 하나의 실시형태에 따라, 각각의 상태에 의해 평가된 파라미터들, 및 nacf_at_pitch (226a 및 226b) 의 제 3 값 (즉, nacf_at_pitch[3]) 이 중간 정도, 즉 UNVOICEDTH 보다 더 크지만 VOICEDTH 보다 더 작은 경우의 상태 트랜지션들을 예시한다. 표 6 에 예시된 결정 표가 도 4c 에 설명된 상태 머신에 의해 이용된다. 스피치의 이전 프레임의 스피치 모드 분류는 가장 왼쪽의 컬럼에 도시된다. 파라미터들이 각각의 이전 모드와 연관된 로우에 도시한 바와 같이 값 지정되는 경우, 스피치 모드 분류 (246a 및 246b) 는 연관된 컬럼의 가장 높은 로우에서 식별된 현재 모드 (246a 및 246b) 로 트랜지션한다.

초기 상태는 무음 (450c) 이다. 현재 프레임은 항상 이전 상태에 상관없이, vad = 0 (즉, 어떠한 음성 활동도 없다) 이라면 무음 (450c) 으로서 분류될 것이다.

이전 상태가 무음 (450c) 인 경우, 현재 프레임은 무성음 (452c) 이나 업-트랜지언트 (460c) 중 어느 하나로서 분류될 수도 있다. 현재 프레임은 nacf_at_pitch[2~4] 가 증가하는 경향을 보이고, nacf_at_pitch[3~4] 가 중간 정도 내지 높고, zcr (228a 및 228b) 이 높지 않고, bER (234a 및 234b) 이 높고, vER (240a 및 240b) 이 중간 값을 갖고, zcr (228a 및 228b) 이 매우 낮으며 E (230a 및 230b) 가 vEprev (238a 및 238b) 의 2배보다 더 크다면, 또는 이들 조건들의 소정의 조합이 충족된다면 업-트랜지언트 (460c) 로서 분류된다. 그렇지 않다면, 그 분류는 무성음 (452c) 에 대해 디폴트이다.

이전 상태가 무성음 (452c) 인 경우, 현재 프레임은 무성음 (452c) 또는 업-트랜지언트 (460c) 로서 분류될 수도 있다. 현재 프레임은 nacf_at_pitch[2~4] 가 증가하는 경향을 보이고, nacf_at_pitch[3~4] 가 중간 정도 내지 매우 높은 값을 갖고, zcr (228a 및 228b) 이 높지 않고, vER (240a 및 240b) 이 낮지 않고, bER (234a 및 234b) 이 높고, refl (222a 및 222b) 이 낮고, E (230a 및 230b) 가 vEprev (238a 및 238b) 보다 더 크고, zcr (228a 및 228b) 이 매우 낮고, nacf (224a 및 224b) 가 낮지 않고, maxsfe_idx (244a 및 244b) 가 마지막 서브프레임을 가리키며 E (230a 및 230b) 가 vEprev (238a 및 238b) 의 2배보다 더 크다면, 또는 이들 조건들의 조합이 충족된다면 업-트랜지언트 (460c) 로서 분류된다. 이들 조건들에 대한 조합들 및 임계값들은 파라미터 ns_est (216a 및 216b) 에서 반영한 바와 같은 스피치 프레임의 노이즈 레벨 (또는 가능하게는 멀티-프레임 평균화된 SNR 정보 (218)) 에 따라 가변할 수도 있다. 그렇지 않다면, 그 분류는 무성음 (452c) 에 대해 디폴트이다.

이전 상태가 유성음 (456c), 업-트랜지언트 (460c), 또는 트랜지언트 (454c) 인 경우, 현재 프레임은 무성음 (452c), 유성음 (456c), 트랜지언트 (454c), 다운-트랜지언트 (458c) 로서 분류될 수도 있다. 현재 프레임은 bER (234a 및 234b) 기 0 이하이고, vER (240a 및 240b) 이 매우 낮고, Enext (232a 및 232b) 가 E (230a 및 230b) 보다 더 작고, nacf_at_pitch[3~4] 가 매우 낮고, bER (234a 및 234b) 이 0 보다 더 크며 E (230a 및 230b) 가 vEprev (238a 및 238b) 보다 더 작다면, 또는 이들 조건들의 소정의 조합이 충족된다면 무성음 (452c) 으로서 분류된다. 현재 프레임은 bER (234a 및 234b) 이 0 보다 더 크고, nacf_at_pitch[2~4] 가 증가하는 경향을 보이고, zcr (228a 및 228b) 이 높지 않고, vER (240a 및 240b) 이 낮지 않고, refl (222a 및 222b) 이 낮고, nacf_at_pitch[3] 및 nacf (224a 및 224b) 가 낮지 않다면, 또는 이들 조건들의 조합이 충족된다면 트랜지언트 (454c) 로서 분류된다. 이들 조건들에 대한 조합들 및 임계값들은 파라미터 ns_est (216a 및 216b) 에서 반영한 바와 같은 스피치 프레임의 노이즈 레벨 (또는 가능하게는 멀티-프레임 평균화된 SNR 정보 (218)) 에 따라 가변할 수도 있다. 현재 프레임은 bER (234a 및 234b) 이 0 보다 더 크고, nacf_at_pitch[3] 이 높지 않고, E (230a 및 230b) 가 vEprev (238a 및 238b) 보다 더 작고, zcr (228a 및 228b) 이 높지 않고, vER (240a 및 240b) 이 -15보다 더 작으며, vER2 (242a 및 242b) 가 -15보다 더 작다면, 또는 이들 조건들의 조합이 충족된다면 다운-트랜지언트 (458c) 로서 분류된다. 현재 프레임은 nacf_at_pitch[2] 가 LOWVOICEDTH 보다 더 크고, bER (234a 및 234b) 이 0 이상이며, vER (240a 및 240b) 이 낮지 않다면, 또는 이들 조건들의 조합이 충족된다면 유성음 (456c) 으로서 분류된다.

이전 프레임이 다운-트랜지언트 (458c) 인 경우, 현재 프레임은 무성음 (452c), 트랜지언트 (454c) 또는 다운-트랜지언트 (458c) 로서 분류될 수도 있다. 현재 프레임은 bER (234a 및 234b) 이 0 보다 더 크고, nacf_at_pitch[2~4] 가 증가하는 경향을 보이고, nacf_at_pitch[3~4] 가 중간 정도로 높고, vER (240a 및 240b) 이 낮지 않으며, E (230a 및 230b) 가 vEprev (238a 및 238b) 의 2배보다 더 크다면, 또는 이들 조건들의 조합이 충족된다면 트랜지언트 (454c) 로서 분류될 것이다. 현재 프레임은 vER (240a 및 240b) 이 낮지 않고 zcr (228a 및 228b) 이 낮다면 다운-트랜지언트 (458c) 로서 분류될 것이다. 그렇지 않다면, 현재 분류는 무성음 (452c) 에 대해 디폴트이다.

도 5 는 스피치를 분류하기 위한 임계값들을 조정하는 방법 (500) 을 예시하는 플로우도이다. 조정된 임계값들 (예를 들어, NACF, 또는 주기성 임계값들) 은 그 후 예를 들어, 도 3 에 예시된 노이즈에 강인한 스피치 분류의 방법 (300) 에서 이용될 수도 있다. 방법 (500) 은 도 2a 및 도 2b 에 예시된 스피치 분류기들 (210a 및 210b) 에 의해 수행될 수도 있다.

입력 스피치의 노이즈 추정치 (예를 들어, ns_est (216a 및 216b)) 가 스피치 분류기 (210a 및 210b) 에서 수신될 수도 있다 (502). 노이즈 추정치는 입력 스피치의 다수의 프레임들에 기초할 수도 있다. 대안적으로, 멀티-프레임 SNR 정보 (218) 의 평균이 노이즈 추정치 대신에 이용될 수도 있다. 다수의 프레임들에 대해 비교적 안정된 임의의 적합한 노이즈 메트릭이 방법 (500) 에서 이용될 수도 있다. 스피치 분류기 (210a 및 210b) 는 노이즈 추정치가 노이즈 추정치 임계값을 초과하는지 여부를 결정할 수도 있다 (504). 대안적으로, 스피치 분류기 (210a 및 210b) 는 멀티-프레임 SNR 정보 (218) 가 멀티-프레임 SNR 임계값을 초과하지 않는지를 결정할 수도 있다. 만약 그렇지 않다면, 스피치 분류기 (210a 및 210b) 는 스피치를 "유성음" 또는 "무성음" 중 어느 하나로서 분류하기 위한 임의의 NACF 임계값들을 조정하지 않을 수도 있다 (506). 그러나, 노이즈 추정치가 노이즈 추정치 임계값을 초과한다면, 스피치 분류기 (210a 및 210b) 는 또한 무성음 NACF 임계값을 조정할지 여부를 결정할 수도 있다 (508). 만약 아니오라면, 무성음 NACF 임계값들이 조정되지 않을 수도 있으며 (510), 즉 프레임을 "무성음" 으로서 분류하기 위한 임계값들이 조정되지 않을 수도 있다. 만약 예라면, 스피치 분류기 (210a 및 210b) 는 무성음 NACF 임계값들을 증가시킬 수도 있고 (512), 즉, 현재 프레임을 무성음으로부터 분류하기 위한 보이싱 임계값을 증가시키고 현재 프레임을 무성음으로서 분류하기 위한 에너지 임계값을 증가시킬 수도 있다. 프레임을 "무성음" 으로서 분류하기 위한 보이싱 임계값 및 에너지 임계값을 증가시키는 것은 노이즈 추정치가 높이질수록 (또는 SNR 이 낮아질수록) 프레임을 무성음으로서 분류하기 더 쉬워질 수도 있다 (즉, 더 많이 허용적일 수도 있다). 스피치 분류기 (210a 및 210b) 는 또한 유성음 NACF 임계값을 조정할지 여부를 결정할 수도 있다 (514) (대안적으로, 스펙트럼 틸트 또는 트랜지언트 검출 또는 제로-크로싱 레이트 임계값들이 조정될 수도 있다). 만약 아니오라면, 스피치 분류기 (210a 및 210b) 는 프레임을 "유성음" 으로서 분류하기 위한 보이싱 임계값을 조정하지 않을 수도 있으며 (516), 즉 프레임을 "유성음" 으로서 분류하기 위한 임계값들이 조정되지 않을 수도 있다. 만약 예라면, 스피치 분류기 (210a 및 210b) 는 현재 프레임을 "유성음" 으로서 분류하기 위한 보이싱 임계값을 감소시킬 수도 있다 (518). 따라서, 스피치 프레임을 "유성음" 또는 "무성음" 중 어느 하나로서 분류하기 위한 NACF 임계값들은 서로에 관계없이 조정될 수도 있다. 예를 들어, 분류기 (610) 가 클린 (노이즈 없는) 경우에 어떻게 튜닝되는지에 따라, "유성음" 또는 "무성음" 임계값들 중 단 하나가 독립적으로 조정될 수도 있으며, 즉 그것은 "무성음" 분류가 노이즈에 훨씬 더 영향받기 쉬운 경우일 수 있다. 더욱이, (양자가 품질 및 비트 레이트 관점에서) "유성음" 프레임을 잘못 분류하는 것에 대한 페널티는 "무성음" 프레임을 잘못 분류하는 것에 대한 페널티보다 더 클 수도 있다.

도 6 은 노이즈에 강인한 스피치 분류를 위한 스피치 분류기 (610) 를 예시하는 블록도이다. 스피치 분류기 (610) 는 도 2a 및 도 2b 에 예시된 스피치 분류기들 (210a 및 210b) 에 대응할 수도 있고, 도 3 에 예시된 방법 (300) 및 도 5 에 예시된 방법 (500) 을 수행할 수도 있다.

스피치 분류기 (610) 는 수신된 파라미터들 (670) 을 포함할 수도 있다. 이것은 수신된 스피치 프레임들 (t_in) (672), SNR 정보 (618), 노이즈 추정치 (ns_est) (616), 음성 활동 정보 (vad) (620), 반사 계수들 (refl) (622), NACF (624) 및 피치 부근의 NACF (nacf_at_pitch) (626) 를 포함할 수도 있다. 이들 파라미터들 (670) 은 도 2a 및 도 2b 에 예시된 것들과 같은 다양한 모듈들로부터 수신될 수도 있다. 예를 들어, 수신된 스피치 프레임들 (t_in) (672) 은 도 2a 에 예시된 노이즈 억제기 (202) 로부터의 출력 스피치 프레임들 (214a) 또는 도 2b 에 예시한 바와 같은 입력 스피치 (212b) 그 자체일 수도 있다.

파라미터 도출 모듈 (674) 이 또한 도출된 파라미터들 (682) 의 세트를 결정할 수도 있다. 구체적으로, 파라미터 도출 모듈 (674) 은 제로 크로싱 레이트 (zcr) (628), 현재 프레임 에너지 (E) (630), 룩 어헤드 프레임 에너지 (Enext) (632), 대역 에너지 비율 (bER) (634), 3 프레임 평균 유성음 에너지 (vEav) (636), 이전 프레임 에너지 (vEprev) (638), 현재 에너지 대 이전 3-프레임 평균 유성음 에너지 비율 (vER) (640), 현재 프레임 에너지 대 3-프레임 평균 유성음 에너지 (vER2) (642) 및 최대 서브-프레임 에너지 인덱스 (maxsfe_idx) (644) 를 결정할 수도 있다.

노이즈 추정치 비교기 (678) 가 수신된 노이즈 추정치 (ns_est) (616) 를 노이즈 추정치 임계값 (676) 과 비교할 수도 있다. 노이즈 추정치 (ns_est) (616) 가 노이즈 추정치 임계값 (676) 을 초과하지 않는다면, NACF 임계값들 (684) 의 세트가 조정되지 않을 수도 있다. 그러나, 노이즈 추정치 (ns_est) (616) 가 (높은 노이즈의 존재를 표시하는) 노이즈 추정치 임계값 (676) 을 초과한다면, NACF 임계값들 (684) 중 하나 이상이 조정될 수도 있다. 구체적으로, "유성음" 프레임들을 분류하기 위한 보이싱 임계값 (686) 은 감소될 수도 있고, "무성음" 프레임들을 분류하기 위한 보이싱 임계값 (688) 은 증가될 수도 있고, "무성음" 프레임들을 분류하기 위한 에너지 임계값 (690) 은 증가될 수도 있으며, 또는 조정들의 일부 조합이 행해질 수도 있다. 대안적으로, 노이즈 추정치 (ns_est) (616) 를 노이즈 추정치 임계값 (676) 과 비교하는 대신에, 노이즈 추정치 비교기는 SNR 정보 (618) 를 멀티-프레임 SNR 임계값 (680) 과 비교하여 NACF 임계값들 (684) 을 조정할지 여부를 결정할 수도 있다. 그 구성에서, NACF 임계값들 (684) 은 SNR 정보 (618) 가 멀티-프레임 SNR 임계값 (680) 을 초과하지 않는다면 조정될 수도 있고, 즉 NACF 임계값들 (684) 은 SNR 정보 (618) 가 최소 레벨 이하가 되어, 높은 노이즈의 존재를 표시할 때 조정될 수도 있다. 다수의 프레임들에 걸쳐 비교적 안정된 임의의 적합한 노이즈 메트릭이 노이즈 추정치 비교기 (678) 에 의해 이용될 수도 있다.

분류기 상태 머신 (692) 은 그 후 상기 설명되고 도 4a 내지 도 4c 및 표 4 내지 표 6 에 예시한 바와 같이, 도출된 파라미터들 (682) 에 적어도 부분적으로 기초하여 스피치 모드 분류 (646) 를 결정하기 위해 선택 및 이용될 수도 있다.

도 7 은 연관된 파라미터 값들 및 스피치 모드 분류들 (746) 과 함께 수신된 스피치 신호 (772) 의 하나의 구성을 예시하는 타임라인 그래프이다. 구체적으로, 도 7 은 스피치 모드 분류 (746) 가 다양한 수신된 파라미터들 (670) 및 도출된 파라미터들 (682) 에 기초하여 선정되는 본 시스템들 및 방법들의 하나의 구성을 예시한다. 각각의 신호 또는 파라미터는 시간의 함수로서 도 7 에 예시된다.

예를 들어, 피치 부근의 NACF 의 제 3 값 (nacf_at_pitch[2]) (794), 피치 부근의 NACF 의 제 4 값 (nacf_at_pitch[3]) (795) 및 피치 부근의 NACF 의 제 5 값 (nacf_at_pitch[4]) (796) 이 도시된다. 더욱이, 현재 에너지 대 이전 3-프레임 평균 유성음 에너지 비율 (vER) (740), 대역 에너지 비율 (bER) (734), 제로 크로싱 레이트 (zcr) (728) 및 반사 계수들 (refl) (722) 이 또한 도시된다. 예시된 신호들에 기초하여, 수신된 스피치 (772) 는 시간 0 부근에서 무음, 시간 4 부근에서 무성음, 시간 9 부근에서 트랜지언트, 시간 10 부근에서 유성음 및 시간 25 부근에서 다운-트랜지언트로서 분류될 수도 있다.

도 8 은 전자 디바이스/무선 디바이스 (804) 내에 포함될 수도 있는 소정의 컴포넌트들을 예시한다. 전자 디바이스/무선 디바이스 (804) 는 액세스 단말기, 이동국, 사용자 장비 (UE), 기지국, 액세스 포인트, 브로드캐스트 송신기, 노드 B, 진화된 노드 B 등일 수도 있다. 전자 디바이스/무선 디바이스 (804) 는 프로세서 (803) 를 포함한다. 프로세서 (803) 는 범용 단일- 또는 멀티-칩 마이크로프로세서 (예를 들어, ARM), 특수 목적 마이크로프로세서 (예를 들어, 디지털 신호 프로세서 (DSP)), 마이크로제어기, 프로그램가능 게이트 어레이 등일 수도 있다. 프로세서 (803) 는 중앙 프로세싱 유닛 (CPU) 으로 지칭될 수도 있다. 단지 단일 프로세서 (803) 만이 도 8 의 전자 디바이스/무선 디바이스 (804) 에 도시되지만, 대안의 구성에서, 프로세서들 (예를 들어, ARM 및 DSP) 의 조합이 이용될 수 있다.

전자 디바이스/무선 디바이스 (804) 는 또한 메모리 (805) 를 포함한다. 메모리 (805) 는 전자 정보를 저장하는 것이 가능한 임의의 전자 컴포넌트일 수도 있다. 메모리 (805) 는 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 자기 디스크 저장 매체, 광 저장 매체, RAM 내의 플래시 메모리 디바이스들, 프로세서와 함께 포함된 온-보드 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들 등 (이들의 조합들을 포함) 으로서 구현될 수도 있다.

데이터 (807a) 및 명령들 (809a) 이 메모리 (805) 내에 저장될 수도 있다. 명령들 (809a) 은 프로세서 (803) 에 의해 여기에 개시된 방법들을 구현하도록 실행가능할 수도 있다. 명령들 (809a) 을 실행하는 것은 메모리 (805) 내에 저장되는 데이터 (807a) 의 이용을 수반할 수도 있다. 프로세서 (803) 가 명령들 (809a) 을 실행하는 경우, 그 명령들 (809a) 의 다양한 부분들은 프로세서 (803) 상으로 로드될 수도 있고, 데이터 (807b) 의 다양한 피스들은 프로세서 (803) 상으로 로드될 수도 있다.

전자 디바이스/무선 디바이스 (804) 는 또한 송신기 (811) 및 수신기 (813) 를 포함하여 전자 디바이스/무선 디바이스 (804) 로 및 로부터 신호들의 송신 및 수신을 허용할 수도 있다. 송신기 (811) 및 수신기 (813) 는 트랜시버 (815) 로 통칭될 수도 있다. 다수의 안테나들 (817a 및 817b) 이 트랜시버 (815) 에 전기적으로 커플링될 수도 있다. 전자 디바이스/무선 디바이스 (804) 는 또한 (미도시된) 다수의 송신기들, 다수의 수신기들, 다수의 트랜시버들 및/또는 추가적인 안테나들을 포함할 수도 있다.

전자 디바이스/무선 디바이스 (804) 는 디지털 신호 프로세서 (DSP) (821) 를 포함할 수도 있다. 전자 디바이스/무선 디바이스 (804) 는 또한 통신 인터페이스 (823) 를 포함할 수도 있다. 통신 인터페이스 (823) 는 사용자가 전자 디바이스/무선 디바이스 (804) 와 상호작용하는 것을 허용할 수도 있다.

전자 디바이스/무선 디바이스 (804) 의 다양한 컴포넌트들은 전력 버스, 제어 신호 버스, 상태 신호 버스, 데이터 버스 등을 포함할 수도 있는 하나 이상의 버스들에 의해 함께 커플링될 수도 있다. 명료함을 위해, 다양한 버스들은 도 8 에 버스 시스템 (819) 으로서 예시된다.

여기에 설명된 기법들은 직교 멀티플렉싱 방식에 기초하는 통신 시스템들을 포함하여, 다양한 통신 시스템들을 위해 이용될 수도 있다. 이러한 통신 시스템들의 예들은 직교 주파수 분할 다중 액세스 (OFDMA) 시스템들, 단일-캐리어 주파수 분할 다중 액세스 (SC-FDMA) 시스템들 등을 포함한다. OFDMA 시스템은 전체 시스템 대역폭을 다수의 직교 서브-캐리어들로 분할하는 변조 기법인 직교 주파수 분할 멀티플렉싱 (OFDM) 을 이용한다. 이들 서브-캐리어들은 또한 톤들, 빈들 등으로 불릴 수도 있다. OFDM 의 경우, 각각의 서브-캐리어는 데이터로 독립적으로 변조될 수도 있다. SC-FDMA 시스템은 인터리빙된 FDMA (IFDMA) 를 이용하여 시스템 대역폭에 걸쳐 분포되는 서브-캐리어들 상에서 송신하고, 로컬화된 FDMA (LFDMA) 를 이용하여 인접한 서브-캐리어들의 블록 상에서 송신하거나, 또는 강화된 FDMA (EFDMA) 를 이용하여 인접한 서브-캐리어들의 다수의 블록들 상에서 송신할 수도 있다. 일반적으로, 변조 심볼들은 OFDM 으로 주파수 도메인으로 전송되고, SC-FDMA 로 시간 도메인으로 전송된다.

용어 "결정하는 것" 은 광범위의 액션들을 포함하며, 따라서 "결정하는 것" 은 계산하는 것, 컴퓨팅하는 것, 프로세싱하는 것, 도출하는 것, 조사하는 것, 룩업하는 것 (예를 들어, 테이블, 데이터베이스 또는 다른 데이터 구조에서 룩업하는 것), 확인하는 것 등을 포함할 수 있다. 또한, "결정하는 것" 은 수신하는 것 (예를 들어, 정보를 수신하는 것), 액세스하는 것 (예를 들어, 메모리 내의 데이터에 액세스하는 것) 등을 포함할 수 있다. 또한, "결정하는 것" 은 해결하는 것, 선택하는 것, 선정하는 것, 확립하는 것 등을 포함할 수 있다.

어구 "~ 에 기초하는" 은 명확히 다르게 특정하지 않는다면 "~ 에만 기초하는" 을 의미하지 않는다. 즉, 어구 "~ 에 기초하는" 은 "~ 에만 기초하는" 과 "적어도 ~ 에 기초하는" 양자를 설명한다.

용어 "프로세서" 는 범용 프로세서, 중앙 프로세싱 유닛 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하는 것으로 광범위하게 해석되어야 한다. 일부 환경들 하에서, "프로세서" 는 주문형 집적 회로 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 "프로세서" 는 프로세싱 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성을 지칭할 수도 있다.

용어 "메모리" 는 전자 정보를 저장하는 것이 가능한 임의의 전자 컴포넌트를 포함하는 것으로 광범위하게 해석되어야 한다. 용어 메모리는 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 비휘발성 랜덤 액세스 메모리 (NVRAM), 프로그램가능 판독 전용 메모리 (PROM), 소거가능한 프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 PROM (EEPROM), 플래시 메모리, 자기 또는 광 데이터 저장소, 레지스터들 등과 같은 다양한 타입들의 프로세서 판독가능 매체를 지칭할 수도 있다. 메모리는 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기입할 수 있다면 프로세서와 전자 통신하고 있다고 한다. 프로세서와 일체형인 메모리는 프로세서와 전자 통신하고 있다.

용어들 "명령들" 및 "코드" 는 임의의 타입의 컴퓨터 판독가능 스테이트먼트(들)를 포함하는 것으로 광범위하게 해석되어야 한다. 예를 들어, 용어들 "명령들" 및 "코드" 는 하나 이상의 프로그램들, 루틴들, 서브-루틴들, 함수들, 프로시저들 등을 지칭할 수도 있다. "명령들" 및 "코드" 는 단일 컴퓨터 판독가능 스테이트먼트 또는 다수의 컴퓨터 판독가능 스테이트먼트들을 포함할 수도 있다.

여기에 설명된 기능들은 하드웨어에 의해 실행되는 소프트웨어 또는 펌웨어로 구현될 수도 있다. 그 기능들은 컴퓨터 판독가능 매체 상에 하나 이상의 명령들들로서 저장될 수도 있다. 용어들 "컴퓨터 판독가능 매체" 또는 "컴퓨터 프로그램 제품" 은 컴퓨터 또는 프로세서에 의해 액세스될 수 있는 임의의 유형의 저장 매체를 지칭한다. 제한이 아닌 일 예로, 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 저장소, 자기 디스크 저장소 또는 다른 자기 저장 디바이스들, 또는 원하는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 운반 또는 저장하는데 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수도 있다. 디스크 (disk) 및 디스크 (disc) 는 여기에 사용한 바와 같이, 콤팩트 디스크 (CD), 레이저 디스크, 광 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크 및 Blu-ray^® 디스크를 포함하며, 여기서 디스크 (disk) 들은 보통 데이터를 자기적으로 재생시키는 한편, 디스크 (disc) 들은 레이저를 이용하여 데이터를 광학적으로 재생시킨다.

여기에 개시된 방법들은 상기 설명된 방법을 달성하기 위한 하나 이상의 단계들 또는 액션들을 포함한다. 방법 단계들 및/또는 액션들은 청구항들의 범위로부터 벗어남 없이 서로 상호교환될 수도 있다. 즉, 특정 순서의 단계들 또는 액션들이 설명되고 있는 방법의 적절한 동작을 위해 요구되지 않는다면, 특정 단계들 및/또는 액션들의 순서 및/또는 이용은 청구항들의 범위로부터 벗어남 없이 변경될 수도 있다.

게다가, 도 3 및 도 5 에 의해 예시된 것들과 같이, 여기에 설명된 방법들 및 기법들을 수행하는 모듈들 및/또는 다른 적절한 수단이 디바이스에 의해 다운로드되고/되거나 다르게 획득될 수 있다는 것을 알아야 한다. 예를 들어, 디바이스가 여기에 설명된 방법들을 수행하는 수단의 전송을 용이하게 하기 위해 서버에 커플링될 수도 있다. 대안적으로, 여기에 설명된 다양한 방법들은 디바이스가 저장 수단을 디바이스에 커플링 또는 제공할 시에 다양한 방법들을 획득할 수도 있도록, 저장 수단 (예를 들어, 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 콤팩트 디스크 (CD) 또는 플로피 디스크와 같은 물리적 저장 매체 등) 을 통해 제공될 수 있다.

청구항들은 상기 예시된 정확한 구성 및 컴포넌트들에 제한되지 않는다는 것을 이해할 것이다. 청구항들의 범위로부터 벗어남 없이 여기에 설명된 시스템들, 방법들, 및 장치의 배열, 동작 및 상세에는 다양한 변경들, 변화들 및 변동들이 행해질 수도 있다.

Claims

노이즈에 강인한 스피치 분류의 방법으로서,
외부 컴포넌트들로부터 스피치 분류기에 분류 파라미터들을 입력하는 단계;
상기 스피치 분류기에서, 입력된 상기 파라미터들 중 적어도 하나로부터 내부 분류 파라미터들을 발생시키는 단계;
정규화된 자기-상관 계수 함수 임계값을 설정하고 신호 환경에 따라 파라미터 분석기를 선택하는 단계; 및
입력 스피치의 다수의 프레임들의 노이즈 추정치에 기초하여 스피치 모드 분류를 결정하는 단계를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 설정하는 단계는, 상기 노이즈 추정치가 노이즈 추정치 임계값을 초과한다면 현재 프레임을 유성음 (voiced) 으로서 분류하기 위한 보이싱 임계값을 감소시키는 단계를 포함하며,
상기 보이싱 임계값은, 상기 노이즈 추정치가 상기 노이즈 추정치 임계값보다 낮다면 조정되지 않는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 설정하는 단계는 :
상기 노이즈 추정치가 노이즈 추정치 임계값을 초과하는 경우 현재 프레임을 무성음 (unvoiced) 으로서 분류하기 위한 보이싱 임계값을 증가시키는 단계; 및
상기 노이즈 추정치가 노이즈 추정치 임계값을 초과하는 경우 상기 현재 프레임을 무성음으로서 분류하기 위한 에너지 임계값을 증가시키는 단계로서, 상기 보이싱 임계값 및 상기 에너지 임계값은, 상기 노이즈 추정치가 상기 노이즈 추정치 임계값보다 낮다면 조정되지 않는, 상기 에너지 임계값을 증가시키는 단계를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
입력된 상기 파라미터들은 노이즈 억제된 스피치 신호를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
입력된 상기 파라미터들은 음성 활동 정보를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
입력된 상기 파라미터들은 선형 예측 반사 계수들을 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
입력된 상기 파라미터들은 정규화된 자기-상관 계수 함수 정보를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
입력된 상기 파라미터들은 피치에서의 정규화된 자기-상관 계수 함수 정보를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 8 항에 있어서,
상기 피치에서의 정규화된 자기-상관 계수 함수 정보는 값들의 어레이인, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 내부 파라미터들은 제로 크로싱 레이트 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 내부 파라미터들은 현재 프레임 에너지 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 내부 파라미터들은 룩 어헤드 프레임 에너지 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 내부 파라미터들은 대역 에너지 비율 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 내부 파라미터들은 3 프레임 평균화된 유성음 에너지 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 내부 파라미터들은 이전 3 프레임 평균 유성음 에너지 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 내부 파라미터들은 현재 프레임 에너지 대 이전 3 프레임 평균 유성음 에너지 비율 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 내부 파라미터들은 현재 프레임 에너지 대 3 프레임 평균 유성음 에너지 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 내부 파라미터들은 최대 서브-프레임 에너지 인덱스 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 정규화된 자기-상관 계수 함수 임계값을 설정하는 단계는, 사전-결정된 신호에 대한 상기 노이즈 추정치를 노이즈 추정치 임계값과 비교하는 단계를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 파라미터 분석기는 상기 파라미터들을 상태 머신에 적용하는, 노이즈에 강인한 스피치 분류의 방법.
제 20 항에 있어서,
상기 상태 머신은 각각의 스피치 분류 모드에 대한 상태를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 스피치 모드 분류는 트랜지언트 (Transient) 모드를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 스피치 모드 분류는 업-트랜지언트 모드를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 스피치 모드 분류는 다운-트랜지언트 모드를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 스피치 모드 분류는 유성음 모드를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 스피치 모드 분류는 무성음 모드를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
상기 스피치 모드 분류는 무음 모드를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 1 항에 있어서,
적어도 하나의 파라미터를 업데이트하는 단계를 더 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 28 항에 있어서,
업데이트된 상기 파라미터는 피치에서의 정규화된 자기-상관 계수 함수 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 28 항에 있어서,
업데이트된 상기 파라미터는 3 프레임 평균화된 유성음 에너지 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 28 항에 있어서,
업데이트된 상기 파라미터는 룩 어헤드 프레임 에너지 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 28 항에 있어서,
업데이트된 상기 파라미터는 이전 3 프레임 평균 유성음 에너지 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
제 28 항에 있어서,
업데이트된 상기 파라미터는 음성 활동 검출 파라미터를 포함하는, 노이즈에 강인한 스피치 분류의 방법.
노이즈에 강인한 스피치 분류를 위한 장치로서,
프로세서;
상기 프로세서와 전자 통신하는 메모리; 및
상기 메모리 내에 저장된 명령들을 포함하며,
상기 명령들은, 상기 프로세서에 의해 :
외부 컴포넌트들로부터 스피치 분류기에 분류 파라미터들을 입력하고;
상기 스피치 분류기에서, 입력된 상기 파라미터들 중 적어도 하나로부터 내부 분류 파라미터들을 발생시키고;
정규화된 자기-상관 계수 함수 임계값을 설정하고 신호 환경에 따라 파라미터 분석기를 선택하며;
입력 스피치의 다수의 프레임들의 노이즈 추정치에 기초하여 스피치 모드 분류를 결정하도록
실행가능한, 노이즈에 강인한 스피치 분류를 위한 장치.
제 34 항에 있어서,
상기 설정하도록 실행가능한 명령들은, 상기 노이즈 추정치가 노이즈 추정치 임계값을 초과한다면 현재 프레임을 유성음으로서 분류하기 위한 보이싱 임계값을 감소시키도록 실행가능한 명령들을 포함하며,
상기 보이싱 임계값은, 상기 노이즈 추정치가 상기 노이즈 추정치 임계값보다 낮다면 조정되지 않는, 노이즈에 강인한 스피치 분류를 위한 장치.
제 34 항에 있어서,
상기 설정하도록 실행가능한 명령들은 :
상기 노이즈 추정치가 노이즈 추정치 임계값을 초과하는 경우 현재 프레임을 무성음으로서 분류하기 위한 보이싱 임계값을 증가시키고;
상기 노이즈 추정치가 노이즈 추정치 임계값을 초과하는 경우 상기 현재 프레임을 무성음으로서 분류하기 위한 에너지 임계값을 증가시키는 것으로서, 상기 보이싱 임계값 및 상기 에너지 임계값은, 상기 노이즈 추정치가 상기 노이즈 추정치 임계값보다 낮다면 조정되지 않는, 상기 에너지 임계값을 증가시키도록
실행가능한 명령들을 포함하는, 노이즈에 강인한 스피치 분류를 위한 장치.
제 34 항에 있어서,
입력된 상기 파라미터들은 노이즈 억제된 스피치 신호, 음성 활동 정보, 선형 예측 반사 계수들, 정규화된 자기-상관 계수 함수 정보 및 피치에서의 정규화된 자기-상관 계수 함수 정보 중 하나 이상을 포함하는, 노이즈에 강인한 스피치 분류를 위한 장치.
제 37 항에 있어서,
상기 피치에서의 정규화된 자기-상관 계수 함수 정보는 값들의 어레이인, 노이즈에 강인한 스피치 분류를 위한 장치.
제 37 항에 있어서,
상기 내부 파라미터들은 제로 크로싱 레이트 파라미터, 현재 프레임 에너지 파라미터, 룩 어헤드 프레임 에너지 파라미터, 대역 에너지 비율 파라미터, 3 프레임 평균화된 유성음 에너지 파라미터, 이전 3 프레임 평균 유성음 에너지 파라미터, 현재 프레임 에너지 대 이전 3 프레임 평균 유성음 에너지 비율 파라미터, 현재 프레임 에너지 대 3 프레임 평균 유성음 에너지 파라미터 및 최대 서브-프레임 에너지 인덱스 파라미터 중 하나 이상을 포함하는, 노이즈에 강인한 스피치 분류를 위한 장치.
제 34 항에 있어서,
적어도 하나의 파라미터를 업데이트하도록 실행가능한 명령들을 더 포함하는, 노이즈에 강인한 스피치 분류를 위한 장치.
제 40 항에 있어서,
업데이트된 상기 파라미터는 피치에서의 정규화된 자기-상관 계수 함수 파라미터, 3 프레임 평균화된 유성음 에너지 파라미터, 룩 어헤드 프레임 에너지 파라미터, 이전 3 프레임 평균 유성음 에너지 파라미터 및 음성 활동 검출 파라미터 중 하나 이상을 포함하는, 노이즈에 강인한 스피치 분류를 위한 장치.
노이즈에 강인한 스피치 분류를 위한 장치로서,
외부 컴포넌트들로부터 스피치 분류기에 분류 파라미터들을 입력하는 수단;
상기 스피치 분류기에서, 입력된 상기 파라미터들 중 적어도 하나로부터 내부 분류 파라미터들을 발생시키는 수단;
정규화된 자기-상관 계수 함수 임계값을 설정하고 신호 환경에 따라 파라미터 분석기를 선택하는 수단; 및
입력 스피치의 다수의 프레임들의 노이즈 추정치에 기초하여 스피치 모드 분류를 결정하는 수단을 포함하는, 노이즈에 강인한 스피치 분류를 위한 장치.
제 42 항에 있어서,
상기 설정하는 수단은, 상기 노이즈 추정치가 노이즈 추정치 임계값을 초과한다면 현재 프레임을 유성음으로서 분류하기 위한 보이싱 임계값을 감소시키는 수단을 포함하며,
상기 보이싱 임계값은, 상기 노이즈 추정치가 상기 노이즈 추정치 임계값보다 낮다면 조정되지 않는, 노이즈에 강인한 스피치 분류를 위한 장치.
제 42 항에 있어서,
상기 설정하는 수단은 :
상기 노이즈 추정치가 노이즈 추정치 임계값을 초과하는 경우 현재 프레임을 무성음으로서 분류하기 위한 보이싱 임계값을 증가시키는 수단; 및
상기 노이즈 추정치가 노이즈 추정치 임계값을 초과하는 경우 상기 현재 프레임을 무성음으로서 분류하기 위한 에너지 임계값을 증가시키는 수단으로서, 상기 보이싱 임계값 및 상기 에너지 임계값은, 상기 노이즈 추정치가 상기 노이즈 추정치 임계값보다 낮다면 조정되지 않는, 상기 에너지 임계값을 증가시키는 수단을 포함하는, 노이즈에 강인한 스피치 분류를 위한 장치.
노이즈에 강인한 스피치 분류를 위한, 명령들을 갖는 비일시적 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품으로서,
상기 명령들은 :
외부 컴포넌트들로부터 스피치 분류기에 분류 파라미터들을 입력하기 위한 코드;
상기 스피치 분류기에서, 입력된 상기 파라미터들 중 적어도 하나로부터 내부 분류 파라미터들을 발생시키기 위한 코드;
정규화된 자기-상관 계수 함수 임계값을 설정하고 신호 환경에 따라 파라미터 분석기를 선택하기 위한 코드; 및
입력 스피치의 다수의 프레임들의 노이즈 추정치에 기초하여 스피치 모드 분류를 결정하기 위한 코드를 포함하는, 비일시적 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품.
제 45 항에 있어서,
상기 설정하기 위한 코드는, 상기 노이즈 추정치가 노이즈 추정치 임계값을 초과한다면 현재 프레임을 유성음으로서 분류하기 위한 보이싱 임계값을 감소시키기 위한 코드를 포함하며,
상기 보이싱 임계값은, 상기 노이즈 추정치가 상기 노이즈 추정치 임계값보다 낮다면 조정되지 않는, 비일시적 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품.
제 45 항에 있어서,
상기 설정하기 위한 코드는 :
상기 노이즈 추정치가 노이즈 추정치 임계값을 초과하는 경우 현재 프레임을 무성음으로서 분류하기 위한 보이싱 임계값을 증가시키는 수단; 및
상기 노이즈 추정치가 노이즈 추정치 임계값을 초과하는 경우 상기 현재 프레임을 무성음으로서 분류하기 위한 에너지 임계값을 증가시키는 수단으로서, 상기 보이싱 임계값 및 상기 에너지 임계값은, 상기 노이즈 추정치가 상기 노이즈 추정치 임계값보다 낮다면 조정되지 않는, 상기 에너지 임계값을 증가시키는 수단을 포함하는, 비일시적 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품.