KR100908219B1 - 로버스트한 음성 분류를 위한 방법 및 장치 - Google Patents

로버스트한 음성 분류를 위한 방법 및 장치 Download PDF

Info

Publication number
KR100908219B1
KR100908219B1 KR1020097001337A KR20097001337A KR100908219B1 KR 100908219 B1 KR100908219 B1 KR 100908219B1 KR 1020097001337 A KR1020097001337 A KR 1020097001337A KR 20097001337 A KR20097001337 A KR 20097001337A KR 100908219 B1 KR100908219 B1 KR 100908219B1
Authority
KR
South Korea
Prior art keywords
voice
speech
parameter
nacf
threshold
Prior art date
Application number
KR1020097001337A
Other languages
English (en)
Other versions
KR20090026805A (ko
Inventor
펑쥔 황
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20090026805A publication Critical patent/KR20090026805A/ko
Application granted granted Critical
Publication of KR100908219B1 publication Critical patent/KR100908219B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 다중 모드 가변 비트 레이트 기술의 성능을 최대로 하기 위해 가변 음성 모드들을 로버스트하게 분류하는 음성 분류 기술 (502 내지 530) 에 관한 것이다. 음성 분류기는 정확히 최소 비트 레이트로 인코딩하기 위해 높은 퍼센티지의 음성 세그먼트들을 정확히 분류하고, 더 낮은 비트 레이트 필요조건을 충족시킨다. 매우 정확한 음성 분류는 평균적으로 더 낮게 인코딩되는 비트 레이트 및 더 높은 품질로 디코딩되는 음성을 생성한다. 음성 분류기는 음성의 각 프레임에 대한 최대 개수의 파라미터를 고려하여, 각 프레임에 대하여 다수의 정확한 음성 모드 분류를 생성한다. 음성 분류기는 가변 환경 조건들하에서 다수의 음성 모드들을 정확하게 분류한다. 음성 분류기는 외부 구성요소들로부터 분류 파라미터들을 입력하고, 그 입력된 파라미터들로부터 내부 분류 파라미터들를 생성하고, 정규화된 자동-상관 계수 함수 임계값을 설정하고 신호 환경에 따라 파라미터 분석기를 선택하고, 그 파라미터들을 분석하여 음성 모드 분류를 생성한다.
Figure R1020097001337
음성 분류기

Description

로버스트한 음성 분류를 위한 방법 및 장치 {METHOD AND APPARATUS FOR ROBUST SPEECH CLASSIFICATION}
개시된 실시예들은 음성 프로세싱 분야에 관한 것이다. 보다 상세하게는, 개시된 실시예들은 로버스트한 음성 분류를 위한 신규하고 개선된 방법 및 장치에 관한 것이다.
디지털 기술들에 의한 보이스 송신은 확산되어 있고, 특히 장거리 디지털 무선 전화 애플리케이션들에 있어서 그러하다. 한편, 이것은 재구성된 음성의 수신 품질을 유지하면서 채널을 통하여 전송될 수 있는 정보의 최소량을 결정하는데 관심을 야기한다. 만일 음성이 간단히 샘플링 및 계수화에 의해 송신되는 경우에, 초당 64 킬로바이트 (kbps) 정도의 데이터 레이트가 종래의 아날로그 전화의 음성 품질을 달성하는데 요구된다. 그러나, 음성 분석을 이용하여, 적절한 코딩, 송신, 및 수신기에서의 재합성에 의해, 데이터 레이트는 현저하게 감소될 수 있다. 더욱 정밀하게 음성 분석이 수행될 수록, 더욱 적절하게 데이터가 인코딩될 수 있어, 데이터 레이트가 감소한다.
인간 음성 발생의 모델에 관한 파라미터들을 추출함으로써 음성을 압축하는 기술들을 사용하는 장치들을 음성 코더라 한다. 음성 코더는 입력 음성 신호를 시간 블록들 또는 분선 프레임들로 분할한다. 통상, 음성 코더들은 인코더, 디코더, 또는 코덱을 구비한다. 인코더는 입력 음성 프레임을 분석하여 임의의 관련 파라미터들을 추출하고, 그 파라미터들을 2 진 표현 즉, 비트들의 세트 또는 2진 데이터 패킷으로 양자화한다. 데이터 패킷들은 통신 채널을 통하여 수신기 및 디코더로 송신된다. 디코더는 데이터 패킷들을 처리하고, 이들을 비양자화하여 파라미터들을 생성하고, 그 비양자화된 파라미터들을 이용하여 음성 프레임들을 재합성한다.
음성 코더의 기능은, 음성의 고유한 자연적인 리던던시들 모두를 제거하여 계수화된 음성 신호를 낮은 비트 레이트 신호로 압축하는 것이다. 디지털 압축은 입력 음성 프레임을 파라미터들의 세트로 표현하고, 그 파라미터들을 비트들의 세트로 표현하도록 양자화함으로써 달성된다. 입력 음성 프레임은 Ni 개의 비트를 가지며, 음성 코더에 의해 생성된 데이터 패킷은 No 개의 비트를 가지며, 음성 코더에 의해 달성되는 압축율은 Cr = Ni/No 이다. 문제는 목표 압축율을 달성하면서 디코딩된 음성의 보이스 품질을 높게 유지하는 것이다. 음성 코더의 성능은 (1) 음성 모델 또는 상술된 분석 및 합성 프로세스의 결합이 얼마나 잘 수행되는지, 그리고 (2) 파라미터 양자화 프로세스가 얼마나 잘 프레임 당 No 비트의 목표 비트 레이트로 수행되는지에 의존한다. 따라서, 음성 모델의 목적은 각 프레임의 작은 파라미터 세트를 이용하여 음성 신호의 본질, 또는 목표 보이스 품질을 포 착하는 것이다.
음성 코더들은 높은 시간 해상도 프로세싱을 이용함으로써 시간영역 음성 파형을 포착하여 한번에 음성의 작은 세그먼트들 (통상, 5 밀리초 (ms) 서브-프레임) 을 인코딩하려 하는 시간영역 코더들로 구현될 수도 있다. 각 서브-프레임에 대하여, 코드북 공간으로부터의 높은 정밀도 표본은 종래 기술에 공지된 다양한 탐색 알고리즘들에 의해 발견된다. 선택적으로, 음성 코더들은 파라미터들의 세트 (분석)를 이용하여 입력 음성 프레임의 단기 음성 스펙트럼을 포착하고, 대응하는 합성 프로세스를 이용하여 스펙트럼 파라미터들로부터 음성 파형을 재생하려 하는 주파수-영역 코더들로서 구현될 수도 있다. 파라미터 양자화는, A.Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992) 에 개시된 공지의 양자화 기술에 따라 기억된 코드 벡터들의 표현으로 이들을 표현함으로써 파라미터들을 보존한다.
공지된 시간 영역 음성 코더는, 여기서 참조되는 L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396 내지 453 (1978) 에 기재되어 있는 CELP (Code Excited Linear Predictive) 코더이다. CELP 코더에서, 음성 신호에서의 단기 상관, 또는 리던던시들은 단기 포르만트 (formant) 필터의 계수들을 찾는 LP (linear prediction) 분석에 의해 제거된다. 단기 예측 필터를 입력 음성 프레임에 제공함으로써 LP 잔여 신호를 생성하고, 그 신호는 장기 예측 필터 파라미터들과 후속 확률 코드북을 이용하여 추가적으로 모델링되고 양자화된다. 따라서, CELP 코딩은 시간영역 음성 파형의 인코딩 작업을 LP 단기 필터 계수들 의 인코딩 및 LP 잔여의 인코딩의 개별 작업들로 분할한다. 시간영역 코딩은 일정한 레이트 (즉, 각 프레임에 대하여 동일한 개수의 비트 No 를 이용하여) 또는 가변 레이트 (서로 다른 비트 레이트들이 서로 다른 타입의 프레임 컨텐츠에 사용됨) 로 수행될 수 있다. 가변레이트 코더들은 목표 품질을 획득하는데 적절한 레벨로 코덱 파라미터들을 인코딩하는데 요구되는 비트량만을 이용하려 한다. 예시적인 가변 레이트 CELP 코더는 현재 개시된 실시예들의 양수인에게 양도되며 여기서 참조되는 미국 특허 제 5,414,796 호에 개시되어 있다.
통상, CELP 코터와 같은 시간-영역 코더들은 프레임 당 많은 수의 비트 N0 에 의존하여 시간-영역 음성 파형의 정밀도를 유지한다. 통상, 이러한 코더들은, 프레임 당 N0 개의 비트 수가 비교적 크면 (예를 들어, 8 kbps 이상) 우수한 보이스 품질을 제공한다. 그러나, 낮은 비트 레이트 (4kbps 이하) 에서, 시간-영역 코더들은, 제한된 수의 가용 비트들로 인해 높은 품질 및 로버스트한 성능을 유지할 수 없다. 낮은 비트 레이트에서, 제한된 코드북 공간은 상업적인 애플리케이션들을 더 높은 레이트로 성공적으로 배치하는 종래의 시간-영역 코더들의 파형매칭 능력을 제한한다.
통상적으로, CELP 방식들은 STP (short term prediction) 필터 및 LTP (long term prediction) 필터를 사용한다. AbS (Analysis by Synthesis) 접근방식은 인코더에 사용되어, 최적의 확률 코드북 이득 및 인덱스들 뿐만 아니라 LTP 지연 및 이득을 찾는다. EVRC (Enhanced Variable Rate Coder) 와 같은 현재의 최신 CELP 코더들은 초 당 대략 8 킬로비트의 데이터 레이트로 양호한 품질의 음성을 합성할 수 있다.
또한, 비보이스화된 음성은 주기성을 나타내지 않은 것으로 알려져 있다. 종래의 CELP 방식들로 LTP 필터를 인코딩하는데 소비되는 대역폭은 보이스화된 음성에 비해 비보이스화된 음성에 유효하게 사용되지 않으며, 여기서 음성의 주기성이 우세하게 되고, LTP 필터링은 중요하게 된다. 따라서, 더욱 효과적인 (즉, 보다 낮은 비트 레이트) 코딩 방식이 비보이스화된 음성에 대하여 요구된다. 정확한 음성 분류는 가장 유효한 코딩 방식들을 선택하고, 최저 데이터 레이트를 달성하는데 필요하다.
보다 낮은 비트 레이트들로 코딩하기 위하여, 음성의 스펙트럼 또는 주파수 영역 코딩의 다양한 방법이 발전되어 왔으며, 여기서 음성 신호는 스펙트럼들의 시변 전개로서 분석된다. 예를 들어, R.J. McAulay & T.F. Quatieri, Sinusoidal Coding, in Speech Coding and Synthesis ch.4 (W.B. Kleijn & K.K. Paliwal eds., 1995) 를 참조한다. 스펙트럼 코더들에 있어서, 그 목적은 시변 음성 파형을 정확하게 모방하기 보다는 스펙트럼 파라미터들의 세트를 사용하여 음성의 각 입력 프레임의 단기 음성 스펙트럼을 모델링, 또는 예측하는 것이다. 그 후에, 스펙트럼 파라미터들을 인코딩하고, 디코딩된 파라미터들을 이용하여 출력 음성 프레임을 생성한다. 이와 같이 생성된 합성 음성은 오리지널 입력 음성 파형과 매치되지 않지만, 유사한 수신 품질을 제공한다. 당해 분야에 공지되어 있는 주파수-영역 코더들의 일례들은 MBE (multiband excitation coder), STC (sinusoidal transform coder), 및 HC (harmonic coder) 등을 포함한다. 이러한 주파수-영역 코더들은 낮은 비트 레이트에서 이용가능한 작은 개수의 비트를 이용하여 정확하게 양자화될 수 있는 파라미터들의 조밀한 세트를 가지는 고품질의 파라미터 모델을 제공한다.
그럼에도 불구하고, 낮은 비트 레이트는 제한된 코딩 해상도, 또는 제한된 코드북 공간에 중요한 제약을 부과하므로, 이는 단일 코딩 메카니즘의 효과를 제한하며, 코더가 동일한 정밀도를 가지는 다양한 백그라운드 조건들하에서 다양한 타입들의 음성 세그먼트들을 나타내지 못 하게 한다. 예를 들어, 종래의 낮은 비트 레이트의 주파수 영역 코더들은 음성 프레임들에 대한 위상 정보를 송신하지 못 한다. 그 대신에, 위상 정보는 랜덤하고, 인위적으로 생성되는, 초기 위상 값 및 선형 보간 기술들을 이용하여 재구성된다. 예를 들어, H.Yang 등에 의해 기고된, Quadratic Phase Interpolation for Voiced Speech Synthesie in the MBE Model, in 29 Electronic Letters 856 내지 857 (1993 년 5 월) 를 참조한다. 위상 정보가 인위적으로 생성되기 때문에, 사인 곡선들의 진폭들이 완벽하게 양자화-비양자화 프로세스에 의해 보존되더라도, 주파수-영역 코더에 의해 생성되는 음성 출력은 오리지널 입력 음성 (즉, 대다수의 펄스들은 동기화되어 있지 않다) 과 정렬되지 않는다. 따라서, 예를 들어 주파수-영역 코더들에서의 SNR (signal-to-ratio) 또는 인식된 (perceptual) SNR 과 같은 임의의 폐쇄 루브 성능 측정값을 채용하기가 어렵다.
낮은 비트 레이트로 유효하게 음성을 인코딩하는 하나의 효과적인 기술은 다 중-모드 코딩이다. 다중-모드 코딩 기술들은 개방-루프 모드 결정 프로세스와 함께 낮은 레이트 음성 코딩을 수행하는데 사용되어 왔다. 이러한 하나의 다중-모드 코딩 기술은 Amitava Das 등에 의해 기고된, Multi-mode and Variable-Rate Coding of Speech, in speech Coding and Synthesis ch.7 (W.B. Kleijn & K.K. Paliwal eds., 1995) 에 개시되어 있다. 종래의 다중-모드 코더들은, 서로 다른 타입들의 입력 음성 프레임들에 서로 다른 모드들, 또는 인코딩-디코딩 알고리즘들을 적용한다. 각각의 모드 또는 인코딩-디코딩 프로세스는, 가장 효과적인 방식으로 예를 들어 보이스화된 음성, 비보이스화된 음성, 또는 백그라운드 노이즈 (비-음성) 와 같은, 임의의 타입의 음성 세그먼트를 나타내도록 맞춤화된다. 이러한 다중-모드 코딩 기술들의 성공은 정확한 모드 결정 또는 음성 분류에 크게 의존한다. 외부, 개방 루프 모드 결정 메카니즘은 입력 음성 프레임을 조사하고, 어떤 모드를 프레임에 적용할 것인지에 대한 결정을 행한다. 통상, 개방 루프 모드 결정은 입력 프레임으로부터 다수의 파라미터들을 추출하고, 임의의 시간 및 스펙트럼 특성에 대한 파라미터들을 평가하고, 그리고 그 평가시에 모드 결정을 기초로 하여 수행된다. 따라서, 모든 결정은 출력 음성의 추출 조건 즉, 출력 음성이 보이스 품질 또는 다른 성능 측정에 의해 입력 음성에 얼마나 근접하는지를 미리 알지 않고 행해진다. 음성 코덱에 대한 개방-루프 모드 결정의 일례가 본 발명의 양수인에게 양도되며, 여기서 참조되는 미국 특허 제 5,414,796 호에 개시되어 있다.
다중-모드 코딩은, 각 프레임에 대하여 동일한 개수의 비트 N0 또는 가변-레이트를 이용하여 일정한 레이트로 행해질 수 있고, 여기서 서로 다른 비트 레이트들은 다른 모드들에 사용된다. 가변-레이트 코딩의 목적은 목표 품질을 획득하기에 적절한 레벨로 코덱 파라미터들을 인코딩하는데 요구되는 비트량만을 이용하는 것이다. 그 결과, 일정한 레이트, 더 높은 레이트 코더의 품질과 동일한 목표 보이스 품질을 VBR (variable-bit-rate) 기술들을 이용하여 현저히 낮은 평균-레이트로 획득할 수 있다. 예시적인 가변 레이트 음성 코더는 미국 특허 제 5,414,796 호에 개시되어 있다. 현재, 낮은 비트 레이트들 (즉, 2.4 내지 4 kbps 의 범위 및 그 범위 아래에서) 로 매체에서 동작하는 높은 품질의 음성 코더를 개발하기 위한 연구 관심의 고조 및 강한 상업적 필요성이 존재한다. 애플리케이션 영역은 무선 텔레포니 (telephony), 위성 통신, 인터넷 텔레포니, 다양한 멀티미디어, 및 보이스-스트리밍 애플리케이션, 보이스 메일, 및 다른 보이스 저장 시스템들을 포함한다. 패킷 손실 상황하에서 로버스트한 성능에 대한 요구 및 고 용량에 대한 필요성이 추진력이 된다. 다양한 최신 음성 코딩을 표준화하려는 작업은 로우-레이트 음성 코딩 알고리즘들의 발전 및 연구를 추진하는 또 다른 직접적인 추진력이 된다. 로우-레이트 음성 코더는, 허용가능한 애플리케이션 대역폭에 대하여, 더 많은 채널들, 또는 사용자들을 생성한다. 채널 코딩에 적합한 부가층과 연결되는 로우-레이트 음성 코더는 코더 명세 (specification) 의 전체 비트 공급을 맞추고, 채널 에러 조건하에서 로버스트한 성능을 전달한다.
따라서, 다중-모드 VBR 음성 코딩은 로우 비트 레이트로 음성을 인코딩하는 효과적인 메카니즘이다. 종래의 다중-모드 방식들은, 백그라운드 노이즈 또는 침묵에 대한 모드 뿐만 아니라 음성의 다양한 세그먼트들 (예를 들어, 비보이스, 보이스, 전이 (transition) ) 에 대하여, 유효한 인코딩 방식의 설계 또는 모드들을 요구한다. 음성 코더의 전체 성능은 모드 분류의 로버스트함 (robustness) 및 각각의 모드를 얼마나 잘 수행하느냐에 의존한다. 코더의 평균 레이트는 비보이스, 보이스, 및 음성의 다른 세그먼트들에 대해 서로 다른 모드들의 비트 레이트들에 의존한다. 낮은 평균 레이트로 목표 품질을 달성하기 위하여, 가변 조건들하에서 음성 모드를 정확하게 결정해야 한다. 통상, 보이스 및 비보이스 음성 세그먼트들은 높은 비트 레이트들로 포착되며, 백그라운드 노이즈 및 침묵 세그먼트들은 현저히 더 낮은 레이트로 동작하는 모드들로 표시된다. 다중-모드 가변 비트 레이트 인코더들은 프레임 당 최소 개수의 비트들을 이용하여 높은 퍼센티지의 음성 세그먼트들을 정확하게 포착 및 인코딩하도록 정확한 음성 분류를 요구한다. 더욱 정확한 음성 분류는 평균적으로 더 낮게 인코딩된 비트 레이트 및 더 높은 품질로 디코딩된 음성을 생성한다.
전술한 바와 같이, 음성 분류 기술들은 단지 격리된 음성의 프레임들에 대한 최소 개수의 파라미터들을 고려하여, 소수의 부적절한 음성 모드 분류들을 생성한다. 따라서, 다중-모드 가변 비트 레이트 인코딩 기술들에 최대 성능을 부여하기 위하여 가변 환경 조건들하에서 다양한 음성 모드들을 정확히 분류하는 고성능의 음성 분류기가 필요하게 된다.
개시된 실시예들은 다수의 음성 특성 파라미터들을 평가하여, 다양한 조건들하에서 높은 정밀도로 다양한 음성 모드들을 분류하는 로버스트한 음성 분류 기술에 관한 것이다. 따라서, 일 양태에 있어서, 음성 분류 방법을 개시한다. 그 방법은, 외부 구성요소들로부터 음성 분류기로 분류 파라미터들을 입력하는 단계;
음성 분류기에서, 입력 파라미터들 중 하나 이상으로부터 내부 분류 파라미터들을 생성하는 단계;
정규화된 자동-상관 계수 함수 임계값을 설정하고, 신호 환경에 따라 파라미터 분석기를 선택하는 단계; 및
상기 입력 파라미터들 및 상기 내부 파라미터들을 분석하여 음성 모드 분류를 생성하는 단계를 포함한다.
또 다른 양태에서, 음성 분류기를 개시한다. 음성 분류기는, 하나 이상 의 외부 입력 파라미터로부터 내부 분류 파라미터들을 생성하는 생성기;
정규화된 자동-상관 계수 함수 임계값을 설정하고, 신호 환경에 따라 파라미터 분석기를 선택하는 정규화된 자동-상관 계수 함수 임계값 생성기; 및
하나 이상의 외부 입력 파라미터 및 내부 파라미터들을 분석하여 음성 모드 분류를 생성하는 파라미터 분석기를 포함한다.
개시된 실시예들은 주변 노이즈의 레벨들을 변경시키는 환경에서 다양한 음성 모드들에 대한 음성 분류 기술들을 제공한다. 음성 모드들은 가장 효과적인 방식으로 인코딩하기 위하여 신뢰성있고 정확하게 식별될 수 있다.
개시된 실시예들은 보코더 애플리케이션들에 음성 분류를 향상시키는 방법 및 장치를 제공한다. 신규한 분류 파라미터들은 이전에 이용가능한 음성 모드 분류 보다 더 높은 정밀도를 가지는 음성 모드 분류를 더 많이 생성하도록 분석된다. 신규한 결정 생성 프로세스는 프레임간 기초에 의해 음성을 분류하는데 사용된다. 오리지널 입력 음성, SNR 정보, 노이즈 억제된 출력 음성, 보이스 활동 정보, LPC (Linear Prediction Coefficient) 분석, 및 개방 루프 피치 추정값들로부터 도출된 파라미터들은, 결정 생성기에 기초하여 새로운 상태로 사용되어 다양한 음성 모드들을 정확히 분류한다. 음성의 각각의 프레임은 현재의 프레임 뿐만 아니라 과거 및 미래의 프레임을 분석함으로써 분류된다. 개시된 실시예들에 의해 분류될 수 있는 음성의 모드들은 액티브 음성으로의 트랜전트 (transient) 및 전이 (transition), 그리고 워드의 말단에서 보이스 모드, 비보이스 모드, 및 침묵 (silence) 모드를 포함한다.
개시된 실시예들은 주변 노이즈의 레벨들을 변경시키는 환경에서 다양한 음성 모드들에 대한 음성 분류 기술들을 제공한다. 음성 모드들은 가장 효과적인 방식으로 인코딩하기 위하여 신뢰성있고 정확하게 식별될 수 있다.
도 1 에서, 제 1 인코더 (10) 는 계수화된 음성 샘플들 s(n) 을 수신하고, 그 샘플들 s(n) 을 송신 매체 (12) 또는 통신 채널 (12) 을 통하여 제 1 디코더 (14) 로 송신하기 위하여 인코딩한다. 디코더 (14) 는 인코딩된 음성 샘플들을 디코딩하고, 출력 음성 신호 SSYNTH (n) 를 합성한다. 반대 방향으로 송신하기 위하여, 제 2 인코더 (16) 는 계수화된 음성 샘플들 s(n) 을 인코딩하고, 이 샘플들을 통신 채널 (18) 상에 송신한다. 제 2 디코더 (20) 는 그 인코딩된 음성 샘플들을 수신 및 디코딩하여, 합성된 출력 음성 신호 SSYNTH (n) 를 생성한다.
음성 샘플들 s(n) 은 예를 들어, PCM (pulse code modulation), 확장된
Figure 112009004030189-pat00001
, 또는 A-law 를 포함하는 종래 기술에 공지된 임의의 다양한 방법들에 따라 계수화 및 양자화된 음성 신호들을 나타낸다. 당해 분야에 공지된 바와 같이, 음성 샘플들 s(n) 은 입력 데이터의 프레임들로 조직화되며, 여기서 각 프레임은 소정 개수의 계수화된 음성 샘플들 s(n) 을 구비한다. 예시적인 실시예에서, 8 kHz 의 샘플링 레이트를 사용하면, 프레임은 각 20 ms 마다 160 개의 샘플들을 구비한다. 아래에 개시된 실시예들에 있어서, 데이터 송신 레이트는 프레임간 기 초에 의해 8 kbps (풀 레이트) 로부터 4 kbps (하프 레이트), 2 kbps (1/4 레이트), 1 kbps (1/8 레이트) 로 변경될 수도 있다. 선택적으로, 다른 데이터 레이트들이 사용될 수도 있다. 여기서 사용되는 바와 같이, "풀 레이트" 또는 "하이 레이트" 라는 용어는 일반적으로 8 kbps 이상인 데이터 레이트를 지칭하며, "하프 레이트" 또는 "로우 레이트"라는 용어는 일반적으로 4kbps 이하인 데이터 레이트를 지칭한다. 데이터 송신 레이트를 변경시키면, 보다 낮은 비트 레이트들이 비교적 적은 음성 정보를 포함하는 프레임들에 대하여 선택적으로 사용되므로 유리하다. 당업자라면 알 수 있는 바와 같이, 다른 샘플링 레이트, 프레임 사이즈, 및 데이터 송신 레이트들을 사용할 수도 있다.
제 1 인코더 (10) 및 제 2 디코더 (20) 모두는 제 1 음성 코더, 또는 음성 코덱을 구비한다. 이와 유사하게, 제 2 인코더 (16) 및 제 2 디코더 (14) 모두는 제 2 음성 코더를 구비한다. 당업자라면 음성 코더들을 DSP (digital signal processor), ASIC (application-specific integrated circuit), 이산 게이트 로직, 펌웨어, 또는 어떤 종래의 프로그램가능한 소프트웨어 모듈 및 마이크로프로세서로 구현할 수도 있음을 알 수 있다. 소트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터, 또는 당해 분야에 공지되어 있는 어떤 다른 형태의 기록가능한 저장 매체에 포함된다. 선택적으로, 어떤 종래의 프로세서, 제어기, 또는 상태 머신은 마이크로프로세서로 대체될 수 있다. 음성 코딩을 위해 특별히 설계된 ASIC 의 일례가 본 발명의 양수인에게 양도되고 여기서 참조되는 미국 특허 제 5,727,123 호 및 제 5,784,532 호에 개시되어 있다.
도 2 는 로버스트한 음성 분류기의 예시적인 실시예를 나타낸다. 일 실시예에서, 도 2 의 음성 분류 장치는 도 1 의 인코더 (10, 16) 에 포함될 수 있다. 또 다른 실시예에서, 로버스트한 음성 분류기는 우수하므로, 도 1 의 인코더 (10, 16) 와 같은 장치들에 출력되는 음성 모드 분류를 제공한다.
도 2 에서, 입력 음성은 노이즈 억제기 (202) 에 제공된다. 통상, 입력 음성은 보이스 신호의 아날로그/디지털 변환에 의해 생성된다. 노이즈 억제기 (202) 는 입력 음성 신호로부터 노이즈 성분들을 필터링하여 노이즈 억제된 출력 음성 신호, 및 현재의 출력 음성에 대한 SNR 정보를 생성한다. SNR 정보 및 출력 음성 신호는 음성 분류기 (210) 로 입력된다. 노이즈 억제기 (202) 의 출력 음성 신호도 또한 보이스 활동 검출기 (204), LPC 분석기 (206), 및 개방 루프 피치 추정기 (208) 로 입력된다. SNR 정보는 주기성의 임계값을 설정하고, 명료한 음성과 노이즈 음성 사이를 식별하도록 음성 분류기 (210) 에 의해 사용된다. 이하, SNR 파라미터를 curr_ns_snr 이라 한다. 이하, 출력 음성 신호를 t_in 이라 한다. 일 실시예에서, 만일 노이즈 억제기 (202) 가 제공되지 않거나, 또는 턴 오프되는 경우에, SNR 파라미터 curr_ns_snr 을 디폴트 값으로 미리 설정해야 한다.
보이스 활동 검출기 (204) 는 현재의 음성에 대한 보이스 활동 정보를 음성 분류기 (210) 로 출력한다. 보이스 활동 정보 출력은, 현재의 음성이 액티브인지 또는 인액티브인지를 나타낸다. 예시적인 실시예의 일례에서, 보이스 활동 정보 출력은 이진값 즉, 액티브 또는 인액티브일 수 있다. 또 다른 실시예에 서, 보이스 활동 정보 출력은 다중값을 가질 수 있다. 여기서는, 보이스 활동 정보 파라미터를 vad 라 한다.
LPC 분석기 (206) 는 현재의 출력 음성에 대한 LPC 반사 계수들을 음성 분류기 (210) 로 출력한다. 또한, LPC 분석기 (206) 는 LPC 계수들과 같은 다른 파라미터들을 출력할 수도 있다. 여기서는, LPC 반사 계수 파라미터를 refl 이라한다.
개방 루프 피치 추정기 (208) 는 NACF (Normalized Auto-correlation Coefficient Function) 값, 및 피치 주변의 NACF 값들을 음성 분류기 (210) 로 출력한다. 이하, NACF 파라미터를 nacf 라 하고, 피치 주변의 NACF 파라미터를 nacf_at_pitch 라 한다. 더 주기적인 음성 신호는 더 높은 nacf_at_pitch 값을 생성한다. 더 높은 nacf_at_pitch 값은 정지 보이스 출력 음성 타입과 더 연관될 수 있다. 음성 분류기 (210) 는 nacf_at_pitch 값들의 어레이를 유지한다. nacf_at_pitch 는 서브-프레임 기초에 의해 계산한다. 예시적인 실시예에서, 2 개의 개방 루프 피치 추정값들은 프레임 당 2 개의 서브-프레임을 측정함으로써 출력 음성의 각 프레임에 대하여 측정된다. nacf_at_pitch 는 각 서브-프레임에 대한 개방 루프 피치 추정값으로부터 계산된다. 예시적인 실시예에서, nacf_at_pitch 값들의 5 차 어레이 (즉, nacf_at_pitch[5]) 는 출력 음성의
Figure 112009004030189-pat00002
프레임의 값들을 포함한다. nacf_at_pitch 어레이는 출력 음성의 각 프레임에 대하여 업데이트된다. 새로운 nacf_at_pitch 파라미터의 어레이를 사용하여 음 성 분류기 (210) 에 현재, 과거, 및 룩 어헤드 (look ahead)(미래) 신호정보를 사용하는 능력을 제공하여, 더욱 정확하고 로버스트한 음성 모드 결정을 행한다.
외부 구성요소들로부터 음성 분류기 (210) 로 입력되는 정보에 부가하여, 음성 분류기 (210) 는 음성 모드 결정 형성 프로세스에 사용하기 위하여 출력 음성으로부터 부가적인 새로운 파라미터들을 내부적으로 생성한다.
일 실시예에 있어서, 음성 분류기 (210) 는 내부적으로 제로 크로싱 레이트 파라미터를 생성하고, 이하에서는 상기 파라미터를 zcr 이라 한다. 현재의 출력 음성의 zcr 파라미터는 음성의 프레임당 음성 신호의 부호 변화의 개수로서 규정된다. 보이스 음성에서, zcr 값은 낮지만, 비보이스 음성 (또는 노이즈) 은, 신호가 매우 랜덤하기 때문에 높은 zcr 값을 가진다. zcr 파라미터는 보이스 음성 및 비보이스 음성을 분류하기 위하여 음성 분류기 (210) 에 의해 사용된다.
*일 실시예에서, 음성 분류기 (210) 는 내부적으로 현재의 프레임 에너지 파라미터를 생성하며, 이하에서는 상기 파라미터를 E 라 한다. E 는 현재의 프레임의 에너지와 과거 및 미래의 프레임의 에너지를 비교함으로써 트랜전트 (transient) 음성을 식별하도록 음성 분류기 (210) 에 의해 사용될 수 있다. 파라미터 vEprev 는 E 로부터 도출되는 이전의 프레임 에너지이다.
일 실시예에서, 음성 분류기 (210) 는 룩 어헤드 프레임 에너지 파라미터를 내부적으로 생성하고, 이하에서는 상기 파라미터를 Enext 라 한다. Enext 는 출력 음성의 현재 프레임의 일부 및 다음 프레임의 일부로부터의 에너지 값들을 포 함할 수도 있다. 일 실시예에 있어서, Enext 는 출력 음성의 현재 프레임의 후반부의 에너지 및 다음 프레임의 전반부의 에너지를 나타낸다. Enext 는 트랜지셔널 음성을 식별하기 위하여 음성 분류기 (210) 에 의해 사용된다. 음성의 말단 (end) 에서, 다음 프레임의 에너지는 현재 프레임의 에너지와 비교하여 크게 줄어든다. 음성 분류기 (210) 는 현재 프레임의 에너지와 다음 프레임의 에너지를 비교하여 음성의 말단과 음성 조건의 시작, 또는 업 트랜전트 및 다운 트랜전트 음성 모드들을 식별한다.
일 실시예에서, 음성 분류기 (210) 는 log2(EL/EH) 로 규정되는, 대역 에너지 레이트 파라미터를 내부적으로 생성하며, 여기서 EL 은 0 내지 2kHz 의 낮은 대역의 현재 프레임 에너지이며, EH 는 2 kHz 내지 4 kHz 의 높은 대역의 현재 프레임 에너지이다. 이하, 대역 에너지 레이트 파라미터를 bER 이라 한다. bER 파라미터에 의해 음성 분류기 (210) 는 보이스 음성 및 비보이스 음성 모드를 식별할 수 있으며, 일반적으로 보이스 음성은 낮은 대역에 에너지가 집중되지만, 노이즈 비보이스 음성은 높은 대역에 에너지가 집중된다.
일 실시예에서, 음성 분류기 (210) 는 출력 음성으로부터 3 개의 프레임의 평균 보이스 에너지 파라미터를 내부적으로 생성하고, 이하에서는 상기 파라미터를 vEav 라 한다. 다른 실시예들에 있어서, vEav 는 3 이외의 다수의 프레임들에 의해 평균화될 수도 있다. 현재의 음성 모드가 액티브 보이스 모드인 경우에, vEav 는 출력 음성의 마지막 3 개의 프레임내의 연속적인 에너지 평균을 계산한다. 출력 음성의 마지막 3 개의 프레임내의 에너지를 평균화한 것을, 기본 음성 모 드 결정에 대하여 단독적인 단일 프레임 에너지 계산보다 더욱 안정한 확률을 가지는 음성 분류기 (210) 에 제공한다. vEav 는 보이스 음성의 말단 또는 다운 트랜전트 모드를 분류하도록 음성 분류기 (210) 에 의해 사용되며, 현재의 프레임 에너지 E 는, 음성이 정지되는 경우에, 평균 보이스 에너지 vEav 에 비교하여 크게 감소한다. vEav 는 현재 프레임이 보이스 상태이거나, 비보이스 음성 또는 인액티브 음성에 대하여 일정한 값으로 리셋되는 경우에만 업데이트된다. 일 실시예에서, 일정한 리셋 값은 .01 이다.
일 실시예에서, 음성 분류기 (210) 는 이전의 3 개의 프레임의 평균 보이스 에너지 파라미터를 내부적으로 생성하며, 이하에서는 상기 파라미터를 vEprev 라 한다. 다른 실시예들에 있어서, vEprev 는 3 이외의 다수의 프레임들에 의해 평균화될 수 있다. vEprev 는 트랜지셔널 음성을 식별하기 위하여 음성 분류기 (210) 에 의해 사용된다. 음성의 시작에서, 현재 프레임의 에너지는 이전의 3 개의 보이스 프레임의 평균 에너지에 비교하여 크게 증가한다. 음성 분류기 (210) 는 현재 프레임의 에너지와 이전의 3 개의 프레임의 에너지를 비교하여, 음성 조건의 시작, 또는 업 트랜전트 모드 및 음성 모드를 식별한다. 이와 유사하게 보이스 음성의 말단에서, 현재의 프레임의 에너지는 크게 줄어든다. 따라서, vEprev 는 음성의 말단에서 전이 (transition) 을 분류하는데 사용될 수도 있다.
일 실시예에 있어서, 음성 분류기 (210) 는 10*log10(E/vEprev) 로 규정되는, 이전의 3 개의 프레임의 평균 보이스 에너지에 대한 현재의 프레임 에너지의 레이트 파라미터를 내부적으로 생성한다. 다른 실시예들에 있어서, vEprev 는 3 이외의 다수의 프레임들에 의해 평균화될 수도 있다. 이하에서는, 이전의 3 개의 프레임의 평균 보이스 에너지에 대한 현재 에너지 레이트 파라미터를 vER 이라 한다. vER 은 보이스 음성의 시작 및 보이스 음성의 말단, 또는 업 트랜전트 모드 및 다운 트랜전트 모드를 분류하도록 음성 분류기 (210) 에 의해 사용되며, vER 은 음성이 다시 개시되는 경우에 크게되며, 보이스 음성의 말단에서 작게된다. vER 파라미터는 트랜전트 음성을 분류하는데 vEprev 파라미터와 함께 사용될 수도 있다.
일 실시예에 있어서, 음성 분류기 (210) 는, MIN(20,10*log10(E/vEav)) 로 규정되는, 3 개의 프레임의 평균 보이스 에너지에 대한 현재 프레임 에너지 레이트 파라미터를 내부적으로 생성한다. 이하에서는, 3 개의 프레임의 평균 보이스 에너지에 대한 현재의 프레임 에너지를 vER2 라 한다. vER2 는 보이스 음성의 말단에서 트랜전트 보이스 모드들을 분류하도록 음성 분류기 (210) 에 의해 사용된다.
일 실시예에 있어서, 음성 분류기 (210) 는 최대 서브-프레임 에너지 인덱스 파라미터를 내부적으로 생성한다. 음성 분류기 (210) 는 출력 음성의 현재 프레임을 서브-프레임들로 균등하게 분할하고, 각 서브-프레임의 RMS (Root Means Squared) 에너지 값을 계산한다. 일 실시예에서, 현재의 프레임을 10 개의 서브-프레임들로 분할한다. 최대 서브-프레임 에너지 인덱스 파라미터는 현재의 프레임 또는 현재의 프레임의 하반부의 최대 RMS 에너지 값을 가지는 서브-프레임 에 대한 인덱스이다. 이하에서는, 최대 서브-프레임 에너지 인덱스 파라미터를 maxsfe_idx 라 한다. 현재의 프레임을 서브-프레임들로 분할한 것을 피크 에너지의 위치에 대한 정보를 가지며 프레임내에서 최대 피크 에너지의 위치를 포함하는 음성 분류기 (210) 에 제공한다. 프레임을 더 많은 서브-프레임들로 분할함으로써 더 많은 결과를 달성할 수 있다. maxsfe_idx 는 트랜전트 음성 모드들을 분류하도록 음성 분류기 (210) 에 의해 다른 파라미터들과 함께 사용되며, 비보이스 또는 침묵 음성 모드들의 에너지는 일반적으로 안정되지만, 에너지는 트랜전트 음성 모드로 픽업 (pick up) 되거나 테이퍼 오프 (taper off) 된다.
음성 분류기 (210) 는 인코딩 성분들로부터 직접 입력된 새로운 파라미터들 및 내부적으로 생성된 새로운 파라미터들을 이전에 발생가능한 모드들보다 더욱 정확하고 로버스트한 음성 모드 분류들에 이용한다. 음성 분류기 (210) 는 새로운 결정 생성 프로세스를 직접 입력된 파라미터 및 내부적으로 생성된 파라미터에 적용하여 개선된 음성 분류 결과를 생성한다. 도 4a 내지 도 4c 및 도 5a 내지 도 5c 를 참조하여 결정 생성 프로세스를 아래에 더 상세히 설명한다.
일 실시예에 있어서, 음성 분류기 (210) 에 의해 출력되는 음성 모드들은, 트랜전트, 업-트랜전트, 다운-트랜전트, 보이스, 비보이스, 및 침묵 모드들을 포함한다. 트랜전트 모드는 보이스 음성이지만 덜 주기적인 음성이며, 풀 레이트 CELP 로 최적 인코딩된다. 업-트랜전트 모드는 인액티브 음성의 제 1 보이스 프레임이며, 풀 레이트 CELP 로 최적 인코딩된다. 다운-트랜전트 모드는 통상적으로 워드의 말단에서 낮은 에너지 보이스 음성을 가지며, 1/2 레이트 CELP 로 최적 인코딩된다. 보이스 모드는 주로 모음을 포함하는, 매우 주기적인 보이스 음성이다. 보이스 모드 음성은 풀 레이트, 1/2 레이트, 1/4 레이트, 또는 1/8 레이트로 인코딩될 수도 있다. 보이스 모드 음성을 인코딩하기 위한 데이터 레이트는 ADR (Average Date Rate) 필요조건을 충족하도록 선택된다. 주로 자음을 포함하는 비보이스 모드는 1/4 레이트의 NELP (Noise Excited Linear Prediction) 으로 최적 인코딩된다. 침묵 모드는 인액티브 음성이고, 1/8 CELP 로 최적 인코딩된다.
당업자라면 파라미터들 및 음성 모드들이 개시된 실시예들의 파라미터들 및 음성 모드들로 제한되지 않음을 알 수 있다. 부가적인 파라미터들 및 음성 모드들은 개시된 실시예들의 범위를 벗어나지 않고 사용될 수 있다.
도 3 은 로버스트한 음성 분류 기술의 음성 분류 단계들의 일 실시예를 나타내는 흐름도이다.
단계 300 에서, 외부 구성요소들로부터 입력된 분류 파라미터들은 노이즈 억제된 출력 음성의 각 프레임에 대하여 프로세싱된다. 일 실시예에 있어서, 외부 구성요소들로부터 입력된 분류 파라미터들은 노이즈 억제기 구성요소로부터 입력된 curr_ns_snr 및 t_in, 개방 루프 피치 추정기 구성요소로부터 입력된 nacf 및 nacf_at_pitch 파라미터들, 보이스 활동 검출기 구성요소로부터 입력된 vad, 및 LPC 분석 구성요소로부터 입력된 refl 을 포함한다. 제어 흐름은 단계 302 로 진행한다.
단계 302 에서, 내부적으로 생성된 부가적인 파라미터들은 외부 구성요소들 로부터 입력된 분류 파라미터들로부터 계산된다. 예시적인 실시예에서, zcr, E, Enext, bER, vEav, vEprev, vER, vER2 및 maxsfe_idx는 t_in 으로부터 계산된다. 내부적으로 생성된 파라미터들이 각각의 출력 음성 프레임에 대하여 계산된 경우에, 제어 흐름은 단계 304 로 진행한다.
단계 304 에서, NACF 임계값들이 결정되며, 파라미터 분석기는 음성 신호의 환경에 따라서 선택된다. 예시적인 실시예에서, NACF 임계값은 단계 300 에서 입력된 curr_ns_snr 파라미터를 SNR 임계값과 비교함으로써 결정된다. 노이즈 억제기로부터 도출된 curr_ns_snr 정보는, 주기성 결정 임계값에 새로운 적응형 제어를 제공한다. 이러한 방식으로, 서로 다른 주기성의 임계값들은 서로 다른 레벨들의 노이즈 성분들을 가진 음성 신호들에 대한 분류 프로세스에 적용된다. 더욱 정확한 음성 분류 결정은, 가장 적절한 nacf, 또는 주기성, 음성 신호의 노이즈 레벨에 대한 임계값이 출력 음성의 각 프레임에 대하여 선택되는 경우에 생성된다. 음성 신호에 대하여 가장 적절한 주기성 임계값을 결정하면 음성 신호에 대해 최적의 파라미터 분석기를 선택할 수 있다.
명료한 음성과 노이즈 음성은 주기성에 있어서 본질적으로 서로 다르다. 노이즈가 존재하는 경우에, 음성이 손상된다. 음성 손상이 존재하는 경우에, 주기성의 측정값 또는 nacf 는 명료한 음성의 측정값보다 낮게 된다. 따라서, nacf 임계값은 노이즈 신호 환경을 보상하기 위하여 낮게되거나 또는 명료한 신호 환경을 위하여 증가된다. 개시된 실시예들의 새로운 음성 분류 기술은 모든 환경들에 대하여 주기성의 임계값을 결정하지 않고, 노이즈 레벨들에 관계없이 더욱 정확하고 로버스트한 모드 결정을 생성한다.
예시적인 실시예에서, curr_ns_snr 의 값이 25 db 의 SNR 임계값 이상인 경우에, 명료한 음성에 대해 nacf 임계값들이 적용된다. 명료한 음성에 대한 nacf 임계값들의 일례가 아래의 표에 의해 규정된다.
Figure 112009004030189-pat00003
예시적인 실시예에서, curr_ns_snr 의 값이 25 db 의 SNR 임계값보다 작은 경우에, 노이즈 음성에 대한 nacf 임계값들이 적용된다. 노이즈 음성에 대한 nacf 임계값들의 일례가 아래의 표에 의해 규정된다.
Figure 112009004030189-pat00004
노이즈 음성은 부가된 노이즈를 가지는 명료환 음성과 동일하다. 적응형 주기성 임계값 제어를 이용하여, 로버스트한 음성 분류 기술은 이전에 발생가능한 모드보다 명료한 음성 및 노이즈 음성에 대해 동일한 분류 결정들을 더 많이 생성할 수 있다. nacf 임계값들이 각 프레임에 대하여 설정된 경우에, 제어 흐름은 단계 306 으로 진행한다.
단계 306 에서, 외부 구성요소들 및 내부적으로 생성된 파라미터들로부터 입력된 파라미터들을 분석하여 음성 모드 분류를 생성한다. 신호 환경에 따라 선택된 어떤 다른 분석 방법 또는 상태 머신을 파라미터들에 적용한다. 예시적인 실시예에서, 외부 구성요소들로부터 입력된 파라미터들 및 내부적으로 생성된 파라미터들은 도 4a 내지 도 4c 및 도 5a 내지 도 5c를 참조하여 더 상세히 기술되는 상태 기반 모드 결정 생성 프로세스에 적용된다. 결정 생성 프로세스는 음성 모드 분류를 생성한다. 예시적인 실시예에서, 트랜전트, 업-트랜전트, 다운 트랜전트, 보이스, 비보이스, 또는 침묵의 음성 모드 분류를 생성한다. 음성 모드 결정이 생성되면, 제어 흐름은 단계 308 으로 진행한다.
단계 308 에서, 상태 변수들 및 다양한 파라미터들이 현재의 프레임을 포함하도록 업데이트된다. 예시적인 실시예에서, 현재의 프레임의 vEav, vEprev, 및 보이스 상태는 업데이트된다. 현재 프레임 에너지 E, nacf_at_pitch, 및 현재의 프레임 음성 모드는 다음 프레임을 분류하기 위하여 업데이트된다.
단계 300 내지 308 은 음성의 각 프레임에 대하여 반복된다.
도 4a 내지 도 4c 는 로버스트한 음성 분류 기술의 예시적인 실시예의 모드 결정 생성 프로세스의 실시예를 나타낸다. 결정 생성 프로세스는 음성 프레임의 주기성에 기초하여 음성 분류에 대한 상태 머신을 선택한다. 음성의 각 프레임에 대하여, 음성 프레임의 주기성 또는 노이즈 성분과 주로 호환되는 상태 머신은, 결정 생성 프로세스에 대하여, 음성 프레임의 주기성 측정값 즉, nacf_at_pitch 값을 도 3 의 단계 304 에서 설정된 NACF 임계값들과 비교함으로써 선택된다. 음성 프레임의 주기성의 레벨은 모드 결정 프로세스의 상태 전이 (transition) 들을 제한 및 제어하여, 더욱 로버스트한 분류를 생성한다.
도 4a 는 vad 가 1 이고 (액티브 음성이 존재), nacf_at_pitch 의 3 번째 값 (즉, nacf_at_pitch[2], 제로 인덱스화됨) 이 VOICEDTH 보다 매우 높거나, 또는 더 큰 경우에, 예시적인 실시예에서 선택되는 상태 머신의 일 실시예를 나타낸다. VOICEDTH 는 도 3 의 단계 304 에서 결정된다. 도 5a 는 각 상태에 의해 평가되는 파라미터들을 나타낸다.
초기 상태는 침묵 (silence) 상태이다. 만일 vad = 0 (즉, 보이스 활동이 없는 경우) 인 경우에, 현재 프레임은 항상 이전의 상태에 관계없이 침묵 상태로 분류된다.
이전 상태가 침묵 상태인 경우에, 현재 프레임은 비보이스 또는 업-트랜전트 상태로 분류될 수도 있다. 만일 nacf_at_pitch[3] 이 매우 낮고, zcr 이 높고, bER 이 낮고, 그리고 vER 이 매우 낮은 경우에, 또는 이들 조건들의 결합이 충족되는 경우에, 현재의 프레임은 비보이스 상태로 분류된다. 만일 그렇지 않으면, 분류 모드는 업-트랜전트로 이행되지 않는다.
이전 상태가 비보이스 상태인 경우에, 현재의 프레임은 비보이스 또는 업-트랜전트 상태로 분류될 수도 있다. 만일 nacf 가 매우 낮고, nacf_at_pitch[3] 이 매우 낮고, nacf_at_pitch[4] 가 매우 낮고, zcr 이 높고, bER 이 낮고, vER 이 매우 낮고, E 가 vEprev 보다 작거나, 또는 이들 조건들의 결합이 충족되는 경우에, 현재의 프레임은 비보이스 상태로 분류되어 남겨진다. 만일 그렇지 않으면, 분류 모드는 업-트랜전트로 이행되지 않는다.
이전 상태가 보이스 상태인 경우에, 현재의 프레임은 비보이스, 트랜전트, 다운-트랜전트, 또는 보이스 상태로 분류될 수도 있다. 만일 vER 이 매우 낮고, E 가 vEprev 보다 작은 경우에, 현재의 프레임은 비보이스 상태로 분류된다. 만일 nacf_at_pitch[1] 및 nacf_at_pitch[3] 이 낮고, E 가 vEprev 의 절반 보다 더 크고, 또는 이들 조건들의 결합이 충족되는 경우에, 현재 프레임은 트랜전트 상태로 분류된다. 만일 vER이 매우 낮고, nacf_at_pitch[3] 이 적절한 값을 가지는 경우에, 현재 프레임은 다운-트랜전트로 분류된다. 만일 그렇지 않으면, 현재의 분류 모드는 보이스 상태로 이행되지 않는다.
이전 상태가 트랜전트 또는 업-트랜전트 상태인 경우에, 현재의 프레임은 비보이스, 트랜전트, 다운-트랜전트, 또는 보이스 상태로 분류될 수도 있다. 만일 vER 이 매우 낮고, E 가 vprev 보다 작은 경우에, 현재의 프레임은 비보이스 상태로 분류된다. 만일 nacf_at_pitch[1] 가 낮고, nacf_at_pitch[3] 가 적절한 값을 가지며, nacf_at_pitch[4] 가 낮고, 그리고 이전 상태가 트랜전트 상태가 아니거나, 또는 이들 조건들의 결합이 충족되는 경우에, 현재의 프레임은 트랜전트 상태로 분류된다. 만일 nacf_at_pitch[3] 가 적절한 값을 가지고, E 가 vEav 보다 .05 배 작은 경우에, 현재의 프레임은 다운-트랜전트 상태로 분류된다. 만일 그렇지 않으면, 현재 분류 모드는 보이스 상태로 이행되지 않는다.
이전의 프레임이 다운-트랜전트 상태인 경우에, 현재의 프레임은 비보이스, 트랜전트 또는 다운-트랜전트 상태로 분류될 수도 있다. 만일 vER이 매우 낮은 경우에, 현재의 프레임은 비보이스 상태로 분류된다. 만일 E 가 vEprev 보다 더 큰 경우에, 현재의 프레임은 트랜전트 상태로 분류된다. 만일 그렇지 않으면, 현재 분류 모드는 다운-트랜전트 상태로 남겨진다.
도 4b 는 vad 가 1 이고 (액티브 음성이 존재), nacf_at_pitch 의 세 번째 값이 매우 낮거나, 또는 UNVICECDTH 보다 작은 경우에, 예시적인 실시예에서 선택되는 상태 머신의 일 실시예를 나타낸다. UNVOICEDTH 는 도 3 의 단계 304 에서 규정된다. 도 5b 는 각 상태에 의해 평가되는 파라미터들을 나타낸다.
초기 상태는 침묵 상태이다. 만일 vad = 0 (즉, 보이스 활동이 없는 경우) 인 경우에, 현재의 프레임은 항상 이전의 상태에 관계없이 침묵 상태로 분류된다.
이전의 상태가 침묵 상태인 경우에, 현재의 프레임은 비보이스 또는 업-트랜전트 상태 중 어느 하나로 분류될 수도 있다. nacf_at_pitch[2-4]가 증가 경향을 나타내고, nacf_at_pitch[3-4] 가 적절한 값을 가지며, zcr 이 적절한 값에 비하여 매우 낮고, bER 이 높으며, 그리고 vER 이 적절한 값을 가지거나 또는 이들 조건들의 결합이 충족되는 경우에, 현재의 프레임은 업-트랜전트로 분류된다. 만일 그렇지 않으면, 분류 모드는 비보이스 상태로 이행되지 않는다.
이전 상태가 비보이스 상태인 경우에, 현재의 프레임은 비보이스 또는 업-트랜전트 상태로 분류될 수도 있다. 만일 nacf_at_pitch[2-4] 가 증가 경향을 나타내고, nacf_at_pitch[3-4] 가 매우 높은 값에 비해 적절한 값을 가지며, zcr 이 매우 낮거나 또는 적절한 값을 가지며, vER 이 낮지 않고, bER 이 높고, refl 이 낮으며, nacf 가 적절한 값을 가지며, E 가 vEprev 보다 더 크거나, 또는 이들 조건들의 결합이 충족되는 경우에, 현재의 프레임은 업-트랜전트 상태로 분류된다. 이들 조건들에 대한 결합들 및 임계값들은 파라미터 curr_ns_snr에서 반사되는 음성 프레임의 노이즈 레벨에 따라 변화할 수도 있다. 만일 그렇지 않으면, 분류 모드는 비보이스 상태로 이행되지 않는다.
이전 상태가 보이스, 업-트랜전트, 또는 트랜전트 상태인 경우에, 현재의 프레임은 비보이스, 트랜전트, 또는 다운-트랜전트 상태로 분류될 수도 있다. 만일 bER 이 0 이하이고, vER 이 매우 낮고, bER 이 0 보다 더 크며, E 가 vEprev 보다 작거나, 또는 이들 조건들의 결합들이 충족되는 경우에, 현재의 프레임은 비보이스 상태로 분류된다. 만일 bER 이 0 보다 더 크고, nacf_at_pitch[2-4] 가 증가 경향을 나타내며, zcr 이 높지 않고, vER 이 낮지 않고, refl 이 낮고, nacf_at_pitch[3] 및 nacf 가 적절한 값을 가지며, bER 이 0 이하이거나, 또는 이들 조건들의 어떤 결합이 충족되는 경우에, 현재의 프레임은 트랜전트 상태로 분류된다. 이들 조건들의 결합들 및 임계값들은, 파라미터 curr_ns_snr 에서 반사되는 음성 프레임의 노이즈 레벨에 따라 변화할 수도 있다. 만일 bER 이 0 보다 더 크며, nacf_at_pitch[3] 가 적절한 값을 가지며, E 가 vEprev 보다 작고, zcr 이 높지 않고, vER2 가 -15 보다 작은 경우에, 현재의 프레임은 다운-트랜전트 상태로 분류된다.
이전 프레임이 다운-트랜전트 상태인 경우에, 현재의 프레임은 비보이스, 트랜전트, 또는 다운-트랜전트 상태로 분류될 수도 있다. 만일 nacf_at_pitch[2-4] 가 증가 경향을 나타내고, nacf_at_pitch[3-4] 가 적당히 높고, vER 이 낮지 않고, E 가 vEprev 보다 2 배 더 크거나, 또는 이들 조건들의 결합들이 충족되는 경우에, 현재의 프레임은 트랜전트 상태로 분류된다. 만일 vER 이 낮지 않고, zcr 이 낮은 경우에, 현재의 프레임은 다운-트랜전트 상태로 분류된다. 만일 그렇지 않으면, 현재의 분류 모드는 비보이스 상태로 이행되지 않는다.
도 4c 는 vad 가 1 이고(액티브 음성이 존재), ncaf_at_pitch 의 세 번째 값 (즉, nacf_at_pitch[3])이 적절한 값, 즉 UNVOICEDTH 보다 더 크고, VOICEDTH 보다 작은 경우에, 예시적인 실시예에서 선택되는 상태 머신의 일 실시예를 나타낸다. UNVOICEDTH 및 VOICEDTH 는 도 3 의 단계 304 에서 규정된다. 도 5C 는 각 상태에 의해 평가되는 파라미터들을 나타낸다.
초기 상태는 침묵 상태이다. 만일 vad = 0 (즉, 보이스 활동이 없는 경우) 인 경우에, 현재의 프레임은 항상 이전의 상태에 상관없이 침묵 상태로 분류된다.
이전 상태가 침묵 상태인 경우에, 현재의 프레임은 비보이스 또는 업-트랜전트 상태 중 어느 하나로 분류될 수 있다. 만일 nacf_at_pitch[2-4] 가 증가 경향을 나타내고, nacf_at_pitch[3-4] 가 높은 값에 비하여 적절한 값을 가지며, zcr 이 높지 않고, bER 이 높고, vER 이 적절한 값을 가지며, zcr 이 매우 낮고, E 가 vEprev 보다 2 배 더 크거나, 또는 이들 조건들의 임의의 결합이 충족되는 경우에, 현재의 프레임은 업-트랜전트 상태로 분류된다. 만일 그렇지 않으면, 분류 모드는 비보이스 상태로 이행되지 않는다.
이전 상태가 비보이스 상태인 경우에, 현재의 프레임은 비보이스 또는 업-트랜전트 상태로 분류될 수도 있다. 만일 nacf_at_pitch[2-4] 가 증가 경향을 나타내고, nacf_at_pitch[3-4] 가 매우 높은 값에 비하여 적절한 값을 가지며, zcr 이 높지 않고, vER 이 낮지 않고, bER 이 높고, fefl 이 낮고, E 가 vEprev 보다 더 크고, zcr 이 매우 낮고, nacf 가 낮지 않고, maxsfe_idx 가 마지막 서브프레임을 나타내고, E 가 vEprev 보다 2 배 더 크거나, 또는 이들 조건들의 결합들이 충족되는 경우에, 현재의 프레임은 업-트랜전트 상태로 분류된다. 이들 조건들의 결합들 및 임계값들은 파라미터 curr_ns_snr에서 반사되는 음성 프레임의 노이즈 레벨에 따라 변화할 수도 있다. 만일 그렇지 않으면, 분류 모드는 비보이스 상태로 이행되지 않는다.
이전 상태가 보이스, 업-트랜전트, 또는 트랜전트 상태인 경우에, 현재의 프레임은 비보이스, 보이스, 트랜전트, 다운-트랜전트 상태로 분류될 수도 있다. 만일 bER 이 0 이하이고, vER 이 매우 낮고, Enext가 E 보다 작고, nacf_at_pitch[3-4] 가 매우 낮고, bER 이 0 보다 더 크고, E 가 vEprev 보다 작거나, 또는 이들 조건들의 임의의 결합이 충족되는 경우에, 현재의 프레임은 비보이스 상태로 분류된다. 만일 bER 이 0 보다 더 크고, nacf_at_pitch[2-4] 가 증가 경향을 나타내고, zcr 이 높지 않고, vER 이 낮지 않고, refl 이 낮고, nacf_at_pitch[3] 및 nacf 가 낮지 않거나, 또는 이들 조건들의 결합이 충족되는 경우에, 현재의 프레임은 트랜전트 상태로 분류된다. 이들 조건들의 결합들 및 임계값들은 파라미터 curr_ns_snr에서 반사되는 음성 프레임의 노이즈 레벨에 따라 변화할 수도 있다. 만일 bER 이 0 보다 더 크고, nacf_at_pitch[3] 이 높지 않고, E 가 vEprev 보다 작고, zcr 이 높지 않고, vER이 -15 보다 작고, vER2 가 -15 보다 작거나, 또는 이들 조건들의 결합이 충족되는 경우에, 현재의 프레임은 다운-트랜전트 상태로 분류된다. 만일 nacf_at_pitch[2] 가 LOWVOICEDTH 보다 더 크고, bER 이 0 이상이고, vER 이 낮지 않거나, 이들 조건들의 결합이 충족되는 경우에, 현재의 프레임은 보이스 상태로 분류된다.
이전 프레임이 다운-트랜전트 상태인 경우에, 현재의 프레임은 비보이스, 트랜전트, 또는 다운-트랜전트 상태로 분류될 수도 있다. 만일 bER 이 0 보다 더 크고, nacf_at_pitch[2-4] 가 증가 경향을 나타내고, nacf_at_pitch[3-4] 가 적당히 높고, vER 이 낮지 않고, E 가 vEprev 보다 2 배 더 크거나, 또는 이들 조건들의 임의의 결합이 충족되는 경우에, 현재의 프레임은 트랜전트 상태로 분류된다. 만일 vER 이 낮지 않고, zcr 이 낮은 경우에, 현재의 프레임은 다운-트랜전트 상태로 분류될 수 있다. 만일 그렇지 않으면, 현재의 분류 모드는 비보이스 상태로 이행되지 않는다.
도 5a 내지 도 5c 는 음성 분류에 대하여 개시된 실시예들에 의해 사용되는 결정 테이블의 실시예이다.
*일 실시예에 따르면, 도 5a 는 nacf_at_pitch 의 세 번째 값 (즉, nacf_at_pitch[2]) 이 매우 높거나, 또는 VOICEDTH 보다 더 큰 경우에, 각 상태에 의해 평가되는 파라미터 및 상태 전이 (transition) 를 나타낸다. 도 5a 에 나타내는 결정 테이블은 도 4a 에 개시된 상태 머신에 의해 사용된다. 음성의 이전 프레임의 음성 모드 분류는 가장 왼편의 칼럼에 나타낸다. 파라미터들이 각각의 이전 모드와 연관된 로우에 나타낸 바와 같은 값을 가지는 경우에, 음성 모드 분류는 연관된 칼럼의 상부 로우에 식별되는 현재 모드로 전이된다.
일 실시예에 따르면, 도 5b 는 세 번째 값 (즉, nacf_at_pitch[2]) 이 매우 낮거나, 또는 UNVOICEDTH 보다 작은 경우에, 각 상태에 의해 평가되는 파라미터들 및 상태 전이 (transition) 들을 나타낸다. 도 5b 에 나타낸 결정 테이블은 도 4b 에 개시된 상태 머신에 의해 사용된다. 음성의 이전 프레임의 음성 모드 분류는 가장 왼편의 칼럼에 나타낸다. 파라미터들이 각각의 이전 모드와 연관된 로우에 나타낸 바와 같은 값을 가지는 경우에, 음성 모드 분류는 그 연관된 칼럼의 상부 로우에서 식별되는 현재의 모드로 전이한다.
일 실시예에 따르면 도 5c 는 ncaf_at_pitch 의 세 번째 값 (즉, nacf_at_pitch[3]) 가 적절한 값, 즉 UNVOICEDTH 보다 더 크지만 VOICEDTH 보다 작은 경우에, 상태를 천이한다. 도 5c 에 나타낸 결정 테이블은 도 4 c에 개시되는 상태 머신에 의해 사용된다. 음성의 이전 프레임의 음성 모드 분류는 가장 왼편의 칼럼에 나타낸다. 파라미터들이 각각의 이전 모드와 연관된 로우에 나타낸 바와 같은 값을 가지는 경우에, 음성 모드 분류는 그 연관된 칼럼의 상부 로우에서 식별되는 현재의 모드로 천이한다.
도 6 은 연관된 파라미터 값들을 가진 음성 신호 및 음성 분류의 예시적인 실시예의 타임라인 그래프이다.
당업자는 음성 분류기들이 DSP, ASIC, 이산 게이트 로직, 펌웨어, 또는 임의의 종래의 프로그램가능한 소프트웨어 모듈 및 마이크로프로세서로 구현될 수도 있음을 알 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터, 또는 당해 분야에 공지된 어떤 다른 형태의 기록가능한 저장 매체에 포함된다. 선택적으로, 어떤 종래의 프로세서, 제어기, 또는 상태 머신은 마이크로프로세서로 대체될 수 있다.
당업자가 본 발명을 제조 또는 이용할 수 있도록 바람직한 실시예들을 설명하였다. 이러한 실시예들의 다양한 변경들은 당업자라면 쉽게 알 수 있으며, 여기서 규정된 일반 원리들은 발명의 창의력을 발휘하지 않고도 다른 실시예들에 적용할 수도 있다. 따라서, 본 발명을 여기에 나타낸 실시예들로 한정하려는 것이 아니라, 여기서 기술되는 원리들 및 신규한 특징들과 부합하는 최광의 범위를 부여하려는 것이다.
이하, 본 발명의 특징, 목적, 및 이점을 첨부된 도면을 참조하여 상세히 설명하며, 도면 중 동일한 참조부호는 동일한 구성요소를 나타낸다.
도 1 은 음성 코더들에 의해 각 단에서 종료되는 통신 채널의 블록도이다.
도 2 는 도 1 에 예시된 인코더들에 의해 사용될 수 있는 로버스트한 음성 분류기의 블록도이다.
도 3 은 로버스트한 음성 분류기의 음성 분류 단계들을 나타내는 흐름도이다.
도 4a, 4b, 및 4c 는 음성 분류에 대하여 개시된 실시예들에 의해 사용되는 상태도이다.
도 5a, 5b, 및 5c 는 음성 분류에 대하여 개시된 실시예들에 의해 사용되는 결정 테이블이다.
도 6 은 분류 파라미터 및 음성 모드 값들을 가진 음성 신호의 일 실시예의 그래프에 대한 일례이다.

Claims (63)

  1. 음성 (speech) 분류기로 파라미터를 입력하는 단계로서, 상기 파라미터는 음성 샘플, 상기 음성 샘플의 신호대 잡음비 (SNR), 보이스 (voice) 활동 결정, 피치 (pitch) 추정에 기초하여 정규화된 자기상관계수 함수 (NACF:Normalized Auto-correlation Coefficient Function) 값, 및 피치 정보에서의 정규화된 자기상관계수 함수 (NACF) 를 포함하는, 상기 입력하는 단계;
    상기 음성 분류기에서, 상기 입력 파라미터로부터 내부 파라미터를 생성하는 단계;
    상기 음성 샘플의 신호대 잡음비에 기초하여 보이스 음성 (voiced speech), 트랜전트 음성 (transitional speech), 및 비보이스 음성 (unvoiced speech) 에 대한 NACF 임계값을 설정하는 단계로서, 노이지 음성 (noisy speech) 환경에서의 보이스 음성에 대한 NACF 임계값이 깨끗한 음성 (clean speech) 환경에서의 보이스 음성에 대한 NACF 임계값보다 작은, NACF 임계값 설정 단계; 및
    트랜전트 모드, 보이스 모드, 및 비보이스 모드를 포함하는 그룹으로부터 음성 모드 분류를 생성하기 위해 상기 입력 파라미터 및 상기 내부 파라미터를 분석하는 단계를 포함하는, 음성 분류 방법.
  2. 제 1 항에 있어서,
    상기 음성 샘플은 노이즈 억제된 음성 샘플를 포함하는, 음성 분류 방법.
  3. 제 1 항에 있어서,
    상기 입력 파라미터는 선형 예측 반사 계수를 포함하는, 음성 분류 방법.
  4. 제 1 항에 있어서,
    복수의 프레임에 대하여 피치 정보값에 정규화된 자기상관계수 함수의 어레이를 유지하는 것을 더 포함하는, 음성 분류 방법.
  5. 제 1 항에 있어서,
    상기 내부 파라미터는 제로 크로싱 레이트 파라미터를 포함하는, 음성 분류 방법.
  6. 제 1 항에 있어서,
    상기 내부 파라미터는 현재의 프레임 에너지 파라미터를 포함하는, 음성 분류 방법.
  7. 제 1 항에 있어서,
    상기 내부 파라미터는 룩 어헤드 (look ahead) 프레임 에너지 파라미터를 포함하는, 음성 분류 방법.
  8. 제 1 항에 있어서,
    상기 내부 파라미터는 대역 에너지 레이트 파라미터를 포함하는, 음성 분류 방법.
  9. 제 1 항에 있어서,
    상기 내부 파라미터는 3 개의 프레임의 평균 보이스 에너지 파라미터를 포함하는, 음성 분류 방법.
  10. 제 1 항에 있어서,
    상기 내부 파라미터는 이전의 3 개의 프레임의 평균 보이스 에너지 파라미터를 포함하는, 음성 분류 방법.
  11. 제 1 항에 있어서,
    상기 내부 파라미터는 이전의 3 개의 프레임의 평균 보이스 에너지에 대한 현재의 프레임 에너지 레이트 파라미터를 포함하는, 음성 분류 방법.
  12. 제 1 항에 있어서,
    상기 내부 파라미터는 3 개의 프레임의 평균 보이스 에너지에 대한 현재의 프레임 에너지 레이트 파라미터를 포함하는, 음성 분류 방법.
  13. 제 1 항에 있어서,
    상기 내부 파라미터는 최대 서브-프레임 에너지 인덱스 파라미터를 포함하는, 음성 분류 방법.
  14. 제 1 항에 있어서,
    상기 정규화된 자기상관계수 함수 임계값를 설정하는 단계는 음성 샘플의 신호대 잡음비를 소정의 신호대 잡음비 값과 비교하는 단계를 포함하는, 음성 분류 방법.
  15. 제 1 항에 있어서,
    상기 분석 단계는,
    피치 정보에 정규화된 자기상관계수 함수를 정규화된 자기상관계수 함수 임계값과 비교함으로써 복수의 상태 머신에서 상태 머신을 선택하는 단계; 및
    상기 파라미터를 상기 선택된 상태 머신에 인가하는 단계를 포함하는, 음성 분류 방법.
  16. 제 15 항에 있어서,
    상기 상태 머신은 각각의 음성 모드 분류에 대한 상태를 포함하는, 음성 분류 방법.
  17. 제 1 항에 있어서,
    상기 음성 모드 분류는 업-트랜전트 모드 (up-transient mode) 를 포함하는, 음성 분류 방법.
  18. 제 1 항에 있어서,
    상기 음성 모드 분류는 다운-트랜전트 모드 (down-transient mode) 를 포함하는, 음성 분류 방법.
  19. 제 1 항에 있어서,
    상기 음성 모드 분류는 침묵 모드 (silence mode) 를 포함하는, 음성 분류 방법.
  20. 제 1 항에 있어서,
    하나 이상의 파라미터를 업데이트하는 단계를 더 포함하는, 음성 분류 방법.
  21. 제 20 항에 있어서,
    상기 업데이트된 파라미터는 상기 피치 정보에 정규화된 자기상관계수 함수를 포함하는, 음성 분류 방법.
  22. 제 20 항에 있어서,
    상기 업데이트된 파라미터는 3 개의 프레임의 평균 보이스 에너지 파라미터를 포함하는, 음성 분류 방법.
  23. 제 20 항에 있어서,
    상기 업데이트된 파라미터는 룩 어헤드 프레임의 에너지 파라미터를 포함하는, 음성 분류 방법.
  24. 제 20 항에 있어서,
    상기 업데이트된 파라미터는 이전의 3 개의 프레임의 평균 보이스 에너지 파라미터를 포함하는, 음성 분류 방법.
  25. 제 20 항에 있어서,
    상기 업데이트된 파라미터는 보이스 활동 검출 파라미터를 포함하는, 음성 분류 방법.
  26. 음성분류기를 포함하는 장치로서,
    상기 음성분류기는, 음성 샘플, 상기 음성 샘플의 신호대 잡음비, 보이스 활동 결정, 피치 추정에 기초하여 정규화된 자기상관계수 함수값, 및 피치 정보에 정규화된 자기상관계수 함수를 포함하는 입력 파라미터를 수신하도록 구성되고,
    상기 음성분류기는,
    상기 입력 파라미터로부터 내부 파라미터를 생성하는 생성기;
    상기 음성 샘플의 신호대 잡음비에 기초하여 보이스 음성 (voiced speech), 트랜전트 음성 (transitional speech), 및 비보이스 음성 (unvoiced speech) 에 대한 NACF 임계값을 설정하는 NACF 생성기로서, 노이지 음성 환경에서의 보이스 음성에 대한 NACF 임계값이 깨끗한 음성 환경에서의 보이스 음성에 대한 NACF 임계값보다 작은, NACF 생성기; 및
    트랜전트 모드, 보이스 모드, 및 비보이스 모드를 포함하는 그룹으로부터 음성모드 분류를 생성하기 위해 상기 입력 파라미터 및 상기 내부 파라미터를 분석하는 파라미터 분석기를 포함하는, 장치.
  27. 제 26 항에 있어서,
    상기 음성샘플은 노이즈 억제된 음성 샘플을 포함하는, 장치.
  28. 제 26 항에 있어서,
    상기 음성 분류기는 선형 예측 반사 계수를 더 수신하도록 구성되며,
    상기 생성기는 상기 선형 예측 반사 계수로부터 내부 파라미터를 생성하는, 장치.
  29. 제 26 항에 있어서,
    상기 음성 분류기는 복수의 프레임에 대하여 피치 정보 값에 정규화된 자기 상관계수 함수의 어레이를 유지하도록 더 구성되는, 장치.
  30. 제 26 항에 있어서,
    상기 생성된 파라미터는 제로 크로싱 레이트 파라미터를 포함하는, 장치.
  31. 제 26 항에 있어서,
    상기 생성된 파라미터는 현재의 프레임의 에너지 파라미터를 포함하는, 장치.
  32. 제 26 항에 있어서,
    상기 생성된 파라미터는 룩 어헤드 (look ahead) 프레임 에너지 파라미터를 포함하는, 장치.
  33. 제 26 항에 있어서,
    상기 생성된 파라미터는 대역 에너지 레이트 파라미터를 포함하는, 장치.
  34. 제 26 항에 있어서,
    상기 생성된 파라미터는 3 개의 프레임의 평균 보이스 에너지 파라미터를 포함하는, 장치.
  35. 제 26 항에 있어서,
    상기 생성된 파라미터는 이전의 3 개의 프레임의 평균 보이스 에너지 파라미터를 포함하는, 장치.
  36. 제 26 항에 있어서,
    상기 생성된 파라미터는 이전의 3 개의 프레임의 평균 보이스 에너지에 대한 현재의 프레임 에너지 레이트 파라미터를 포함하는, 장치.
  37. 제 26 항에 있어서,
    상기 생성된 파라미터는 3 개의 프레임의 평균 보이스 에너지에 대한 현재의 프레임 에너지 레이트 파라미터를 포함하는, 장치.
  38. 제 26 항에 있어서,
    상기 생성된 파라미터는 최대 서브-프레임 에너지 인덱스 파라미터를 포함하는, 장치.
  39. 제 26 항에 있어서,
    상기 정규화된 자기상관계수 함수 임계값의 설정은 음성샘플의 신호대 잡음비 정보 파라미터를 소정의 신호대 잡음비 값과 비교하는 것을 포함하는, 장치.
  40. 제 26 항에 있어서,
    상기 파라미터 분석기는 피치 정보에 정규화된 자기상관계수 함수를 상기 정규화된 자기상관계수 임계값과 비교함으로써 복수의 상태머신에서 상태머신을 선택하고 상기 파라미터를 상기 선택된 상태 머신에 인가하도록 구성되는, 장치.
  41. 제 40 항에 있어서,
    상기 상태 머신은 각각의 음성 모드 분류에 대한 상태를 포함하는, 장치.
  42. 제 26 항에 있어서,
    상기 음성 모드 분류는 업-트랜전트 모드를 포함하는, 장치.
  43. 제 26 항에 있어서,
    상기 음성 모드 분류는 다운-트랜전트 모드를 포함하는, 장치.
  44. 제 26 항에 있어서,
    상기 음성 모드 분류는 침묵 모드를 포함하는, 장치.
  45. 제 26 항에 있어서,
    상기 음성 분류기는 하나 이상의 파라미터를 업데이트하는 것을 더 포함하는, 장치.
  46. 제 45 항에 있어서,
    상기 업데이트된 파라미터는 피치 정보에 상기 정규화된 자기상관계수 함수를 포함하는, 장치.
  47. 제 45 항에 있어서,
    상기 업데이트된 파라미터는 3 개의 프레임의 평균 보이스 에너지 파라미터를 포함하는, 장치.
  48. 제 45 항에 있어서,
    상기 업데이트된 파라미터는 룩 어헤드 프레임 에너지 파라미터를 포함하는, 장치.
  49. 제 45 항에 있어서,
    상기 업데이트된 파라미터는 이전의 3 개의 프레임의 평균 보이스 에너지 파라미터를 포함하는, 장치.
  50. 제 45 항에 있어서,
    상기 업데이트된 파라미터는 보이스 활동 검출 파라미터를 포함하는, 장치.
  51. 한 세트의 샘플에 대한 신호대 잡음비 (SNR) 정보를 신호대 잡음비 임계값과 비교하는 단계;
    상기 SNR 정보를 SNR 임계값에 비교하는 단계에 기초하여 정규화된 자기상관계수 함수 (NACF) 임계값을 결정하는 단계로서, 상기 NACF 임계값은 보이스 음성 (voiced speech) 에 대한 제 1 임계값, 트랜전트 음성 (transitional speech) 에 대한 제 2 임계값, 및 비보이스 음성 (unvoiced speech) 에 대한 제 3 임계값을 포함하고, 노이지 음성 환경에서의 보이스 음성에 대한 상기 제 1 NACF 임계값이 깨끗한 음성 환경에서의 보이스 음성에 대한 상기 제 1 NACF 임계값보다 작은, NACF 임계값 결정 단계;
    피치 값에서의 NACF를 NACF 임계값에 비교하는 단계; 및
    상기 피치 값에서의 NACF를 NACF 임계값에 비교하는 단계에 기초하여 복수의 파라미터 분석기에서 파라미터 분석기를 선택하여 복수의 파라미터를 분석하고 상기 샘플의 세트를 침묵, 보이스, 비보이스 또는 트랜전트 음성으로 분류하는 단계를 포함하는, 음성 분류 방법.
  52. 제 51 항에 있어서,
    각 파라미터 분석기는 침묵, 보이스, 비보이스 또는 트랜전트 음성을 갖는 상태머신을 포함하는, 음성 분류 방법.
  53. 제 51 항에 있어서,
    상기 NACF 임계값을 결정하는 단계는 깨끗한 음성에 대응하는 제 1 세트의 NACF 임계값과 노이지 음성에 대응하는 제 2세트의 NACF 임계값 사이에서 선택하는 단계를 포함하는, 음성 분류 방법.
  54. 제 51 항에 있어서,
    상기 NACF 임계값은 보이스 음성에 대한 제 1 임계값, 트랜전트 음성에 대한 제 2 임계값, 비보이스 음성에 대한 제 3 임계값을 포함하는, 음성 분류 방법.
  55. 제 51 항에 있어서,
    피치 값에서 상기 NACF 를 결정하기 위해 피치를 추정하는 단계를 더 포함하는, 음성 분류 방법.
  56. 한 세트의 샘플에 대하여 신호대 잡음비 (SNR) 정보를 신호대 잡음비 임계값과 비교하고;
    상기 SNR 정보를 SNR 임계값에 비교하는 것에 기초하여 정규화된 자기상관계수 함수 (NACF) 임계값을 결정하고;
    피치 값에서의 NACF를 NACF 임계값에 비교하고;
    상기 피치 값에서의 NACF를 NACF 임계값에 비교하는 것에 기초하여 복수의 파라미터 분석기에서 파라미터 분석기를 선택하여 복수의 파라미터를 분석하고 샘플의 세트를 침묵, 보이스, 비보이스 또는 트랜전트 음성으로 분류하도록 구성되는 음성 분류기를 포함하고,
    상기 NACF 임계값은 보이스 음성에 대한 제 1 임계값, 트랜전트 음성에 대한 제 2 임계값, 및 비보이스 음성에 대한 제 3 임계값을 포함하고, 노이지 음성 환경에서의 보이스 음성에 대한 상기 제 1 NACF 임계값이 깨끗한 음성 환경에서의 보이스 음성에 대한 상기 제 1 NACF 임계값보다 작은, 음성 분류 장치.
  57. 제 56 항에 있어서,
    각 파라미터 분석기는 침묵, 보이스, 비보이스 또는 트랜전트 음성 상태를 갖는 상태머신을 포함하는, 음성 분류 장치.
  58. 제 56 항에 있어서,
    NACF 임계값을 결정하는 것은 깨끗한 음성에 대응하는 제 1세트의 NACF 임계값과 잡음이 있는 음성에 대응하는 제 2세트의 NACF 임계값 사이에서 선택하는, 음성 분류 장치.
  59. 제 56 항에 있어서,
    피치 값에서 상기 NACF를 결정하기 위해 피치를 추정하도록 구성되는 피치 추정기를 더 포함하는, 음성 분류 장치.
  60. 음성 (speech) 분류기로 파라미터를 입력하는 수단으로서, 상기 파라미터는 음성 샘플, 상기 음성 샘플의 신호대 잡음비 (SNR), 보이스 (voice) 활동 결정, 피치 (pitch) 추정에 기초하여 정규화된 자기상관계수 함수 (NACF:Normalized Auto-correlation Coefficient Function) 값, 및 피치 정보에서의 정규화된 자기상관계수 함수 (NACF) 를 포함하는, 파라미터 입력 수단;
    상기 음성 분류기에서, 상기 입력 파라미터로부터 내부 파라미터를 생성하는 수단;
    상기 음성 샘플의 신호대 잡음비에 기초하여 보이스 음성 (voiced speech), 트랜전트 음성 (transitional speech), 및 비보이스 음성 (unvoiced speech) 에 대한 NACF 임계값을 설정하는 수단으로서, 노이지 음성 (noisy speech) 환경에서의 보이스 음성에 대한 NACF 임계값이 깨끗한 음성 (clean speech) 환경에서의 보이스 음성에 대한 NACF 임계값보다 작은, NACF 임계값 설정 수단; 및
    트랜전트 모드, 보이스 모드, 및 비보이스 모드를 포함하는 그룹으로부터 음성 모드 분류를 생성하기 위해 상기 입력 파라미터 및 상기 내부 파라미터를 분석하는 수단을 포함하는, 음성 분류 장치.
  61. 한 세트의 샘플에 대한 신호대 잡음비 (SNR) 정보를 신호대 잡음비 임계값과 비교하는 수단;
    상기 SNR 정보를 SNR 임계값에 비교하는 것에 기초하여 정규화된 자기상관계수 함수 (NACF) 임계값을 결정하는 수단으로서, 상기 NACF 임계값은 보이스 음성 (voiced speech) 에 대한 제 1 임계값, 트랜전트 음성 (transitional speech) 에 대한 제 2 임계값, 및 비보이스 음성 (unvoiced speech) 에 대한 제 3 임계값을 포함하고, 노이지 음성 환경에서의 보이스 음성에 대한 상기 제 1 NACF 임계값이 깨끗한 음성 환경에서의 보이스 음성에 대한 상기 제 1 NACF 임계값보다 작은, NACF 임계값 결정 수단;
    피치 값에서의 NACF를 NACF 임계값에 비교하는 수단; 및
    상기 피치 값에서의 NACF를 NACF 임계값에 비교하는 것에 기초하여 복수의 파라미터 분석기에서 파라미터 분석기를 선택하여 복수의 파라미터를 분석하고 상기 샘플의 세트를 침묵, 보이스, 비보이스 또는 트랜전트 음성으로 분류하는 수단을 포함하는, 음성 분류 장치.
  62. 음성을 분류하기 위한 명령어를 포함하는 컴퓨터 판독가능 매체로서,
    상기 명령어는,
    음성 (speech) 분류기로 파라미터를 입력하는 코드로서, 상기 파라미터는 음성 샘플, 상기 음성 샘플의 신호대 잡음비 (SNR), 보이스 (voice) 활동 결정, 피치 (pitch) 추정에 기초하여 정규화된 자기상관계수 함수 (NACF:Normalized Auto-correlation Coefficient Function) 값, 및 피치 정보에서의 정규화된 자기상관계수 함수 (NACF) 를 포함하는, 파라미터를 입력하는 코드;
    상기 음성 분류기에서, 상기 입력 파라미터로부터 내부 파라미터를 생성하는 코드;
    상기 음성 샘플의 신호대 잡음비에 기초하여 보이스 음성 (voiced speech), 트랜전트 음성 (transitional speech), 및 비보이스 음성 (unvoiced speech) 에 대한 NACF 임계값을 설정하는 코드로서, 노이지 음성 (noisy speech) 환경에서의 보이스 음성에 대한 NACF 임계값이 깨끗한 음성 (clean speech) 환경에서의 보이스 음성에 대한 NACF 임계값보다 작은, NACF 임계값을 설정하는 코드; 및
    트랜전트 모드, 보이스 모드, 및 비보이스 모드를 포함하는 그룹으로부터 음성 모드 분류를 생성하기 위해 상기 입력 파라미터 및 상기 내부 파라미터를 분석하는 코드를 포함하는, 컴퓨터 판독가능 매체.
  63. 음성을 분류하기 위한 명령어를 포함하는 컴퓨터 판독가능 매체로서,
    상기 명령어는,
    한 세트의 샘플에 대한 신호대 잡음비 (SNR) 정보를 신호대 잡음비 임계값과 비교하는 코드;
    상기 SNR 정보를 SNR 임계값에 비교하는 것에 기초하여 정규화된 자기상관계수 함수 (NACF) 임계값을 결정하는 코드로서, 상기 NACF 임계값은 보이스 음성 (voiced speech) 에 대한 제 1 임계값, 트랜전트 음성 (transitional speech) 에 대한 제 2 임계값, 및 비보이스 음성 (unvoiced speech) 에 대한 제 3 임계값을 포함하고, 노이지 음성 환경에서의 보이스 음성에 대한 상기 제 1 NACF 임계값이 깨끗한 음성 환경에서의 보이스 음성에 대한 상기 제 1 NACF 임계값보다 작은, NACF 임계값을 결정하는 코드;
    피치 값에서의 NACF를 NACF 임계값에 비교하는 코드; 및
    상기 피치 값에서의 NACF를 NACF 임계값에 비교하는 것에 기초하여 복수의 파라미터 분석기에서 파라미터 분석기를 선택하여 복수의 파라미터를 분석하고 상기 샘플의 세트를 침묵, 보이스, 비보이스 또는 트랜전트 음성으로 분류하는 코드를 포함하는, 컴퓨터 판독가능 매체.
KR1020097001337A 2000-12-08 2001-12-04 로버스트한 음성 분류를 위한 방법 및 장치 KR100908219B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/733,740 US7472059B2 (en) 2000-12-08 2000-12-08 Method and apparatus for robust speech classification
US09/733,740 2000-12-08
PCT/US2001/046971 WO2002047068A2 (en) 2000-12-08 2001-12-04 Method and apparatus for robust speech classification

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020037007641A Division KR100895589B1 (ko) 2000-12-08 2001-12-04 로버스트한 음성 분류를 위한 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090026805A KR20090026805A (ko) 2009-03-13
KR100908219B1 true KR100908219B1 (ko) 2009-07-20

Family

ID=24948935

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020097001337A KR100908219B1 (ko) 2000-12-08 2001-12-04 로버스트한 음성 분류를 위한 방법 및 장치
KR1020037007641A KR100895589B1 (ko) 2000-12-08 2001-12-04 로버스트한 음성 분류를 위한 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020037007641A KR100895589B1 (ko) 2000-12-08 2001-12-04 로버스트한 음성 분류를 위한 방법 및 장치

Country Status (13)

Country Link
US (1) US7472059B2 (ko)
EP (1) EP1340223B1 (ko)
JP (2) JP4550360B2 (ko)
KR (2) KR100908219B1 (ko)
CN (2) CN101131817B (ko)
AT (1) ATE341808T1 (ko)
AU (1) AU2002233983A1 (ko)
BR (2) BRPI0116002B1 (ko)
DE (1) DE60123651T2 (ko)
ES (1) ES2276845T3 (ko)
HK (1) HK1067444A1 (ko)
TW (1) TW535141B (ko)
WO (1) WO2002047068A2 (ko)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
GB0003903D0 (en) * 2000-02-18 2000-04-05 Canon Kk Improved speech recognition accuracy in a multimodal input system
US8090577B2 (en) 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7023880B2 (en) 2002-10-28 2006-04-04 Qualcomm Incorporated Re-formatting variable-rate vocoder frames for inter-system transmissions
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US7472057B2 (en) * 2003-10-17 2008-12-30 Broadcom Corporation Detector for use in voice communications systems
KR20050045764A (ko) * 2003-11-12 2005-05-17 삼성전자주식회사 무선 단말기에서의 음성 저장/재생 장치 및 방법
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
US7346502B2 (en) * 2005-03-24 2008-03-18 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector
US20060262851A1 (en) 2005-05-19 2006-11-23 Celtro Ltd. Method and system for efficient transmission of communication traffic
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
EP2033489B1 (en) 2006-06-14 2015-10-28 Personics Holdings, LLC. Earguard monitoring system
WO2008008730A2 (en) 2006-07-08 2008-01-17 Personics Holdings Inc. Personal audio assistant device and method
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
EP2458588A3 (en) * 2006-10-10 2012-07-04 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
PL2052548T3 (pl) * 2006-12-12 2012-08-31 Fraunhofer Ges Forschung Koder, dekoder oraz sposoby kodowania i dekodowania segmentów danych reprezentujących strumień danych w dziedzinie czasu
US11750965B2 (en) 2007-03-07 2023-09-05 Staton Techiya, Llc Acoustic dampening compensation system
JP5038403B2 (ja) * 2007-03-16 2012-10-03 パナソニック株式会社 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
WO2008124786A2 (en) 2007-04-09 2008-10-16 Personics Holdings Inc. Always on headwear recording system
US11856375B2 (en) 2007-05-04 2023-12-26 Staton Techiya Llc Method and device for in-ear echo suppression
US11683643B2 (en) 2007-05-04 2023-06-20 Staton Techiya Llc Method and device for in ear canal echo suppression
US8502648B2 (en) 2007-08-16 2013-08-06 Broadcom Corporation Remote-control device with directional audio system
US9495971B2 (en) 2007-08-27 2016-11-15 Telefonaktiebolaget Lm Ericsson (Publ) Transient detector and method for supporting encoding of an audio signal
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US8600067B2 (en) 2008-09-19 2013-12-03 Personics Holdings Inc. Acoustic sealing analysis system
US9129291B2 (en) 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
FR2944640A1 (fr) * 2009-04-17 2010-10-22 France Telecom Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8311817B2 (en) * 2010-11-04 2012-11-13 Audience, Inc. Systems and methods for enhancing voice quality in mobile device
JP2012203351A (ja) * 2011-03-28 2012-10-22 Yamaha Corp 子音識別装置、およびプログラム
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
EP2721610A1 (en) * 2011-11-25 2014-04-23 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
US8731911B2 (en) * 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
JPWO2013136742A1 (ja) * 2012-03-14 2015-08-03 パナソニックIpマネジメント株式会社 車載通話装置
CN103903633B (zh) * 2012-12-27 2017-04-12 华为技术有限公司 检测语音信号的方法和装置
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9167082B2 (en) 2013-09-22 2015-10-20 Steven Wayne Goldstein Methods and systems for voice augmented caller ID / ring tone alias
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
EP2922056A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
CN105374367B (zh) 2014-07-29 2019-04-05 华为技术有限公司 异常帧检测方法和装置
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US10616693B2 (en) 2016-01-22 2020-04-07 Staton Techiya Llc System and method for efficiency among devices
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
US20180174574A1 (en) * 2016-12-19 2018-06-21 Knowles Electronics, Llc Methods and systems for reducing false alarms in keyword detection
KR20180111271A (ko) * 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
US10951994B2 (en) 2018-04-04 2021-03-16 Staton Techiya, Llc Method to acquire preferred dynamic range function for speech enhancement
CN109545192B (zh) * 2018-12-18 2022-03-08 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
KR20220006510A (ko) * 2019-05-07 2022-01-17 보이세지 코포레이션 사운드 신호에 있어서의 어택을 검출하고 검출된 어택을 코딩하는 방법들 및 디바이스들
CN110310668A (zh) * 2019-05-21 2019-10-08 深圳壹账通智能科技有限公司 静音检测方法、系统、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US574906A (en) * 1897-01-12 Chain
EP0451796A1 (en) * 1990-04-09 1991-10-16 Kabushiki Kaisha Toshiba Speech detection apparatus with influence of input level and noise reduced
EP0543719A1 (fr) * 1991-11-22 1993-05-26 Thomson-Csf Procédé et dispositif de décision de voisement pour vocodeur à très faible débit
US5774847A (en) 1995-04-28 1998-06-30 Northern Telecom Limited Methods and apparatus for distinguishing stationary signals from non-stationary signals

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
JPS58143394A (ja) * 1982-02-19 1983-08-25 株式会社日立製作所 音声区間の検出・分類方式
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
CA2635914A1 (en) * 1991-06-11 1992-12-23 Qualcomm Incorporated Error masking in a variable rate vocoder
JP3277398B2 (ja) 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
IN184794B (ko) 1993-09-14 2000-09-30 British Telecomm
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
TW271524B (ko) * 1994-08-05 1996-03-01 Qualcomm Inc
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
DE69831991T2 (de) 1997-03-25 2006-07-27 Koninklijke Philips Electronics N.V. Verfahren und Vorrichtung zur Sprachdetektion
JP3273599B2 (ja) * 1998-06-19 2002-04-08 沖電気工業株式会社 音声符号化レート選択器と音声符号化装置
JP2000010577A (ja) 1998-06-19 2000-01-14 Sony Corp 有声音/無声音判定装置
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US574906A (en) * 1897-01-12 Chain
EP0451796A1 (en) * 1990-04-09 1991-10-16 Kabushiki Kaisha Toshiba Speech detection apparatus with influence of input level and noise reduced
EP0543719A1 (fr) * 1991-11-22 1993-05-26 Thomson-Csf Procédé et dispositif de décision de voisement pour vocodeur à très faible débit
US5774847A (en) 1995-04-28 1998-06-30 Northern Telecom Limited Methods and apparatus for distinguishing stationary signals from non-stationary signals

Also Published As

Publication number Publication date
DE60123651D1 (de) 2006-11-16
JP2004515809A (ja) 2004-05-27
CN100350453C (zh) 2007-11-21
JP4550360B2 (ja) 2010-09-22
BRPI0116002B1 (pt) 2018-04-03
EP1340223A2 (en) 2003-09-03
CN1543639A (zh) 2004-11-03
US20020111798A1 (en) 2002-08-15
KR20030061839A (ko) 2003-07-22
EP1340223B1 (en) 2006-10-04
CN101131817A (zh) 2008-02-27
AU2002233983A1 (en) 2002-06-18
JP5425682B2 (ja) 2014-02-26
KR20090026805A (ko) 2009-03-13
WO2002047068A2 (en) 2002-06-13
DE60123651T2 (de) 2007-10-04
BR0116002A (pt) 2006-05-09
US7472059B2 (en) 2008-12-30
HK1067444A1 (en) 2005-04-08
JP2010176145A (ja) 2010-08-12
ES2276845T3 (es) 2007-07-01
CN101131817B (zh) 2013-11-06
KR100895589B1 (ko) 2009-05-06
WO2002047068A3 (en) 2002-08-22
ATE341808T1 (de) 2006-10-15
TW535141B (en) 2003-06-01

Similar Documents

Publication Publication Date Title
KR100908219B1 (ko) 로버스트한 음성 분류를 위한 방법 및 장치
US6584438B1 (en) Frame erasure compensation method in a variable rate speech coder
US7426466B2 (en) Method and apparatus for quantizing pitch, amplitude, phase and linear spectrum of voiced speech
EP1259957B1 (en) Closed-loop multimode mixed-domain speech coder
US6640209B1 (en) Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US20120303362A1 (en) Noise-robust speech coding mode classification
KR100804888B1 (ko) 프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식선택 패턴을 사용하는 예측 음성 코더
US6260017B1 (en) Multipulse interpolative coding of transition speech frames
EP1617416B1 (en) Method and apparatus for subsampling phase spectrum information
US20030055633A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
KR100550003B1 (ko) 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
JP4567289B2 (ja) 準周期信号の位相を追跡するための方法および装置

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130628

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140627

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160629

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180628

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190624

Year of fee payment: 11