KR20070001276A - 신호 인코딩 - Google Patents

신호 인코딩 Download PDF

Info

Publication number
KR20070001276A
KR20070001276A KR1020067024315A KR20067024315A KR20070001276A KR 20070001276 A KR20070001276 A KR 20070001276A KR 1020067024315 A KR1020067024315 A KR 1020067024315A KR 20067024315 A KR20067024315 A KR 20067024315A KR 20070001276 A KR20070001276 A KR 20070001276A
Authority
KR
South Korea
Prior art keywords
frame
excitation
parameters
encoding
encoder
Prior art date
Application number
KR1020067024315A
Other languages
English (en)
Inventor
자리 엠. 마키넨
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20070001276A publication Critical patent/KR20070001276A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

통신 시스템의 인코더에서 프레임을 부호화하는 방법은, 프레임과 결부되고 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하는 단계; 제1스테이지에서, 제1파라미터 집합에 기반하여, 인코딩할 모드들 중 하나로서, 복수의 인코딩 방법들 중 하나를 선택하는 단계; 프레임과 결부된 제2파라미터 집합을 산출하는 단계; 제2스테이지에서, 제1스테이지의 선택 결과 및 제2파라미터 집합에 기초하여, 인코딩할 모드들 중 하나로서, 복수의 인코딩 방법들 중 하나를 선택하는 단계; 및 제2스테이지로부터 선택된 인코딩 여기 방법을 이용해 프레임을 부호화하는 단계를 포함한다.

Description

신호 인코딩{Signal encoding}
본 발명은 통신 시스템의 인코더에서 신호를 부호화하기 위한 방법에 대한 것이다.
오늘날 셀룰라 통신 시스템들은 일상적인 것이 되었다. 셀룰라 통신 시스템들은 보통 주어진 규격이나 사양에 따라 작동한다. 예를 들어, 그러한 규격이나 사양이 접속에 사용될 통신 프로토콜들 및/또는 파라미터들을 규정할 것이다. 상이한 규격들 및/또는 사양들의 예로서, GSM (Global System for Mobile communications), GSM/EDGE (Enhanced Data rates for GSM Evolution), AMPS (American Mobile Phone System), WCDMA (Wideband Code Division Multiple Access) 또는 3세대 (3G) UMTS (Universal Mobile Telecommunications System), IMT 2000 (International Mobile Telecommunications 2000) 등등을 들 수 있으나, 여기에 한정되는 것은 아니다.
셀룰라 통신 시스템 및 일반적 신호 처리 어플리케이션들에서, 신호는 주로 압축되어져 그 신호를 표현하는데 필요로 되는 정보량을 줄이게 된다. 예를 들어, 오디오 신호는 통상적으로 아날로그 신호로서 포획된 후, 아날로그-디지털 (A/D) 변환기에서 디지털화되고 그런 다음 부호화된다. 셀룰라 통신 시스템에서, 그 부 호화된 신호는 모바일 단말 같은 사용자 장치와 기지국 간 무선 전파공간(air) 인터페이스를 통해 전송될 수 있다. 이와 다른 선택사항으로서, 보다 일반적 신호 처리 시스템들에서처럼, 부호화된 오디오 신호가 나중에 사용되거나 오디오 신호의 재생을 위해 저장 매체 안에 저장될 수도 있다.
인코딩(부호화)은 신호를 압축하고, 그런 다음 셀룰라 통신 시스템에서처럼, 수용가능한 신호 품질 레벨을 유지한 채 최소의 데이터량으로 전파공간 인터페이스를 통해 전송될 수 있다. 이러한 것은, 무선 전파공간 인터페이스에 대한 무선 채널 용량이 셀룰라 통신 시스템에서 제한되어 있기 때문에 특히 중요하다.
이상적 인코딩 방법은, 가능한 한 적은 비트들로 오디오 신호를 부호화할 것이고, 그에 따라 채널 용량을 최적화 시키면서 가능한 한 오리지널 오디오와 근접하게 들리는 복호화 신호가 만들어질 수 있다. 실제로는 압축 방법의 비트 레이트오 복호 스피치(speech) 품질 사이에는 보통 이율 배반성 (trade-off)이 존재한다.
압축이나 인코딩은 손실이 있을 수도 있고, 손실이 없을 수도 있다. 손실이 생기는 압축에서는, 일부 정보를 압축 도중에 잃게 되며, 이때 그 압축된 신호로부터 원래의 신호를 완전히 복구하는 것은 불가능하다. 무손실 압축시에는 보통 아무 정보도 잃게 되지 않으며, 그렇게 압축된 신호에서 원래 신호를 완전하게 복구할 수 있다.
오디오 신호는 스피치, 음악 (또는 비(non)스피치) 또는 rm 둘 모두를 모함하는 신호라고 생각할 수 있다. 스피치 및 음악의 상이한 특성이 스피치와 음악 모두에 대해 잘 맞는 하나의 인코딩 방법을 고안하는 것을 어렵게 만든다. 흔히 스피치 신호들에 최적인 인코딩 방법은 음악이나 비스피치 신호들에는 최적으로 되지 않는다. 따라서, 이러한 문제를 해결하기 위해, 스피치와 음악을 인코딩하는데 상이한 인코딩 방법들이 개발되었다. 그러나, 적절한 인코딩 방법이 선택될 수 있기 전에 오디오 신호가 스피치나 음악으로 분류되어져야 한다.
오디오 신호를 스피치 신호나 음악/비스피치 신호로 분류하는 것은 어려운 작업이다. 요구되는 정확도의 분류는 신호를 이용하는 어플리케이션에 달려있다. 어떤 어플리케이션들에서는, 이 정확도가 음성 인식이나 저장 및 검색 목적을 위한 아카이빙(archiving)에서처럼 보다 민감한 문제가 된다.
그러나, 주로 스피치를 포함하는 오디오 신호의 일부에 대한 인코딩 방법이 주로 음악을 포함하는 일부에 대해서도 매우 효율적일 수 있다. 실제로, 강한 음조 성분들을 가진 음악에 대한 인코딩 방법이 스피치에 매우 적절할 수 있다. 따라서, 순전히 그 신호가 스피치로 이뤄져 있는지 음악으로 이뤄져 있는지 여부에 기반하는 오디오 신호의 분류 방법이 반드시 오디오 신호에 대한 최적의 압축 방식 선택을 낳는 것은 아니다.
적응적 멀티 레이트 (AMR) 코덱은 GSM/EDGE 및 WCDMA 통신 네트워크들을 위한 3 세대 협력 프로젝트 (3GPP)에 의해 개발된 인코딩 방법이다. 이 외에, AMR이 미래의 패킷 교환형 네트워크들에 사용될 수 있음이 고찰되어왔다. AMR은 대수적 코드 여기 선형 예측 (ACELP; Algebraic Code Excited Linear Prediction) 여기(exitation) 인코딩에 기반한다. AMR 및 적응적 멀티 레이트 광대역 (AMR-WB) 코덱들은 각자 8 및 9 개의 능동 비트들로 이뤄지고, 음성 활동 검출 (VAD) 및 불 연속적 전송 (DTX) 기능 또한 포함하고 있다. AMR 코덱에서의 샘플링 레이트는 8 kHz이다. AMR WB 코덱에서 샘플링 레이트는 16 kHz이다.
AMR 및 AMR-WB 코덱들에 대한 세부내용은 3GPP TS 26.090 및 3GPP TS 26.190 기술 사양서들에서 찾을 수 있다. AMR-WB 코덱 및 VAD의 또 다른 세부 사항들은 3GPP TS 26.194 기술 사양서에서 찾아 볼 수 있다.
확장형 AMR-WB (AMR-WB+) 코덱 같은 다른 인코딩 방법에서, 인코딩은 두 개의 상이한 여기 방법들인 ACELP 펄스 모양 여기 및 변환 코드식 (TCX) 여기에 기반한다. ACELP 여기는 이미 오리지널 AMR-WB 코덱에서 사용된 것과 동일하다. TCX 여기는 AMR-WB+에 고유한 변형이다.
ACELP 여기 인코딩은 신호가 소스에서 어떻게 생성되는지에 대한 모델을 이용해 작동하고, 신호로부터 모델의 파라미터들을 추출한다. 더 상세하게 말하면, ACELP 인코딩은 인간의 음성 시스템 모델에 기반하며, 여기서 목구멍과 입이 선형 필터로 모델링되고, 필터를 자극하는 공기의 주기적 진동에 의해 신호가 생성된다. 신호는 인코더에 의해 프레임 단위로 분석되고, 각 프레임 마다, 모델링된 신호를 나타내는 파라미터들의 집합이 인코더에 의해 생성되어 출력된다. 파라미터들의 집합은 여기 파라미터들 및, 다른 파라미터들과 마찬가지로 필터 계수들을 포함할 수 있다. 파라미터들의 집합은 알맞게 설정된 디코더에 의해 사용되어 입력 신호를 재생하게 된다.
AMR-WB+ 코덱에서, 선형 예측 코딩 (LPC)이 신호의 각 프레임에서 계산되어, 신호의 스펙트럼 엔벨로프(envelope, 포락)를 선형 필터로 모델링한다. 이제 LPC 여기라고 알려진 LPC의 결과가 ACELP 여기 또는 TCX 여기를 이용해 부호화된다.
보통, ACELP 여기는 장기간 예측기들과 고정 코드북 파라미터들을 활용하는 반면, TCX 여기는 고속 푸리에 변환들 (FFT들)을 이용한다. 또, AMR-WB+ 코덱에서 TCX 여기는 서로 다른 세 프레임 길이들 (20, 40 및 80ms) 중 하나를 이용해 수행된다.
TCX 여기는 비스피치 음성 인코딩에 널리 사용된다. 비스피치 신호들에 대한 인코딩에 기반하는 TCX 여기의 우수성은 인지(perceptual) 마스팅 및 주파수 도메인 코딩의 이용에 의거한다. TCX 기술들이 우수한 품질의 음악 신호들을 제공한다고 해도, 이 품질은 주기적 스피치 신호들에 대해서는 별로 좋은 것이 못된다. 반대로, ACELP 같이 사람의 스피치 생성 시스템에 기반하는 코덱들은 우수한 품질의 스피치 신호들을 제공하지만 열악한 품질의 음악 신호들을 발생한다.
따라서, 일반적으로, ACELP 여기는 주로 스피치 신호들을 부호화하는데 사용되며, TCX 여기는 음악 및 다른 비스피치 신호들을 부호화하는데 주로 사용된다. 그러나, 이것은 항상 그러는 것은 아닌데, 이는 때때로 스피치 신호가 음악 같은 부분을 포함하고 음악 신호가 스피치 같은 부분을 포함하기 때문이다. 음악과 스피치를 모두 포함하는 오디오 신호들 역시 존재하며, 이때에는 ACELP 여기 또는 TCX 여기 중 하나에만 유일하게 기초해 선택된 인코딩 방법이 최적이 될 수 없다.
AMR-WB+의 여기 선택은 여러 방식들을 통해 행해질 수 있다.
우선하는 가장 간단한 방법이 신호를 인코딩하기 전에 일단 신호 특성을 분석함으로써 그 신호를 스피치 또는 음악/비스피치로 분류하고 그 신호 타입에 대해 ACELP 및 TCX의 최선의 여기를 선택하는 것이다. 이것이 "사전 선택" 방법이라고 알려져 있다. 그러나, 그러한 방법은 음아과 스피치 모두에 대한 가변하는 특성들을 가진 신호에는 맞지 않기 때문에, 스피치에도 음악에도 최적이 아닌 부호화 신호를 발생시킨다.
보다 복잡한 방법이, ACELP 및 TCX 여기 둘 모두를 이용하는 오디오 신호를 부호화하고, 그런 다음 더 나은 품질을 가진 합성 오디오 신호에 기반해 여기를 선택하는 것이다. 신호 품질은 신호대 잡음 타입의 알고리즘을 이용해 측정될 수 있다. 모든 상이한 여기들이 산출되어 최상의 것이 선택될 때, "무차별 대입 (brute-force) 방법"이라고도 알려진 이러한 "분석-합성(analysis-by-synthesis)" 타입의 방법은 양호한 결과를 보이게 되지만, 복합적 계산을 수행한다는 계산상의 복잡도로 인해 실용적이지 않다.
본 발명의 실시예들의 목적은 상술한 문제점들의 일부를 적어도 부분적으로 경감시키는 신호 인코딩을 위한 여기 방법을 선택하는 향상된 방법을 제공하는 데 있다.
본 발명의 제1양태에 따르면 통신 시스템의 인코더에서 프레임을 부호화하는 방법이 제공되며, 상기 방법은, 상기 프레임과 결부되고 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하는 단계; 제1스테이지로서, 제1파라미터 집합과 결부된 소정 조건들에 기초하여 복수의 인코딩 방법들 중 하나를 선택하는 단계; 상기 프레임과 결부된 제2파라미터 집합을 산출하는 단계; 제2스테이지로서, 제1스테이지의 선택 결과 및 제2파라미터 집합에 기반한 복수의 인코딩 방법들 중 하나를 선택하는 단계; 및 제2스테이지에서 선택된 인코딩 방법을 이용해 상기 프레임을 인코딩하는 단계를 포함한다.
상기 복수의 인코딩 방법들은 제1여기(excitation) 방법 및 제2여기 방법을 포함함이 바람직하다.
제1파라미터 집합은 프레임과 결부된 하나 이상의 주파수 대역들의 에너지 레벨에 기초할 수 있다. 또한 상기 제1파라미터들의 상이한 소정 조건들에 대해, 어떤 인코딩 방법도 제1스테이지에서 선택되지 않을 수 있다.
제2파라미터 집합은 프레임과 결부된 스펙트럼 파라미터들, LTP 파라미터들 및 상관 파라미터들 중 적어도 하나를 포함할 수 있다.
제1여기 방법은 대수적 코드 여기식 선형 예측 여기 (algebraic code excited linear prediction excitation)이고, 제2여기 방법은 변환 코딩 여기임이 바람직하다.
프레임이 제2여기 방법을 이용해 부호화될 때, 그 부호화 방법은 제1스테이지 및 제2스테이지에서의 선택에 기반하는 제2여기 방법을 이용하여 부호화된 프레임의 길이를 선택하는 단계를 더 포함할 수 있다.
부호화된 프레임의 길이에 대한 선택은 프레임의 신호대 잡음비에 좌우될 수 있다.
인코더는 AMR-WB+ 인코더임이 바람직하다.
프레임은 오디오 프레임일 수 있다. 오디오 프레임은 스피치 혹은 비스피치를 포함함이 바람직하다. 비스피치는 음악을 포함할 수 있다.
본 발명의 다른 양태에 따르면, 통신 시스템에서 프레임을 부호화하는 인코더가 제공되며, 상기 인코더는, 상기 프레임과 결부되고 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하도록 된 제1계산 모듈; 제1파라미터 집합에 기반한 복수의 인코딩 방법들 중 하나를 선택하도록 된 제1스테이지 선택 모듈; 상기 프레임과 결부된 제2파라미터 집합을 산출하도록 된 제2산출 모듈; 제1스테이지의 선택 결과 및 제2파라미터 집합에 기반한 복수의 인코딩 방법들 중 하나를 선택하도록 된 제2스테이지 선택 모듈; 및 제2스테이지에서 선택된 인코딩 방법을 이용해 상기 프레임을 인코딩하도록 된 인코딩 모듈을 포함한다.
본 발명의 또 다른 양태에 따라, 통신 시스템의 인코더에서 프레임을 부호화하는 방법이 제공되며, 상기 방법은, 상기 프레임과 결부되고 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하는 단계; 제1스테이지로서, 제1파라미터 집합에 기반하여 제1여기 방법이나 제2여기 방법 중 하나를 선택하는 단계; 선택된 여기 방법을 이용해 프레임을 부호화하는 단계를 포함한다.
본 발명을 보다 잘 이해하기 위해, 단지 예로서, 첨부된 도면들을 참조할 것이다.
도 1은 본 발명의 실시예들이 적용될 수 있는 통신 네트워크를 도시한다;
도 2는 본 발명의 실시예의 블록도를 도시한다;
도 3은 본 발명의 실시예 내 VAD 필터 뱅크 구조이다.
이제부터 본 발명은 특정한 예들을 참조해 설명될 것이다. 그러나, 본 발명이 그러한 예들에 국한되는 것은 아니다.
도 1은 본 발명의 일 실시예에 따라 AMR-WB+ 코덱을 이용하는 신호 처리를 지원하는 통신 시스템(100)을 도시한다.
이 시스템(100)은 아날로그/디지털(A/D) 변환기(104), 인코더(106), 송신기(108), 수신기(110), 디코더(112) 및 디지털/아날로그(D/A) 변환기(114)를 포함하는 다양한 구성요소들을 포함한다. A/D 변환기(104), 인코더(106) 및 송신기(108)는 모바일 단말의 일부를 형성할 수 있다. 수신기(110), 디코더(112) 및 D/A 변환기(114)는 기지국의 한 부분을 이룰 수 있다.
시스템(100)은 도 1에는 도시되지 않은 마이크로 폰 같은 한 개 이상의 오디오 소스 또한 포함하여, 스피치 및/또는 비스피치 신호들을 포함한 오디오 신호(102)를 생성한다. 아날로그 신호(102)는 A/D 변환기(104)에서 수신되어, 디지털 신호(105)로 변환된다. 오디오 소스가 아날로그 신호가 아닌 디지털 신호를 생성하면 A/D 변환기(104)는 생략될 수 있다는 것을 알아야 한다.
디지털 신호(105)는 인코더(106)로 입력되어, 인코더(106)에서 한 선택된 인코딩 방법을 이용해 디지털 신호(105)가 프레임 단위로 부호화 및 압축되는 인코딩이 수행되어 부호화된 프레임들(107)을 생성한다. 인코더는 AMR-WB+ 코덱이나 다른 적절한 코덱을 사용해 동작할 수 있으며 이하에서 보다 상세히 설명될 것이다.
부호화된 프레임은 나중에 처리될 수 있도록 디지털 보이스 리코더 같은 적 절한 저장 매체 안에 저장될 수 있다. 이와 다른 대안으로서, 도 1에 도시된 바와 가팅, 부호화된 프레임들이 송신기(108)로 입력되어, 송신기가 이들을 송신하게 된다.
부호화된 프레임들(109)은 수신기(110)에 의해 수신되고, 수신기(110)는 이들을 처리하고 그 부호화된 프레임들(111)을 디코더(112)로 입력한다. 디코더(112)는 부호화된 프레임들(111)을 복호화 및 압축해제한다. 디코더(112)는 또한 수신된 각 부호화 프레임(11)에 대해 인코더에서 사용되는 특정 부호화 방법을 정하기 위한 결정 수단 또한 포함한다. 디코더(112)는 그 결정에 기초하여 부호화 프레임(111)을 복호화하는 디코딩 방법을 선택한다.
복호화(된) 프레임들은 디코더(112)를 통해 복호화 신호(113)의 형태로서 출력되고, 디지털 신호인 이 복호화 신호(113)를 아날로그 신호(116)로 변환하는 D/A 변환기(114)로 입력된다. 이제 아날로그 신호(116)가 그에 따라, 확성기를 통한 오디오로의 전환과 같이 처리될 수 있다.
도 2는 본 발명의 바람직한 실시예에서 도 1의 인코더(106)에 대한 블록도를 예시한다. 인코더(106)는 AMR-WB+ 코덱에 따라 동작하고, 신호 부호화를 위해 AMR-WB+ 여기 또는 TCX 여기중 하나를 선택한다. 이러한 선택은 인코더 모듈들에서 생성된 파라미터들을 분석함으로써 입력 t니호에 대한 최선의 코딩 모델을 정하는 것에 기반하고 있다.
인코더(106)는 음성 활동 검출 (VAD) 모듈(202), 선형 예측 코딩 (LPC) 분석 모듈(206), 장기 예측 (LTP) 분석 모듈(208) 및 여기 생성 모듈(212)을 포함한다. 여기 생성 모듈(212)은 ACELP 여기나 TCX 여기중 하나를 이용해 신호를 부호화한다.
인코더(16)는 제1스테이지 선택 모듈(204), 제2스테이지 선택 모듈(210) 및 제3스테이지 선택 모듈(214)에 연결되는 여기 선택 모듈(216)을 또한 포함한다. 여기 선택 모듈(216)은 신호를 부호화하기 위해 여기 생성 모듈(212)에 의해 사용되는 여기 방법, ACELP 여기 또는 TCX 여기를 결정한다.
제1스테이지 선택 모듈(204)은 VAD 모듈(202)과 LPC 분석 모듈(206) 사이에 연결된다. 제2스테이지 선택 모듈(210)은 LTP 분석 모듈(208) 및 여기 생성 모듈(212) 사이에 연결된다. 제3스테이지 선택 모듈(214)은 여기 생성 모듈(212) 및 인코더(106) 출력과 연결된다.
인코더(106)는 VAD 모듈에서 입력 신호(105)를 수신하고, VAD 모듈은 입력 신호(105)가 능동 오디오인지 묵음기(silent period)들인지 여부를 판단한다. 신호는 LPC 분석 모듈(206)로 전송되고 프레임 단위로 처리된다.
VAD 모듈은 또한 여기 선택에 사용될 수 있는 필터 대역 값들도 계산한다. 묵음기 동안, 여기 선택 상태는 묵음기 지속기간(duration) 중에는 갱신되지 않는다.
여기 선택 모듈(216)은 제1스테이지 선택 모듈(204)에서 제1여기 방법을 결정한다. 제1여기 방법은 ACELP 여기나 TCX 여기 중 하나이고, 여기 생성 모듈(212)에서 신호를 부호화하는데 사용된다. 여기 방법이 제1스테이지 선택 모듈(204)에서 정해질 수 없으면, 그것은 미정인 상태로 남는다.
여기 선택 모듈(216)에 의해 정해진 이러한 제1여기 방법은 VAD 모듈(202)로부터 수신된 파라미터들에 기반한다. 특히, 입력 신호(105)는 VAD 모듈(202)에 의해 여러 주파수 대역들로 나눠지고, 이때 각 주파수 대역의 신호는 관련 에너지 레벨을 가진다. 주파수 대역들과 그 관련 에너지 레벨들은 제1스테이지 선택 모듈(204)에 의해 수신되고 여기 선택 모듈(216)로 보내져서, 제1여기 선택 방법을 이용해 신호를 일반적으로 스피치 형이나 음악 형으로 구분하기 위해 분석된다.
제1여기 선택 방법은 신호의 하위 주파수 및 상위 주파수 대역들 간 관계와 함께 이들 대역들에서의 에너지 레벨 변동을 분석하는 단계를 포함할 수 있다. 다양한 분석 윈도들 및 결정 문턱치들 역시, 여기 선택 모듈(216)에 의해 분석시 사용될 수 있다. 신호와 결부된 다른 파라미터들 역시 분석시 사용될 수 있다.
상이한 주파수 대역들을 생성하는 VAD 모듈(202)에 의해 활용되는 필터 뱅크(300)의 예가 도 3에 도시된다. 각 주파수 대역과 결부된 에너지 레벨들은 통계적 분석을 통해 생성된다. 필터 뱅크 구조(300)는 3차 필터 블록들(306, 312, 314, 316, 318 및 320)을 포함한다. 필터 뱅크(300)은 5차 필터 블록들(302, 304, 308, 310, 및 313) 또한 포함한다. 필터 블록의 "차(order)"는 각 출력 샘플을 생성하는데 사용되는, 샘플들의 개수와 관련한, 최대 지연이 된다. 예를 들어, y(n)=a*x(n) + b*x(n-1) + c*x(n-2) +d*x(n-3)은 3차 필터의 예를 나타낸다.
신호(301)가 필터 뱅크로 입력되고 일련의 3차 및/또는 5차 필터 블록들에서 처리되어, 필터링된 신호 대역들 4.8 내지 6.4 kHz(322), 4.0 내지 4.8 kHz(324), 3.2 내지 4.0 kHz(326), 2.4 내지 3.2 kHz(328), 2.0 내지 2.4 kHz(330), 1.6 내지 2.0 kHz(332), 1.2 내지 1.6 kHz(334), 0.8 내지 1.2 kHz(336), 0.6 내지 0.8 kHz(338), 0.4 내지 0.6 kHz(340), 0.2 내지 0.4 kHz(342), 0.0 내지 0.2 kHz(344)를 만들어낸다.
필터링된 신호 대역 4.8 내지 6.4 kHz(322)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(304)을 통과시킴으로써 생성된다. 필터링된 신호 대역 4.0 내지 4.8 kHz(324)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(304) 및 3차 필터 블록(306)을 통과시킴으로써 생성된다. 필터링된 신호 대역 3.2 내지 4.0 kHz(326)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(304) 및 3차 필터 블록(306)을 통과시킴으로써 생성된다. 필터링된 신호 대역 2.4 내지 3.2 kHz(328)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308) 및 5차 필터 블록(310)을 통과시킴으로써 생성된다. 필터링된 신호 대역 2.0 내지 2.4 kHz(330)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(310) 및 3차 필터 블록(312)을 통과시킴으로써 생성된다. 필터링된 신호 대역 1.6 내지 2.0 kHz(332)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(310) 및 3차 필터 블록(312)을 통과시킴으로써 생성된다. 필터링된 신호 대역 1.2 내지 1.6 kHz(334)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313) 및 3차 필터 블록(314)을 통과시킴으로써 생성된다. 필터링된 신호 대역 0.8 내지 1.2 kHz(336)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313) 및 3차 필터 블록(314)을 통과시킴으로써 생성된 다. 필터링된 신호 대역 0.6 내지 0.8 kHz(338)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313), 3차 필터 블록(316) 및 3차 필터 블록(318)을 통과시킴으로써 생성된다. 필터링된 신호 대역 0.4 내지 0.6 kHz(340)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313), 3차 필터 블록(316) 및 3차 필터 블록(318)을 통과시킴으로써 생성된다. 필터링된 신호 대역 0.2 내지 0.4 kHz(342)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313), 3차 필터 블록(316) 및 3차 필터 블록(320)을 통과시킴으로써 생성된다. 필터링된 신호 대역 0.0 내지 0.2 kHz(344)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313), 3차 필터 블록(316) 및 3차 필터 블록(320)을 통과시킴으로써 생성된다.
여기 선택 모듈(216)에 의한 파라미터들 및, 특히 그 결과에 따른 신호 분류가 여기 생성 모듈(212)에서 신호를 부호화하도록 ACELP나 TCX 중하나인 제1여기 방법을 선택하는데 사용된다. 그러나, 가령, 신호가 스피치와 음악의 특성들을 포함할 때, 분석된 신호가 명확하게 스피치 형이거나 음악 형으로서의 신호 구분 결과를 낳지 못하면, 어떤 여기 방법도 선택되지 않거나 불확실(uncertain)한 것으로서 선택되고, 선택 결정이 그 후의 방법 선택 스테이지 때까지 방치된다. 이를테면, LPC 및 LTP 분석 이후 제2스테이지 선택 모듈(210)에서 특정 선택이 이뤄질 수 있다.
다음은 여기 방법을 선택하는데 사용되는 제1여기 선택 방법의 예다.
AMR-WB 코덱은 여기 방법을 결정할 때 AMR-WB VAD 필터 뱅크들을 활용하는데, 이때 각 20 ms 입력 프레임마다, 주파수 범위 0부터 6400 Hz에 걸친 12 개의 서브 대역들 각각의 신호 에너지 E(n)이 정해진다. 각 서브 대역들의 에너지 레벨들은, 각 서브 대역으로부터의 그 에너지 레벨 E(n)을 서브 대역 (Hz 단위)의 폭으로 나눔으로써 정규화되어, 각 대역에 대해 정규화된 EN(n) 에너지 레벨들을 생성한다.
제1스테이지 여기 선택 모듈(204)에서, 짧은 윈도 stdshort(n)과 긴 윈도 sddlong(n)의 두 윈도들을 사용해 12 서브 대역들 각각에 대한 에너지 레벨들의 표준 편차가 산출될 수 있다. AMR-WB+의 경우, 짧은 윈도의 길이는 4 프레임 길이이고, 긴 윈도의 길이는 16 프레임 길이이다. 이 알고리즘을 이용해, 현재의 프레임으로부터 12 개의 에너지 레벨들이, 이전 3 내지 15 프레임들 (4 및 16 프레임 윈도들을 파생시키는)로부터의 12 에너지 레벨들과 함께 두 표준 편차 값들을 도출하는데 사용된다. 이러한 계산의 한 특징이, VAD 모듈(202)이 입력 신호(105)가 능동 오디오를 포함하고 있다고 판단할 때에만 수행된다는데 있다. 이것은 통계적 파라미터들이 왜곡될 때, 스피치/음악 일시정지의 지연기간 뒤에 알고리즘이 보다 정확하게 반응할 수 있게 한다.
이때, 각 프레임에 대해, 12 서브 대역들 모두에 걸친 평균 표준 편차가 길고 짧은 윈도들 모두에 대해 계산되고, stdalong 및 stdashort인 그 평균 표준 편차 값들 역시 계산된다.
오디오 신호의 각 프레임에 대해, 하위 주파수 대역들 및 상위 주파수 대역 들 사이의 관계가 산출될 수 있다. AMR-WB+에서, 2부터 8까지 하위 주파수 서브 대역들의 에너지 레벨들의 합을 취하고, 그 합을 이들 서브 대역들 (Hz 단위)의 총 길이 (대역폭)로 나누어 정규화함으로써, LevL이 산출된다. 9부터 12까지의 상위 주파수 서브 대역들에 대해, 이들 서브 대역들의 에너지 레벨들의 합이 구해져서 정규화되어 LevH를 생성한다. 이 예에서, 최하위 서브 대역 1은 계산에 이용되지 않는데, 그 이유는 이것이 보통 어울리지 않게 큰 양의 에너지를 포함하여 계산을 왜곡시키고 다른 서브 대역들로부터의 계산치를 너무 작게 만들 수 있기 때문이다. 이러한 조치로부터, LPH 관계가 다음과 같이 정해진다:
LPH = LevL / LevH
또, 각 프레임 마다, 현재와 이전 3 개의 LPH 값들을 이용해 이동 평균 LPHa가 산출된다. 현재의 프레임에 대한 상위 및 하위 주파수 관계 LPHaF 역시, 현재와 이전 7 개의 이동 평균 LPHa 값들의 가중된 합에 기반해 구해지며, 이때 보다 최근의 값들에 보다 큰 가중치가 부여된다.
현재의 프레임에 대한 필터 블록들의 평균 에너지 레벨 AVL이, 각각의 필터 블록 출력에서 배경 잡음의 추정 에너지 레벨을 감산한 후, 감산된 에너지 레벨들 각각을 해당 필터 블록의 최고 주파수로 곱한 결과를 합산해 구해진다. 이것은 상대적으로 적은 에너지를 포함하는 고 주파수 서브 대역들을, 하위 주파수의 고 에너지 서브 대역들에 대해 균형을 맞춰 준다.
현재 프레임의 총 에너지 TotE0가, 모든 필터 블록들로부터 결합된 에너지 레벨들을 취하여 각 필터 뱅크의 배경 잡음 추정치를 감산함으로써 계산된다.
상기 계산을 수행한 후, ACELP 및 TCX 여기 방법들 사이의 선택이, 다음과 같은 방법을 이용해 이뤄질 수 있으며, 이때 소정 플래그가 세팅되어 있을 때, 다른 플래그들은 설정사항들(settings)의 충돌을 예방하기 위해 클리어(clear)된다고 가정한다.
먼저, 긴 윈도의 평균 표준 편차값 stdalong이, 가령 0.4인 제1문턱치 TH1과 비교된다. 이 표준 편차값 stdalong이 제1문턱치 TH1 보다 작으면, TCX 모드 플래그가 세팅되어 인코딩에 대한 TCX 여기 선택을 가리킨다. 그렇지 않으면, 고저 주파수 관계 산출치 LPHaF가 가령 280인 제2문턱치 TH2와 비교된다.
고저 주파수 관계 산출치 LPHaF가 제2문턱치 TH2 보다 크면, TCX 모드 플래그가 세팅된다. 그렇지 않으면, 표준편차 값 stdalong 마이너스 제1문턱치 TH1의 역수가 계산되고, 가령 5인 제1상수 C1이 상기 감산된 역수와 합해진다. 이 합은 다음과 같이 고저 주파수 관계의 측정치 LPHaF와 비교된다:
C1 + (1/(stdalong-TH1)) > LPHaF (1)
(1)의 비교 결과가 참이면, TCX MODE 플래그가 세팅되어 인코딩에 대한 TCX 여기의 선택을 가리킨다. 이 비교 결과가 참이 아니면, 표준 편차 값 stdalong은 제1피승수 M1 (가령, -90)로 곱해지고, 제2상수 C2 (가령 120)가 그 곱셈 결과에 더해진다. 그 합은 다음과 같이 고저 주파수 관계 산출치 LPHaF와 비교된다:
(M1 * stdalong) + C2 < LPHaF (2)
상기 합이 고저 주파수 관계 산출치 LPHaF 보다 작으면, 즉, (2)의 비교 결과가 참이면, ACELP MODE 플래그가 세팅되어 인코딩에 대해 ACELP 여기가 선택되었 음을 나타낸다. 그렇지 않으면, UNCERTAIN(불확실) MODE 플래그가 세팅되어, 현재의 프레임에 대한 여기 방법이 아직 정해지지 않았음을 나타낸다.
이제, 현재의 프레임에 대한 여기 방법의 선택이 승인되기 전에 추가 검증이 수행될 수 있다.
추가 검증은 먼저, ACELP MODE 플래그가 세팅되었는지 UNCERTAIN MODE 플래그가 세팅되었는지의 여부를 판단한다. 그 중 하나가 세팅되었고 현재의 프레임에 대한 필터 뱅크들에 대해 산출된 평균 레벨 AVL이 제3문턱치 TH3 (가령, 2000) 보다 크면, TCX MODE 플래그가 대신 선택되고, ACELP MODE 플래그 및 UNCERTAIN MODE 플래그는 클리어 된다.
다음으로, 만일 UNCERTAIN MODE 플래그가 계속 세팅되어 있으면, 짧은 윈도의 평균 표준 편차값 stdashort에 대한, 긴 윈도의 평균 표준 편차값 stdalong에 대해 위에서 설명한 것과 유사한 계산이 행해지나, 비교시 상수들과 문턱치들로서 약간 다른 값들을 사용한다.
짧은 윈도에 대한 평균 표준 편차값 stdashort가 제4문턱치 TH4 (가령, 0.2) 보다 적으면, TCX MODE 플래그가 세팅되어 인코딩에 TCX 여기가 선택되었음을 나타낸다. 그렇지 않은 경우, 짧은 윈도의 표준 편차값 stdashort 마이너스 제4문턱치 TH4의 역수가 계산되고, 이 감산의 역수에 제3상수 C3 (가령, 2.5)가 합산된다. 그 합은 다음과 같이 고저 주파수 관계 산출치 LPHaF와 비교된다:
C3 + (1/(stdashort-TH4)) > LPHaF (3)
(3)의 비교 결과가 참이면, TCX MODE 플래그가 세팅되어 인코딩에 TCX 여기 가 선택되었음을 나타낸다. 이 비교 결과가 참이 아니면, 표준 편차 값 stdashort은 제2피승수 M2 (가령, -90)로 곱해지고, 제4상수 C4 (가령 140)가 그 곱셈 결과에 더해진다. 그 합은 다음과 같이 고저 주파수 관계 산출치 LPHaF와 비교된다:
M2 * stdashort + C4 < LPHaF (4)
상기 합이 고저 주파수 관계 산출치 LPHaF 보다 작으면, 즉, (4)의 비교 결과가 참이면, ACELP MODE 플래그가 세팅되어 인코딩에 대해 ACELP 여기가 선택되었음을 나타낸다. 그렇지 않으면, UNCERTAIN(불확실) MODE 플래그가 세팅되어, 현재의 프레임에 대한 여기 방법이 아직 정해지지 않았음을 나타낸다.
다음 스테이지에서, 현재 프레임과 이전 프레임의 에너지 레벨들이 검토된다. 현재 프레임의 총 에너지 TotE0와 이전 프레임의 총 에너지 TotE-1 사이의 에너지가 제5문턱치 TH5 (가령 25)보다 크면, ACELP MODE 플래그가 세팅되고 TCX MODE 플래그 및 UNCERTAIN MODE 플래그는 클리어 된다.
마지막으로, 만일 TCX MODE 플래그나 UNCERTAIN MODE 플래그가 세팅되었고 현재 프레임에 대한 필터 뱅크들(300)에 대해 계산된 평균 레벨 AVL이 제3문턱치 TH3 보다 크고 현재 프레임의 총 에너지 TotE)가 제6문턱치 TH6 (가령 60) 보다 적으면, ACELP MODE 플래그가 세팅된다.
상술한 제1여기 선택 방법이 수행될 때, TCX MODE 플래그가 세팅되면 제1여기 블록(204)에서 TCX의 제1여기 방법이 선택되고, ACELP MODE 플래그가 세팅되면 제1여기 블록(204)에서 ACELP의 제2여기 모드가 선택된다. 그러나, 만일 UNCERTAIN MODE 플래그가 세팅되어 있는 경우, 제1여기 선택 방법은 여기 방법을 결정하지 않은 것이다. 이 경우, ACELP나 TCX 여기 중 어느 것이 사용될지를 결정하기 위해 추가 분석이 수행될 수 있는 제2 스테이지 선택 모듈(210) 같은 다른 여기 선택 블록(들)에서 ACELP 또는 TCX 여기가 선택된다.
상술한 제1여기 선택 방법은 다음과 같은 의사 코드에 의해 예시될 수 있다:
Figure 112006084866642-PCT00001
Figure 112006084866642-PCT00002
제1스테이지 선택 모듈(204)이 상기 방법을 완료하여 신호를 인코딩할 제1여 기 방법을 선택한 뒤, 그 신호는 VAD 모듈(202)로부터 신호를 프레임 단위로 처리하는 LPC 분석 모듈(206)로 보내진다.
상세히 설명하자면, LPC 분석 모듈(206)은 프레임의 잔여 오차를 최소화시켜 프레임에 대응하는 LPC 필터를 결정한다. 일단 LPC 필터가 결정되었으면, 그것은 필터의 LPC 필터 계수들의 집합을 통해 표현될 수 있다. LPC 분석 모듈(206)에 의해 처리된 프레임은, LPC 필터 계수들처럼 LPC 분석 모듈에 의해 결정된 임의의 파라미터들과 함께 LTP 분석 모듈(208)로 보내진다.
LTP 분석 모듈(208)은 수신된 프레임 및 파라미터들을 처리한다. 특히, LTP 분석 모듈은 LTP 파라미터를 산출하는데, 이 파라미터는 프레임의 기본 주파수와 밀접하게 관련되는 것으로, 흔히, 스피치 샘플들의 맥락에서 스피치 신호의 주기성(periodicity)을 나타내는 "pitch-lag (피치 래그)" 파라미터 또는 "pitch delay (피치 지연)" 파라미터라고 불린다. LTP 분석 모듈(208)에 의해 계산된 또 다른 파라미터가 LTP 이득이며, 이것은 스피치 신호의 기본적 주기성과 밀접한 관련이 있다.
LTP 분석 모듈(208)에 의해 처리된 프레임은 계산된 파라미터들과 함께 여기 생성 모듈(212)로 전송되고, 여기서 프레임이 ACELP 또는 TCX 여기 방법들 중 하나를 사용해 부호화된다. ACELP 또는 TCX 여기 방법들 중 하나를 선택하는 것은 제2스테이지 선택 모듈(210)과 연계하여 여기 선택 모듈(216)에 의해 수행된다.
제2스테이지 선택 모듈(210)은, LTP 분석 모듈(208)에 의해 처리된 프레임과 함께 LPC 분석 모듈(206) 및 LTP 분석 모듈(208)에 의해 산출된 파라미터들을 수신 한다. 이 파라미터들은 여기 선택 모듈(216)에 의해 분석되어, 현 프레임에 대해 사용될 ACELP 여기 및 TCX 여기로부터 LPC 및 LTP 파라미터들 및 정규화된 상관에 기반하는 최적의 여기 방법이 결정되게 한다. 특히, 여기 선택 모듈(216)은 LPC 분석 모둘(206)과 특히 LTP 분석 모듈(208)로부터의 파라미터들 및 상관 파라미터들을 분석하여 ACELP 여기 및 TCX 여기로부터 최적의 여기 방법을 선택한다. 제2스테이지 선택 모듈은 제1스테이지 선택 모듈에 의해 결정된 제1여기 방법을 검증하며, 제1여기 방법이 제1여기 선택 방법에 의해 불확실한 것으로 정해졌으면 여기 선택 모듈(210)이 이 스테이지에서 최적의 여기 방법을 선택한다. 결과적으로, 프레임 인코딩을 위한 여기 방법의 선택은 LTP 분석이 수행될 때까지 미뤄진다.
정규화된 상관이 제2스테이지 선택 모듈에서 이용될 수 있으며, 다음과 같이 계산될 수 있다:
Figure 112006084866642-PCT00003
여기서 프레임 길이가 N이고, T0는 길이 N을 가진 프레임의 개방 루프 래그(lag, 지연)이며, Xi는 부호화된 프레임의 i 번째 샘플이고, Xi-T0는 샘플 xi로부터 T0 샘플들이 제거되어 있는 부호화된 프레임으로부터의 샘플이다.
제2스테이지 여기 선택시에도 역시 약간의 예외들이 존재하며, 여기서 ACELP 또는 TCX에 대한 제1스테이지 여기 선택이 변경되거나 재선택될 수 있다.
현재와 이전 프레임들의 최소 및 최대 지연(lag) 값들 사이의 차가 소정 문 턱치 TH2 이하인 안정적 신호에 있어서, 그 지연은 현재와 이전 프레임들간 크게 달라지지 않을 것이다. AMR-WB+에서, LTP 이득의 범위는 보통 0과 1.2 사이이다. 정규화된 상관의 범위는 보통 0과 1.0 사이이다. 예로서, 높은 LTP 이득을 가리키는 문턱치는 0.8 이상일 수 있다. LTP 이득의 높은 상관 (또는 유사성) 및 정규화된 상관이 이들의 차를 검토함으로써 관찰될 수 있다. 그 차가 가령 현재 및/또는 지난 프레임들에서 0.1인 제3문턱치 이하이면, LTP 이득 및 정규화된 상관은 높은 상관이 있다고 간주된다.
특성상 신호가 과도적이면(transient), 본 발명의 실시예에 있어 가령 ACELP에 의한 제1여기 방법을 이용해 그 신호가 부호화될 수 있다. 과도적 시퀀스들은 인접 프레임들의 스펙트럼 거리 SD를 사용해 검출될 수 있다. 예를 들어, 현재와 이전 프레임들의 이미턴스(immittance) 스펙트럼 쌍 (ISP) 계수들로부터 산출된 프레임 n의 스펙트럼 거리 SDn가 소정 제1문턱치를 초과하면, 그 신호는 과도적이라고 분류된다. ISP 계수들은 ISP 표현으로 전환되어 있던 LPC 필터 계수들로부터 도출된다.
잡음형 (noise like) 시퀀스들은 가령 TCX 여기에 의한 제2여기 방법을 이용해 부호화될 수 있다. 이 시퀀스들은 LTP 파라미터들과 주파수 도메인의 프레임에 걸친 평균 주파수를 검사하여 검출될 수 있다. LTP 파라미터들이 매우 불안정적이고/거나 평균 주파수가 소정 문턱치를 초과하면, 프레임이 잡음형 신호를 포함한다고 판단된다.
제2여기 선택 방법에 사용될 수 있는 알고리즘의 예가 다음과 같이 기술된다.
능동 오디오 신호를 나타내는 VAD 플래그가 세팅되어 있고 제1스테이지 선택 모듈에서 제1여기 방법이 불확실한 것으로 정해졌으면 (TCX_OR_ACELP 등과 같이), 제2여기 방법이 아래와 같이 선택될 수 있다:
Figure 112006084866642-PCT00004
Figure 112006084866642-PCT00005
프레임 n의 스펙트럼 거리 SDn이 다음과 같이 ISP 파라미터들로부터 산출된다:
Figure 112006084866642-PCT00006
위에서 ISPn은 프레임 n의 ISP 계수들의 벡터이고, ISPn(i)는 그것의 i번째 성분이다.
LagDifbuf는 이전의 10 개의 프레임들 (20ms)의 개방 루프 지연 값들을 포함하는 버퍼이다.
Lagn은 현재의 프레임 n의 두 개방 루프 지연 값들을 포함한다.
Gainn은 현재의 프레임 n의 두 LTP 이득 값들을 포함한다.
NormCorrn은 현재의 프레임 n의 두 개의 정규화된 상관 값들을 포함한다.
MaxEnergybuf는 에너지 값들을 포함하는 버퍼의 최대값이다. 에너지 버퍼가 현재와 이전 프레임들 (20ms)에 대한 마지막 여섯 개의 값들을 포함한다.
lphn은 스펙트럼의 기울기(tilt)를 나타낸다.
NoMtcx는 TCX 여기가 선택된 경우 긴 프레임 길이 (80ms)를 가진 TCX 코딩을 피하고자 함을 가리키는 플래그이다.
능동 오디오 신호를 표시하는 VAD 플래그가 세팅되어 있고, 제1여기 방법이 제1스테이지 선택 모듈에서 ACELP라고 결정된 경우, 제1여기 방법 결정은 다음과 같이 그 방법이 TCX로 전환될 수 있는 알고리즘에 따라 검증된다.
Figure 112006084866642-PCT00007
현재의 프레임에 있어 VAD 플래그가 세팅되어 있고 이전 수퍼 프레임 (수퍼프레임은 80ms 길이를 가진 것으로 각각 20ms 길이의 4 프레임들을 포함함) 내 프레임들 중 적어도 하나에 있어서 0으로 세팅되어 있었고 모드가 TCX 모드로 선택되었으면, 80ms 프레임들을 생성하는 TCX 여기의 사용, TCX80은 불능(disabled)으로 된다 (플래그 NoMtcx가 세팅됨).
Figure 112006084866642-PCT00008
VAD 플래그가 세팅되고 제1여기 선택 방법이 불확실한 것 (TCX_OR_ACELP) 또는 TCX로 정해졌으면, 제1여기 선택 방법은 다음과 같은 알고리즘에 따라 검증된다.
Figure 112006084866642-PCT00009
Figure 112006084866642-PCT00010
vadFlagold는 이전 프레임의 VAD 플래그이고, vadFlag는 현재 프레임의 VAD 플래그이다.
NoMtcx는 만일 TCX 여기 방법이 선택된 경우 긴 프레임 길이 (80ms)로의 TCX 여기를 피하고자 함을 나타내는 플래그이다.
Mag는 현재 프레임의 LP lfxj 계수들 Ap로부터 생성된 이산 푸리에 변환 (DFT) 스펙트럼 엔벨로프(envelope)이다.
DFTSum은 벡터 mag의 최초 성분 (mag(0))을 뺀, 벡터 mag의 최초 40개 성분들의 합이다.
이제 제2스테이지 선택 모듈(210) 이후의 프레임이 여기 생성 모듈(212)로 보내지며, 여기 생성 모듈은 LTP 분석 모듈(208)로부터 수신된 프레임을 이전 모듈들로부터 수신된 파라미터들과 함께, 제2 또는 제1스테이지 선택 모듈들(210 또는 204)에서 선택된 여기 방법들 중 하나를 이용해 부호화한다. 부호화는 여기 선택 모듈(216)에 의해 제어된다.
여기 생성 모듈(212)에 의해 출력된 프레임은 LPC 분석 모듈(206), LTP 분석 모듈(208) 및 여기 생성 모듈(212)에 의해 정해진 파라미터들에 의해 재현된 부호화(된) 프레임이다. 부호화 프레임은 제3스테이지 선택 모듈(214)을 거쳐 출력된다.
ACELP 여기가 프레임을 부호화하는데 사용되었으면, 부호화 프레임은 제3스테이지 선택 모듈(214)을 그냥 통과하고 부호화 프레임(107)으로 바로 출력된다. 그러나, TCX 여기가 프레임 부호화에 사용되었으면, 80ms의 길이로 되어 4x20ms 프레임들을 포함하고 있는 수퍼프레임 안에서 이전에 선택된 ACELP 프레임들의 개수에 따라 부호화 프레임의 길이가 선택되어야 한다. 즉, 부호화 TCX 프레임의 길이는 이전 프레임들 가운데 ACELP 프레임들의 개수에 좌우된다.
TCX 부호화 프레임의 최대 길이는 80ms로서, 단일한 80ms TCX 부호화 프레임 (TCX80)이나, 2 x 40ms TCX 부호화 프레임들 (TCX40)이나 4 x 20ms TCX 부호화 프레임들 (TCX20)로 이뤄져 있을 수 있다. 80ms TCX 프레임을 어떻게 부호화할지에 대한 결정은 여기 선택 모듈(216)에 의해 제3스테이지 선택 모듈(214)을 이용하여 행해지고, 수퍼프레임 안에서 선택된 ACELP 프레임들의 수에 좌우된다.
예를 들어, 제3스테이지 선택 모듈(214)은 여기 생성 모듈(212)로부터 부호화 프레임들의 신호대 잡음비를 산출하고 그에 따라 2 x 40ms 부호화 프레임들이나 단일한 80ms 부호화 프레임을 선택할 수 있다.
제3여기 선택 스테이지는, 제1 및 제2역 선택 스테이지들에서 선택된 ACELP 방법들의 수가 80ms 수퍼 프레임 안에서 셋 미만일 때만 (ACELP<3) 수행된다. 이하의 테이블 1은 제3선택 스테이지 전후의 가능한 방법의 조합들을 보이고 있다. 제3여기 선택 스테이지에서, 가령 SNR에 따라 TCX 방법의 프레임 길이가 선택된다.
Figure 112006084866642-PCT00011
따라서 기술된 실시예들은, 높은 장기(long-term) 상관을 갖는 주기적 신호 들에 대해 ACELP 여기를 선택하며, 이러한 주기적 신호들에는 스피치 신호들과 과도적 신호들이 포함될 수 있다. 한편, TCX 여기는 소정 유형의 정적 신호들, 잡음형 신호들 및 음색형(tone-like) 신호들에 대해 선택될 수 있고, 그것이 이러한 신호들의 주파수 해상도를 다루고 부호화하기에 더 적합하다.
실시예들에서의 여기 방법 선택은 지연되지만 현재의 프레임에 적용되고 그에 따라 신호를 부호화하는 방법에 대해 이전에 알려진 방법들에서 보다 낮은 복잡도를 부여하게 된다. 상술한 방법의 메모리 소비 역시 이전에 알려진 방식들에 비해 크게 낮아진다. 이것은 제한된 메모리와 프로세싱 전력을 가진 모바일 기기에 있어 특히 중요하다.
또, VDA 모듈, LPC 및 LTP 분석 모듈들로부터의 파라미터들의 이용이 보다 정확한 신호 분류를 가져오고, 그에 따라 신호를 부호화함에 있어 보다 정확한 최적 여기 방법의 선택을 가져온다.
앞에서의 논의 및 실시예들은 AMR-WB+ 코덱을 언급하고 있지만, 이 기술분야의 당업자라면 그러한 실시예들은 대안적 실시예들 및 부가적 실시예들로서 동등하게 둘 이상의 여기 방법이 사용될 수 있는 다른 코덱들이 될 수 있다는 것을 알 수 있을 것이다.
또, 상술한 실시예들이 두 가지 여기 방법들인 ACELP 및 TCX 중 하나를 이용해 기술되고 있으나, 이 분야의 당업자라면 다른 여기 방법들 역시 그 대신, 대안적이고 부가적 실시예들에 나타낸 것과 마찬가지로 사용될 수 있음을 이해할 수 있을 것이다.
인코더는 모바일 단말들 못지않게 컴퓨터나 기타 신호 처리 장치 같은 다른 단말들에도 사용될 수 있다.
위에서는 본 발명의 실시예들을 기술하고 있으나, 첨부된 청구항들에서 정의된 것처럼 본 발명의 범주에서 벗어나지 않고 상기 개시된 해법에 대한 여러 가지 변형과 수정이 이뤄질 수 있다.

Claims (30)

  1. 통신 시스템의 인코더에서 프레임을 부호화하는 방법에 있어서,
    프레임과 결부되고, 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하는 단계;
    제1스테이지에서, 제1파라미터 집합과 연관된 소정 조건들에 기반하여 복수의 인코딩 방법들 중 하나를 선택하는 단계;
    프레임과 결부된 제2파라미터 집합을 산출하는 단계;
    제2스테이지에서, 제1스테이지의 선택 결과 및 제2파라미터 집합에 기초하여 복수의 인코딩 방법들 중 하나를 선택하는 단계; 및
    제2스테이지로부터 선택된 인코딩 방법을 이용해 프레임을 부호화하는 단계를 포함함을 특징으로 하는 방법.
  2. 제1항에 있어서, 상기 복수의 인코딩 방법들은 제1여기 방법 및 제2여기 방법을 포함함을 특징으로 하는 방법.
  3. 제1항에 있어서, 상기 제1파라미터 집합은 프레임과 결부된 하나 이상의 주파수 대역들의 에너지 레벨에 기반함을 특징으로 하는 방법.
  4. 제1항에 있어서, 상기 제1스테이지에서, 상기 제1파라미터 집합의 서로 다른 소정 조건들에 대해, 제1스테이지에서 아무 인코딩 방법도 선택되지 않음을 특징으로 하는 방법.
  5. 제1항에 있어서, 상기 제2파라미터들의 집합은 프레임과 관련된 스펙트럼 파라미터들, LTP 파라미터들, 그리고 상관 파라미터들 가운데 적어도 한 가지를 포함함을 특징으로 하는 방법.
  6. 제2항에 있어서, 상기 제1여기 방법은 대수적 코드 여기형 선형 예측 여기 (algebraic code excited linear prediction excitation)임을 특징으로 하는 방법.
  7. 제2항에 있어서, 상기 제2여기 방법은 변환 코딩 여기임을 특징으로 하는 방법.
  8. 제2항에 있어서, 상기 프레임이 제2여기 방법을 이용해 부호화될 때, 상기 부호화 방법은,
    제1스테이지 및 제2스테이지에서의 선택에 기반하여, 제2여기 방법을 이용해 부호화된 프레임의 길이를 선택하는 단계를 더 포함함을 특징으로 하는 방법.
  9. 제8항에 있어서, 상기 부호화된 프레임의 길이에 대한 선택은, 프레임의 신호대 잡음비에 좌우됨을 특징으로 하는 방법.
  10. 제1항에 있어서, 상기 인코더는 AMR-WB+ 인코더임을 특징으로 하는 방법.
  11. 제1항에 있어서, 상기 프레임은 오디오 프레임임을 특징으로 하는 방법.
  12. 제10항에 있어서, 상기 오디오 프레임은 스피치(speech) 또는 비(non)스피치를 포함함을 특징으로 하는 방법.
  13. 제11항에 있어서, 상기 비스피치는 음악을 포함함을 특징으로 하는 방법.
  14. 통신 시스템에서 프레임을 부호화하는 인코더에 있어서,
    프레임과 결부되고, 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하도록 된 제1계산 모듈;
    제1파라미터 집합과 연관된 소정 조건들에 기반하여 복수의 인코딩 방법들 중 하나를 선택하도록 된 제1스테이지 선택 모듈;
    프레임과 결부된 제2파라미터 집합을 산출하도록 된 제2계산 모듈;
    제1스테이지의 선택 결과 및 제2파라미터 집합에 기초하여 복수의 인코딩 방법들 중 하나를 선택하도록 된 제2스테이지 선택 모듈; 및
    제2스테이지로부터 선택된 인코딩 방법을 이용해 프레임을 부호화하도록 된 인코딩 모듈을 포함함을 특징으로 하는 인코더.
  15. 제14항에 있어서, 상기 복수의 인코딩 방법들은 제1여기 방법 및 제2여기 방법을 포함함을 특징으로 하는 인코더.
  16. 제15항에 있어서, 상기 제1여기 방법은 대수적 코드 여기형 선형 예측 여기(ACELP)임을 특징으로 하는 인코더.
  17. 제15항에 있어서, 상기 제2여기 방법은 변환 코딩 여기임을 특징으로 하는 인코더.
  18. 제14항에 있어서, 상기 제1파라미터 집합은 프레임과 관련된 한 개 이상의 주파수 대역들의 에너지 레벨들에 기초함을 특징으로 하는 인코더.
  19. 제14항에 있어서, 상기 제1스테이지 선택 모듈은 상기 제1파라미터 집합의 서로 다른 소정 조건들에 기초해 아무 인코딩 방법도 선택하지 않도록 구성됨을 특징으로 하는 인코더.
  20. 제14항에 있어서, 상기 제2파라미터 집합은 프레임과 관련된 스펙트럼 파라미터들, LTP 파라미터들 및 상관 파라미터들 중 적어도 한 가지를 포함함을 특징으로 하는 인코더.
  21. 제15항에 있어서,
    제1스테이지 선택 모듈 및 제2스테이지 선택 모듈에서의 선택에 기초하여, 제2여기 방법을 사용해 부호화된 프레임의 길이를 선택하도록 된 제3스테이지 선택 모듈을 더 포함함을 특징으로 하는 인코더.
  22. 제14항에 있어서, 상기 부호화 프레임의 길이 선택은, 프레임의 신호대 잡음비에 좌우됨을 특징으로 하는 인코더.
  23. 제14항에 있어서, 상기 인코더는 AMR-WB+ 인코더임을 특징으로 하는 인코더.
  24. 제14항에 있어서, 상기 프레임은 오디오 프레임임을 특징으로 하는 인코더.
  25. 제14항에 있어서, 상기 오디오 프레임은 스피치 또는 비스피치를 포함함을 특징으로 하는 인코더.
  26. 제14항에 있어서, 상기 비스피치는 음악을 포함함을 특징으로 하는 인코더.
  27. 제14항의 인코더를 구비한 단말.
  28. 제27항에 있어서, 상기 단말은 신호 처리 장치임을 특징으로 하는 단말.
  29. 제27항에 있어서, 상기 단말은 모바일 단말임을 특징으로 하는 단말.
  30. 통신 시스템의 인코더에서 프레임을 부호화하는 방법에 있어서,
    프레임과 결부되고 제1필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하는 단계;
    제1스테이지로서, 제1파라미터 집합에 기반하여 제1여기 방법 또는 제2여기 방법 중 하나를 선택하는 단계;
    선택된 여기 방법을 이용해 프레임을 부호화하는 단계를 포함함을 특징으로 하는 방법.
KR1020067024315A 2004-04-21 2005-04-19 신호 인코딩 KR20070001276A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0408856.3 2004-04-21
GBGB0408856.3A GB0408856D0 (en) 2004-04-21 2004-04-21 Signal encoding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020087026297A Division KR20080103113A (ko) 2004-04-21 2005-04-19 신호 인코딩

Publications (1)

Publication Number Publication Date
KR20070001276A true KR20070001276A (ko) 2007-01-03

Family

ID=32344124

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020087026297A KR20080103113A (ko) 2004-04-21 2005-04-19 신호 인코딩
KR1020067024315A KR20070001276A (ko) 2004-04-21 2005-04-19 신호 인코딩

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020087026297A KR20080103113A (ko) 2004-04-21 2005-04-19 신호 인코딩

Country Status (18)

Country Link
US (1) US8244525B2 (ko)
EP (1) EP1738355B1 (ko)
JP (1) JP2007534020A (ko)
KR (2) KR20080103113A (ko)
CN (1) CN1969319B (ko)
AT (1) ATE483230T1 (ko)
AU (1) AU2005236596A1 (ko)
BR (1) BRPI0510270A (ko)
CA (1) CA2562877A1 (ko)
DE (1) DE602005023848D1 (ko)
ES (1) ES2349554T3 (ko)
GB (1) GB0408856D0 (ko)
HK (1) HK1104369A1 (ko)
MX (1) MXPA06011957A (ko)
RU (1) RU2006139793A (ko)
TW (1) TWI275253B (ko)
WO (1) WO2005104095A1 (ko)
ZA (1) ZA200609627B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101297026B1 (ko) * 2009-05-19 2013-08-14 광운대학교 산학협력단 Mdct―tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2566368A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
JP2009503574A (ja) * 2005-07-29 2009-01-29 エルジー エレクトロニクス インコーポレイティド 分割情報のシグナリング方法
WO2007083931A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
JP2009533992A (ja) * 2006-04-19 2009-09-17 ノキア コーポレイション アップリンク移動体通信の修正2重シンボル速度
JP4847246B2 (ja) * 2006-07-31 2011-12-28 キヤノン株式会社 通信装置、通信装置の制御方法、及び当該制御方法をコンピュータに実行させるためのコンピュータプログラム
WO2008049221A1 (en) * 2006-10-24 2008-05-02 Voiceage Corporation Method and device for coding transition frames in speech signals
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
JP4410792B2 (ja) * 2006-12-21 2010-02-03 株式会社日立コミュニケーションテクノロジー 暗号化装置
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
US8982744B2 (en) * 2007-06-06 2015-03-17 Broadcom Corporation Method and system for a subband acoustic echo canceller with integrated voice activity detection
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
WO2009038422A2 (en) * 2007-09-20 2009-03-26 Lg Electronics Inc. A method and an apparatus for processing a signal
US8050932B2 (en) 2008-02-20 2011-11-01 Research In Motion Limited Apparatus, and associated method, for selecting speech COder operational rates
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
KR20100007738A (ko) * 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
CN101615910B (zh) * 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
US20110040981A1 (en) * 2009-08-14 2011-02-17 Apple Inc. Synchronization of Buffered Audio Data With Live Broadcast
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) * 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
WO2012000882A1 (en) 2010-07-02 2012-01-05 Dolby International Ab Selective bass post filter
PL2676265T3 (pl) 2011-02-14 2019-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób do kodowania sygnału audio z stosowaniem zrównanej części antycypacji
BR112013020482B1 (pt) 2011-02-14 2021-02-23 Fraunhofer Ges Forschung aparelho e método para processar um sinal de áudio decodificado em um domínio espectral
KR101551046B1 (ko) 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
KR101525185B1 (ko) * 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
EP3373296A1 (en) 2011-02-14 2018-09-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise generation in audio codecs
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PL2676264T3 (pl) 2011-02-14 2015-06-30 Fraunhofer Ges Forschung Koder audio estymujący szum tła podczas faz aktywnych
MY166394A (en) 2011-02-14 2018-06-25 Fraunhofer Ges Forschung Information signal representation using lapped transform
CN103477387B (zh) 2011-02-14 2015-11-25 弗兰霍菲尔运输应用研究公司 使用频谱域噪声整形的基于线性预测的编码方案
EP2830062B1 (en) * 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
US8645128B1 (en) * 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
AU2014211586B2 (en) * 2013-01-29 2017-02-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for coding mode switching compensation
US9147397B2 (en) * 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
HRP20240674T1 (hr) 2014-04-17 2024-08-16 Voiceage Evs Llc Postupci, koder i dekoder za linearno prediktivno kodiranje i dekodiranje zvučnih signala pri prijelazu između okvira koji imaju različitu brzinu uzorkovanja
CN105336338B (zh) 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
CN110444219B (zh) * 2014-07-28 2023-06-13 弗劳恩霍夫应用研究促进协会 选择第一编码演算法或第二编码演算法的装置与方法
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
DE112016000545B4 (de) 2015-01-30 2019-08-22 Knowles Electronics, Llc Kontextabhängiges schalten von mikrofonen
CN105242111B (zh) * 2015-09-17 2018-02-27 清华大学 一种采用类脉冲激励的频响函数测量方法
CN111739543B (zh) * 2020-05-25 2023-05-23 杭州涂鸦信息技术有限公司 音频编码方法的调试方法及其相关装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
FI101439B1 (fi) * 1995-04-13 1998-06-15 Nokia Telecommunications Oy Transkooderi, jossa on tandem-koodauksen esto
JP2882463B2 (ja) * 1995-11-01 1999-04-12 日本電気株式会社 Vox判定装置
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
FR2825826B1 (fr) * 2001-06-11 2003-09-12 Cit Alcatel Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
KR100477701B1 (ko) * 2002-11-07 2005-03-18 삼성전자주식회사 Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US7120576B2 (en) * 2004-07-16 2006-10-10 Mindspeed Technologies, Inc. Low-complexity music detection algorithm and system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101297026B1 (ko) * 2009-05-19 2013-08-14 광운대학교 산학협력단 Mdct―tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법

Also Published As

Publication number Publication date
BRPI0510270A (pt) 2007-10-30
EP1738355A1 (en) 2007-01-03
KR20080103113A (ko) 2008-11-26
EP1738355B1 (en) 2010-09-29
TW200605518A (en) 2006-02-01
TWI275253B (en) 2007-03-01
JP2007534020A (ja) 2007-11-22
ATE483230T1 (de) 2010-10-15
US8244525B2 (en) 2012-08-14
US20050240399A1 (en) 2005-10-27
CA2562877A1 (en) 2005-11-03
CN1969319B (zh) 2011-09-21
CN1969319A (zh) 2007-05-23
GB0408856D0 (en) 2004-05-26
WO2005104095A1 (en) 2005-11-03
HK1104369A1 (en) 2008-01-11
RU2006139793A (ru) 2008-05-27
AU2005236596A1 (en) 2005-11-03
ES2349554T3 (es) 2011-01-05
ZA200609627B (en) 2008-09-25
MXPA06011957A (es) 2006-12-15
DE602005023848D1 (de) 2010-11-11

Similar Documents

Publication Publication Date Title
US8244525B2 (en) Signal encoding a frame in a communication system
US7747430B2 (en) Coding model selection
EP1719119B1 (en) Classification of audio signals
US8862463B2 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
EP1141947B1 (en) Variable rate speech coding
KR100742443B1 (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
MXPA06009370A (en) Coding model selection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
A107 Divisional application of patent
AMND Amendment
J201 Request for trial against refusal decision
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee