KR20070015155A - 부호화 모델 선택 - Google Patents

부호화 모델 선택 Download PDF

Info

Publication number
KR20070015155A
KR20070015155A KR1020067019497A KR20067019497A KR20070015155A KR 20070015155 A KR20070015155 A KR 20070015155A KR 1020067019497 A KR1020067019497 A KR 1020067019497A KR 20067019497 A KR20067019497 A KR 20067019497A KR 20070015155 A KR20070015155 A KR 20070015155A
Authority
KR
South Korea
Prior art keywords
excitation
ltp
block
audio signal
signals
Prior art date
Application number
KR1020067019497A
Other languages
English (en)
Other versions
KR100879976B1 (ko
Inventor
자리 매키넨
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20070015155A publication Critical patent/KR20070015155A/ko
Application granted granted Critical
Publication of KR100879976B1 publication Critical patent/KR100879976B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오신호의 프레임들을 입력하기 위한 입력단(201), 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 LTP분석 블록(209), 및 적어도, 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 제1여기블록(206), 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록(207)을 포함하는 부호기(200)에 관련된다. 부호기(200)는 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록(202), 및 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하기 위해 상기 제1여기블록(206) 및 상기 제2여기블록(207) 중에서 하나의 여기블록을 선택하기 위한 여기선택블록(203)을 더 포함한다. 또한 본 발명은 기기, 시스템, 방법, 모듈 및 컴퓨터프로그램 생성물에 관련된다.

Description

부호화 모델 선택{Coding model selection}
본 발명은 부호화 모드가 오디오신호의 속성들에 의존하여 변경되는 오디오 부호화에 관한 것이다. 본 발명은 오디오신호의 프레임들을 입력하기 위한 입력부, 오디오신호의 프레임들에 대해 장기간예측(LTP) 분석을 수행하여 오디오신호의 속성들을 기초로 하여 장기간예측(LTP) 매개변수들을 형성하는 장기간예측(LTP) 분석 블록, 및 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 적어도 제1여기(excitation)블록, 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록을 포함하는 부호기에 관한 것이다. 본 발명은 오디오신호의 프레임들을 입력하기 위한 입력부, 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 장기간예측(LTP) 분석 블록, 및 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 적어도 제1여기블록, 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록을 구비하는 부호기를 포함하는 기기에 관한 것이다. 본 발명은 오디오신호의 프레임들을 입력하기 위한 입력부, 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 장기간예측(LTP) 분석 블록, 및 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 적어도 제1여기블록, 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록을 구비하는 부호기를 포함하는 시스템에 관한 것이다. 추가로 본 발명은 LTP분석이 오디오신호의 프레임들에 대해 수행되어 그 신호의 속성들을 기초로 하여 LTP매개변수들을 형성하고 적어도 제1여기 및 제2여기가 오디오신호의 프레임들에 대해 수행되도록 선택될 수 있는 오디오신호를 처리하는 방법에 관한 것이다. 본 발명은 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 LTP분석 블록을 포함하는 모듈에 관한 것이다. 본 발명은, LTP분석이 오디오신호의 프레임들에 대해 수행되어 그 신호의 속성들을 기초로 하여 LTP매개변수들을 형성하고 적어도 제1여기 및 제2여기가 오디오신호의 프레임들에 대해 수행되도록 선택될 수 있는, 오디오신호를 부호화하는 기계실행가능 단계들을 포함하는 컴퓨터프로그램 생성물에 관한 것이다.
많은 오디오신호 처리 응용들에서 오디오신호들은 오디오신호를 처리할 때의 처리 전력 요건들을 줄이기 위해 압축된다. 예를 들면, 디지털 통신시스템에서 오디오신호는 전형적으로 아날로그 신호로서 포획되며, 아날로그-디지털(A/D) 변환기에서 디지털화된 다음 이동국 및 기지국과 같은 사용자 장비들 간에 무선 에어 인터페이스를 통해 전송되기 전에 부호화된다. 부호화의 목적은 디지털화된 신호를 압축하고, 그것을 무선 인터페이스를 통해 최소 데이터량으로 허용가능한 신호 품질수준을 유지하면서 송신하는 것이다. 이것은 무선 에어 인터페이스를 통한 라디오 채널 용량이 셀룰러 통신망에서 제한되므로 특히 중요하다. 디지털화된 오디오신호가 오디오신호의 나중의 재생을 위해 저장매체에 저장되는 응용들도 있다.
압축은 손실 또는 무손실일 수 있다. 손실 압축에서 일부 정보는 압축 동안에 손실되어 압축된 신호로부터 원래 신호를 완전히 재구성하는 것은 가능하지 않다. 무손실 압축에서 통상 손실되는 정보는 없다. 그래서, 원래 신호는 보통 압축된 신호로부터 완전히 재건될 수 있다. 오디오신호라는 용어는 통상 음성, 음악(비음성) 또는 둘 다를 담고 있는 신호로서 이해된다. 음성 및 음악의 다른 성질은 음성 및 음악 둘 다에 충분히 잘 작용하는 하나의 압축알고리즘을 설계하는 것을 더 어렵게 한다. 그러므로, 이 문제는 오디오 및 음성 둘 다를 위해 다른 알고리즘들을 설계하고 어떤 종류의 인식방법을 이용하여 오디오신호가 음성유사인지 음악유사인지를 인식하고 인식에 따라 적당한 알고리즘을 선택하는 것에 의해 종종 풀린다.
전체적으로, 음성과 음악 또는 비음성 신호들 간을 섞임이 없이 분류하는 것은 어려운 작업이다. 요구된 정밀도는 애플리케이션에 많이 의존한다. 일부 애플리케이션들에서 정밀도는 음성 인식에서처럼 또는 저장 및 검색 목적들을 위한 정확한 보존(archive)에서 더욱 중요하다. 그러나, 만약 분류가 입력 신호를 위한 최적의 압축 방법을 선택하기 위해 사용되면 상황은 약간 다르다. 이 경우에, 음성에 항상 최적인 하나의 압축방법과 음악 또는 비음성 신호들에 항상 최적인 다른 방법이 존재할 수는 없다는 것은 흔히 있을 수 있다. 실용에서, 음성과도물들(speech transients)을 위한 압축방법은 음악과도물들을 위해서도 매우 효율적일 수 있다. 강한 톤의 성분들이 유성음 음성 세그먼트들을 위해 좋을 수 있다는 것도 가능하다. 그래서, 이런 경우들에서, 음성 및 음악에 대해 섞이지 않게 분류하기 위한 방 법들은 최상의 압축방법을 선택하는 최적의 압축알고리즘을 만들지 않는다.
종종 음성은 대략 200Hz 및 3400Hz 사이로 대역폭 제한된다고 생각될 수 있다. 아날로그 음성신호를 디지털 신호로 변환하는 A/D변환기에 의해 사용된 전형적인 샘플링률(sampling rate)은 8kHz나 16kHz이다. 음악 또는 비음성 신호들은 정상적인 음성 대역폭 훨씬 위의 주파수 성분들을 담고 있을 수 있다. 일부 애플리케이션들에서 음성시스템은 약 20Hz 내지 20,000kHz 사이의 주파수대역을 다룰 수 있어야 한다. 그 종류의 신호들을 위한 샘플링률은 앨리어싱을 피하기 위해 적어도 40,000kHz여야만 한다. 전술한 값들이 비제한적인 예들임이 주의되어야만 한다. 예를 들면, 일부 시스템들에서 음악신호들을 위한 더 높은 한계는 약 10,000kHz 또는 그것 미만일 수 있다.
다음에, 샘플링된 디지털 신호는 통상 프레임 단위로 부호화되어, 부호화를 위해 이용된 코덱에 의해 결정되는 비트율을 가지는 디지털 데이터스트림이 생기게 한다. 비트율을 더 높게 할수록, 더 많은 데이터가 부호화되고, 이것은 입력 프레임이 더욱 정확히 표현되게 한다. 다음에, 부호화된 오디오신호는 복호화되고 디지털-아날로그(D/A) 변환기를 통과하여 가능한 한 원래 신호에 가까운 신호를 재건한다.
이상적인 코덱은 가능한 한 수 개의 비트들로 오디오신호를 부호화할 것이고 그것에 의해 채널 용량을 최적화하면서도 원래 오디오신호에 가능한 한 가깝게 들리는 복호화된 오디오신호들을 생성할 것이다. 실용에서 코덱의 비트율과 부호화된 오디오의 품질 사이에는 통상 절충(trade off)이 있다.
현재 오디오신호들을 압축하고 부호화하기 위해 개발된 다수의 다른 코덱들, 이를테면 적응 다중 레이트(AMR) 코덱 및 적응 다중 레이트 광대역(AMR-WB) 코덱이 있다. AMR은 3세대 파터너쉽 프로젝터(3GPP)에 의해 GSM/EDGE 및 WCDMA 통신망들을 위해 개발되었다. 부가하여, AMR이 패킷교환망들에서 사용될 것도 상상되어 왔다. AMR은 ACELP(Algebraic Code Excited Linear Prediction)코딩에 기초한다. AMR 및 AMR WB 코덱들은 8 및 9 유효(active) 비트율로 각각 구성되고 또한 음성활동도 검출(VAD) 및 불연속 송신(DTX) 기능성을 포함한다. 지금, AMR 코덱의 샘플링률은 8kHz이고, AMR WB 코덱에서 샘플링률은 16kHz이다. 위에서 언급된 코덱들 및 샘플링률들이 단지 비제한적인 예들인 것은 명백하다.
ACELP 부호화는 신호원을 생성하는 방법의 모델을 사용하여 작용하고 신호로부터 모델의 매개변수들을 추출한다. 더 상세하게는, ACELP 부호화는 목구멍과 입이 선형필터로서 모델화되고 음성이 이 필터를 여기하는 공기의 주기적 진동에 의해 발생되는 인간의 발성계(vocal system)의 모델에 기초를 둔다. 음성은 프레임단위로 부호기에 의해 분석되고 프레임마다 모델화된 음성을 나타내는 매개변수들의 집합이 부호기에 의해 생성되고 출력된다. 매개변수들의 집합은 여기(excitation)매개변수들과 필터를 위한 계수들뿐만 아니라 다른 매개변수들도 포함할 수 있다. 음성 부호기로부터의 출력은 종종 입력 음성신호의 매개변수 표현이라고 한다. 다음에, 매개변수들의 집합은 입력 음성신호를 재생성하는 적당히 구성된 복호기에 의해 사용된다.
변환 부호화는 비음성 오디오 부호화에서 널리 이용되고 있다. 비음성신호들 을 위한 변환 부호화의 우월성은 지각 마스킹 및 주파수 영역 부호화에 기초를 둔다. 변환 부호화 기법들이 오디오신호에 대해 우수한 품질을 준다고 해도, 성능은 주기성 음성신호들에 대해 좋지 못하고 그러므로 변환부호화된 음성의 품질은 보통 약간 낮다. 반면에, 인간의 음성생성계(speech production system)에 기초한 음성 코덱들은 통상 오디오신호들에 대해 불충분하게 수행된다.
일부 입력 신호들에 대해, 펄스형 ACELP-여기(excitation)는 더 높은 품질을 생성하고 일부 입력 신호들에 대해 변환 부호화 여기(TCX)는 더 최적이다. 여기서는 ACELP-여기가 대부분 전형적인 음성 콘텐츠를 입력 신호로서 하기 위해 사용되고 TCX-여기가 대부분 전형적인 음악 및 다른 비음성 오디오를 입력 신호로서 하기 위해 사용된다고 가정된다. 그러나, 이것은 항상 그 경우는 아니고, 즉, 때때로 음성신호는 음악에 유사한 부분들을 가지고 음악신호는 음성에 유사한 부분들을 가진다. 음악 및 음성 둘 다를 담고 있어 선택된 부호화방법이 종래기술 시스템들에서는 그러한 신호들을 위한 옵션이 될 수 없는 신호들이 존재할 수도 있다.
여기(excitation) 선택은 몇 가지 방식들로 행해질 수 있다: 가장 복잡하고 꽤 좋은 방법은 ACELP 및 TCX-여기 둘 다를 부호화한 다음 합성된 오디오신호에 기초하여 최고의 여기를 선택하는 것이다. 이 합성에 의한 분석 방법은 양호한 결과들을 제공할 것이지만 일부 애플리케이션들에서는 그것의 높은 복잡도 때문에 실용적이지 않다. 이 방법에서 예를 들면 SNR-형의 알고리즘은 양쪽 여기들에 의해 생성된 품질을 측정하는데 이용될 수 있다. 이 방법은 "무차별 공격(brute-force)" 방법이라고 불릴 수 있는데, 그것이 다른 여기들의 모든 조합들을 시도해 보고 이 후 최고의 하나를 선택하기 때문이다. 덜 복잡한 방법은 신호 속성들을 미리 분석한 다음 최고의 여기를 선택하는 것에 의해 합성을 한 번만 수행할 것이다. 이 방법은 또한 품질 및 복잡도 사이에 타협을 만드는 사전 선택 및 "무차별 공격"의 조합일 수 있다.
도 1은 간이화된 부호기(100)를 종래기술의 높은 복잡도 분류로 제시한다. 오디오신호가 입력신호블록(101)에 입력되고 그 블록에서 오디오신호는 디지털화되고 필터링된다. 입력신호블록(101)은 또한 디지털화되고 필터링된 신호로부터 프레임들을 형성한다. 이 프레임들은 선형예측부호화(LPC) 분석 블록(102)에 입력된다. 그것은 디지털화된 입력신호들에 대해 프레임단위로 LPC분석을 수행하여 입력신호와 가장 잘 부합되는 그러한 매개변수 집합을 찾는다. 결정된 매개변수들(LPC매개변수들)은 양자화되고 부호기(100)로부터 출력(109)된다. 부호기(100)는 또한 LPC합성 블록들(103, 104)로 2개의 출력신호들을 생성한다. 제1 LPC합성 블록(103)은 TCX여기 블록(105)에 의해 생성된 신호를 이용하여 오디오신호를 합성하여 TCX여기에 대한 최상의 결과를 생성하는 부호벡터를 찾는다. 제2 LPC합성 블록(104)은 ACELP여기 블록(106)에 의해 생성된 신호를 이용하여 오디오신호를 합성하여 ACELP여기에 대한 최상의 결과를 생성하는 부호벡터를 찾는다. 여기선택블록(107)에서 LPC합성 블록들(103, 104)에 의해 생성된 신호들은 여기방법들 중의 어떤 여기방법이 최상의(최적의) 여기를 주는 지를 결정하기 위해 비교된다. 선택된 여기방법에 관한 정보 및 선택된 여기신호들의 매개변수들은, 예를 들면, 부호기(100)로부터 전송을 위해 신호들을 출력(109)하기 전에 양자화되고 채널부호화된다(108).
본 발명의 하나의 목적은 오디오신호의 다른 부분들에 대해 부호화방법을 선택하는 개선된 방법을 제공하는 것이다. 본 발명에서는 개방루프방식에 의한 부호화를 위해 적어도 제1 및 제2 부호화방법들, 예를 들면, TCX 또는 ACELP 중에서 부호화방법을 선택하는데 알고리즘이 이용된다. 선택은 소스신호를 위한 최선의 부호화모델을 검출하도록 수행되고, 그것은 음성 및 음악의 분리를 의미하지는 않는다. 본 발명의 일 실시예에 의하면, 알고리즘은 특히 높은 장기간 상관을 가지는 주기성 신호들(예컨대, 유성음(voiced speech) 신호)에 대해 그리고 신호과도물들(signal transients)에 대해 ACELP를 선택한다. 한편, 어떤 종류의 정지신호들, 노이즈유사 신호들 및 톤(tone)유사 신호들은 주파수분해능을 더 잘 다루는 변환부호화를 이용하여 부호화된다.
본 발명은 LTP분석이 예컨대 과도물들, 주기성 부분들 등을 오디오신호로부터 찾기 위해 생성하는 매개변수들을 검사함으로써 입력신호가 분석된다는 아이디어에 기초한다. 본 발명에 따른 부호기는 이 부호기가 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록, 및 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 더 포함하는 것을 기본적인 특징으로 한다. 본 발명에 따른 기기는 이 기기가 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록, 및 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 더 포함하는 것을 기본적인 특징으로 한다. 본 발명에 따른 시스템은 이 시스템이 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록, 및 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 더 포함하는 것을 기본적인 특징으로 한다. 본 발명에 따른 방법은 이 방법이 상기 LTP매개변수들을 분석하는 단계, 및 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하는 단계를 더 포함하는 것을 기본적인 특징으로 한다. 본 발명에 따른 모듈은 이 모듈이 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록, 및 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하고 선택된 여기방법을 부호기에 표시하기 위한 여기선택블록을 더 포함하는 것을 기본적인 특징으로 한다. 본 발명에 따른 컴퓨터프로그램 생성물은 이 컴퓨터프로그램 생성물이 상기 LTP매개변수들을 분석하기 위한 그리고 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 기계실행가능 단계들을 더 포함하는 것을 기본적인 특징으로 한다.
본 발명은 종래기술의 방법들 및 시스템들과 비교될 때 이점들을 제공한다. 본 발명에 따른 분류 방법을 사용하는 것에 의해, 재생되는 소리(sound) 품질을 압축 효율에 크게 영향을 미치는 일 없이 개선하는 것이 가능하다. 본 발명은 혼합된 신호들, 즉 음성유사 및 비음성유사 신호들 양쪽 다를 포함하는 신호들의 재생되는 사운드 품질을 개선한다.
도 1은 종래기술의 높은 복잡도의 분류를 가지는 간이화된 부호기를 나타내며,
도 2는 본 발명에 따른 분류를 가지는 부호기의 예시적인 실시예를 나타내며,
도 3은 예의 유성음 시퀀스의 크기조정된(scaled) 상관(correlation), 지체(lag) 및 크기조정된 이득 매개변수들을 보이며,
도 4는 단일 악기의 소리를 담고 있는 예의 오디오신호의 크기조정된 정규화된 상관, 지체 및 크기조정된 이득 매개변수들을 보이며,
도 5는 몇 개의 악기들의 음악을 담고 있는 예의 오디오신호의 케일된 정규화된 상관, 지체 및 크기조정된 이득을 보이고,
도 6은 본 발명에 따른 시스템의 일 예를 보인다.
다음에서 본 발명의 예의 실시예에 따른 부호기(200)가 도 2를 참조하여 더 상세히 기술될 것이다. 부호기(200)는 필요할 때 입력신호를 디지털화, 필터링 및 프레임화하기 위한 입력 블록(201)을 포함한다. 여기서 입력신호는 이미 부호화처리에 적합한 형태로 되어 있을 수 있다는 것이 주의되어야만 한다. 예를 들면, 입 력신호는 이전 단계에서 디지털화되어 기억매체(미도시)에 저장되어 있을 수 있다. 입력신호 프레임들은 LPC분석 블록(208)에 입력되고 LPC분석 블록은 입력신호에 대해 LPC분석을 수행하고 그 신호의 속성들을 기초로 하여 LPC매개변수들을 형성한다. LTP분석 블록(209)은 LPC매개변수들을 기초로 하여 LTP매개변수들을 형성한다. LPC매개변수들과 LTP매개변수들은 매개변수 분석 블록(202)에서 검사된다. 이 분석의 결과를 기초로 하여 여기선택 블록(203)은 입력신호의 현재 프레임을 부호화하기 위한 최고로 적절한 여기방법이 무엇인지를 결정한다. 여기선택 블록(203)은 매개변수 분석에 따라 선택수단(205)을 제어하기 위해 제어신호(204)를 생성한다. 만약 입력신호의 현재 프레임을 부호화하기 위한 최상의 여기방법이 제1여기방법이라고 결정되었다면, 선택수단(205)은 제1여기블록(206)의 신호(여기매개변수들)를 선택하도록 제어되어 양자화 및 부호화 블록(212)에 입력되도록 한다. 만약 입력신호의 현재 프레임을 부호화하기 위한 최상의 여기방법이 제2여기방법이라고 결정되었다면, 선택수단(205)은 제2여기블록(207)의 신호(여기매개변수들)를 선택하도록 제어되어 양자화 및 부호화 블록(212)에 입력되도록 한다. 비록 도 2의 부호기가 부호화처리를 위해 제1여기블록(206) 및 제2여기블록(207)만을 가진다고 해도, 부호기(200)에서 이용가능한 다른 여기방법들을 위해 2개를 넘는 다른 여기블록들이 입력신호의 부호화에 이용될 수 있다는 것이 명백하다.
제1여기블록(206)은 예를 들면 TCX여기신호(벡터)를 생성하고 제2여기블록(207)은 예를 들면 ACELP여기신호(벡터)를 생성한다. 선택된 여기블록(206, 207)이 먼저 둘 이상의 여기벡터들을 시험하여 가장 콤팩트한 결과를 생성하는 벡터가 송신을 위해 선택되게 하는 것도 가능하다. 가장 콤팩트한 결과의 결정은, 예를 들면, 송신하려는 비트들의 수 또는 부호화에러(합성된 오디오 및 실제 오디오 입력 사이의 차이)를 기초로 하여 행해질 수 있다.
LPC매개변수들(210), LPC매개변수들(211) 및 여기매개변수들(213)은, 예컨대, 통신망(604)(도 6)으로의 송신 전에, 예를 들면, 양자화 및 부호화 블록(212)에서 양자화되고 부호화된다. 그러나, 그 매개변수들을 송신하는 것이 반드시 필요한 것은 아니며, 그것들은 예를 들면 저장매체에 저장될 수 있고 나중의 단계에서 송신 및/또는 복호화를 위해 검색될 수 있다.
확장형 AMR-WB(AMR-WB+) 코덱에서, LP-합성을 위한 2 유형의 여기들인 ACELP 펄스유사 여기 및 변환부호화형 TCX여기가 있다. ACELP여기는 원래의 3GPP AMR-WB 표준(3 GPP TS 26.190)에서 이미 이용된 것과 동일하고 TCX-여기는 확장형 AMR-WB로 구현된 본질적인 개선물이다.
AMR-WB+코덱에서, 선형예측부호화(LPC)가 스펙트럼 포락선(envelope)을 모델화하기 위해 각 프레임에서 계산된다. LPC여기(부호화된 것의 LP필터의 출력)는 ACELP(algebraic code excitation linear prediction)형 또는 변환부호화기반 알고리즘(TCX)에 의해 부호화된다. 한 예로서, ACELP는 LTP를 수행하고 LPC여기를 위해 부호책(codebook) 매개변수들을 고정하였다. 예를 들면, AMR-WB+의 변환부호화(TCX)는 고속 푸리에 변환(FFT)을 이용한다. AMR-WB+코덱에서 TCX 부호화는 3개의 다른 프레임길이들(20, 40 및 80ms) 중의 하나를 이용하여 행해질 수 있다.
다음에 본 발명에 따른 방법의 예가 더 상세히 기술될 것이다. 이 방법에서 는 주기성(periodicity)과 피치와 같은 오디오신호의 일부 속성들을 결정하기 위해 알고리즘이 이용된다. 피치는 유성음은 기본 속성이다. 유성음의 경우, 성문(glottis)은 주기적인 형태를 열리고 닫히어, 여기에 주기적 특성을 부여한다. 피치 주기(T0)는 성문의 순차적인 개방들 사이의 시간 간격이다. 유성음 세그먼트들은 특히 강한 장기(long-term) 상관을 가진다. 이 상관은 성대의 진동에 의한 것이고, 그것은 보통 2부터 20ms까지의 범위의 피치 주기를 가진다.
LTP매개변수들인 지체 및 이득은 LPC 나머지를 위해 계산된다. LTP지체는 음성신호의 기본 주파수에 밀접한 관계가 있고 그것은 자주 "피치-지체" 매개변수, "피치 지연" 매개변수 또는 "지체(lag)"라고 불리는데, 그것은 음성 샘플들에 관해서 음성신호의 주기성을 기술한다. 피치-지연 매개변수는 적응 부호책을 이용함으로써 계산될 수 있다. 개방루프 피치 분석은 피치 지체를 추정하기 위해 행해질 수 있다. 이것은 피치 분석을 단순화하고 폐루프 피치 탐색을 개방루프로 추정된 지체들 주위의 작은 수의 지체들로 한정하기 위해 수행된다. 기본 주파수에 관련되는 다른 LTP 매개변수는 이득이고 LTP이득이라고도 불린다. LTP이득은 LTP지체와 함께 중요한 매개변수이고 그것들은 음성의 자연스런 표현을 제공하는데 이용된다.
소스신호가 정상 속성들은 예컨대 정규화된 상관에 의해 분석되고, 그것은 다음과 같이 계산될 수 있다:
Figure 112006068373489-PCT00001
여기서 T0은 길이 N을 가지는 프레임의 개방루프 지체이다. xi는 부호화된 프레임의 i번째 샘플이다. xi-T0은 최근 부호화된 프레임으로부터의 샘플이고, 그것은 샘플 xi로부터 T0 샘플들만큼 과거로 돌아간 것이다.
시간의 함수으로서의 LTP매개변수 특성들의 몇 개의 예들은 도 3, 4 및 5에서 볼 수 있다. 이 도면들에서 곡선 A는 신호의 정규화된 상관을 보이며, 곡선 B는 지체를 보이고 곡선 C는 크기조정된 이득을 보인다. 정규화된 상관 및 LTP이득은 그것들이 동일 도면에서 LTP지체와 맞을 수 있도록 크기조정된다(100이 곱해짐). 도 3, 4 및 5에서, 또한 LTP 지체 값들은 2로 나누어진다. 한 예로서, 유성음 세그먼트(도 3)는 높은 LTP이득 및 안정한 LTP지체를 포함한다. 또한 유성음 세그먼트들의 정규화된 상관 및 LTP이득은 매칭되고 그러므로 높은 상관을 가진다. 본 발명에 따른 방법은 이 종류의 신호세그먼트를 분류하여 선택된 부호화방법이 ACELP(제1부호화방법)이 되도록 한다. 만약 LTP지연 윤곽선(현재 및 이전 지체들로 구성됨)가 안정되지만 LTP이득이 낮거나 불안정하고 및/또는 LTP이득 및 정규화된 상관이 작은 상관을 가진다면, 선택된 부호화방법은 TCX(제2부호화방법)이다. 이런 종류의 상황은 도 4의 예에서 하나의 악기(섹소폰)의 오디오신호의 매개변수들이 보이는 것으로 도시되어 있다. 만약 현재 및 이전 프레임들의 LTP지체 윤곽선이 매우 불안정하면, 선택된 코딩 방법 역시 이 경우 TCX이다.
이것은 도 5의 예에서 다수의 악기들의 오디오신호의 매개변수들이 보이는 것으로 도시된다. 안정한 이란 단어는 여기서 예컨대 현재 및 이전 프레임들의 최 소 및 최대 지체값들 사이의 차이가 어떤 기설정된 문턱(제2문턱(TH2)) 미만이다는 것을 의미한다. 그러므로, 지체는 현재 및 이전 프레임들에서 많이 변경되지 않는다. AMR-WB+코덱에서, LTP이득의 범위는 0 과 1.2 사이에 있다. 정규화된 상관의 범위는 0과 1.0 사이에 있다. 한 예로서, 높은 LTP이득을 나타내는 문턱은 0.8 이상일 수 있었다. LTP이득 및 정규화된 상관의 높은 상관(또는 유사성)은 예컨대 그것들의 차이에 의해 관찰될 수 있다. 만약 그 차이가 제3문턱(TH3) 아래 있으면, 예를 들면, 0.1이면, 현재 및/또는 과거 프레임들에서, LTP 이득 및 정규화된 상관은 높은 상관을 가진다.
만약 그 신호가 특성상 과도 상태라면, 그것은 본 발명의 예의 실시예에서 제1부호화방법에 의해, 예를 들면, ACELP부호화 방법에 의해 부호화된다. 과도 시퀀스들은 인접 프레임들의 스펙트럼 거리(SD)를 이용하는 것에 의해 검출될 수 있다. 예를 들면, 만약 현재 및 이전 프레임들에서 이미턴스 스펙트럼 쌍(immittance spectrum pair; ISP) 계수들(ISP표현으로 변환된 LP필터 계수들)로부터 계산된 프레임 n의 스펙트럼 거리(SDn)가 기설정된 제1문턱(TH1)을 초과하면, 신호는 과도 상태로서 분류된다. 스펙트럼 거리(SDn)는 ISP매개변수들로부터 다음과 같이 계산될 수 있다:
Figure 112006068373489-PCT00002
여기서 ISPn은 프레임 n의 ISP계수들의 벡터이고 ISPn(i)는 그것의 i번째 요 소이다.
잡음유사 시퀀스들이 제2부호화방법에 의해, 예를 들면, 변환부호화 TCX에 의해 부호화된다. 이 시퀀스들은 주파수영역에서 프레임을 따라 LTP매개변수들 및 평균 주파수에 의해 검출될 수 있다. LTP매개변수들이 매우 불안정하고 및/또는 평균 주파수가 기설정된 문턱(TH16)을 초과하면, 이 방법에서는 프레임이 잡음유사 신호를 담고 있는 것이라고 결정된다.
본 발명에 따른 처리를 분류하기 위한 예의 알고리즘은 아래에서 기술된다. 이 알고리즘은 AMR WB+ 코덱의 부호기와 같은 부호기(200)에서 이용될 수 있다.
if(SDn > TH1)
Mode = ACELP_MODE;
else
if(LagDifbuf < TH2)
if(Lagn == HIGH LIMIT or Lagn == LOW LIMIT){
if(Gainn-NormCorrn<TH3 and NormCorrn>TH4)
Mode = ACELP_MODE
else
Mode = TCX_MODE
else if(Gainn - NormCorrn < TH3 and NormCorrn > TH5)
Mode = ACELP_MODE
else if(Gainn - NormCorrn > TH6)
Mode = TCX_MODE
else
NoMtcx = NoMtcx +1
if(MaxEnergybuf < TH7)
if(SDn > TH8)
Mode = ACELP_MODE;
else
NoMtcx = NoMtcx +1
if(LagDifbuf < TH2)
if(NormCorrn < TH9 and SDn < TH10)
Mode = TCX_MODE;
if(lphn > TH11 and SDn < TH10)
Mode = TCX_MODE
if(vadFlagold == 0 and vadFlag == 1 and Mode == TCX_MODE))
NoMtcx = NoMtcx +1
if(Gainn - NormCorrn < TH12 and NormCorrn > TH13 and Lagn > TH14)
DFTSum = 0;
for(i=1; i<NO_of_elements; i++) { /*First element left out*/
DFTSum = DFTSum + mag[i];
if(DFTSum > TH15 and mag[0] < TH16) {
Mode = TCX_MODE;
else
Mode = ACELP_MODE;
NoMtcx = NoMtcx +1
위의 알고리즘은 일부 문턱들(TH1 - TH15) 및 상수들(HIGH_LIMIT, LOW_LIMIT, Buflimit, NO_of_elements)를 포함한다. 다음에서 문턱들 및 상수들의 일부 예의 값들이 보이지만 그 값들이 예들로만 한정되는 것이 아님은 명백하다.
TH1=0.2
TH2=2
TH3=0.1
TH4=0.9
TH5=0.88
TH6=0.2
TH7=60
TH8=0.15
TH9=0.80
TH10=0.1
TH11=200
TH12=0.006
TH13=0.92
TH14=21
TH15=95
TH16=5
NO_of_elements=40
HIGH_LIMIT=115
LOW_LIMIT=18
이 알고리즘의 변수들의 의미는 다음과 같다: HIGH_LIMIT 및 LOW_LIMIT는 최대 및 최소 LTP지체값들에 각각 관련되며, LagDifbuf는 현재 및 이전 프레임들로부터의 LTP지체들을 담고 있는 버퍼이다. Lagn은 현재 프레임의 하나 이상의 LTP지연값이다(2개의 개방루프 지체값들이 AMR WB+코덱으로 프레임에서 계산된다). Gainn은 현재 프레임의 하나 이상의 LTP이득값이다. NormCorrn은 현재 프레임의 하나 이상의 정규화된 상관 값이다. MaxEnergybuf는 현재 및 이전 프레임들의 에너지 값들을 담고 있는 버퍼의 최대값이다. lphn은 스펙트럼의 경사를 표시한다. vadFlagold는 이전 프레임의 VAD 플래그이고 vadFlag는 현재 프레임의 VAD플래그이다. NoMtcx는, 만약 제2부호화모델 TCX가 선택된다면, 긴 프레임길이(예컨대 80ms)의 TCX변환을 피한다는 것을 표시하는 플래그이다. Mag는 다음 프로그램코드에 따라 계산될 수 있는 현재 프레임의 LP필터계수들(Ap)로부터 만들어진 이산 푸리에 변환된(DFT) 스펙트럼 포락선이다:
for (i=0; i<DFTN*2; i++)
cos_t[i] = cos[i*N_MAX/(DFTN*2)]
sin_t[i] = sin[i*N_MAX/(DFTN*2)]
for (i=0; i<LPC_N; i++)
ip[i] = Ap[i]
mag[0] = 0.0;
for (i=0; i<DFTN; i++) /* calc DFT */
x = y = 0
for (j=0; j<LPC_N; j++) x = x + ip[j]*cos_t[(i*j)&(DFTN*2-1)]
y = y + ip[j]*sin_t[(i*j)&(DFTN*2-1)]
Mag[i] = 1/sqrt(x*x+y*y)
여기서 DFTN = 62, N_MAX = 1152, LPC_N = 16이다. 벡터들(cos 및 sin)은 코 사인 및 사인 함수들의 값들을 각각 포함한다. 벡터들(cos 및 sin)의 길이는 1152이다. DFTSum은 벡터 Mag의 첫 요소(mag(0))를 제외한 벡터 Mag의 처음 NO_of_elements(예컨대 40)개 요소들의 합이다.
위의 설명에서, AMR-WB 확장(AMR-WB+)는 부호기의 실제적인 예로서 사용되었다. 그러나, 본 발명은 AMR-WB 코덱들 또는 ACELP-여기 및 TCX-여기 방법들에 한정되지 않는다.
비록 본 발명이 위에서 2개의 다른 여기방법들을 이용하여 제시되었지만, 2개를 초과하는 다른 여기방법들을 이용하는 것과 오디오신호들을 압축하기 위해 그것들 중에서 선택을 행하는 것이 가능하다.
도 6은 본 발명이 적용될 수 있는 시스템의 예를 묘사한다. 이 시스템은 음성 및/또는 비음성 오디오신호들을 생성하는 하나 이상의 음원(601)을 포함한다. 오디오신호들은 A/D변환기(602)에 의해 필요하면 디지털 신호들로 변환된다. 디지털화된 신호는 송신기기(600)의 부호기(200)에 입력되고 거기서 본 발명에 따라 압축이 수행된다. 압축된 신호들은 또한 필요하면 부호기(200)에서 송신을 위해 양자화되고 부호화된다. 송신기(603), 예를 들면 이동통신기기(600)의 송신기는, 압축되고 부호화된 신호들을 통신망(604)에 송신한다. 이 신호들은 수신기기(606)의 수신기(605)에 의해 통신망(604)으로부터 수신된다. 수신된 신호들은 수신기(605)로부터 복호기(607)에 복호화, 역양자화 및 압축복원(decompression)를 위해 전달된다. 복호기(607)는 현재 프레임을 위해 부호기(200)에서 사용된 압축방법을 결정하는 검출수단(608)을 포함한다. 복호기(607)는 결정을 기초로 하여 현재 프레임을 압축복원하기 위한 제1압축복원수단(609) 또는 제2압축복원수단(610)을 선택한다. 압축복원된 신호들은 압축복원수단들(609, 610)로부터 필터(611) 및 D/A변환기(612)에 연결되어 디지털 신호가 아날로그 신호로 변환된다. 그 후 아날로그 신호는 예를 들면 확성기(613)에서 오디오로 변환될 수 있다.
본 발명은 다른 종류의 시스템들에서, 특히 오디오신호가 음성유사 신호들과 비음성유사 신호들 양쪽을 포함하는 상황(예컨대 음성과 음악이 혼합됨)에서 종래기술의 시스템들에서보다 재생된(압축복원된/복호화된) 오디오신호에 대해 더 효율적인 압축 및/또는 개선된 오디오 품질을 달성하기 위한 저속 전송에서 특히 구현될 수 있다. 본 발명에 따른 부호기(200)는 통신 시스템들의 다른 부분들에 구현될 수 있다. 예를 들면, 부호기(200)는 제한된 처리 능력을 가지는 이동통신기기에 구현될 수 있다.
본 발명은 또한 매개변수들을 분석하도록 그리고 부호기(200)를 위해 여기방법의 선택을 제어하도록 부호기와 연결될 수 있는 모듈(202, 203)로서 구현될 수도 있다.
본 발명이 위에서 기술된 실시예들에만 한정되는 것이 아니고 첨부의 청구항들의 범위 내에서 변형될 수 있다는 것은 명백하다.

Claims (50)

  1. 오디오신호의 프레임들을 입력하기 위한 입력단(201), 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 LTP분석 블록(209), 및 적어도, 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 제1여기블록(206), 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록(207)을 포함하는 부호기(200)에 있어서, 부호기(200)는 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록(202), 및 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하기 위해 상기 제1여기블록(206) 및 상기 제2여기블록(207) 중에서 하나의 여기블록을 선택하기 위한 여기선택블록(203)을 더 포함하는 것을 특징으로 하는 부호기(200).
  2. 제1항에 있어서, 상기 매개변수 분석 블록(202)은 적어도 LTP매개변수들을 기초로 하여 정규화된 상관을 계산하고 분석하기 위한 수단을 더 포함하는 것을 특징으로 하는 부호기(200).
  3. 제1항 또는 제2항에 있어서, 상기 LTP매개변수들은 적어도 지체(lag) 및 이득을 포함하는 것을 특징으로 하는 부호기(200).
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 매개변수 분석 블록(202)은 오디오신호의 다음의 속성들
    - 신호과도물들,
    - 노이즈유사 신호들,
    - 정상(stationary)신호들,
    - 주기성(periodic) 신호들,
    - 정상 및 주기성 신호들
    중의 적어도 하나를 검사하도록 구성된 것을 특징으로 하는 부호기(200).
  5. 제4항에 있어서, 잡음은 불안정한 LTP매개변수들 및/또는 기설정된 문턱을 넘는 평균 주파수를 기초로 하여 결정되도록 구성되는 것을 특징으로 하는 부호기(200).
  6. 제4항에 있어서, 정상 및 주기성 신호들은 실질적으로 높은 LTP이득과 실질적으로 안정한 LTP지체 및 정규화된 상관을 기초로 하여 결정되도록 구성되는 것을 특징으로 하는 부호기(200).
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 부호기(200)는 적응 다중레이트 광대역 코덱인 것을 특징으로 하는 부호기(200).
  8. 제7항에 있어서, 상기 LTP분석 블록(209)은 적응 다중레이트 광대역 코덱의 LTP분석 블록인 것을 특징으로 하는 부호기(200).
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 제1여기는 ACELP(Algebraic Code Excited Linear Prediction excitation)이고 상기 제2여기는 TCX(transform coded excitation)인 것을 특징으로 하는 부호기(200).
  10. 오디오신호의 프레임들을 입력하기 위한 입력단(201), 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 LTP분석 블록(209), 적어도, 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 제1여기블록(206), 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록(207)을 포함하는 기기(600)에 있어서, 기기(600)는 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록(202), 및 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하기 위해 상기 제1여기블록(206) 및 상기 제2여기블록(207) 중에서 하나의 여기블록을 선택하기 위한 여기선택블록(203)을 더 포함하는 것을 특징으로 하는 기기(600).
  11. 제10항에 있어서, 상기 매개변수 분석 블록(202)은 적어도 LTP매개변수들을 기초로 하여 정규화된 상관을 계산하고 분석하기 위한 수단을 더 포함하는 것을 특징으로 하는 기기(700).
  12. 제10항 또는 제11항에 있어서, 상기 LTP매개변수들은 적어도 지체(lag) 및 이득을 포함하는 것을 특징으로 하는 기기(700).
  13. 제10항 내지 제12항 중 어느 한 항에 있어서, 상기 매개변수 분석 블록(202)은 오디오신호의 다음의 속성들
    - 신호과도물들,
    - 노이즈유사 신호들,
    - 정상(stationary)신호들,
    - 주기성(periodic) 신호들,
    - 정상 및 주기성 신호들
    중의 적어도 하나를 검사하도록 구성된 것을 특징으로 하는 기기(700).
  14. 제13항에 있어서, 잡음은 불안정한 LTP매개변수들 및/또는 기설정된 문턱을 넘는 평균 주파수를 기초로 하여 결정되도록 구성되는 것을 특징으로 하는 기기(700).
  15. 제13항에 있어서, 정상 및 주기성 신호들은 실질적으로 높은 LTP이득과 실질적으로 안정한 LTP지체 및 정규화된 상관을 기초로 하여 결정되도록 구성되는 것을 특징으로 하는 기기(700).
  16. 제10항 내지 제15항 중 어느 한 항에 있어서, 상기 부호기(200)는 적응 다중레이트 광대역 코덱인 것을 특징으로 하는 기기(700).
  17. 제16항에 있어서, 상기 LTP분석 블록(209)은 적응 다중레이트 광대역 코덱의 LTP분석 블록인 것을 특징으로 하는 기기(700).
  18. 제10항 내지 제17항 중 어느 한 항에 있어서, 상기 제1여기는 ACELP(Algebraci Code Excited Linear Prediction excitation)이고 상기 제2여기는 TCX(transform coded excitation)인 것을 특징으로 하는 기기(700).
  19. 오디오신호의 프레임들을 입력하기 위한 입력단(201), 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 LTP분석 블록(209), 적어도, 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 제1여기블록(206), 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록(207)을 구비하는 부호기(200)를 포함하는 시스템에 있어서, 시스템은 상기 부호기(200) 내에 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록(202), 및 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하기 위해 상기 제1여기블록(206) 및 상기 제2여기블록(207) 중에서 하나의 여기블록을 선택하기 위한 여기선택블록(203)을 더 포함하는 것을 특징으로 하는 시스템.
  20. 제19항에 있어서, 상기 매개변수 분석 블록(202)은 적어도 LTP매개변수들을 기초로 하여 정규화된 상관을 계산하고 분석하기 위한 수단을 더 포함하는 것을 특징으로 하는 시스템.
  21. 제19항 또는 제20항에 있어서, 상기 LTP매개변수들은 적어도 지체(lag) 및 이득을 포함하는 것을 특징으로 하는 시스템.
  22. 제19항 내지 제21항 중 어느 한 항에 있어서, 상기 매개변수 분석 블록(202)은 오디오신호의 다음의 속성들
    - 신호과도물들,
    - 노이즈유사 신호들,
    - 정상(stationary)신호들,
    - 주기성(periodic) 신호들,
    - 정상 및 주기성 신호들
    중의 적어도 하나를 검사하도록 구성된 것을 특징으로 하는 시스템.
  23. 제22항에 있어서, 잡음은 불안정한 LTP매개변수들 및/또는 기설정된 문턱을 넘는 평균 주파수를 기초로 하여 결정되도록 구성되는 것을 특징으로 하는 시스템.
  24. 제22항에 있어서, 정상 및 주기성 신호들은 실질적으로 높은 LTP이득과 실질적으로 안정한 LTP지체 및 정규화된 상관을 기초로 하여 결정되도록 구성되는 것을 특징으로 하는 시스템.
  25. 제19항 내지 제24항 중 어느 한 항에 있어서, 상기 부호기(200)는 적응 다중 레이트 광대역 코덱인 것을 특징으로 하는 시스템.
  26. 제25항에 있어서, 상기 LTP분석 블록(209)은 적응 다중레이트 광대역 코덱의 LTP분석 블록인 것을 특징으로 하는 시스템.
  27. 제19항 내지 제26항 중 어느 한 항에 있어서, 상기 제1여기는 ACELP(Algebraic Code Excited Linear Prediction excitation)이고 상기 제2여기는 TCX(transform coded excitation)인 것을 특징으로 하는 시스템.
  28. LTP분석을 오디오신호의 프레임들에 대해 수행하여 이 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하고 적어도 제1여기 및 제2여기가 오디오신호의 프레임들에 대해 수행되도록 선택가능한 오디오신호를 부호화하는 방법에 있어서, 이 방법은 상기 LTP매개변수들을 분석하는 단계, 및 상기 제1여기 및 상기 제2여기 중에서 하나의 여기 방법을 선택하여 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  29. 제28항에 있어서, 정규화된 상관이 적어도 LTP매개변수들을 기초로 하여 계산되고 계산된 정규화된 상관이 분석되는 것을 특징으로 하는 시스템.
  30. 제28항 또는 제29항에 있어서, 상기 LTP매개변수들은 적어도 지체 및 이득을 포함하는 것을 특징으로 하는 시스템.
  31. 제28항 내지 제30항 중 어느 한 항에 있어서, 오디오신호에 대해 다음의 속성들
    - 신호과도물들,
    - 노이즈유사 신호들,
    - 정상(stationary)신호들,
    - 주기성(periodic) 신호들,
    - 정상 및 주기성 신호들
    중의 적어도 하나가 검사되는 것을 특징으로 하는 시스템.
  32. 제31항에 있어서, 잡음은 불안정한 LTP매개변수들 및/또는 기설정된 문턱을 넘는 평균 주파수를 기초로 하여 결정되도록 구성되는 것을 특징으로 하는 방법.
  33. 제31항에 있어서, 정상 및 주기성 신호들은 실질적으로 높은 LTP이득과 실질적으로 안정한 LTP지체 및 정규화된 상관을 기초로 하여 결정되도록 구성되는 것을 특징으로 하는 방법.
  34. 제28항 내지 제33항 중 어느 한 항에 있어서, 상기 제1여기는 ACELP(Algebraic Code Excited Linear Prediction excitation)이고 상기 제2여기는 TCX(transform coded excitation)인 것을 특징으로 하는 방법.
  35. 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 LTP분석 블록(209)을 포함하는 모듈에 있어서, 모듈은 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록(202), 및 제1여기블록(206) 및 제2여기블록(207) 중에서 하나의 여기블록을 선택하고 선택된 여기 방법을 부호기(200)에 나타내는 여기선택블록(203)을 더 포함하는 것을 특징으로 하는 모듈.
  36. 제35항에 있어서, 상기 매개변수 분석 블록(202)은 적어도 LTP매개변수들을 기초로 하여 정규화된 상관을 계산하고 분석하기 위한 수단을 더 포함하는 것을 특징으로 하는 모듈.
  37. 제35항 또는 제36항에 있어서, 상기 LTP매개변수들은 적어도 지체(lag) 및 이득을 포함하는 것을 특징으로 하는 모듈.
  38. 제35항 내지 제37항 중 어느 한 항에 있어서, 상기 매개변수 분석 블록(202)은 오디오신호의 다음의 속성들
    - 신호과도물들,
    - 노이즈유사 신호들,
    - 정상(stationary)신호들,
    - 주기성(periodic) 신호들,
    - 정상 및 주기성 신호들
    중의 적어도 하나를 검사하도록 구성된 것을 특징으로 하는 모듈.
  39. 제38항에 있어서, 잡음은 불안정한 LTP매개변수들 및/또는 기설정된 문턱을 넘는 평균 주파수를 기초로 하여 결정되도록 구성되는 것을 특징으로 하는 모듈.
  40. 제38항에 있어서, 정상 및 주기성 신호들은 실질적으로 높은 LTP이득과 실질적으로 안정한 LTP지체 및 정규화된 상관을 기초로 하여 결정되도록 구성되는 것을 특징으로 하는 모듈.
  41. 제35항 내지 제40항 중 어느 한 항에 있어서, 상기 부호기(200)는 적응 다중레이트 광대역 코덱인 것을 특징으로 하는 모듈.
  42. 제41항에 있어서, 상기 LTP분석 블록(209)은 적응 다중레이트 광대역 코덱의 LTP분석 블록인 것을 특징으로 하는 모듈.
  43. 제35항 내지 제42항에 있어서, 상기 제1여기는 ACELP(Algebraic Code Excited Linear Prediction excitation)이고 상기 제2여기는 TCX(transform coded excitation)인 것을 특징으로 하는 모듈.
  44. LTP분석을 오디오신호의 프레임들에 대해 수행하여 이 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하고, 적어도 제1여기 및 제2여기가 오디오신호의 프레임들에 대해 수행되도록 선택가능한, 오디오신호를 부호화하기 위한 기계실행가능 단계들을 포함하는 컴퓨터프로그램 생성물에 있어서, 컴퓨터프로그램 생성물의 기계실행 단계들은 상기 LTP매개변수들을 분석하는 단계, 및 상기 제1여기 및 상기 제2여기 중에서 하나의 여기 방법을 선택하여 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터프로그램 생성물.
  45. 제44항에 있어서, 컴퓨터프로그램 생성물은 적어도 LTP매개변수들을 기초로 하여 정규화된 상관을 계산하기 위한 기계실행가능 단계들을 포함하고 계산된 정규화된 상관은 분석되는 것을 특징으로 하는 컴퓨터프로그램 생성물.
  46. 제44항 또는 제45항에 있어서, 상기 LTP매개변수들은 적어도 지체(lag) 및 이득을 포함하는 것을 특징으로 하는 컴퓨터프로그램 생성물.
  47. 제44항 내지 제46항 중 어느 한 항에 있어서, 컴퓨터프로그램 생성물은 오디오신호의 다음 속성들
    - 신호과도물들,
    - 노이즈유사 신호들,
    - 정상(stationary)신호들,
    - 주기성(periodic) 신호들,
    - 정상 및 주기성 신호들
    중의 적어도 하나를 검사하기 위한 기계실행가능 단계들을 포함하는 것을 특징으로 하는 컴퓨터프로그램 생성물.
  48. 제47항에 있어서, 컴퓨터프로그램 생성물의 기계실행가능 단계들은 LTP매개변수들의 안정도를 검사하는 단계 및/또는 평균 주파수를 기설정된 문턱과 비교하여 오디오신호에 대한 잡음을 결정하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 프로그램 생성물.
  49. 제47항에 있어서, 컴퓨터프로그램 생성물의 기계실행가능 단계들은 LTP지체 및 정규화된 상관의 안정도를 검사하는 단계 및 LTP이득을 문턱값과 비교하여 오디오신호들의 정상성(stationarity) 및 주기성(periodicity)을 결정하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 프로그램 생성물.
  50. 제44항 내지 제49항 중 어느 한 항에 있어서, 컴퓨터 프로그램 생성물은 ACELP(Algebraic Code Excited Linear Prediction excitation)를 상기 제1여기로서 수행하기 위한 기계실행가능 단계들, 및 TCX(transform coded excitation)를 상기 제2여기로서 수행하기 위한 기계실행가능 단계들을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 생성물.
KR1020067019497A 2004-02-23 2005-02-22 부호화 모델 선택 KR100879976B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20045052A FI118835B (fi) 2004-02-23 2004-02-23 Koodausmallin valinta
FI20045052 2004-02-23

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020087020819A Division KR20080083718A (ko) 2004-02-23 2005-02-22 부호화 모델 선택

Publications (2)

Publication Number Publication Date
KR20070015155A true KR20070015155A (ko) 2007-02-01
KR100879976B1 KR100879976B1 (ko) 2009-01-23

Family

ID=31725818

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020087020819A KR20080083718A (ko) 2004-02-23 2005-02-22 부호화 모델 선택
KR1020067019497A KR100879976B1 (ko) 2004-02-23 2005-02-22 부호화 모델 선택

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020087020819A KR20080083718A (ko) 2004-02-23 2005-02-22 부호화 모델 선택

Country Status (15)

Country Link
US (1) US7747430B2 (ko)
EP (1) EP1719120B1 (ko)
JP (1) JP2007523388A (ko)
KR (2) KR20080083718A (ko)
CN (1) CN1922659B (ko)
AU (1) AU2005215745A1 (ko)
BR (1) BRPI0508309A (ko)
CA (1) CA2555768A1 (ko)
FI (1) FI118835B (ko)
HK (1) HK1099960A1 (ko)
RU (1) RU2006129871A (ko)
SG (1) SG150572A1 (ko)
TW (1) TW200534599A (ko)
WO (1) WO2005081231A1 (ko)
ZA (1) ZA200606714B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101221919B1 (ko) * 2008-03-03 2013-01-15 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
WO2006063618A1 (en) * 2004-12-15 2006-06-22 Telefonaktiebolaget Lm Ericsson (Publ) Method and device for encoding mode changing of encoded data streams
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US20110057818A1 (en) * 2006-01-18 2011-03-10 Lg Electronics, Inc. Apparatus and Method for Encoding and Decoding Signal
US7877253B2 (en) 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
US7813922B2 (en) * 2007-01-30 2010-10-12 Nokia Corporation Audio quantization
EP2535894B1 (en) 2007-03-02 2015-01-07 Telefonaktiebolaget L M Ericsson (PUBL) Methods and arrangements in a telecommunications network
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
DE102008022125A1 (de) * 2008-05-05 2009-11-19 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
PL2301020T3 (pl) * 2008-07-11 2013-06-28 Fraunhofer Ges Forschung Urządzenie i sposób do kodowania/dekodowania sygnału audio z użyciem algorytmu przełączania aliasingu
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010040522A2 (en) * 2008-10-08 2010-04-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Multi-resolution switched audio encoding/decoding scheme
CN101615395B (zh) * 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统
CN101609677B (zh) * 2009-03-13 2012-01-04 华为技术有限公司 一种预处理方法、装置及编码设备
CN101615910B (zh) * 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
US9269366B2 (en) * 2009-08-03 2016-02-23 Broadcom Corporation Hybrid instantaneous/differential pitch period coding
PL2473995T3 (pl) * 2009-10-20 2015-06-30 Fraunhofer Ges Forschung Koder sygnału audio, dekoder sygnału audio, sposób dostarczania zakodowanej reprezentacji treści audio, sposób dostarczania dekodowanej reprezentacji treści audio oraz program komputerowy do wykorzystania w zastosowaniach z małym opóźnieniem
WO2012000882A1 (en) 2010-07-02 2012-01-05 Dolby International Ab Selective bass post filter
PL4120248T3 (pl) * 2010-07-08 2024-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder wykorzystujący kasowanie aliasingu w przód
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
BR112013020482B1 (pt) 2011-02-14 2021-02-23 Fraunhofer Ges Forschung aparelho e método para processar um sinal de áudio decodificado em um domínio espectral
MX2013009305A (es) * 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio.
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
SG192734A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
JP5800915B2 (ja) 2011-02-14 2015-10-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号のトラックのパルス位置の符号化および復号化
EP2676264B1 (en) 2011-02-14 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder estimating background noise during active phases
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
ES2623291T3 (es) 2011-02-14 2017-07-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación de una porción de una señal de audio utilizando una detección de transitorios y un resultado de calidad
MY160265A (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Apparatus and Method for Encoding and Decoding an Audio Signal Using an Aligned Look-Ahead Portion
PL2951820T3 (pl) 2013-01-29 2017-06-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób wyboru jednego spośród pierwszego algorytmu kodowania i drugiego algorytmu kodowania
CN105336338B (zh) 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置
ES2614358T3 (es) 2014-07-28 2017-05-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selección de uno de un primer algoritmo de codificación y un segundo algoritmo de codificación usando reducción de armónicos

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5250940A (en) * 1991-01-18 1993-10-05 National Semiconductor Corporation Multi-mode home terminal system that utilizes a single embedded general purpose/DSP processor and a single random access memory
SE469764B (sv) * 1992-01-27 1993-09-06 Ericsson Telefon Ab L M Saett att koda en samplad talsignalvektor
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
FR2729245B1 (fr) * 1995-01-06 1997-04-11 Lamblin Claude Procede de codage de parole a prediction lineaire et excitation par codes algebriques
FI964975A (fi) * 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
ES2247741T3 (es) 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
US6539355B1 (en) * 1998-10-15 2003-03-25 Sony Corporation Signal band expanding method and apparatus and signal synthesis method and apparatus
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101221919B1 (ko) * 2008-03-03 2013-01-15 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
AU2005215745A1 (en) 2005-09-01
EP1719120A1 (en) 2006-11-08
FI118835B (fi) 2008-03-31
SG150572A1 (en) 2009-03-30
ZA200606714B (en) 2007-11-28
HK1099960A1 (en) 2007-08-31
CN1922659A (zh) 2007-02-28
CA2555768A1 (en) 2005-09-01
KR20080083718A (ko) 2008-09-18
RU2006129871A (ru) 2008-03-27
JP2007523388A (ja) 2007-08-16
FI20045052A (fi) 2005-08-24
BRPI0508309A (pt) 2007-07-24
FI20045052A0 (fi) 2004-02-23
EP1719120B1 (en) 2019-06-19
CN1922659B (zh) 2010-05-26
TW200534599A (en) 2005-10-16
US20050192797A1 (en) 2005-09-01
KR100879976B1 (ko) 2009-01-23
WO2005081231A1 (en) 2005-09-01
US7747430B2 (en) 2010-06-29

Similar Documents

Publication Publication Date Title
KR100879976B1 (ko) 부호화 모델 선택
KR100962681B1 (ko) 오디오신호들의 분류
US8244525B2 (en) Signal encoding a frame in a communication system
KR100798668B1 (ko) 무성 음성의 코딩 방법 및 장치
JP4907826B2 (ja) 閉ループのマルチモードの混合領域の線形予測音声コーダ
JP4567289B2 (ja) 準周期信号の位相を追跡するための方法および装置
MXPA06009370A (en) Coding model selection
KR100757366B1 (ko) Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법
KR20070063729A (ko) 음성 부호화장치, 음성 부호화 방법, 이를 이용한 이동통신단말기

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
A107 Divisional application of patent
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee