KR20050086762A - 정현파 오디오 코딩 - Google Patents

정현파 오디오 코딩 Download PDF

Info

Publication number
KR20050086762A
KR20050086762A KR1020057009341A KR20057009341A KR20050086762A KR 20050086762 A KR20050086762 A KR 20050086762A KR 1020057009341 A KR1020057009341 A KR 1020057009341A KR 20057009341 A KR20057009341 A KR 20057009341A KR 20050086762 A KR20050086762 A KR 20050086762A
Authority
KR
South Korea
Prior art keywords
component
sinusoidal
signal
frequency
audio
Prior art date
Application number
KR1020057009341A
Other languages
English (en)
Inventor
니꼴르 에이치. 반 신들
미레이아 고메즈 후앙떼
스티븐 엘. 제이. 디. 이. 반 드 파
안드리아 제이. 게리츠
발레리 고트
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20050086762A publication Critical patent/KR20050086762A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders

Abstract

복수의 순차적 세그먼트 각각에 대해 각각의 샘플링된 신호 값 세트에 의해 나타나는 오디오 신호(x)의 코딩이 개시된다. 샘플링된 신호 값은 복수의 순차적 세그먼트 각각에 대한 정현파 성분(CS)을 결정하는데 사용된다. 정현파 성분(CS)은 오디오 신호의 제1 잔류 성분(x3)을 나타내는 값(s1, s2) 세트를 제공하기 위해 샘플링된 신호 값으로부터 차감된다. 제1 잔류 성분(x3)은 선택된 음색 성분을 제거하고 오디오 신호의 제2 잔류 성분(x3')을 나타내는 값(s1', s2') 세트를 제공하기 위해 조절된다(18). 제2 잔류 성분은 제2 잔류 성분(x3')에 근접하는 노이즈 파라미터(CN)를 결정함으로써 모델링되며(14); 인코딩된 오디오 스트림(AS)은 노이즈 파라미터(CN), 및 정현파 성분(CS)을 나타내는 코드를 포함하여 생성된다.

Description

정현파 오디오 코딩{SINUSOIDAL AUDIO CODING}
본 발명은 오디오 신호를 코딩하는 것과 관계가 있다.
도 1을 참조하면, 파라미터에 의한(parametric) 코딩 구조 특히 정현파 코더가 PCT 출원 번호 WO01/69593에 설명된다. 이 코더에서, 입력 오디오 신호(x(t))가 일반적으로 길이가 20ms인 몇 개의 (오버랩되는) 세그먼트로 분리된다. 각 세그먼트는 과도, 정현파 그리고 노이즈 성분으로 분해된다. 이 분해는 연속적으로 행해지는데, 즉, 우선 이득 제어가 인가되는지 여부에 의거해 제1 잔류 신호(x1/x2)로 되게 하도록 과도 코더(transient coder)(11)내의 입력 신호(x(t))로부터 과도값(transient)이 추출된다; 상기 제1 잔류 신호는 정현파 코더(13)를 사용하여 코딩된다; 그 후 제2 잔류 신호(x3)로 되게 하도록 상기 제1 잔류 신호로부터 상기 코딩된 정현파가 추출된다; 이 제2 잔류 신호는 또한 노이즈 코더(14)를 사용하여 코딩된다.
정현파 분석기(130) 내에서, 각 세그먼트에 대한 제1 잔류 신호(x2)는 진폭, 주파수 및 위상 파라미터에 의해 나타나는 다수의 정현파를 사용하여 모델링된다. 일단 세그먼트에 대한 정현파가 산정되면, 추적 알고리즘이 개시된다. 소위 트랙을 획득하기 위해 이 알고리즘은 정현파를 세그먼트 단위로 서로 연결한다. 추적 알고리즘은 따라서 정현파 트랙을 포함하는 정현파 코드(CS)를 야기하는데, 이 트랙은 특정 시간 단계(time instance)에서 시작하여, 복수의 시간 세그먼트에 걸쳐 일정양의 시간 동안 전개한 후 중지한다.
다수의 코딩 방법이 상기 제2 잔류 신호(x3)를 모델링하기 위해 노이즈 코더내에서 사용될 수 있다. 투명한 오디오 품질을 위해, 상기 노이즈 코더는 필터 뱅크 형태의 웨이브형 코더일 수 있다. 대안적으로, 양호한 품질 및 낮은 비트 전송 속도를 위해, 노이즈 코더는 예컨대, ARMA(Autoregressive Moving Average) 또는 LPC(Linear Predictive Coding) 필터 파라미터를 산출하기 위해 합성(synthetic) 노이즈 모델을 사용할 수 있다.
또한 고조파 복소(harmonic complexes)와 같은 입력 오디오 신호의 다른 성분을 유도하는 것이 가능하다. 본 설명은 오직 정현파 및 노이즈 성분과 관계가 있으나, 고조파 복소로의 확장이 임의의 방식으로 본 발명에 영향을 미치지 않는다.
오디오 신호의 세그먼트로부터 정현파의 추출이 문제가 될 수 있다. 세그먼트내에서, 정현파 진폭 및 주파수가 변할 수 있으며 이는 불안정상태로서 언급된다. 게다가, 부정확이 정현파의 산정에서 발생할 수 있다. 결과적으로, 코딩된 정현파를 사용하여 달성된 스펙트럼 억압(suppression)이 항상 만족스럽거나 이상적인 것은 아니다. 이는 특히 제2 잔류 신호내의 코딩된 정현파의 위치에서 또는 그 근처에서 정현파 같은(sinusodial-like) 성분의 출현을 야기한다.
또한, 낮은 비트 전송 속도에서, 단지 소수의 정현파를 코딩하는데 충분한 비트가 있는 경우에, 정현파 성분은 제2 잔류에 나타날 것이다.
일반적으로 노이즈 코더는 잔류 신호(x3)의 시간 및 스펙트럼 포락선(temporal and spectral envelope)을 다소 조악하게 모델링하는데, 즉, 노이즈 코더가 정현파 성분을 모델링하는 경우 이 코더는 제한된 스펙트럼 분해능을 가져 아티팩트(artefact)가 나타날 수 있다. 심지어 잔류 신호에 남아있는 음색 성분이 차단되는 경우, 노이즈 모델의 제한된 스펙트럼 해상도로 인해 가청 아티팩트가 발생할 수 있다. 이는 청각 시스템이 양호한 스펙트럼 분해능을 가져 노이즈 코더의 스펙트럼 분해능이 일반적으로 악화되어 있는 낮은 주파수에서 특히 발생하기 쉽다. 또한, 안정적인 음색 신호와 대조적으로, 노이즈가 있는 성분의 에너지는 시간을 따라 언제나 변동할 것이다. 이들 변동은 이전에 마스킹된 음색 성분을 들을 수 있게 만들 수 있다. 에너지 변동은 스펙트럼 해상도가 양호해야 하는 영역에서 즉, 낮은 주파수에서 가장 클 것이다. 따라서, 잔류 신호(x3)내의 정현파 같은 성분을 모델링하려고 노력하는 것과 별도로, 노이즈가 특히 낮은 주파수에서 들을 수 있는 아티팩트를 야기할 수 있기 때문에 노이즈 코더는 이들 성분을 모델링하는 노이즈 코드(CN)를 위한 추가적인 비트를 필요로 한다.
본 발명은 이 문제점을 완화시키고자 한다.
도 1은 오디오 인코더를 포함하는 종래 기술에 의한 오디오 리코더를 나타내는 도면.
도 2는 본 발명에 따른 오디오 코더의 실시예를 나타내는 도면.
도 3은 본 발명의 코더와 함께 작동 가능한 오디오 디코더를 포함하는 오디오 플레이어의 실시예를 나타내는 도면.
도 4는 본 발명의 실시예 중 재분석기에 의해 수행되는 처리를 나타내는 도면.
도 5는 본 발명에 따른 오디오 코더 및 오디오 플레이어를 포함하는 시스템을 나타내는 도면.
본 발명에 의하면 청구항 1에 따른 방법이 제공된다.
본 발명은 노이즈 코더 이전에 재분석 단계를 포함한다. 일 실시예에 있어서, 음색 성분이 예컨대, 음색 성분을 추출하는 것을 언제 중지할지 결정하는 에너지 기반의 중지 기준과 연계하여 추적(pursuit)을 매칭함으로써 잔류 신호로부터 제거된다.
다른 실시예에 있어서, 잔류 신호가 코딩된 정현파 및 그 주변 신호의 주파수에서 추가적으로 억압된다. 주변 주파수 수는 고정되거나 주파수에 의거할 수 있다. 심리-음향 주파수 부문(psycho-acoustical frequency division)(예컨대, Bark/Erb 밴드)이 또한 사용될 수 있다. 억압의 양은 예컨대 정현파 수, 또는 정현파 에너지에 의거할 수 있다. 결과적으로, 노이즈 코더는 이들 정현파 영역을 더 이상 모델링할 필요가 없다.
본 발명의 바람직한 실시예가 이제 첨부된 도면을 참조해서 설명될 것인데, 이 도면 내에서 유사한 성분은 유사한 참조 번호로 일치되었으며, 다른 설명이 없으면 동일한 기능을 수행한다. 본 발명의 바람직한 실시예인 도 2에서, 인코더(1')는 PCT 출원 번호 WO01/69593에 설명된 타입의 정현파 코더이다. 이 종래 기술에 의한 코더 및 그의 대응하는 디코더의 작동이 잘 설명되어 있어 여기서는 본 발명에 관련있는 경우에만 설명이 제공된다.
종래 기술 및 바람직한 실시예 모두에 있어서, 오디오 코더(1')는 일정한 샘플링 주파수에서 입력 오디오 신호를 샘플링하여 오디오 신호의 디지털 표현(x(t))을 야기한다. 코더(1')는 그 후 샘플링된 입력 신호를 3개의 성분으로 분리한다: 과도 신호 성분, 지속 결정(sustained deterministic) 성분, 및 지속 확률 성분(sustained stochastic). 오디오 코더(1')는 과도 코더(11), 정현파 코더(13) 및 노이즈 코더(14)를 포함한다.
과도 코더(11)는 과도 검출기(TD)(110), 과도 분석기(TA)(111) 및 과도 합성기(TS)(112)를 포함한다. 우선, 신호(x(t))가 과도 검출기(110)에 입력된다. 과도 신호 성분 및 그 위치가 존재하는 경우 이 검출기(110)는 산정한다. 이 정보는 과도 분석기(111)에 제공된다. 과도 신호 성분의 위치가 결정되는 경우, 과도 분석기(111)는 과도 신호 성분(의 주요 부분)을 추출하려고 한다. 이 분석기는 모양 함수(shape function)를 바람직하게는 산정된 시작 위치에서 시작하는 신호 세그먼트에 매칭하여, 예컨대 (작은)다수의 정현파 성분을 사용함으로써 모양 함수 밑의 컨텐트를 결정한다. 이 정보는 과도 코드(CT)내에 포함되며 과도 코드(CT)를 생성하는 것에 대한 더욱 상세한 정보는 PCT 출원 번호 WO01/69593에 제공된다.
과도 코드(CT)는 과도 합성기(112)에 제공된다. 합성된 과도 신호 성분은 감산기(subtractor)(16)내의 입력 신호(x(t))로부터 감산되어 신호(x2)를 야기한다.
신호(x2)는 정현파 코더(13)에 제공되어 이 코더내의 정현파 분석기(SA)(130)에서 분석되는데, 이 분석기가 (결정적인) 정현파 성분을 결정한다. 그리하여 과도 분석기의 존재가 바람직한 반면에, 필요하지 않으며 본 발명이 그러한 분석기 없이 이행될 수 있다는 것이 이해될 것이다. 대안적으로, 위에서 언급된 바와 같이, 본 발명은 예컨대 고조파 복소 분석기와 함께 이행될 수 있다. 임의의 경우에, 정현파 코딩의 최종 결과는 정현파 코드(CS)이며 예시적인 정현파 코드(CS)의 일반적인 생성을 설명하는 더욱 상세한 예는 PCT 출원 번호 WO 00/79519에 제공된다.
간단히, 그러나, 그러한 정현파 코더는 입력 신호(x2)를 하나의 프레임 세그먼트로부터 다음 프레임 세그먼트까지 연결된 정현파 성분의 트랙으로서 인코딩한다. 정현파 코더로 생성된 정현파 코드(CS)로부터, 정현파 신호 성분은 정현파 합성기(SS)(131)에 의해 재구성된다. 이 신호는 입력(x2)에서 정현파 코더(13)로 감산기(17)에서 감산되어 남아있는 신호(x3)를 야기한다.
본 발명에 따르면, 노이즈 코더(14)에 의해 인코딩하기 전에 잔류 신호(x3)를 조절하는 재분석기(18)가 제공된다. 본 발명의 각각의 실시예에 있어, 재분석기(18)는 음색 성분의 위치 또는 그 근처에 있는 스펙트럼 영역을 잔류 신호(x3)로부터 선택적으로 제거하거나 억압하여 노이즈 코더(14)에 조절된 잔류 신호(x3')를 제공한다.
이제 도 4를 참조하면, 위에서 언급된 바와 같이, 실시예에서, 재분석기(18)에 제공된 잔류 신호(x3)는 연속적인 타임 프레임(t(n-1), t(n), t(n+1))내에서 오버랩되는 세그먼트 s1,s2...를 포함한다. 일반적으로 정현파는 10ms의 속도로 갱신되며 각 세그먼트 s1,s2..는 갱신 속도의 길이의 두 배 즉, 20ms이다. 각각의 실시예에서, 재분석기(18)는 오버랩되는 세그먼트 s1,s2...로부터의 신호를 시간 윈도우(time window)를 나타내는 단일 신호와 결합하기 위해 Hanning 윈도우 함수를 사용함으로써 재분석될 오버랩되는 시간 윈도우(t(n-1), t(n), t(n+1))를 제공한다(단계(42)). FFT(Fast Fourier Transform)가 윈도우잉된(windowed) 신호에 인가되어 시간 윈도우 신호의 복소 주파수 스펙트럼 표현을 야기한다(단계(44)). 44.1kHz의 샘플링 속도 및 20ms의 프레임 길이에 대해, FFT의 길이는 일반적으로 2048이다.
제1 실시예에서, 재분석기(18)내에서, FFT에 의해 생성되는 스펙트럼을 조절하는 것(단계(46))은, 일반적인 타입의 매칭 추적 알고리즘을 스펙트럼으로부터 피크를 제거하는 데에 반복적으로 인가하는 것을 포함한다. 제1 실시예에서, 알고리즘은 최대의 에너지 감소를 야기하는 그들 피크를 반복적으로 제거한다. 에너지 감소가 대체로 노이즈가 있는 피크의 추출에 대해서보다 음색 피크의 추출에 대해서 더 크기 때문에, 일반적으로 이는 매칭 추적 알고리즘이 우선 음색 성분에 대응하는 피크를 추출한 후 노이즈가 있는 피크를 추출하는 경향이 있다는 것을 의미할 것이다. 따라서, 추출이 모든 음색 성분의 추출 직후 및 노이즈 있는 성분의 추출 직전에 중지해야 한다. 한편, 음색 성분이 노이즈 코더(14)에 의해 모델링될 것이기 때문에, 모든 음색 성분이 제거되지 않고, 디코더 내에 합성되어 있는 경우, 신호는 지나치게 노이즈가 있게 될 수 있다. 다른 한편, 노이즈 코더(14)에 제공된 잔류 신호(x3')의 스펙트럼이 부적절한 영역에 갭을 생기게 하기 때문에, 지나치게 많아 일부의 노이즈 있는 성분이 제거되는 경우, 합성된 신호가 금속성 소리를 낼 수 있다.
제1 실시예의 일 이행에 있어서, 중지 기준이 성분을 추출하는 것을 중지할 시간을 나타낸다. 이 기준은 피크의 추출 전후의 잔류 에너지를 기초로 한다. 따라서, 피크의 제거 후의 에너지 감소가 기준 퍼센티지보다 작은 경우, 이는 모든 음색 피크가 추출되었으며 조절된 잔류(x3')는 음색 성분이 없을 것이라는 것을 나타낸다.
에너지 감소는 분석 창의 길이에 의거하기 때문에, 에너지 기준은 창 길이에 반비례한다. 예컨대, 48kHz에서의 1024 샘플 포인트의 창 길이에 대해(= 21ms), 기준을 위해 유용한 값이 5%의 에너지 감소에서인 반면, 48kHz에서의 512 샘플 포인트의 윈도우 길이에 대해서(10.5ms)는 10%이다.
제1 실시예의 다른 이행에 있어서, 고정된 피크 수가 추출되는데, 즉, 매칭 추적(matching pursuit)은 고정된 반복 횟수를 실행한다.
제1 실시예의 반복적인 매칭 추적 접근법에 대한 대안으로서, 제2 실시예에서, 조절하는 단계(46)는 단일 단계로 단계(44)에서 생성된 스펙트럼으로부터 다수의 (고정된 또는 다양한(예컨대 스펙트럼내의 모든 피크))최고의 에너지 피크를 선택하여 제거한다. 이 기술은 (단일 반복으로 수행되어) 매칭 추적보다 더욱 빠르다는 장점이 있으나, 매칭 추적에 의해 검출될 수 있는 더욱 강력한 피크에 의해 차단되는 피크를 얻는 이익을 잃을 수 있다.
고정된 피크 수가 반복적으로 또는 단일 단계로 제거되는 위의 경우에, 5 피크 또는 그보다 작은 추출이 더욱 양호한, 보다 작은 노이즈가 있는 신호를 야기하는 반면에 5 피크 이상의 추출은 보다 작은 노이즈가 있으나 금속성 소리를 내는 신호를 야기했다는 것이 발견되었다.
위의 모든 이행에 있어서, 매칭 추적이 시간 영역 신호를 획득한 경우에 재분석기(18)는 잔류 스펙트럼의 역FFT를 취한다(단계(48)). 연속적인 조절된 시간 영역 신호에 대해 오버랩-추가(overlap-add)를 인가함으로써(단계(50)), 조절된 잔류 신호(x3')가 생성되며 이는 노이즈 모듈(14)을 통해 제공된다. 잔류 신호(x3')의 조절된 세그먼트 s1',s2'...가 시간 영역에서 세그먼트 s1,s2...에 대응하며 그로써 재분석 결과로서 어떠한 동기화 손실도 발생하지 않는다는 것이 이해될 것이다.
잔류 신호(x3)가 오버랩되는 신호보다는 연속적인 시간 신호인 경우에, 윈도우잉 단계(42)가 필요하지 않을 것이라는 것이 이해될 것이다. 유사하게, 노이즈 코더(14)가 오버랩되는 신호보다는 연속적인 시간 신호를 예상하는 경우에, 오버랩-추가 단계(50)가 필요하지 않을 것이다. 그럼에도 불구하고, 또한, 제1 실시예가 종래의 정현파 코더(13) 또는 노이즈 코더(14)로 만들어지기 위한 어떠한 변화도 필요하지 않은 상태에서 이행될 수 있다는 것이 이해될 것이다. 또한, 위의 이행 모두에 있어서, 신호(s3)를 신호(x3')로 산출하도록 조절하는 경우에 심리-음향 참작(considerations)이 고려될 필요가 없다.
본 발명의 제3 및 제4 실시예에 있어서, 정현파 코더(13)의 내부 작동에 대해 어떠한 변경도 필요하지 않은 반면에, 재분석기(18)는 도 2 및 4의 점선(52)에 의해 나타난 바와 같이 각각의 세그먼트 s1,s2...에 대해 정현파 코드와 함께 제공된다. 또한, 연속적인 세그먼트에 대한 정현파 코드는 각각의 시간 윈도우(t(n-1),t(n),t(n+1))에 대해 단일의 값 세트를 제공하기 위해 결합될 필요가 있다. 제3 실시예에 있어서, 일정한 시간 창에 대해 산정되는 각각의 정현파에 대해, 조절하는 단계(46)는 단계(44)에서 유도된 스펙트럼 내에서 대응하는 주파수 빈(frequency bin)을 결정한다. 주파수 빈은 그 후 인자(예컨대, 0.001)에 의해 곱해져 즉, 심하게 감쇄된다. 또한 인접 주파수 빈이 (예컨대 0.01의 인자에 의해) 억압되며 이는 조절된 복소 스펙트럼을 야기한다. 종전처럼, 역 FFT가 이 조절된 스펙트럼에 인가되어(단계(48)) 처리가 종전처럼 계속된다.
본 발명의 제4 실시예에 있어서, 재분석기(18)가 도 2 및 4의 점선(54)에 의해 나타난 바와 같이 각각의 세그먼트 s1,s2...에 대해 원래의 신호로 제공된다. 조절 단계(46)에서, 단계(44)에서 유도된 복소 스펙트럼의 주파수 빈이 심리-음향 모델(예컨대, Bark, Erb)에 따라 비-등거리(non-equidistant) 주파수 대역에서 결합된다. 심리-음향 기반의 주파수 대역마다, 그 대역내의 정현파 코드(CS)로부터 유도된 정현파 에너지(52) 및 그 대역내의 원래의 입력 신호의 에너지(54)가 비교된다. 대역내의 정현파의 실제 에너지 및 원래 에너지 대신, 또한 산정치(estimate)가 사용될 수 있다. 원래 에너지의 가능한 산정치는 정현파 성분의 에너지 더하기 잔류 에너지이다. 이 산정치는 정현파 성분 및 잔류 성분이 상관되지 않는 경우에만 잔류의 실제 에너지와 동일하다. 정현파 에너지의 가능한 산정치는 원래 에너지 빼기 잔류 에너지이다. 또한, 이 산정치는 원래 및 잔류가 그 대역내에서 상관되지 않는 경우에만 정현파 성분의 실제 에너지와 동일하다. 차이가 작은 (예컨대, 2dB) 경우, 이 특정 주파수 영역내에서 원래 신호가 정현파에 의해 충분히 잘 설명된다는 가정을 기초로 해서 단계(44)에서 유도된 스펙트럼에 대한 주파수 대역내의 주파수 빈이 영으로 설정된다. 정현파 성분의 에너지가 원래 에너지 보다 높은 경우 대역 또한 영으로 된다. 이는 예컨대 다른 윈도우가 사용되는 경우에 발생할 수 있다. 종전처럼 역 FFT가 이 조절된 스펙트럼에 인가될 수 있으며(단계(48)), 처리가 노이즈 코더(14)에 제공되는 조절된 시간 영역 신호(x3')와 함께 종전처럼 계속될 수 있다.
그러나, 주파수 대역을 영으로 설정함으로써, 노이즈 파라미터가 매우 효율적으로 인코딩되어 상당한 코딩 이득을 야기할 수 있다. 따라서, 단계(46)에서 생성되는 조절된 주파수 스펙트럼이 적응된 노이즈 코더로 직접 공급되는 경우에, 노이즈 코더는 영인 다수의 연속 주파수 대역의 이득을 이용하기 위해 예컨대 런-렝쓰(run-length) 코딩을 인가할 수 있다. 조절하지 않은 상태에서 잔류 스펙트럼 부분이 영이 되는 것이 거의 발생하지 않기 때문에 현존하는 최신의 노이즈 코더에 있어서 실행 길이 코딩이 인가되지 않는다. 그러나, 스펙트럼 블랭킹(blanking)을 인가함으로써, 런-렝쓰 인코딩은 상당한 비트 전송 속도 감소를 야기할 것이다. 물론 노이즈 정보의 코딩에서 임의의 변경을 고려하기 위해 대응하는 변경이 디코더에 행해질 필요가 있을 것이다.
본 발명의 제5 실시예에 있어서, 분석기(18)에 정현파 코드(CS)를 제공하기 보다는, 재분석기(18)에 정현파 분석기(130)에 의해 검출되나 도 2 및 4의 선(54)에 의해 나타나는 바와 같이 코딩 공정 동안 드롭되는 정현파 성분의 파라미터를 제공하기 위해 정현파 코더(13)가 적응된다. 주파수 및 진폭 값 뿐만 아니라, 또한 이들 파라미터는 정현파를 드롭하는 이유에 대한 표시를 포함한다. 타입의 배타적인 리스트는 아니나, 이들은 다음을 포함할 수 있다:
˙정현파가 추적에 유익하기에는 너무 짧았다(S);
˙정현파가 더욱 강력한 정현파에 의해 마스킹되었다(M);
˙정현파가 비트 전송 속도를 감소시키기 위해 드롭되었다(B).
타입 M 및 B의 경우에, 이들 성분이 타입 S의 경우보다 음색으로 되는 것이 더욱 가능하다. 그러므로 제5 실시예에서, 조절 단계(46)는 단계(48, 50)에서 종전처럼 처리하기 위해 조절된 스펙트럼을 제공하기 전에 M 및 B 타입 주파수에 대응하는 (고정된 또는 변동 가능한) 다수의 가장 높은 에너지 피크를 제거하는 것을 포함한다.
위의 각각의 실시예가 독립적으로 설명되었으나, 이들 기술 중에서 하나 이상이 조절 단계(46)에 결합될 수 있다는 것이 이해될 것이다. 예컨대, 제1 실시예의 단계가 다른 피크를 제거하기 위해 수행되기 전에 제5 실시예의 단계가 제한된 수의 M 또는 B 타입의 성분을 제거하기 위해 수행될 수 있다.
또한 각각의 실시예가 주파수 영역에서 잔류 신호(x3)를 조절하는 점에서 설명되었으나, 재분석기(18)가 시간 영역에서 동일하게 작동할 수 있다는 것이 이해될 것이다.
임의의 경우에, 재분석기(18)에 의해 산출되는 조절된 신호(x3')가 이제 노이즈만 포함하는 것으로 더욱 적당하게 가정될 수 있어 바람직한 실시예의 노이즈 분석기(14)가 예컨대, PCT 출원 번호 PCT/EP00/04599에 설명된 바와 같이, 이 노이즈의 대표인 노이즈 코드(CN)를 산출한다.
마지막으로, 멀티플렉서(15)내에서, 오디오 스트림(AS)이 만들어지는데, 이는 코드(CT, CS, CN)를 포함한다. 오디오 스트림(AS)은 예컨대 데이터 버스, 안테나 시스템, 저장 매체 등에 제공된다.
도 3은 예컨대, 도 2의 인코더(1')에 의해 생성되는 오디오 스트림(AS')을 디코딩하는데 적합한 오디오 플레이어(3)를 나타낸다. 설명되지 않는 경우, 오디오 플레이어(3)는 PCT 특허 출원 번호 WO01/69593에 설명되는 바와 같다. 간단히, 그러한 플레이어에 있어서, 오디오 스트림(AS')은 코드(CT, CS 및 CN)를 획득하기 위해 디멀티플렉서(30)내에서 디멀티플렉싱된다. 이들 코드는 과도 합성기(31), 정현파 합성기(32) 및 노이즈 합성기(33) 각각에 제공된다. 과도 코드(CT)로부터, 과도 신호 성분은 과도 합성기(31)내에서 계산된다. 과도 코드가 모양 함수를 나타내는 경우에, 모양은 수신된 파라미터를 기초로 해서 계산된다. 또한, 모양 컨텐트는 정현파 성분의 주파수 및 진폭을 기초로 해서 계산된다. 과도 코드(CT)가 하나의 단계를 나타내는 경우, 어떠한 과도도 계산되지 않는다. 전체 과도 신호(yT)는 모든 과도의 합이다.
정현파 코드(CS)는 일정한 세그먼트 상에서의 정현파의 합으로서 설명되는 신호(yS)를 생성하는데 사용된다. 동시에, 신호의 정현파 성분이 합성될 때, 노이즈 코드(CN)가 노이즈 합성기(NS)(33)에 공급되는데, 이 합성기는 주로 필터로서 노이즈의 스펙트럼에 근접하는 주파수 응답을 갖는다. NS(33)는 화이트 노이즈 신호를 노이즈 코드(CN)로 필터링함으로써 재구성되는 노이즈(yN)를 생성한다.
도 3의 플레이어에 있어서, CS에 의해 설명되는 정현파의 위치 또는 그 근처에서의 주파수 영역의 추가적인 억압이 위에서 설명된 재분석기(18)의 제1 부터 제4 실시예에 대응하는 재분석기(39)에 의해 인가된다. 그리하여 재분석기는 조절된 노이즈 신호(yN')를 산출하기 위해 노이즈 신호(yN)내에 존재할 수 있는 불필요한 성분을 제거한다. 이들 불필요한 성분은 예컨대 인코더(1 또는 1')내에서 노이즈로서 모델링되는 음색 성분 부분이다. 디코더에 이 방법을 사용함으로써, 노이즈(noisiness)가 감소될 수 있어 더욱 양호한 소리 품질이 얻어진다. 나아가, 디코더가 노이즈 인코딩의 성능에 덜 의존하며 몇 가지 이유상 모든 음색 성분이 노이즈 인코더 내의 잔류 신호(x3/x3')로부터 제거되지 않는 경우에 문제점이 적다.
전체 신호(y(t))는 과도 신호(yT)의 합과, 정현파 신호(yS)와 노이즈 신호(yN')의 합과 임의의 진폭 감압(g)의 곱(product)을 포함한다. 오디오 플레이어는 각각의 신호를 합하기 위한 두 개의 가산기(36 및 37)를 포함한다. 전체 신호는 출력 유닛(35)에 제공되는데, 이 유닛은 예컨대 스피커이다.
도 5는 도 2에 도시된 바와 같은 오디오 코더(1') 및 도 3에 도시된 바와 같은 오디오 플레이어(3)를 포함하는 본 발명에 따른 오디오 시스템을 나타낸다. 그러한 시스템은 피쳐(features)를 플레이하고 기록하는 것을 제공한다. 오디오 스트림(AS)은 통신 채널(2)을 통해 오디오 코더로부터 오디오 플레이어로 제공되는데, 이 채널은 무선 연결, 데이터 버스 또는 저장 매체일 수 있다. 통신 채널(2)이 저장 매체인 경우, 저장 매체는 시스템 내에 고정될 수 있거나 또한 탈착 가능한 디스크, 메모리 스틱 등일 수 있다. 통신 채널(2)은 오디오 시스템의 일부일 수 있으나, 종종 오디오 시스템의 외부에 있을 것이다.
상술한 바와 같이, 본 발명은 오디오 신호를 코딩하는 데에 이용 가능하다.

Claims (17)

  1. 오디오 신호를 인코딩하는 방법으로서,
    복수의 순차적 세그먼트 각각에 대해 각각의 샘플링된 신호 값 세트를 제공하는 단계;
    상기 복수의 순차적 세그먼트 각각에 대해 영 이상의 정현파 성분을 결정하기 위해 상기 샘플링된 신호 값을 분석하는 단계;
    상기 오디오 신호의 제1 잔류 성분을 나타내는 값 세트를 제공하기 위해 상기 샘플링된 신호 값으로부터 상기 정현파 성분을 차감하는 단계;
    선택된 음색 성분을 상기 제1 잔류 성분으로부터 제거하고 상기 오디오 신호의 제2 잔류 성분을 나타내는 값 세트를 제공하기 위해 상기 오디오 신호의 상기 제1 잔류 성분을 조절하는 단계;
    상기 제2 잔류 성분에 근접하는 노이즈 파라미터를 결정함으로써 상기 오디오 신호의 제2 잔류 성분을 모델링하는 단계; 및
    상기 정현파 성분을 나타내는 상기 노이즈 파라미터 및 코드를 포함하는 인코딩된 오디오 스트림을 생성하는 단계를 포함하는, 오디오 신호를 인코딩하는 방법.
  2. 제1 항에 있어서,
    상기 조절하는 단계는,
    상기 오디오 신호의 상기 제1 잔류 성분을 나타내는 상기 값 세트의 순차적 세그먼트에 대해 주파수 스펙트럼 표현을 제공하는 단계;
    선택된 주파수를 각각의 주파수 스펙트럼 표현 내에서 감쇄시키는 단계; 및
    상기 선택된 주파수가 감쇄된 주파수 스펙트럼 표현의 상기 순차적 세그먼트에 대해 시간 영역 표현을 제공하는 단계를 포함하는, 오디오 신호를 인코딩하는 방법.
  3. 제2 항에 있어서,
    상기 감쇄시키는 단계는,
    가장 큰 에너지의 피크를 상기 주파수 스펙트럼 표현으로부터 반복적으로 제거하는 단계를 포함하는, 오디오 신호를 인코딩하는 방법.
  4. 제3 항에 있어서,
    제거된 피크 에너지가 피크가 제거되는 주파수 스펙트럼 표현의 전체 에너지의 일정 퍼센티지보다 작은 경우에 상기 반복이 중지되는, 오디오 신호를 인코딩하는 방법.
  5. 제4 항에 있어서,
    상기 에너지 레벨은 상기 순차적 세그먼트의 길이에 반비례하는, 오디오 신호를 인코딩하는 방법.
  6. 제3 항에 있어서,
    상기 반복은 정해진 반복 횟수 후에 중지되는, 오디오 신호를 인코딩하는 방법.
  7. 제2 항에 있어서,
    상기 감쇄시키는 단계는,
    가장 큰 에너지의 피크 중 정해진 수를 상기 주파수 스펙트럼 표현으로부터 제거하는 단계를 포함하는, 오디오 신호를 인코딩하는 방법.
  8. 제2 항에 있어서,
    상기 감쇄시키는 단계는,
    주파수 스펙트럼 표현에 대한 순차적 세그먼트에 대응하는 순차적 세그먼트를 표현하는 정현파 성분 각각에 대한 주파수 값을 결정하는 단계; 및
    정현파 성분 각각에 대한 상기 주파수 값 영역에서 상기 주파수 스펙트럼 표현의 주파수 값을 감쇄시키는 단계를 포함하는, 오디오 신호를 인코딩하는 방법.
  9. 제2 항에 있어서,
    상기 감쇄시키는 단계는,
    주파수 스펙트럼 표현에 대한 순차적 세그먼트에 대응하는 순차적 세그먼트를 표현하는 정현파 성분 각각에 대한 제1 에너지 값을 결정하는 단계;
    주파수 스펙트럼 표현에 대한 순차적 세그먼트에 대응하는 상기 순차적 세그먼트 내에서 샘플링된 신호 값에 대한 제2 에너지 값을 결정하는 단계; 및
    상기 주파수 스펙트럼 표현을 심리-음향 모델에 따라 주파수 대역으로 분할하는 단계; 및
    상기 제1 및 제2 에너지 값이 비슷한 주파수 대역에 대한 값을 영으로 만드는 단계를 포함하는, 오디오 신호를 인코딩하는 방법.
  10. 제9 항에 있어서,
    상기 인코딩된 오디오 스트림은 값이 영으로 된 주파수 대역의 시퀀스를 나타내는 런-렝쓰(run-length) 코딩으로 생성되는, 오디오 신호를 인코딩하는 방법.
  11. 제2 항에 있어서,
    상기 분석하는 단계는 연결된 정현파 성분의 트랙을 포함하는 정현파 코드를 생성하는 단계; 및 상기 정현파 코드를 사용하여 상기 정현파 성분을 합성하는 단계를 포함하고,
    상기 차감하는 단계는 상기 오디오 신호의 제1 잔류 성분을 나타내는 상기 값 세트를 제공하기 위해 상기 합성된 신호 값을 상기 샘플링된 신호 값으로부터 차감하는 단계를 포함하는, 오디오 신호를 인코딩하는 방법.
  12. 제11 항에 있어서,
    상기 감쇄시키는 단계는,
    상기 정현파 코드를 생성하는 데에 사용되지 않은 상기 오디오 신호의 정현파 성분에 대한 주파수 값을 결정하는 단계;
    상기 정현파 성분이 다음의 이유로 사용되지 않았는지 결정하는 단계로서: 상기 성분이 너무 짧았는지, 상기 성분이 다른 성분에 의해 차단되었는지 및 예산상의 이유인지 결정하는 단계; 및
    상기 성분이 차단되거나 예산상의 이유로 사용되지 않은 경우 사용되지 않은 정현파 영역내에서 상기 주파수 스펙트럼 표현의 주파수 값을 감쇄시키는 단계를 포함하는, 오디오 신호를 인코딩하는 방법.
  13. 제1 항에 있어서,
    상기 샘플링된 신호 값은 과도 성분이 제거된 오디오 신호를 나타내는, 오디오 신호를 인코딩하는 방법.
  14. 오디오 스트림을 디코딩하는 방법으로서,
    오디오 신호의 노이즈 성분을 나타내는 코드를 포함하는 인코딩된 오디오 스트림을 읽는 단계;
    합성된 신호를 산출하도록 상기 오디오 신호의 상기 노이즈 성분을 합성하기 위해 상기 코드를 사용하는 단계; 및
    선택된 음색 성분을 상기 신호로부터 제거하기 위해 상기 합성된 신호를 조절하는 단계를 포함하는, 오디오 신호를 디코딩하는 방법.
  15. 오디오 신호의 복수의 순차적 세그먼트 각각에 대해 각각의 샘플링된 신호 값 세트를 처리하기 위해 형성되는 오디오 코더로서,
    복수의 순차적 세그먼트 각각에 대해 영 이상의 정현파 성분을 결정하기 위해 샘플링된 신호 값을 분석하기 위한 분석기;
    상기 오디오 신호의 제1 잔류 성분을 나타내는 값 세트를 제공하기 위해 상기 정현파 성분을 상기 샘플링된 신호 값으로부터 차감하기 위한 차감기;
    선택된 음색 성분을 상기 제1 잔류 성분으로부터 제거하고 상기 오디오 신호의 제2 잔류 성분을 나타내는 값 세트를 제공하기 위한 조절기;
    상기 제2 잔류 성분에 근접하는 노이즈 파라미터를 결정함으로써 오디오 신호의 제2 잔류 성분을 모델링하기 위한 노이즈 코더; 및
    상기 노이즈 파라미터 및 상기 정현파 성분을 나타내는 코드를 포함하는 인코딩된 오디오 스트림을 생성하기 위한 비트스트림 생성기를 포함하는, 오디오 코더.
  16. 오디오 플레이어로서,
    오디오 신호의 노이즈 성분을 나타내는 코드를 포함하는 인코딩된 오디오 스트림을 읽기 위한 수단;
    합성된 신호를 산출하기 위해, 상기 오디오 신호의 상기 노이즈 성분을 합성하기 위한 상기 코드를 사용하도록 형성되는 합성기; 및
    선택된 음색 성분을 상기 합성된 신호로부터 제거하기 위해 형성되는 조절기를 포함하는, 오디오 플레이어.
  17. 제15 항의 오디오 코더 및 제16 항의 오디오 플레이어를 포함하는 오디오 시스템.
KR1020057009341A 2002-11-27 2003-10-29 정현파 오디오 코딩 KR20050086762A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02079939 2002-11-27
EP02079939.1 2002-11-27

Publications (1)

Publication Number Publication Date
KR20050086762A true KR20050086762A (ko) 2005-08-30

Family

ID=32338110

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057009341A KR20050086762A (ko) 2002-11-27 2003-10-29 정현파 오디오 코딩

Country Status (7)

Country Link
US (1) US20060015328A1 (ko)
EP (1) EP1570463A1 (ko)
JP (1) JP2006508385A (ko)
KR (1) KR20050086762A (ko)
CN (1) CN1717718A (ko)
AU (1) AU2003274524A1 (ko)
WO (1) WO2004049311A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101299155B1 (ko) * 2006-12-29 2013-08-22 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060015329A1 (en) * 2004-07-19 2006-01-19 Chu Wai C Apparatus and method for audio coding
US7921007B2 (en) 2004-08-17 2011-04-05 Koninklijke Philips Electronics N.V. Scalable audio coding
WO2006051446A2 (en) * 2004-11-09 2006-05-18 Koninklijke Philips Electronics N.V. Method of signal encoding
KR100707173B1 (ko) * 2004-12-21 2007-04-13 삼성전자주식회사 저비트율 부호화/복호화방법 및 장치
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
FR2891100B1 (fr) * 2005-09-22 2008-10-10 Georges Samake Codec audio utilisant la transformation de fourier rapide, le recouvrement partiel et une decomposition en deux plans basee sur l'energie.
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
KR101149448B1 (ko) * 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
US8571852B2 (en) * 2007-03-02 2013-10-29 Telefonaktiebolaget L M Ericsson (Publ) Postfilter for layered codecs
KR101080421B1 (ko) * 2007-03-16 2011-11-04 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치
KR101411901B1 (ko) * 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
KR20090008611A (ko) * 2007-07-18 2009-01-22 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치
KR101346771B1 (ko) 2007-08-16 2013-12-31 삼성전자주식회사 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치
KR100930995B1 (ko) 2008-01-03 2009-12-10 연세대학교 산학협력단 오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한오디오 신호 부호화 방법 및 장치, 그리고 상기 방법을수행하는 프로그램이 기록된 기록 매체
KR101413967B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
CN102396024A (zh) * 2009-02-16 2012-03-28 韩国电子通信研究院 使用自适应正弦波脉冲编码的用于音频信号的编码/解码方法及其设备
CN105361855A (zh) * 2016-01-11 2016-03-02 东南大学 一种有效获取脑磁图信号中事件相关磁场信息的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6542857B1 (en) * 1996-02-06 2003-04-01 The Regents Of The University Of California System and method for characterizing synthesizing and/or canceling out acoustic signals from inanimate sound sources
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
EP1382035A1 (en) * 2001-04-18 2004-01-21 Koninklijke Philips Electronics N.V. Audio coding
JP4622164B2 (ja) * 2001-06-15 2011-02-02 ソニー株式会社 音響信号符号化方法及び装置
WO2003036620A1 (en) * 2001-10-26 2003-05-01 Koninklijke Philips Electronics N.V. Tracking of sinusoidal parameters in an audio coder

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101299155B1 (ko) * 2006-12-29 2013-08-22 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
US8725519B2 (en) 2006-12-29 2014-05-13 Samsung Electronics Co., Ltd. Audio encoding and decoding apparatus and method thereof

Also Published As

Publication number Publication date
US20060015328A1 (en) 2006-01-19
EP1570463A1 (en) 2005-09-07
AU2003274524A1 (en) 2004-06-18
WO2004049311A1 (en) 2004-06-10
JP2006508385A (ja) 2006-03-09
CN1717718A (zh) 2006-01-04

Similar Documents

Publication Publication Date Title
KR20050086762A (ko) 정현파 오디오 코딩
JP5425250B2 (ja) 瞬間的事象を有する音声信号の操作装置および操作方法
KR101317479B1 (ko) 과도 이벤트를 포함하는 오디오 신호를 조작하는 장치, 방법 및 컴퓨터 프로그램
US6526378B1 (en) Method and apparatus for processing sound signal
JP3646938B1 (ja) オーディオ復号化装置およびオーディオ復号化方法
US7020615B2 (en) Method and apparatus for audio coding using transient relocation
CA2699316C (en) Apparatus and method for calculating bandwidth extension data using a spectral tilt controlled framing
CA2335005C (en) Method and apparatus for performing packet loss or frame erasure concealment
US6266644B1 (en) Audio encoding apparatus and methods
WO2009115211A2 (en) Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthensizing a parameterized representation of an audio signal
CN110832581A (zh) 用于使用瞬态位置检测后处理音频信号的装置
KR20060083202A (ko) 낮은 비트율 오디오 인코딩
KR20060037375A (ko) 저비트율 오디오 인코딩
JP4313993B2 (ja) オーディオ復号化装置およびオーディオ復号化方法
US8073687B2 (en) Audio regeneration method
JP4358221B2 (ja) 音信号加工方法及び音信号加工装置
JP2007505346A (ja) 遷移のオーディオ信号成分の符号化

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid