KR20050086871A - 오디오 코딩 - Google Patents

오디오 코딩 Download PDF

Info

Publication number
KR20050086871A
KR20050086871A KR1020057009520A KR20057009520A KR20050086871A KR 20050086871 A KR20050086871 A KR 20050086871A KR 1020057009520 A KR1020057009520 A KR 1020057009520A KR 20057009520 A KR20057009520 A KR 20057009520A KR 20050086871 A KR20050086871 A KR 20050086871A
Authority
KR
South Korea
Prior art keywords
phase
sinusoidal
track
frequency
audio
Prior art date
Application number
KR1020057009520A
Other languages
English (en)
Other versions
KR101016995B1 (ko
Inventor
알베르투스 체. 덴 브링커
안드레아스 예이. 게리츠
로베르트 예이. 슬루이터
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20050086871A publication Critical patent/KR20050086871A/ko
Application granted granted Critical
Publication of KR101016995B1 publication Critical patent/KR101016995B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cereal-Derived Products (AREA)
  • Amplifiers (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

복수의 순차 세그먼트 각각에 대한 샘플링된 신호 값의 각 세트에 의해 표시된 오디오 신호의 코딩이 개시된다. 샘플링된 신호 값은 분석(40)되어, 복수의 순차 세그먼트 각각에 대한 하나 이상의 정현파 성분을 결정한다. 정현파 성분은 정현파 트랙을 제공하기 위해 복수의 순차 세그먼트에 걸쳐 링크(42)된다. 각 정현파 트랙에 대해, 일반적으로 단조롭게 변화하는 값을 포함하는 위상이 결정되고, 상기 위상을 나타내는 정현파 코드(r)를 포함하는 인코딩된 오디오 스트림이 생성(46)된다.

Description

오디오 코딩{AUDIO CODING}
본 발명은 오디오 신호의 코딩 및 디코딩에 관한 것이다.
이제 도 1을 참조하면, 특히 정현파 코더와 같은 파라미터형 코딩 구성은 PCT 특허 공보 WO 01/69593에 기재되어 있다. 이 코더에서, 입력 오디오 신호(x(t))는 일반적으로 20ms의 길이로 된 수 개의 (중첩된) 세그먼트 또는 프레임으로 분리된다. 각 세그먼트는 과도성은, 정현파 성분 및 잡음 성분으로 분해된다. (복소 고조파와 같은 입력 오디오 신호의 다른 성분이 본 발명의 목적을 위해 관련되지 않더라도, 이들 성분을 또한 유도할 수 있다.)
정현파 분석기(130)에서, 각 세그먼트에 대한 신호(x2)는 진폭, 주파수 및 위상 파라미터에 의해 표현된 다수의 정현파를 이용하여 모델링된다. 이러한 정보는 일반적으로 푸리에 변환(FT)을 수행함으로써 분석 간격에 대해 추출되는데, 상기 FT는 주파수, 각 주파수에 대한 진폭, 각 위상이 범위(-π,π)에 있는 각 주파수에 대한 위상을 포함하는 간격의 스펙트럼 표현을 제공한다. 일단 세그먼트에 대한 정현파 정보가 추정되면, 트랙킹(tracking) 알고리즘이 개시된다. 이러한 알고리즘은 소위 트랙을 얻기 위해 세그먼트 단위로 서로 정현파를 링크시키도록 비용 함수를 이용한다. 이에 따라 트랙킹 알고리즘은, 특정 시간 순간에서 시작하고 복수의 시간 세그먼트에 걸쳐 특정한 양의 시간 동안 전개하고 그 다음에 중단하는 것을 포함하는 정현파 코드(Cs)를 초래한다.
그러한 정현파 코딩에서, 주파수 정보는 일반적으로 인코더에서 형성된 트랙에 대해 송신된다. 이것은 비용이 적게 들도록 이루어질 수 있는데, 그 이유는, 트랙이 느리게 변화하는 주파수를 갖는 것으로 정의되므로, 주파수가 시간-미분 인코딩에 의해 효율적으로 송신될 수 있기 때문이다.(일반적으로, 진폭은 또한 시간에 따라 미분적으로 인코딩될 수 있다.)
주파수에 비해, 위상 송신은 비용이 많이 드는 것으로 볼 수 있다. 사실상, 주파수가 (거의) 일정한 경우, 트랙 세그먼트 인덱스의 함수로서의 위상은 (거의) 선형 동작을 고수해야 한다. 그러나, 위상이 송신될 때, 위상은 푸리에 변환에 의해 제공된 범위(-π,π)에 한정된다. 위상의 이러한 모듈로 2π 표현으로 인해, 위상의 구조적 인터 프레임 관계가 손실되고, 처음에, 백색 확률론적 변수(white stochastic variable)인 것으로 나타난다.
그러나, 위상이 주파수의 적분이기 때문에, 위상은 사실상 송신되지 않을 필요가 있다. 이것은 소위 위상 지속(phase continuation)이라 불리고, 비트율을 크게 감소시킨다.
위상 지속에서, 주파수만이 송신되고, 위상은 위상과 주파수 사이의 적분 관계를 실행함으로써 주파수 데이터로부터 디코더에서 복구된다. 그러나, 위상이 위상 지속을 이용하여 단지 근사적으로만 복구될 수 있음이 알려져 있다. 주파수 에러가 주파수에서의 측정 에러로 인해 또는 양자화 잡음으로 인해 발생하면, 적분 관계를 이용하여 재구성되는 위상은 일반적으로 드리프트(drift)의 특성을 갖는 에러를 보여준다. 그 이유는 주파수 에러가 거의 백색 잡음 특성을 갖기 때문이다. 적분은 저주파수 에러를 증폭시키고, 따라서, 복구된 위상은 실제로 측정된 위상으로부터 멀리 드리프트하는 경향을 갖는다. 이것은 오디오 결함을 초래한다.
이것은, ψ 및 Ω이 트랙에 대한 실제 주파수 및 위상인 도 2a에 도시된다. 인코더 및 디코더 모두에서, 주파수 및 위상은 I로 표시된 적분 관계를 갖는다. 인코더에서의 양자화 프로세스는 추가 백색 잡음(n)으로서 모델링된다. 디코더에서, 이에 따라 복구된 위상()은 2가지 성분, 즉 실제 위상(ψ) 및 잡음 성분(ε2)을 포함하며, 여기서 잡음(ε2)의 복구된 위상과 전력 스펙트럼 밀도 함수 모두는 명백한 저주파수 특성을 갖는다.
따라서, 위상 지속에서, 복구된 위상이 저주파수 신호의 적분이고, 복구된 위상이 저주파수 신호 자체라는 것을 알 수 있다. 그러나, 재구성 프로세스에서 유도된 잡음은 또한 이러한 저주파수 범위에서 두드러진다. 그러므로, 인코딩 동안 유도된 잡음(n)을 필터링하기 위해 이들 소스를 분리하는 것이 어렵다.
본 발명은 이러한 문제를 완화시키려고 한다.
도 1은 본 발명의 일실시예가 구현되는 오디오 코더를 도시한 도면.
도 2a 및 도 2b는 각각 종래 기술의 시스템 및 본 발명에 따른 오디오 시스템에서 위상과 주파수 사이의 관계를 도시한 도면.
도 3a 및 도 3b는 도 1의 오디오 코더의 정현파 코더 성분의 바람직한 실시예를 도시한 도면.
도 4는 본 발명의 일실시예가 구현되는 오디오 플레이어를 도시한 도면.
도 5a 및 도 5b는 도 4의 오디오 플레이어의 정현파 합성기 성분의 바람직한 실시예를 도시한 도면.
도 6은 본 발명에 따라 오디오 코더 및 오디오 플레이어를 포함하는 시스템을 도시한 도면.
본 발명에 따라, 청구항 1에 따른 방법이 제공된다.
본 발명에 따라, 종래의 정현파 코딩 기술이 반대가 되는데, 즉 주파수가 아닌 위상이 송신된다. 디코더에서, 주파수는 미분에 대한 근사로서 한정된 차이를 이용하여 양자화된 위상 정보로부터 대략 복구될 수 있다. 복구된 주파수의 잡음 성분은, 위상 양자화에 의해 유도된 잡음이 거의 스펙트럼적으로 평평하다는 가정 하에 명백한 고주파수 동작을 갖는다. 이것은 도 2b에 도시되어 있고, 여기서 인코더 및 디코더 내에서, 주파수는 위상의 미분(D)으로서 표시된다. 다시, 잡음(n)은 인코더 및 디코더에서 유도되고, 복구된 주파수()는 2가지 성분, 즉 실제 주파수(Ω) 및 잡음 성분(ε4)을 포함하며, 여기서 주파수는 거의 DC 신호이고, 잡음은 주로 고주파수 범위에 있다. 그러나, 기초적인 주파수가 저주파수 동작을 갖고, 추가된 잡음이 고주파수 동작을 갖기 때문에, 복구된 주파수의 잡음 성분(ε4)은 저역 통과 필터링에 의해 감소될 수 있다.
본 발명의 바람직한 실시예는 이제 첨부된 도면을 참조하여 설명될 것이며, 여기서 유사한 성분은 유사한 참조 번호에 따르고, 달리 언급되지 않은 경우, 유사한 기능을 수행한다. 본 발명의 바람직한 실시예에서, 인코더(1)는 도 1에서 PCT 특허 출원 번호 WO 01/69593에 기재된 유형의 정현파 코더이다. 종래 기술의 코더 및 이에 대응하는 디코더의 동작은 잘 설명되어 있고, 그 설명은 본 발명에 관련된 곳에만 제공된다.
종래 기술 및 바람직한 실시예에서, 오디오 코더(1)는 오디오 신호의 디지털 표현(x(t))을 초래하는 특정 샘플링 주파수에서 입력 오디오 신호를 샘플링한다. 그런 후에, 코더(1)는 샘플링된 입력 신호를 3개의 성분, 즉 과도 신호 성분, 지속 결정 성분, 및 지속 확률론적 성분으로 분리된다. 오디오 코더(1)는 과도 코더(11), 정현파 코더(13) 및 잡음 코더(14)를 포함한다.
과도 코더(11)는 과도 검출기(TD)(110)와, 과도 분석기(TA)(111)와, 과도 합성기(TS)(112)를 포함한다. 먼저, 신호(x(t))는 과도 검출기(110)에 입력된다. 이러한 검출기(110)는, 과도 신호 성분 및 그 위치가 있는지를 추정한다. 이 정보는 과도 분석기(111)에 공급된다. 과도 신호 성분의 위치가 결정되면, 과도 분석기(111)는 과도 신호 성분(의 주요 부분)을 추출하려고 시도한다. 상기 과도 분석기(111)는 형태 함수를 추정된 시작 위치에서 바람직하게 시작하는 신호 세그먼트에 매칭하고, 예를 들어 (소수의) 정현파 성분을 이용함으로써 형태 함수 아래의 컨텐트를 결정한다. 이러한 정보는 과도 코드(CT)에 포함되고, 과도 코드(CT)를 생성하는 것에 대한 더 상세한 정보는 PCT 국제 특허 공보 WO 01/69593에 제공된다.
과도 코드(CT)는 과도 합성기(112)에 공급된다. 합성된 과도 신호 성분은 감산기(16)에서 입력 신호(x(t))로부터 감산되어, 신호(x1)를 초래한다. 이득 제어 메커니즘(GC)(12)은 x1로부터 x2를 생성하는데 사용된다.
정현파 코더(13)에 공급되어, 신호(x2)는 정현파 분석기(SA)(130)에서 분석되며, 분석기(SA)(130)는 (결정) 정현파 성분을 결정한다. 그러므로, 과도 분석기의 존재가 바람직하다는 것을 알 것이고, 그것이 필요하지 않고 본 발명은 그러한 분석기 없이 구현될 수 있다는 것을 알게 될 것이다. 대안적으로, 전술한 바와 같이, 본 발명은 또한 예를 들어 복소 고조파 분석기로 또한 구현될 수 있다.
간략하게, 정현파 코더는 하나의 프레임 세그먼트로부터 다음 프레임 세그먼트로 링크된 정현파 성분의 트랙으로서 입력 신호(x2)를 인코딩한다. 이제 도 3a를 참조하면, 종래 기술과 동일한 방식으로, 바람직한 실시예에서, 입력 신호(x2)의 각 세그먼트는 푸리에 변환(FT) 유닛(40)에서 주파수 영역으로 변환된다. 각 세그먼트에 대해, FT 유닛은 측정된 진폭(A), 위상(φ) 및 주파수(ω)를 제공한다. 전술한 바와 같이, 푸리에 변환에 의해 제공된 위상 범위는 -π≤φ<π에 한정된다. 트랙킹 알고리즘(TA) 유닛(42)은 각 세그먼트에 대한 정보를 취하고, 적합한 비용 함수를 이용함으로써, 정현파를 하나의 세그먼트로부터 다음 세그먼트로 링크시키므로, 각 트랙에 대해 측정된 위상(φ(k)) 및 주파수(ω(k))의 시퀀스를 생성한다.
종래 기술에 비해, 본 발명에 따라, 분석기(130)에 의해 최종적으로 생성된 정현파 코드(CS)는 위상 정보를 포함하고, 주파수는 디코더에서 이러한 정보로부터 재구성된다.
그러나, 전술한 바와 같이, 측정된 위상은 모듈로 2π 표현에 한정된다. 그러므로, 바람직한 실시예에서, 분석기는, 모듈로 2π위상 표현이 트랙(ψ)에 대한 구조적 인터 프레임 위상 동작을 노출시키도록 언래핑(unwrapped)된 위상 언래퍼(phase unwrapper)(PU)(44)를 포함한다. 정현파 트랙에서의 주파수가 거의 일정하기 때문에, 일반적으로 언래핑된 위상(ψ)이 선형적으로 증가(또는 감소)하는 함수이고, 이것이 비용이 적게 드는 위상 송신을 가능하게 한다는 것을 알 것이다. 언래핑된 위상(ψ)은 위상 인코더(PE)(46)에 입력으로서 제공되고, 상기 위상 인코더는 송신되는데 적합한 출력 표현 레벨(r)로서 제공된다.
이제 위상 언래퍼(44)의 동작을 참조하면, 전술한 바와 같이, 트랙에 대한 실제 위상(ψ) 및 실제 주파수(Ω)는 수학식 1에 관련된다:
여기서 T0은 기준 시간 상수이다.
프레임(k=K, K+1,...K+L-1)에서의 정현파 트랙은 측정된 주파수(w(k))(초당 라디안으로 표현됨) 및 측정된 위상(φ(k))(라디안으로 표현됨)을 갖는다. 프레임의 중심 사이의 거리는 U(초 단위로 표현된 업데이트 속도)로 제공된다. 측정된 주파수는 w(k)=Ω(kU)를 이용하여 간주된 기초적인 연속 시간 주파수 트랙(Ω)의 샘플인 것으로 가정되고, 유사하게, 측정된 위상은 φ(k)=ψ(kU) mod(2π)를 이용하여 연관된 연속-시간 위상 트랙(ψ)의 샘플이다. 정현파 코딩에 대해, Ω가 거의 상수 함수인 것으로 간주된다.
주파수가 세그먼트 내에서 거의 일정하다고 간주하면, 수학식 1은 다음 수학식 2와 같이 근사될 수 있다:
그러므로, 주어진 세그먼트에 대한 위상 및 주파수, 및 다음 세그먼트의 주파수를 앎으로서, 다음 세그먼트에 대해, 그리고 각 세그먼트에 대해 언래핑된 위상 값을 추정할 수 있다.
바람직한 실시예에서, 위상 언래퍼는 순간(k)에서 언랩 인자(m(k))를 결정한다:
언랩 인자(m(k))는 언래핑된 위상을 얻는데 추가되어야 하는 사이클의 수를 위상 언래퍼(44)에게 통지한다.
수학식 2 및 수학식 3을 조합하면, 위상 언래퍼는 다음과 같이 증분하는 언랩 인자(e)를 결정한다:
2πe(k)=2π{m(k)-m(k-1)}={ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}
여기서 e는 정수이어야 한다. 그러나, 측정 및 모델 에러로 인해, 증분하는 언랩 인자는 정확히 정수가 아닐 것이므로, 모델 및 측정 에러가 작다고 간주하면,
e(k)=round([{ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}]/(2π))
증분하는 언랩 인자(e)를 갖는다면, 수학식 3으로부터의 m(k)는, 일반성(generality)의 손실 없이, m(K)=0으로 제 1 프레임(K)에서 위상 언래퍼가 시작하고, m(k) 및 φ(k)로부터, (언래핑된) 위상(ψ(kU))이 결정되는 누적 합으로서 계산된다.
사실상, 샘플링된 데이터(ψ(kU) 및 Ω(kU))는 측정 에러만큼 왜곡된다:
φ(k)=ψ(kU)+ε1(k),
ω(k)=Ω(kU)+ε2(k),
여기서 ε1 및 ε2는 각각 위상 및 주파수 에러이다. 애매하게 되는 언랩 인자의 결정을 방지하기 위해, 측정 데이터는 충분한 정밀도로 결정될 필요가 있다. 따라서, 바람직한 실시예에서, 트랙킹은 다음과 같이 제한된다:
δ(k)=e(k)-[{ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}]/(2π)<δ0
여기서 δ는 버림(rounding) 연산에서의 에러이다. 에러(δ)는 주로 U와의 곱셈으로 인해 ω에서의 에러에 의해 결정된다. ω가 샘플링 주파수(FS)를 갖는 입력 신호의 샘플링 버전으로부터 푸리에 변환의 절대값의 최대값으로부터 결정되고, 푸리에 변환의 분해능이 2π/La(La는 분석 크기이다)라고 가정해보자. 고려된 경계 내에 있기 위해서, 을 갖는다.
이것은, 분석 크기가, 언래핑이 정밀하기 위해 업데이트 크기보다 몇 배 더 큰 것이어야 하는데, 예를 들어 δ0=1/4로 설정되고, 분석 크기가 업데이트 크기(위상 측정에서 에러(ε1)를 무시}의 4배이어야 한다는 것을 의미한다.
버림 연산에서 결정 에러를 피하기 위해 취해질 수 있는 제 2 조치는 트랙을 적절히 한정시키는 것이다. 트랙킹 유닛(42)에서, 일반적으로 정현파 트랙은 진폭 및 주파수 차이를 고려함으로써 한정된다. 추가적으로, 링크 기준에서 위상 정보를 또한 설명할 수 있다. 예를 들어, 에 따라 측정된 값과 예측값() 사이의 차이로서 위상 예측 에러(ε)를 정의할 수 있으며,
여기서 예측값은 로서 취해질 수 있다.
따라서, 바람직하게, 트랙킹 유닛(42)은 ε가 특정값(예를 들어, ε>π/2)보다 더 큰 트랙을 금지하여, e(k)의 애매하지 않은 정의를 초래한다.
추가적으로, 인코더는 디코더에서 이용가능한 것과 같은 위상 및 주파수를 계산할 수 있다. 디코더에서 이용가능하게 될 위상 또는 주파수가 인코더에 존재하는 것과 같은 위상 및/또는 주파수로부터 너무 많이 다르다면, 트랙을 중단시키도록, 즉 트랙의 종료를 신호 발신하고, 현재 주파수 및 위상 및 그 링크된 정현파 데이터를 이용하여 새로운 것을 시작하도록 결정될 수 있다.
위상 언래퍼(PU)(44)에 의해 생성된 샘플링된 언래핑된 위상(ψ(kU))은 표현 레벨(r)의 세트를 생성하기 위해 위상 인코더(PE)(46)에 입력으로서 제공된다. 일반적으로 언랩핑된 위상과 같은 특성을 단조롭게 변화하는 효과적인 송신을 위한 기술이 알려져 있다. 바람직한 실시예에서, 도 3b에서, 적응형 차분 펄스 코드 변조(ADPCM)가 이용된다. 여기서, 예측기(PF)(48)는, 다음 트랙 세그먼트의 위상을 추정하고 양자화기(Q)(50)에서만 차이를 인코딩하는데 사용된다. ψ가 거의 선형 함수인 것으로 예측되기 때문에, 간략함을 위해, 예측기(48)는 y(k+1)=2x(k)-x(k-1)의 형태의 2차 필터로서 선택되며, 여기서 x는 입력이고, y는 출력이다. 그러나, 다른 함수 관계(고차 관계를 포함)를 취하고, 필터 계수의 적응성(역방향 또는 순방향) 적응을 포함할 수 있다. 바람직한 실시예에서, 역방향 적응성 제어 메커니즘(QC)(52)은 양자화기(50)를 제어하도록 간략함을 위해 사용된다. 순방향 적응성 제어도 또한 가능하지만, 잔여 비트율 오버헤드를 필요로 한다.
알 수 있듯이, 트랙에 대한 인코더( 및 디코더)의 개시는 시작 위상(φ(0)) 및 주파수(ω(0))의 인식에서 시작한다. 이들은 개별적인 메커니즘에 의해 양자화되고 송신된다. 추가적으로, 도 5b에서 인코더의 양자화 제어기(52) 및 디코더에서의 대응하는 제어기(62)에 사용된 초기 양자화 단계는 송신되거나, 인코더 및 디코더 모두에서 특정 값으로 설정된다. 마지막으로, 트랙의 종료는 개별적인 측면 스트림에서 신호 발신될 수 있거나, 위상의 비트 스트림에서 고유 심볼로서 신호 발신될 수 있다.
정현파 코더로 생성된 정현파 코드(CS)로부터, 정현파 신호 성분은 디코더의 정현파 합성기(SS)(32)에 대해 설명되는 동일한 방식으로 정현파 합성기(SS)(131)에 의해 재구성된다. 이러한 신호는 입력(x2)으로부터 정현파 코더(13)로 감산기(17)에서 감산되어, 나머지 신호(x3)를 초래한다. 정현파 코더(13)에 의해 생성된 잔여 신호(x3)는 바람직한 실시예의 잡음 분석기(14)에 전달되고, 상기 잡음 분석기는 예를 들어 PCT 특허 출원 PCT/EP00/04599에 설명된 바와 같이 이러한 잡음을 나타내는 잡음 코드(CN)를 생성한다.
마지막으로, 멀티플렉서(15)에서, 코드(CT, CS 및 CN)를 포함하는 오디오 스트림(AS)이 구성된다. 오디오 스트림(AS)은 예를 들어 데이터 버스, 안테나 시스템, 저장 매체 등에 제공된다.
도 4는, 예를 들어 도 1의 인코더(1)에 의해 생성된 오디오 스트림(AS')을 디코딩하는데 적합한 오디오 플레이어(3)를 도시하며, 상기 오디오 스트림은 데이터 버스, 안테나 시스템, 저장 매체 등으로부터 얻어진다. 오디오 스트림(AS')은 코드(CT, CS 및 CN)를 얻기 위해 디멀티플렉서(30)에서 디멀티플렉싱된다. 이들 코드는 과도 합성기(31), 정현파 합성기(32) 및 잡음 합성기(33)에 각각 공급된다. 과도 코드(CT)로부터, 과도 신호 성분은 과도 합성기(31)에서 계산된다. 과도 코드가 형태 함수를 나타내는 경우에, 형태는 수신된 파라미터에 기초하여 계산된다. 더욱이, 형태 컨텐트는 정현파 성분의 주파수 및 진폭에 기초하여 계산된다. 과도 코드(CT)가 스텝을 나타내면, 어떠한 과도도 계산되지 않는다. 총 과도 신호(yT)는 모든 과도의 합이다.
분석기(130)에 의해 인코딩된 정보를 포함하는 정현파 코드(CS)는 신호(yS)를 생성하기 위해 정현파 분석기(32)에 의해 사용된다. 이제 도 5a 및 도 5b를 참조하면, 정현파 분석기(32)는 위상 인코더(46)와 호환하는 위상 디코더(PD)(56)를 포함한다. 여기서, 2차 예측 필터(PF)(64)와 연계하는 역양자화기(DQ)(60)는, 예측 필터(PF)(64) 및 양자화 제어기(QC)(62)에 대한 초기 양자화 스텝에 제공된 초기 정보((0),(0)), 표현 레벨(r)로부터 언래핑된 위상()(의 추정)을 생성한다.
도 2b에 도시된 바와 같이, 주파수는 미분에 의해 언래핑된 위상()으로부터 복구될 수 있다. 디코더에서의 위상 에러가 대략 백색이라고 간주하고, 미분이 고주파수를 증폭시키기 때문에, 미분은 저역 통과 필터와 조합될 수 있어서, 잡음을 감소시키고, 이에 따라 디코더에서 주파수의 정밀한 추정치를 얻을 수 있다.
바람직한 실시예에서, 필터링 유닛(FR)(58)은 순방향, 역방향 또는 중심 차이로서 절차에 의해 언래핑된 위상으로부터 주파수()를 얻는데 필요한 미분을 근사시킨다. 이것은, 디코더로 하여금 인코딩된 신호의 정현파 성분을 합성시키기 위해 종래의 방식으로 이용가능한 위상() 및 주파수()를 출력으로서 생성하도록 한다.
동시에, 신호의 정현파 성분이 합성되기 때문에, 잡음 코드(CN)는 주로 필터인 잡음 합성기(NS)(33)에 공급되며, 상기 잡음 합성기는 잡음의 스펙트럼에 근사하는 주파수 응답을 갖는다. NS(33)는 잡음 코드(CN)로 백색 잡음 신호를 필터링함으로써 재구성된 잡음(yN)을 생성한다. 총 신호(y(t))는 정현파 신호(yS)와 잡음 신호(yN)의 합과, 임의의 진폭 압축 해제(g)의 곱과 과도 신호(yT)의 합을 포함한다. 오디오 플레이어는 각 신호를 합하기 위해 2개의 가산기(36 및 37)를 포함한다. 총 신호는 예를 들어 스피커인 출력 유닛(35)에 공급된다.
도 6은 도 1에 도시된 오디오 코더(1) 및 도 4에 도시된 오디어 플레이어(3)를 포함하는 본 발명에 따른 오디오 시스템을 도시한다. 그러한 시스템은 플레잉 및 리코딩 특성을 제공한다. 오디오 스트림(AS)은 통신 채널(2)을 통해 오디오 코더로부터 오디오 플레이어로 공급되며, 상기 통신 채널은 무선 연결, 데이터(20) 버스 또는 저장 매체일 수 있다. 통신 채널(2)이 저장 매체인 경우에, 저장 매체는 시스템에 고정될 수 있거나, 또한 착탈식 디스크, 메모리 스틱 등일 수 있다. 통신 채널(2)은 오디오 시스템의 부분일 수 있지만, 그러나 종종 오디오 시스템 외부에 있을 수 있다.
상술한 바와 같이, 본 발명은 오디오 신호의 코딩 및 디코딩 등에 이용된다.

Claims (16)

  1. 오디오 신호를 인코딩하는 방법으로서,
    복수의 순차 세그먼트 각각에 대한 샘플링된 신호값의 각 세트를 제공하는 단계와;
    상기 복수의 순차 세그먼트 각각에 대한 하나 이상의 정현파(sinusoidal) 성분을 결정하기 위해 상기 샘플링된 신호 값을 분석하는 단계와;
    정현파 트랙을 제공하기 위해 복수의 순차 세그먼트에 걸쳐 정현파 성분을 링크시키는 단계와;
    각 정현파 트랙에 대해, 일반적으로 단조롭게 변화하는 값을 포함하는 위상을 결정하는 단계와;
    상기 위상을 나타내는 정현파 코드을 포함하는 인코딩된 오디오 스트림을 생성하는 단계를
    포함하는, 오디오 신호를 인코딩하는 방법.
  2. 제 1항에 있어서, 각 링크된 세그먼트의 위상 값은, 이전의 세그먼트에 대한 주파수 및 상기 링크된 세그먼트의 주파수의 적분, 및 상기 이전 세그먼트의 위상의 함수로서 결정되는, 오디오 신호를 인코딩하는 방법.
  3. 제 1항에 있어서, 상기 정현파 성분은 주파수 값, 및 범위(-π,π)에서의 위상 값을 포함하는, 오디오 신호를 인코딩하는 방법.
  4. 제 1항에 있어서, 상기 생성 단계는,
    적어도 이전 세그먼트에 대한 위상 함수로서 세그먼트에 대한 위상 값을 예측하는 단계와;
    상기 위상에 대한 상기 예측 값 및 상기 세그먼트에 대한 측정된 위상의 함수로서 상기 정현파 코드를 양자화하는 단계를
    포함하는, 오디오 신호를 인코딩하는 방법.
  5. 제 4항에 있어서, 트랙에 대한 상기 정현파 코드는 초기 위상 및 주파수를 포함하고, 상기 예측 단계는 상기 초기 주파수 및 위상을 이용하여, 제 1 예측을 제공하는, 오디오 신호를 인코딩하는 방법.
  6. 제 4항에 있어서, 상기 생성 단계는 상기 양자화된 정현파 코드의 함수로서 상기 양자화 단계를 제어하는 단계를 포함하는, 오디오 신호를 인코딩하는 방법.
  7. 제 6항에 있어서, 각 트랙에 대한 상기 정현파 코드는 초기 양자화 단계를 포함하는, 오디오 신호를 인코딩하는 방법.
  8. 제 1항에 있어서, 상기 정현파 코드는 트랙의 종료의 표시자(indicator)를 포함하는, 오디오 신호를 인코딩하는 방법.
  9. 제 1항에 있어서,
    상기 정현파 코드를 이용하여 상기 정현파 성분을 합성하는 단계와;
    상기 오디오 신호의 나머지 성분을 나타내는 값의 세트를 제공하기 위해 상기 샘플링된 신호 값으로부터 상기 합성된 신호 값을 감산하는 단계와;
    파라미터를 결정함으로써 상기 오디오 신호의 나머지 성분을 모델링하고, 상기 나머지 성분을 근사하는 단계와;
    상기 오디오 스트림에서 상기 파라미터를 포함시키는 단계를
    더 포함하는, 오디오 신호를 인코딩하는 방법.
  10. 제 1항에 있어서, 상기 샘플링된 신호 값은 과도 성분이 제거되는 오디오 신호를 나타내는, 오디오 신호를 인코딩하는 방법.
  11. 오디오 스트림 디코딩 방법으로서,
    링크된 정현파 성분의 각 트랙에 대한 위상을 나타내는 정현파 코드를 포함하는 인코딩된 오디오 스트림을 판독하는 단계와;
    각 트랙에 대해, 일반적으로 상기 위상을 나타내는 상기 코드로부터 단조롭게 변화하는 값을 생성하는 단계와;
    트랙에 대한 주파수의 추정치를 제공하기 위해 상기 생성된 값을 필터링하는 단계와;
    상기 오디오 신호의 상기 정현파 성분을 합성시키기 위해 상기 생성된 값 및 상기 주파수 추정치를 이용하는 단계를
    포함하는, 오디오 스트림 디코딩 방법.
  12. 오디오 신호의 복수의 순차 세그먼트 각각에 대한 샘플링된 신호 값의 각 세트를 처리하도록 배열된 오디오 코더로서,
    상기 복수의 순차 세그먼트 각각에 대한 하나 이상의 정현파 성분을 결정하기 위해 상기 샘플링된 신호 값을 분석하기 위한 분석기와;
    정현파 트랙을 제공하기 위해 복수의 순차 세그먼트에 걸쳐 정현파 성분을 링크시키는 링커와;
    각 정현파 트랙에 대해, 일반적으로 단조롭게 변화하는 값을 포함하는 위상을 결정하는 위상 언래퍼(unwrapper)와;
    상기 위상을 나타내는 정현파 코드를 포함하는 인코딩된 오디오 스트림을 제공하는 위상 인코더를
    포함하는, 오디오 코더.
  13. 오디오 플레이어로서,
    링크된 정현파 성분의 각 트랙에 대한 위상을 나타내는 정현파 코드를 포함하는 인코딩된 오디오 스트림을 판독하는 수단과;
    각 트랙에 대해, 일반적으로 상기 위상을 나타내는 상기 코드로부터 단조롭게 변화하는 값을 결정하는 위상 언래퍼와;
    트랙에 대한 주파수의 추정치를 제공하기 위해 상기 생성된 값을 필터링하는 필터와;
    상기 오디오 신호의 상기 정현파 성분을 합성하기 위해 상기 생성된 값 및 상기 주파수 추정치를 이용하도록 배열된 합성기를
    포함하는, 오디오 플레이어.
  14. 제 12항에 기재된 오디오 코더, 및 제 13항에 기재된 오디오 플레이어를 포함하는, 오디오 시스템.
  15. 오디오 신호의 링크된 정현파 성분의 트랙을 나타내는 정현파 코드를 포함하는 오디오 스트림으로서, 상기 코드는 일반적으로 링크된 정현파 성분의 각 트랙에 대한 위상에 대응하는 일반적으로 단조롭게 변화하는 값을 나타내는, 오디오 스트림.
  16. 제 15항에 기재된 오디오 스트림이 저장되는, 저장 매체.
KR1020057009520A 2002-11-29 2003-11-06 오디오 스트림을 디코딩하는 방법과, 오디오 플레이어와, 오디오 시스템 KR101016995B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02080002 2002-11-29
EP02080002.5 2002-11-29

Publications (2)

Publication Number Publication Date
KR20050086871A true KR20050086871A (ko) 2005-08-30
KR101016995B1 KR101016995B1 (ko) 2011-02-28

Family

ID=32405734

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057009520A KR101016995B1 (ko) 2002-11-29 2003-11-06 오디오 스트림을 디코딩하는 방법과, 오디오 플레이어와, 오디오 시스템

Country Status (14)

Country Link
US (1) US7664633B2 (ko)
EP (1) EP1568012B1 (ko)
JP (1) JP4606171B2 (ko)
KR (1) KR101016995B1 (ko)
CN (1) CN100559467C (ko)
AT (1) ATE381092T1 (ko)
AU (1) AU2003274617A1 (ko)
BR (1) BR0316663A (ko)
DE (1) DE60318102T2 (ko)
ES (1) ES2298568T3 (ko)
MX (1) MXPA05005601A (ko)
PL (1) PL376861A1 (ko)
RU (1) RU2353980C2 (ko)
WO (1) WO2004051627A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1846253B (zh) * 2003-09-05 2010-06-16 皇家飞利浦电子股份有限公司 低比特率音频编码
WO2005036529A1 (en) 2003-10-13 2005-04-21 Koninklijke Philips Electronics N.V. Audio encoding
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
KR101080421B1 (ko) * 2007-03-16 2011-11-04 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
KR101410229B1 (ko) * 2007-08-20 2014-06-23 삼성전자주식회사 오디오 신호의 연속 정현파 신호 정보를 인코딩하는 방법및 장치와 디코딩 방법 및 장치
KR101425354B1 (ko) * 2007-08-28 2014-08-06 삼성전자주식회사 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치
ES2942867T3 (es) * 2010-07-19 2023-06-07 Dolby Int Ab Procesamiento de señales de audio durante la reconstrucción de alta frecuencia
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
CN103765511B (zh) * 2011-07-07 2016-01-20 纽昂斯通讯公司 嘈杂语音信号中的脉冲干扰的单信道抑制
PL232466B1 (pl) 2015-01-19 2019-06-28 Zylia Spolka Z Ograniczona Odpowiedzialnoscia Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio
US10847172B2 (en) 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4151471A (en) * 1977-11-04 1979-04-24 Burns Richard C System for reducing noise transients
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
CA1332982C (en) * 1987-04-02 1994-11-08 Robert J. Mcauley Coding of acoustic waveforms
US5179626A (en) * 1988-04-08 1993-01-12 At&T Bell Laboratories Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis
US5119397A (en) * 1990-04-26 1992-06-02 Telefonaktiebolaget L M Ericsson Combined analog and digital cellular telephone system having a secondary set of control channels
PL173718B1 (pl) * 1993-06-30 1998-04-30 Sony Corp Sposób i urządzenie do kodowania sygnałów cyfrowych
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5646961A (en) * 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
US5893057A (en) * 1995-10-24 1999-04-06 Ricoh Company Ltd. Voice-based verification and identification methods and systems
US5796842A (en) * 1996-06-07 1998-08-18 That Corporation BTSC encoder
AU3702497A (en) * 1996-07-30 1998-02-20 British Telecommunications Public Limited Company Speech coding
US7295752B1 (en) * 1997-08-14 2007-11-13 Virage, Inc. Video cataloger system with audio track extraction
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
KR100780561B1 (ko) 2000-03-15 2007-11-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 라게르 함수를 이용한 오디오 코딩 장치 및 방법
DE60113034T2 (de) * 2000-06-20 2006-06-14 Koninkl Philips Electronics Nv Sinusoidale kodierung
KR20080099326A (ko) * 2001-01-16 2008-11-12 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 엔코딩에서 신호 성분들의 링킹
EP2239733B1 (en) * 2001-03-28 2019-08-21 Mitsubishi Denki Kabushiki Kaisha Noise suppression method
US7184951B2 (en) * 2002-02-15 2007-02-27 Radiodetection Limted Methods and systems for generating phase-derivative sound
CN1846253B (zh) * 2003-09-05 2010-06-16 皇家飞利浦电子股份有限公司 低比特率音频编码
TWI253625B (en) * 2004-04-06 2006-04-21 I-Shun Huang Signal-processing system and method thereof

Also Published As

Publication number Publication date
US7664633B2 (en) 2010-02-16
ATE381092T1 (de) 2007-12-15
JP2006508394A (ja) 2006-03-09
EP1568012A1 (en) 2005-08-31
DE60318102T2 (de) 2008-11-27
JP4606171B2 (ja) 2011-01-05
CN1717719A (zh) 2006-01-04
AU2003274617A8 (en) 2004-06-23
MXPA05005601A (es) 2005-07-26
PL376861A1 (pl) 2006-01-09
RU2005120380A (ru) 2006-01-20
RU2353980C2 (ru) 2009-04-27
US20060036431A1 (en) 2006-02-16
KR101016995B1 (ko) 2011-02-28
AU2003274617A1 (en) 2004-06-23
CN100559467C (zh) 2009-11-11
WO2004051627A1 (en) 2004-06-17
BR0316663A (pt) 2005-10-11
ES2298568T3 (es) 2008-05-16
EP1568012B1 (en) 2007-12-12
DE60318102D1 (de) 2008-01-24

Similar Documents

Publication Publication Date Title
DK2543036T3 (en) Method of encoding audio signals including generic audio and speech frames
KR101016995B1 (ko) 오디오 스트림을 디코딩하는 방법과, 오디오 플레이어와, 오디오 시스템
US7146324B2 (en) Audio coding based on frequency variations of sinusoidal components
RU2368018C2 (ru) Кодирование аудиосигнала с низкой скоростью передачи битов
JP2011203752A (ja) オーディオ符号化方法及び装置
US7596490B2 (en) Low bit-rate audio encoding
US7197454B2 (en) Audio coding
US20060009967A1 (en) Sinusoidal audio coding with phase updates
KR20070019650A (ko) 오디오 인코딩

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140214

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150211

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160211

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170206

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180212

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190213

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20200214

Year of fee payment: 10