KR101058064B1 - 저비트율 오디오 인코딩 - Google Patents

저비트율 오디오 인코딩 Download PDF

Info

Publication number
KR101058064B1
KR101058064B1 KR1020067001232A KR20067001232A KR101058064B1 KR 101058064 B1 KR101058064 B1 KR 101058064B1 KR 1020067001232 A KR1020067001232 A KR 1020067001232A KR 20067001232 A KR20067001232 A KR 20067001232A KR 101058064 B1 KR101058064 B1 KR 101058064B1
Authority
KR
South Korea
Prior art keywords
sinusoidal
phase
frequency
codes
track
Prior art date
Application number
KR1020067001232A
Other languages
English (en)
Other versions
KR20060037375A (ko
Inventor
안드레아스 제이. 거리츠
브링커 알베르투스 씨. 덴
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20060037375A publication Critical patent/KR20060037375A/ko
Application granted granted Critical
Publication of KR101058064B1 publication Critical patent/KR101058064B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

정현파 오디오 인코더에서, 오디오 세그먼트마다 다수의 정현파들이 추정된다. 정현파는 주파수, 진폭 및 위상으로 표현된다. 보통, 위상은 주파수와 무관하게 양자화된다. 본 발명은 위상의 주파수 종속 양자화를 사용하며, 특히 저주파수들은 고주파수들보다 작은 양자화 간격들을 사용하여 양자화된다. 따라서, 저주파수들의 언래핑된 위상들은 고주파수들의 위상들보다 작은 양자화 범위로 더 정밀하게 양자화된다. 본 발명은 특히 저비트율 양자화기들에 대하여 디코딩된 신호 품질을 상당히 개선시킨다.
정현파 오디오 인코더, 양자화기, 오디오 스트림, 잡음 합성기

Description

저비트율 오디오 인코딩{Low bit-rate audio encoding}
본 발명은 특정 오디오 신호들과 같은 방송 신호들의 인코딩 및 디코딩에 관한 것이다.
방송 신호들, 예컨대 음성과 같은 오디오 신호들을 전송할 때, 압축 또는 인코딩 기술들이 신호의 대역폭 또는 비트율을 감소시키기 위해 사용된다.
도 1은 알려진 파라메트릭 인코딩 방식, 특히 본원 발명에서 사용되고 WO 01/69593에 기술된 정현파 인코더를 도시한다. 이 인코더에서, 입력 오디오 신호 x(t)는 전형적으로 각각 지속 기간 20ms의 여러 (가능하게 중첩하는) 시간 세그먼트들 또는 프레임들로 분할된다. 각각의 세그먼트는 과도(transient), 정현파 및 잡음 성분들로 분해된다. 또한, 본원 발명의 목적과 관련되지 않을지라도 고조파 복소성분들(harmonic complexes)과 같은 입력 오디오 신호의 다른 성분들을 유도하는 것이 가능하다.
정현파 분석기(130)에서, 각각의 세그먼트에 대한 신호 x2는 진폭, 주파수 및 위상 파라미터들로 표현된 다수의 정현파들을 사용하여 모델링된다. 이 정보는 보통 주파수들, 각각의 주파수에 대한 진폭들 및 각각의 주파수에 대한 위상들을 포함하는 간격의 스펙트럼 표현을 제공하는 푸리에 변환(FT)을 수행하여 분석 시간 간격에 대하여 추출되며, 여기서 각각의 위상은 범위 {-π, π} 내에서 "래핑(wrapped)"된다. 세그먼트에 대한 정현파 정보가 추정되면, 트래킹 알고리즘이 초기화된다. 이 알고리즘은 소위 트랙들을 획득하기 위하여 세그먼트-대-세그먼트에 기초하여 서로 다른 세그먼트들 내의 정현파들을 서로 링크시키기 위한 비용 함수를 사용한다. 따라서, 트래킹 알고리즘은 특정 시점에서 시작하여 다수의 시간 세그먼트들에 걸친 어떤 기간 동안 전개한 후 중지하는 정현파 트랙들을 포함하는 정현파 코드들 CS를 발생시킨다.
이러한 정현파 인코딩에서, 인코더에서 형성된 트랙들에 대한 주파수 정보를 전송하는 것이 일반적이다. 이는 트랙들이 느리게 변하는 주파수들을 가지기 때문에 단순한 방식으로 그리고 비교적 저비용으로 수행될 수 있다. 따라서, 주파수 정보는 시간 차동 인코딩에 의하여 효율적으로 전송될 수 있다. 일반적으로, 진폭은 시간에 따라 다르게 인코딩될 수 있다.
주파수와 대조적으로, 위상은 시간에 대하여 빠르게 변한다. 주파수가 일정하면, 위상은 시간에 대하여 선형으로 변하고, 주파수 변들은 선형 과정으로부터 대응하는 위상 편차들을 야기할 것이다. 트랙 세그먼트 인덱스의 함수로서, 위상은 대략 선형 동작을 가질 것이다. 따라서, 인코딩된 위상의 전송은 더 복잡해진다. 그러나, 전송시에, 위상은 범위 {-π, π}에 제한되며, 위상은 푸리에 변환에 의하여 제공되는 바와 같이 "래핑"된다. 이러한 위상의 모듈로 2π표현 때문에, 위상의 구조적 내부-프레임 관계는 손실되며, 일견하여, 확률 변수로 보인다.
그러나, 위상이 주파수의 적분이기 때문에, 위상은 잉여적인 것이어서, 원리적으로 전송될 필요가 없다. 이는 소위 위상 연속(phase continuation)이라 불리며, 비트율을 상당히 감소시킨다.
위상 연속에서, 각각의 트랙의 제1 정현파만이 비트율을 절약하기 위하여 전송된다. 각각의 다음 위상은 초기 위상 및 트랙의 주파수들로부터 계산된다. 주파수들이 양자화되어 항상 매우 정확하게 추정되지는 않으므로, 연속 위상은 측정된 위상로부터 이탈될 것이다. 위상 연속이 오디오 신호의 품질을 저하시키는 실험이 개시되어 있다.
모든 정현파에 대하여 위상을 전송하면 수신기 종단에서 디코딩된 신호의 품질이 향상되나 비트율/대역폭이 상당히 증가한다. 따라서, -π과 π사이의 값들을 갖는 정현파 트랙의 측정된 위상들이 측정된 주파수들 및 링크 정보를 사용하여 언래핑되는 결합 주파수/위상 양자화기는 트랙을 따라 단조롭게 증가하는 언래핑된 위상들(unwaped phase)을 발생시킨다. 그 인코더에서, 언래핑된 위상은 적응 차동 펄스 코드 변조(ADPCM) 양자화기를 사용하여 양자화된 후 디코더에 전송된다. 디코더는 언래핑된 위상 궤도로부터 정현파 트랙의 주파수들 및 위상들을 유도한다.
위상 연속에서, 단지 인코딩된 주파수만이 전송되며, 위상은 위상과 주파수 간의 적분 관계를 전개함으로서 주파수 데이터로부터 디코더에서 복원된다. 그러나, 위상 연속이 사용될 때, 위상이 완벽하게 복원될 수 없다는 것이 알려져 있다. 주파수 에러들이 예컨대 주파수의 측정 에러 또는 양자화 잡음으로 인하여 발생하면, 적분 관계를 사용하여 재구성된 위상은 전형적으로 드리프트(drift) 특성을 가진 에러를 나타낼 것이다. 이는 주파수 에러들이 대략 랜덤한(random) 특성을 가지기 때문이다. 저주파수 에러들은 적분에 의하여 증폭되며, 그 결과 복원된 위상은 실제로 측정된 위상과 차이가 나는 경향이 있다. 이는 가청 가공물들을 유발한다.
이는 도 2a에 예시되어 있으며, 여기서 Ω 및
Figure 112009041499932-pct00001
는 각각 트랙에 대한 실제 주파수 및 실제 위상이다. 인코더 및 디코더에서, 주파수 및 위상은 문자 "I"로 표현된 적분 관계를 가진다. 인코더에서 양자화 프로세스는 부가 잡음 n으로서 모델링된다. 디코더에서, 복원된 위상
Figure 112009041499932-pct00002
은 따라서 2개의 성분, 즉 실제 위상
Figure 112009041499932-pct00003
및 잡음 성분
Figure 112009041499932-pct00004
을 포함하며, 여기서 복원된 위상의 스펙트럼 및 잡음
Figure 112009041499932-pct00005
의 전력 스펙트럼 밀도 함수는 뚜렷한 저주파수 특성을 가진다.
따라서, 위상 연속에서, 복원된 위상이 저주파수 신호의 적분이기 때문에, 복원된 위상은 저주파수 신호이다. 그러나, 재구성된 프로세스에서 유입된 잡음은 이 저주파수 범위에서 또한 현저하다. 따라서, 인코딩 동안 유입된 잡음 n을 필터링할 목적으로 이들 소스들을 분리시키는 것은 곤란하다.
종래의 양자화 방법에서, 주파수 및 위상은 서로 독립적으로 양자화된다. 일반적으로, 균일한 스칼라 양자화기가 위상 파라미터에 적용된다. 지각적인 이유로 인하여, 저주파수들은 고주파수들보다 더 정확하게 양자화되어야 한다. 따라서, 주파수들은 ERB 또는 바크 함수(Bark function)를 사용하여 비균일한 표현으로 변환된 후 균일하게 양자화되며, 이는 비균일 양자화기의 결과를 갖는다. 또한, 물리적인 이유들이 발견될 수 있으며, 고조파 복소수들에서, 높은 고조파 주파수들은 저주파수들보다 높은 주파수 변동들을 갖는 경향이 있다.
주파수 및 위상이 공동으로 양자화될 때, 주파수 종속 양자화는 정확하지 않다. 균일한 양자화 접근 방법의 사용은 저품질 사운드 재구성을 유발한다. 게다가, 양자화 정밀도가 낮을 수 있는 고주파수들에 대하여, 적은 비트들을 필요로 하는 양자화기가 개발될 수 있다. 언래핑된 위상들에 대하여, 유사한 메커니즘이 바람직하다.
본 발명은 저비트율을 사용하여 광대역 신호, 특히 음성 신호와 같은 오디오 신호를 인코딩하는 방법을 제공한다. 정현파 인코더에서, 오디오 세그먼트마다 다수의 정현파들이 추정된다. 정현파는 주파수, 진폭 및 위상에 의해 표현된다. 보통, 위상은 주파수와 무관하게 양자화된다. 본 발명은 위상의 주파수 종속 양자화를 사용하며, 특히 저주파수들은 고주파수들에서보다 짧은 양자화 간격들을 사용하여 양자화된다. 따라서, 저주파수들의 언래핑된 위상들은 고주파수들의 위상들보다 짧은 양자화 범위로 더 정밀하게 양자화된다. 본 발명은 특히 저비트율 양자화기들에 대하여 디코딩된 신호 품질을 상당히 개선시킨다.
본 발명은 비균일 주파수 양자화를 유지하면서 주파수 및 위상의 결합 양자화를 사용한다. 이는 모든 주파수들, 특히 저주파수들에서 양호한 위상 정밀도 및 신호 품질을 계속해서 유지하면서 저비트율로 위상 정보를 전송할 수 있는 장점을 제공할 수 있다.
이러한 방법의 장점은 특히 저주파수들에서 위상의 정밀도를 개선시키며, 여기서 위상 에러는 고주파수들보다 큰 시간 에러에 대응한다. 이는 사람의 귀가 주파수 및 위상에 민감할 뿐만 아니라 과도 상태일 때 절대 타이밍에도 민감하기 때문에 중요하며, 본 발명의 방법은 특히 위상 및 주파수 값들을 양자화하기 위하여 소수의 비트들만이 사용될 때 사운드 품질을 개선시킬 수 있다. 한편, 요구된 사운드 품질이 소수의 비트들을 사용하여 획득될 수 있다. 저주파수들이 느리게 변하기 때문에, 양자화 범위는 더욱 제한될 수 있으며 더 정밀한 양자화가 획득된다. 게다가, 정밀한 양자화로의 적응이 빠르게 이루어진다.
본 발명은 정현파들이 사용되는 오디오 인코더에 사용될 수 있다. 본 발명은 인코더 및 디코더에 관한 것이다.
도 1은 본 발명의 실시예가 구현된 종래의 오디오 인코더를 도시한 도면.
도 2a는 종래의 시스템들에서 위상과 주파수의 관계를 도시한 도면.
도 2b는 본 발명에 따른 오디오 시스템들에서 위상과 주파수의 관계를 도시한 도면.
도 3a 및 도 3b는 도 1의 오디오 인코더의 정현파 인코더 성분에 대한 바람직한 실시예를 도시한 도면.
도 4는 본 발명의 실시예가 구현된 오디오 플레이어를 도시한 도면.
도 5a 및 도 5b는 도 4의 오디오 플레이어의 정현파 합성기 성분에 대한 바람직한 실시예를 도시한 도면.
도 6은 본 발명에 따른 오디오 인코더 및 오디오 플레이어를 포함하는 시스 템을 도시한 도면.
본 발명의 바람직한 실시예들이, 동일한 구성요소들이 동일한 도면부호들을 가지며 달리 언급되지 않는 한 동일한 기능들을 수행하는 첨부 도면들을 참조로 이제 기술될 것이다. 본 발명의 바람직한 실시예에서, 인코더(1)는 WO 01/69593에 개시된 타입의 정현파 인코더이다(도 1). 이 종래 기술의 인코더 및 그에 대응하는 디코더의 동작이 잘 기술되어 있으며, 본 발명과 관련되어서만 설명된다.
본 발명의 종래 기술의 및 바람직한 실시예에서, 오디오 인코더(1)는 어떤 한 샘플링 주파수에서 입력 오디오 신호를 샘플링하여 오디오 신호의 디지털 표현 x(t)을 발생시킨다. 그 다음에, 인코더(1)는 샘플링된 입력 신호를 3가지 성분들, 즉 과도 신호 성분들, 유지 결정 성분들(sustained deterministic components), 및 유지 확률 성분들로 분리한다. 오디오 인코더(1)는 과도 인코더(11), 정현파 인코더(13) 및 잡음 인코더(14)를 포함한다.
과도 인코더(11)는 과도 검출기(TD)(110), 과도 분석기(TA)(111) 및 과도 합성기(TS)(112)를 포함한다. 우선, 신호 x(t)는 과도 검출기(110)에 입력된다. 이 검출기(110)는 과도 신호 성분 및 그것의 위치가 존재하는지를 추정한다. 이 정보는 과도 분석기(111)에 공급된다. 과도 신호 성분의 위치가 결정되면, 과도 분석기(111)는 과도 신호 성분(의 주요 부분)의 추출을 시도한다. 과도 신호 성분은 바람직하게 추정된 시작 위치에서 시작하는 신호 세그먼트에 형상 함수를 매칭시키고, 예컨대 다수의(소수) 정현파 성분들을 사용하여 형성 함수 하의 콘텐츠를 결정한다. 이 정보는 과도 코드 CT에 포함되며, 과도 코드 CT의 발생과 관련한 더 상세한 설명은 WO 01/69593에 제공된다.
과도 코드 CT는 과도 합성기(112)에 제공된다. 합성된 과도 신호 성분은 감산기(16)에서 입력 신호 x(t)로부터 감산되고, 신호 x1이 생성된다. 이득 제어 메커니즘 GC(12)은 x1으로부터 x2를 생성하기 위하여 사용된다.
신호 x2는 정현파 인코더(13)에 공급되며, 신호 x2는 (결정적) 정현파 성분들을 결정하는 정현파 분석기(SA)(130)에서 분석된다. 따라서, 과도 분석기의 존재가 바람직하긴 하지만 필수적인 것은 아니며, 본 발명은 이러한 분석기 없이 구현될 수 있다는 것을 알 것이다. 선택적으로, 앞서 언급된 바와 같이, 본 발명은 또한 예컨대 고조파 복소수 분석기로 구현될 수 있다. 간단히 말해서, 정현파 인코더는 하나의 프레임 세그먼트로부터 다른 프레임 세그먼트로 링크된 정현파 성분들의 트랙들로서 입력 신호 x2를 인코딩한다.
이제 도 3a를 참조하면, 종래 기술과 동일한 방식으로, 바람직한 실시예에서, 입력 신호 x2의 각각의 세그먼트는 푸리에 변환(FT) 유닛(40)에서 주파수 도메인으로 변환된다. 각각의 세그먼트에 대하여, FT 유닛은 측정된 진폭들 A, 위상들 φ 및 주파수들 ω을 제공한다. 이전에 언급된 바와 같이, 푸리에 변환에 의하여 제공된 위상들의 범위는 -π≤φ≤π에 제한된다. 트래킹 알고리즘(TA) 유닛(42)은 각각의 세그먼트에 대한 정보를 선택하고, 적절한 비용 함수를 사용하여, 하나의 세그먼트로부터 다른 세그먼트로 정현파들을 링크시켜, 각각의 트랙에 대하여 측정된 위상들
Figure 112009041499932-pct00006
및 주파수들 ω(k)의 시퀀스를 생성한다.
종래 기술과 대조적으로, 분석기(130)에 의하여 생성된 정현파 코드들 CS은 위상 정보를 포함하며, 주파수는 디코더에서 이 정보로부터 재구성된다.
그러나, 앞서 언급된 바와 같이, 측정된 위상은 래핑되며, 이는 측정된 위상이 모듈로 2π표현으로 제한된다는 것을 의미한다. 따라서, 바람직한 실시예에서, 분석기는 트랙에 대한 구조적 내부-프레임 위상 상태
Figure 112009041499932-pct00007
을 노출시키기 위하여 모듈로 2π위상 표현이 언래핑되는 위상 언래퍼(PU)(44)를 포함한다. 정현파 트랙들의 주파수가 거의 일정하기 때문에, 언래핑된 위상
Figure 112009041499932-pct00008
은 전형적으로 거의 선형으로 증가하는 (또는 감소하는) 함수이며 이는 가능한 저렴하게, 즉 저비트율로 위상을 전송할 수 있도록 한다는 것을 알 수 있다. 언래핑된 위상
Figure 112009041499932-pct00009
은, 전송하기에 적합한 양자화된 표현 레벨들 r을 출력으로서 제공하는 위상 인코더(PE)(46)에 입력으로서 제공된다.
이제 위상 언래퍼(44)의 동작을 참조하면, 앞서 언급된 바와 같이, 트랙에 대한 순시 위상
Figure 112009041499932-pct00010
및 순시 주파수 Ω는 이하의 수식 (1)에 의하여 관련되고,
Figure 112006003816020-pct00011
(1)
여기서, T0는 기준 시간 상수이다.
프레임들 k=K, K+1,...,K+L-1에서 정현파 트랙은 측정된 주파수들 ω(k)(초당 라디안(radian)으로 표현됨) 및 측정된 위상들 φ(k)(라디안으로 표현됨)를 가진다. 프레임의 중심들 간의 거리는 U(초로 표현된 업데이트율)로 제공된다. ω(k) = Ω(kU)로, 측정된 주파수들은 가정된 하부 연속적인-시간 주파수 트랙 Ω의 샘플들이라고 가정되며, 유사하게
Figure 112009041499932-pct00012
=
Figure 112009041499932-pct00013
(kU) mod (2π)로, 측정된 위상들은 연관된 연속적인-시간 위상 트랙
Figure 112009041499932-pct00014
의 샘플들이다. 정현파 인코딩에 대하여, Ω는 거의 상수 함수(constant function)라고 가정된다.
주파수들이 세그먼트 내에서 거의 일정하다고 가정하면, 수식(1)은 다음과 같을 수 있다.
Figure 112006003816020-pct00015
(2)
따라서, 주어진 세그먼트의 위상 및 주파수와 다음 세그먼트의 주파수를 알면, 다음 세그먼트 및 트랙 내의 각각의 세그먼트 등에 대한 언래핑된 위상값을 추정하는 것이 가능하다는 것을 알 수 있다.
바람직한 실시예에서, 위상 언래퍼는 시간 상수 k에서의 언래퍼 인자 m(k)를 결정한다.
Figure 112006003816020-pct00016
(3)
언래퍼 인자 m(k)는 언래핑된 위상을 구하기 위하여 부가되어야 하는 사이클들의 수를 위상 언래퍼(44)에 알린다.
수식(2) 및 수식(3)을 결합하면, 위상 언래퍼는 다음과 같이 증분 언랩 인자 e(k)를 결정한다.
Figure 112006003816020-pct00017
여기서 e는 정수이어야 한다. 그러나, 측정 및 모델 에러들로 인하여, 증분 언랩 인자는 정확히 정수는 아닐 것이며, 그 결과, 모델 및 측정 에러들이 작다고 가정하면 다음과 같다.
Figure 112006003816020-pct00018
증분 언랩 인자 e를 갖고, 수식(3)으로부터 m(k)가 누산 합으로서 계산되며, 여기서 일반성의 손실 없이, 위상 언래퍼는 m(K)=0를 가진 제1 프레임 K에서 시작되며, m(k) 및 φ(k)로부터 (언래핑된) 위상
Figure 112009041499932-pct00019
(kU)가 결정된다.
실제로, 샘플링된 데이터
Figure 112006003816020-pct00020
(kU) 및 Ω(kU)는 다음과 같은 측정 에러들에 의하여 왜곡된다.
Figure 112006003816020-pct00021
여기서, ε1 및 ε2는 각각 위상 및 주파수 에러들이다. 언랩 인자가 모호하게 결정되는 것을 방지하기 위하여, 측정 데이터는 충분히 정확하게 결정될 필요가 있다. 따라서, 바람직한 실시예에서, 트래킹은 다음과 같은 수식이 되도록 제한된다.
Figure 112006003816020-pct00022
여기서, δ는 라운딩 연산(rounding operation)의 에러이다. 에러 δ는 U와의 곱으로 인한 ω에서의 에러들에 의하여 주로 결정된다. ω가 샘플링 주파수 Fs를 가진 입력 신호의 샘플링된 버전으로부터의 푸리에 변환의 절대값의 최대치로부터 결정되고, 푸리에 변환의 해는 2π/La라고(여기서, La은 분석 크기이다) 가정하자. 고려된 경계 내에 있도록 다음과 같은 관계를 가진다.
Figure 112006003816020-pct00023
이는, 언래핑이 정확해지도록 분석 크기가 업데이트 크기보다 수 배 커야한다는 것을 의미하며, 예컨대 δ0=1/4로 설정되면, 분석 크기는 업데이트 크기의 4배이다(위상 측정시에 에러들 ε1을 무시).
라운딩 연산에서 결정 에러들을 방지하기 위하여 취해질 수 있는 제2 조치는 트랙들을 올바르게 정의하는 것이다. 트래킹 유닛(42)에서, 정현파 트랙들은 전형적으로 진폭 및 주파수 차들을 고려하여 정의된다. 부가적으로, 링크 기준에서 위상 정보를 고려하는 것도 가능하다. 예컨대, 다음과 같은 수식에 따라 측정된 값과 예측된 값
Figure 112009041499932-pct00024
간의 차로서 위상 예측 에러 ε를 정의할 수 있다.
Figure 112006003816020-pct00025
여기서, 예측된 값은 다음과 같이 될 수 있다.
Figure 112006003816020-pct00026
따라서, 바람직하게 트래킹 유닛(42)은 ε가 임의의 값(예컨대, ε>π/2)보드 큰 트랙들을 금지하며, 이에 따라 e(k)가 명확하게 정의된다.
부가적으로, 인코더는 디코더에서 이용가능하게 될 위상들 및 주파수들을 계산할 수 있다. 디코더에서 이용가능할 위상들 또는 주파수들이 인코더에 존재하고 있는 위상들 및/또는 주파수들과 너무 많이 다르면, 트랙을 인터럽트하도록, 즉 트랙의 끝을 시그널링하고 현재의 주파수 및 위상과 그들의 링크된 정현파 데이터를 사용하여 새로운 트랙을 시작시키도록 결정될 수 있다.
위상 언래퍼(PU)(44)에 의하여 생성된 샘플링된 언래핑된 위상
Figure 112009041499932-pct00027
(kU)은 표현 레벨들 r의 세트를 생성하기 위하여 위상 인코더(PE)(46)에 입력으로서 제공되다. 언래핑된 위상과 같은 일반적으로 단조롭게 변하는 특징을 효율적으로 전송하는 기술들이 알려져 있다. 바람직한 실시예에서, 도 3b에 도시된 바와 같이, 적응 차동 펄스 코드 변조(ADPCM)가 사용된다. 여기서, 예측기(PF)(48)는 다음 트랙 세그먼트의 위상을 추정하고 양자화기(Q)(50) 내에서만의 차를 인코딩하기 위하여 사용된다.
Figure 112009041499932-pct00028
가 거의 선형 함수인 것으로 예측되기 때문에 단순화를 위하여 예측기(48)는 다음과 같은 형식의 2차 필터로서 선택된다.
Figure 112006003816020-pct00029
여기서, x는 입력이며 y는 출력이다. 그러나, 다른 함수 관계들(고차 관계들을 포함)을 취하여 필터 계수들의 적응(순방향 또는 역방향)을 포함하는 것이 가능하다는 것을 알 수 있다. 바람직한 실시예에서, 역방향 적응 제어 메커니즘(QC)(52)은 양자화기(50)의 제어를 단순하게 하기 위하여 사용된다. 순방향 적응 제어가 또한 가능하나 초과 비트율 오버헤드를 필요로 한다.
알 수 있는 바와 같이, 트랙에 대한 인코더(및 디코더)의 초기화는 시작 위상 φ(0) 및 주파수 ω(0)에 대한 지식과 함께 시작한다. 이들은 양자화되고 개별 메커니즘에 의해 전송된다. 부가적으로, 인코더의 양자화 제어기(52) 및 디코더의 대응하는 제어기(62)(도 5b)에서 사용된 초기 양자화 단계는 인코더 및 디코더에서 임의의 값으로 설정 또는 전송된다. 마지막으로, 트랙의 끝은 개별 측면 스트림에서 또는 위상들의 비트 스트림에서 고유 심볼로서 시그널링될 수 있다.
언래핑된 위상의 시작 주파수는 인코더 및 디코더에 알려진다. 이 주파수에 기초하여, 양자화 주파수가 선택된다. 고주파수에서 시작하는 언래핑된 위상 궤도에 대해서보다 저주파수에서 시작하는 언래핑된 위상 궤도들에 대하여, 더 정밀한 양자화 그리드(grid), 즉 높은 분석이 선택된다.
ADPCM 양자화기에서, 언래핑된 위상
Figure 112009041499932-pct00030
(k)이 트랙의 선행 위상들로부터 예측/추정된다(여기서 k는 트랙의 수를 나타낸다). 예측된 위상
Figure 112009041499932-pct00031
(k)과 언래핑된 위상
Figure 112009041499932-pct00032
(k) 간의 차는 양자화되어 전송된다. 양자화기는 트랙의 모든 언래핑된 위상에 대하여 적응된다. 예측 에러가 작을 때, 양자화기는 가능한 값들의 범위를 제한하며 양자화는 더 정밀하게 될 수 있다. 다른 한편으로, 예측 에러가 크면, 양자화기는 개략적인 양자화를 사용한다.
양자화기 Q(도 3b)는 다음과 같은 수식에 의하여 계산된 예측 에러 Δ를 양자화한다.
Figure 112006003816020-pct00033
예측 에러 Δ는 룩-업 테이블을 사용하여 양자화될 수 있다. 이를 위하여, 테이블 Q가 유지된다. 예컨대, 2-비트 ADPCM 양자화기에 대하여, Q에 대한 초기 테이블이 테이블 1에 도시된 테이블과 같을 수 있다.
인덱스 i 하위 경계들 bl 상위 경계 bu
0 - ∞ - 3.0
1 - 3.0 0
2 0 3.0
3 3.0
테이블 1: 제1 연속에 대하여 사용되는 양자화 테이블 Q
양자화는 다음과 같이 수행된다. 예측 에러 Δ는 다음과 같은 관계식이 만족되도록 경계치들 b와 비교된다.
Figure 112006003816020-pct00034
앞의 관계식을 만족하는 i의 값으로부터, 표현 레벨 r은 r=i에 의하여 계산된다.
연관된 표현 레벨들은 테이블 2에 나타낸 표현 테이블 R에 저장된다.
표현 레벨 r 표현 테이블 R 레벨 타입
0 -3.0 외부 레벨
1 -0.75 내부 레벨
2 0.75 내부 레벨
3 3.0 외부 레벨
테이블 2: 제1 연속에 대하여 사용되는 표현 테이블 R
테이블 Q의 엔트리들은 트랙 내의 다음 정현파 성분의 양자화를 위해 인자 c가 곱해진다.
Figure 112006003816020-pct00035
트랙의 디코딩 동안, 양 테이블들은 생성된 표현 레벨들 r에 따라 스케일링된다. r이 현재의 부프레임에 대하여 1 또는 2(내부 레벨)이면, 양자화 테이블에 대한 스케일 인자 c는 다음과 같이 설정된다.
c=2-1/4
c<1이기 때문에, 트랙 내의 다음 정현파의 주파수 및 위상은 더 정밀하게 된다. r이 0 또는 3(외부 레벨)이면, 스케일 인자는 다음과 같이 설정된다.
c=21/2
c>1이기 때문에, 트랙 내의 다음 정현파에 대한 양자화 정밀도가 감소된다. 이들 인자들을 사용하면, 하나의 업-스케일링은 2개의 다운-스케일링에 의하여 원상태로 복원될 수 있다. 업-스케일 및 다운-스케일 인자들 간의 차는 업-스케일링의 고속 개시를 야기하며, 여기서 대응하는 다운-스케일링은 2개의 단계들을 필요로 한다.
양자화 테이블에서 매우 작거나 또는 매우 큰 엔트리들을 방지하기 위하여, 내부 레벨의 절대값이 π/64 내지 3π/4일 때만 적응이 실행된다. 이 경우, c는 1로 설정된다.
디코더에서는, 단지 테이블 R만이 수신된 표현 레벨들 r을 양자화된 예측 에러로 변환시키기 위해 유지되어야 한다. 이러한 역-양자화 연산은 도 5b 내의 블록 DQ에 의하여 수행된다.
앞의 설정들을 사용하면, 재구성된 사운드의 품질은 개선을 필요로 한다. 본 발명에 따르면, 언래핑된 위상 트랙들에 대한 상이한 초기 테이블들은 시작 주파수에 따라 사용된다. 그 결과, 보다 양호한 사운드 품질이 획득된다. 이는 다음과 같이 수행된다. 초기 테이블들 Q 및 R은 트랙의 제1 주파수에 기초하여 스케일링된다. 테이블 3에서, 주파수 범위들과 함께 스케일 인자들이 주어진다. 트랙의 제1 주파수가 어떠한 주파수 범위 내에 있으면, 적절한 스케일 인자가 선택되고, 테이블 R 및 Q는 스케일 인자에 의하여 나누어진다. 종단점들(end-points)은 트랙의 제1 주파수에 따를 수 있다. 디코더에서, 올바른 초기 테이블 R과 함께 시작하기 위한 대응하는 절차가 수행된다.
Figure 112006003816020-pct00036
테이블 3: 주파수 종속 스케일 인자들 및 초기 테이블들
테이블 3은 2-비트 ADPCM 양자화기에 대한 주파수 종속 스케일 인자들 및 대응하는 초기 테이블들 Q 및 R의 예를 나타낸다. 오디오 주파수 범위 0-22050Hz는 4개의 주파수 부범위들로 분할된다. 위상 정밀도가 고주파수 범위들에 대해서보다 저주파수 범위들에서 개선된다는 것을 알 수 있다.
주파수 부범위들의 수 및 주파수 종속 스케일 인자들은 변하며, 개인 목적 및 요건들에 맞도록 선택될 수 있다. 앞서 기술된 것과 유사하게, 테이블 3에서 주파수 종속 초기 테이블들 Q 및 R은 하나의 시간 세그먼트로부터 다음 시간 세그먼트까지 위상의 전개에 적응하도록 동적으로 업-스케일링 및 다운-스케일링될 수 있다.
예컨대 3-비트 ADPCM 양자화기에서, 3개의 비트에 의하여 정의된 8개의 양자화 간격들의 초기 경계들은 다음과 같이 정의될 수 있으며,
Figure 112009041499932-pct00037
, 최소 그리드 크기 π/64 및 최대 그리드 크기 π/2를 가질 수 있다. 표현 테이블 R은 다음과 같을 수 있다.
Figure 112009041499932-pct00038
테이블 3에 나타낸 테이블 Q 및 R의 유사한 주파수 종속 초기화는 이 경우에 사용될 수 있다.
정현파 인코더에서 발생된 정현파 코드 CS로부터, 정현파 신호 성분들은 디코더의 정현파 합성기(SS)(32)와 관련하여 기술된 것과 동일한 방식으로 정현파 합성기(SS)(131)에 의하여 재구성된다. 이 신호는 감산기(17)에서 정현파 인코더(13)에 대한 입력 x2로부터 감산되며, 이에 따라 나머지 신호 x3가 생성된다. 정현파 인코더(13)에 의하여 생성된 잔류 신호 x3는 예컨대 국제 특허 출원 PCT/EP00/04599에 기술된 바와 같이, 잡음을 나타내는 잡음 코드 CN를 생성하는 바람직한 실시예의 잡음 분석기(14)에 전달된다.
마지막으로, 멀티플렉서(15)에서, 코드들 CT, CS, 및 CN를 포함하는 오디오 스트림 AS이 구성된다. 오디오 스트림 AS는 예컨대 데이터 버스, 안테나 시스템, 저장 매체 등에 공급된다.
도 4는 예컨대 도 1의 인코더(1)에 의하여 생성되고 데이터 버스, 안테나 시스템, 저장 매체 등으로부터 획득된 오디오 스트림 AS'를 디코딩하는데 적합한 오디오 플레이어(3)를 도시한다. 오디오 스트림 AS'는 코드들 CT, CS 및 CN을 획득하기 위하여 디-멀티플렉서(30)에서 디-멀티플렉싱된다. 이들 코드들은 과도 합성기(31), 정현파 합성기(32) 및 잡음 합성기(33)에 각각 공급된다. 과도 코드 CT로부터, 과도 신호 성분들이 과도 합성기(31)에서 계산된다. 과도 코드가 형상 함수를 나타내는 이 경우에, 형상은 수신된 파라미터들에 기초하여 계산된다. 게다가, 형상 콘텐츠는 정현파 성분들의 주파수들 및 진폭들에 기초하여 계산된다. 과도 코드 CT가 스텝(step)을 나타내면, 과도 상태가 계산되지 않는다. 전체 과도 신호 yT는 모든 과도 상태들의 합이다.
분석기(130)에 의하여 인코딩된 정보를 포함하는 정현파 코드 CS는 정현파 합성기(32)에 의하여 사용되어 신호 yS를 생성한다. 이제 도 5a 및 도 5b를 참조하면, 정현파 합성기(32)는 위상 인코더(46)와 호환가능한 위상 디코더(PD)(56)를 포함한다. 여기서, 2차 예측 필터(PF)(64)와 관련된 역-양자화기(DQ)(60)는 표현 레벨들 r; 예측 필터(PF)(64)에 제공된 초기 정보
Figure 112009041499932-pct00040
및 양자화 제어기(QC)(62)에 대한 초기 양자화 스텝으로부터 언래핑된 위상
Figure 112009041499932-pct00072
(의 추정치)을 생성한다.
도 2b에 나타낸 바와 같이, 주파수는 미분에 의하여 언래핑된 위상
Figure 112009041499932-pct00041
으로부터 복원될 수 있다. 디코더에서의 위상 에러가 대략 백색 에러라고 가정하면, 미분이 고주파수들을 증폭시키기 때문에, 미분은 잡음을 감소시키고 이에 따라 디코더에서 주파수의 정확한 추정을 구하기 위해 저주파수 필터와 결합될 수 있다.
바람직한 실시예에서, 필터링 유닛(FR)(58)은 순방향, 역방향 또는 중앙 차들로서 절차들에 의하여 언래핑된 위상으로부터 주파수
Figure 112009041499932-pct00042
를 구하는데 필요한 미분을 근사화한다. 이는 인코딩된 신호의 정현파 성분을 합성하기 위하여 디코더가 종래의 방식으로 사용가능한 위상들
Figure 112009041499932-pct00043
및 주파수들
Figure 112009041499932-pct00044
를 출력으로서 생성하도록 한다.
동시에, 신호의 정현파 성분들이 합성되기 때문에, 잡음 코드 CN는 잡음 스펙트럼을 근사화하는 주파수 응답을 가진 주로 필터인 잡음 합성기(NS)(33)에 공급된다. NS(33)은 잡음 코드 CN를 가진 백색 잡음 신호를 필터링함으로써 재구성되는 잡음 yN을 생성한다. 전체 신호 y(t)는 정현파 신호 yS와 잡음 신호 yN의 합과 임의의 진폭 압축 해제(g)의 곱과 과도 신호 yT의 합을 포함한다. 오디오 플레이어는 각각의 신호들을 합산하기 위하여 2개의 가산기들(36, 37)을 포함한다. 전체 신호는 예컨대 스피커인 출력 유닛(35)에 공급된다.
도 6은 도 1에 도시된 오디오 인코더(1) 및 도 4에 도시된 오디오 플레이어(3)를 포함하는 본 발명의 오디오 시스템을 도시한다. 이러한 시스템은 재생 및 기록 특징들을 제공한다. 오디오 스트림 AS는 오디오 인코더로부터 무선 접속부, 데이터(2) 버스 또는 저장 매체일 수 있는 통신 채널(2)을 통해 오디오 플레이어에 공급된다. 통신 채널(2)이 저장 매체인 경우에, 저장 매체는 시스템에 고정될 수 있거나, 또는 분리형 디스크, 메모리 스틱 등일 수 있다. 통신 채널(2)은 오디오 시스템의 부분일 수 있으나, 종종 오디오 시스템 외부에 존재할 것이다.
몇 개의 연속 세그먼트들로부터의 코딩된 데이터는 링크된다. 이는 다음과 같이 수행된다. 각각의 세그먼트에 대하여, 다수의 정현파들이 결정된다(예컨대 FFT를 사용하여). 정현파는 주파수, 진폭 및 위상으로 구성된다. 정현파들의 수는 세그먼트마다 변한다. 일단 정현파들이 세그먼트에 대하여 결정되면, 이전 세그먼트로부터의 정현파들에 접속하기 위하여 분석이 수행된다. 이는 '링크(linking)' 및 '트래킹(tracking)'으로 불린다. 분석은 현재 세그먼트의 정현파와 이전 세그먼트로부터의 모든 정현파들 간의 차에 기초한다. 링크/트랙은 가장 작은 차를 가진 이전 세그먼트의 정현파로 형성된다. 가장 작은 차가 임의의 임계값보다 크면, 이전 세그먼트의 정현파들에의 접속이 형성되지 않는다. 이러한 방식에서는 새로운 정현파가 생성되거나 또는 "탄생(born)"된다.
정현파들 간의 차는 정현파들의 주파수, 진폭 및 위상을 사용하는 '비용 함수'를 사용하여 결정된다. 이러한 분석은 각각의 세그먼트에 대하여 수행된다. 결과는 오디오 신호에 대한 다수의 트랙들이다. 트랙은 이전 세그먼트로부터의 정현파들과 접속되지 않은 정현파인 탄생(birth) 정현파를 가진다. 탄생 정현파는 다르지않게 인코딩된다. 이전 세그먼트들로부터의 정현파들에 접속된 정현파들은 연속들이라 불리며, 이들은 이전 세그먼트로부터의 정현파들에 관련하여 다르게 인코딩된다. 이는, 단지 차들이 인코딩되고 절대값이 아닌 값이라는 점때문에 다수의 비트들을 절약한다.
f(n-1)이 이전 세그먼트로부터의 정현파의 주파수이고 f(n)가 현재 세그먼트로부터의 접속된 정현파이면, f(n)-f(n+1)가 디코더에 전송된다. 수 n은 트랙의 수를 나타내며, n=1은 탄생 정현파를 나타내며, n=2는 제1 연속들 등을 나타낸다. 진폭들에 대해서도 그러하다. 초기 정현파(=탄생 정현파)의 위상 값은 전송되지만, 연속에 대하여는, 위상이 전송되지 않지만, 위상은 주파수들로부터 얻어질(retrieve) 수 있다. 트랙이 다음 세그먼트에서 연속을 갖지 않으면, 트랙은 종료하거나 또는 "소멸(dies)"된다.

Claims (19)

  1. 신호를 인코딩하는 방법에 있어서,
    복수의 순차적인 세그먼트들의 각 세그먼트에 대한 샘플링된 신호값들(x(t))의 각각의 세트를 제공하는 단계;
    상기 복수의 순차적인 세그먼트들의 각 세그먼트에 대한 하나 이상의 정현파 성분들을 결정하기 위하여 상기 샘플링된 신호값들(x(t))을 분석하는 단계로서, 각 정현파 성분은 주파수값(Ω) 및 위상값
    Figure 112009041499932-pct00045
    을 포함하는, 상기 분석하는 단계;
    정현파 트랙들을 제공하기 위하여 복수의 순차적인 세그먼트들에 걸쳐 정현파 성분들을 링크시키는 단계;
    상기 복수의 순차적인 세그먼트들의 각 세그먼트 내의 각 정현파 트랙에 대하여, 적어도 이전 세그먼트에 대한 위상값의 함수로서 예측된 위상값
    Figure 112009041499932-pct00046
    을 결정하는 단계;
    각 정현파 트랙에 대하여, 일반적으로 단조롭게 변하는 값을 포함하는 측정된 위상값
    Figure 112009041499932-pct00047
    을 결정하는 단계;
    상기 세그먼트에 대한 상기 예측된 위상값
    Figure 112009041499932-pct00048
    및 상기 측정된 위상값
    Figure 112009041499932-pct00049
    의 함수로서 정현파 코드들(CS)을 양자화하는 단계로서, 상기 정현파 코드들(CS)은 상기 각각의 정현파 트랙의 적어도 하나의 주파수값(Ω)에 따라 양자화되는, 상기 정현파 코드들을 양자화하는 단계; 및
    상기 주파수와 상기 위상을 나타내는 정현파 코드들(CS) 및 링크 정보를 포함하는 인코딩된 신호(AS)를 생성하는 단계를 포함하는, 신호를 인코딩하는 방법.
  2. 제 1 항에 있어서,
    제1 주파수값을 갖는 제1 정현파 성분을 포함하는 제1 정현파 트랙에서 상기 정현파 코드들(CS)은 제1 양자화 정밀도를 사용하여 양자화되며, 상기 제1 주파수값보다 높은 제2 주파수값을 갖는 제2 정현파 성분을 포함하는 제2 정현파 트랙에서 상기 정현파 코드들(CS)은 상기 제1 양자화 정밀도보다 낮거나 동일한 제2 양자화 정밀도를 사용하여 양자화되는, 신호를 인코딩하는 방법.
  3. 삭제
  4. 삭제
  5. 제 1 항에 있어서,
    상기 정현파 코드들을 양자화하는 단계는 각 예측된 위상값
    Figure 112009041499932-pct00051
    과 대응하는 관측된 위상값
    Figure 112009041499932-pct00052
    간의 위상차를 결정하는 단계를 포함하는, 신호를 인코딩하는 방법.
  6. 삭제
  7. 삭제
  8. 제 1 항에 있어서,
    상기 신호를 인코딩하는 방법은,
    상기 정현파 코드들(CS)을 사용하여 상기 정현파 성분들을 합성하는 단계;
    오디오 신호의 나머지 성분을 나타내는 값들(x3)의 세트를 제공하기 위하여 상기 샘플링된 신호값들(x(t))로부터 상기 합성된 신호값들을 감산하는 단계;
    파라미터들을 결정함으로써 상기 오디오 신호의 상기 나머지 성분을 모델링하여 상기 나머지 성분을 근사화하는 단계; 및
    오디오 스트림(AS)에 상기 파라미터들을 포함시키는 단계를 더 포함하는, 신호를 인코딩하는 방법.
  9. 제 1 항에 있어서,
    상기 샘플링된 신호값들(x1)은 과도 성분들(transient components)이 제거된 오디오 신호를 나타내는, 신호를 인코딩하는 방법.
  10. 주파수와 위상을 나타내는 정현파 코드들(CS) 및 링크 정보를 포함하는 오디오 스트림(AS')을 디코딩하는 방법에 있어서,
    상기 오디오 스트림(AS')을 포함하는 신호를 수신하는 단계;
    언래핑된(unwrapped) 역양자화된 위상값(
    Figure 112011012941407-pct00053
    )을 구하기 위하여 상기 정현파 코드들(CS)을 역양자화하는 단계로서, 상기 정현파 코드들(CS)은 각각의 정현파 트랙의 적어도 하나의 주파수값에 따라 역양자화되는, 상기 역양자화하는 단계;
    상기 언래핑된 역양자화된 위상값(
    Figure 112011012941407-pct00075
    )으로부터 주파수값
    Figure 112011012941407-pct00055
    을 계산하는 단계; 및
    오디오 신호(y(t))의 정현파 성분들을 합성하기 위하여 상기 역양자화된 주파수 및 위상값들
    Figure 112011012941407-pct00056
    을 사용하는 단계를 포함하는, 오디오 스트림을 디코딩하는 방법.
  11. 제 10 항에 있어서,
    제1 주파수값을 갖는 제1 정현파 성분을 포함하는 제1 정현파 트랙에서 상기 정현파 코드들은 제1 양자화 정밀도를 사용하여 역양자화되며, 상기 제1 주파수값보다 높은 제2 주파수값을 갖는 제2 정현파 성분을 포함하는 제2 정현파 트랙에서 상기 정현파 코드들은 상기 제1 양자화 정밀도보다 낮거나 동일한 제2 양자화 정밀도를 사용하여 역양자화되는, 오디오 스트림을 디코딩하는 방법.
  12. 삭제
  13. 삭제
  14. 복수의 순차적인 세그먼트들의 각 세그먼트에 대한 샘플링된 신호값들의 각각의 세트를 처리하도록 구성된 오디오 인코더에 있어서,
    상기 복수의 순차적인 세그먼트들의 각 세그먼트에 대한 하나 이상의 정현파 성분들을 결정하기 위하여 상기 샘플링된 신호값들을 분석하는 분석기로서, 각 정현파 성분은 주파수값 및 위상값을 포함하는, 상기 분석기;
    정현파 트랙들을 제공하기 위하여 복수의 순차적인 세그먼트들에 걸쳐 정현파 성분들을 링크시키는 링커(linker; 13);
    상기 복수의 순차적인 세그먼트들의 각 세그먼트 내의 각 정현파 트랙에 대하여 적어도 이전 세그먼트에 대한 위상값의 함수로서 예측된 위상값
    Figure 112009041499932-pct00057
    을 결정하고, 각각의 정현파 트랙에 대하여 일반적으로 단조롭게 변하는 값을 포함하는 측정된 위상값
    Figure 112009041499932-pct00058
    을 결정하는 위상 언래퍼(44);
    상기 세그먼트에 대한 상기 예측된 위상값
    Figure 112009041499932-pct00059
    및 상기 측정된 위상값
    Figure 112009041499932-pct00060
    의 함수로서 정현파 코드들을 양자화하는 양자화기(50)로서, 상기 정현파 코드들은 상기 각각의 정현파 트랙의 적어도 하나의 주파수값에 따라서 양자화되는, 상기 양자화기; 및
    상기 주파수 및 상기 위상을 나타내는 정현파 코드들(CS)을 포함하는 인코딩된 신호를 제공하는 수단(15)을 포함하는, 오디오 인코더.
  15. 제 14 항에 있어서,
    상기 양자화기(50)는 제1 주파수값을 갖는 제1 정현파 성분을 포함하는 제1 정현파 트랙에서 제1 양자화 정밀도를 사용하여 상기 정현파 코드들(CS)을 양자화하도록 적응되며, 상기 제1 주파수값보다 높은 제2 주파수값을 갖는 제2 정현파 성분을 포함하는 제2 정현파 트랙에서 상기 제1 양자화 정밀도보다 낮거나 동일한 제2 양자화 정밀도를 사용하여 상기 정현파 코드들(CS)을 양자화하도록 적응되는, 오디오 인코더.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
KR1020067001232A 2003-07-18 2004-07-08 저비트율 오디오 인코딩 KR101058064B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03102225.4 2003-07-18
EP03102225 2003-07-18
PCT/IB2004/051172 WO2005008628A1 (en) 2003-07-18 2004-07-08 Low bit-rate audio encoding

Publications (2)

Publication Number Publication Date
KR20060037375A KR20060037375A (ko) 2006-05-03
KR101058064B1 true KR101058064B1 (ko) 2011-08-22

Family

ID=34072659

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067001232A KR101058064B1 (ko) 2003-07-18 2004-07-08 저비트율 오디오 인코딩

Country Status (11)

Country Link
US (1) US7640156B2 (ko)
EP (1) EP1649453B1 (ko)
JP (1) JP4782006B2 (ko)
KR (1) KR101058064B1 (ko)
CN (1) CN1826634B (ko)
AT (1) ATE425533T1 (ko)
BR (1) BRPI0412717A (ko)
DE (1) DE602004019928D1 (ko)
ES (1) ES2322264T3 (ko)
RU (1) RU2368018C2 (ko)
WO (1) WO2005008628A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
CN101116136B (zh) * 2005-02-10 2011-05-18 皇家飞利浦电子股份有限公司 声音合成的装置和方法
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
KR101149448B1 (ko) * 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
KR101317269B1 (ko) * 2007-06-07 2013-10-14 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치
KR20090008611A (ko) * 2007-07-18 2009-01-22 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치
KR101410229B1 (ko) * 2007-08-20 2014-06-23 삼성전자주식회사 오디오 신호의 연속 정현파 신호 정보를 인코딩하는 방법및 장치와 디코딩 방법 및 장치
KR101425355B1 (ko) * 2007-09-05 2014-08-06 삼성전자주식회사 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법
RU2483368C2 (ru) * 2007-11-06 2013-05-27 Нокиа Корпорейшн Кодер
KR101325760B1 (ko) * 2009-12-17 2013-11-08 한국전자통신연구원 오디오/음성 신호 처리 장치의 복부호화 장치 및 방법
CA3054712C (en) * 2013-01-08 2020-06-09 Lars Villemoes Model based prediction in a critically sampled filterbank
US9858941B2 (en) * 2013-11-22 2018-01-02 Qualcomm Incorporated Selective phase compensation in high band coding of an audio signal
PL232466B1 (pl) 2015-01-19 2019-06-28 Zylia Spolka Z Ograniczona Odpowiedzialnoscia Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio
CN107924683B (zh) 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
US10847172B2 (en) 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
EP1095370A1 (en) * 1999-04-05 2001-05-02 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
DE60129771T2 (de) * 2000-03-15 2008-04-30 Koninklijke Philips Electronics N.V. Laguerre funktion für audiokodierung
KR100363259B1 (ko) 2000-05-16 2002-11-30 삼성전자 주식회사 인지 특성 가중 함수를 이용한 음성신호의 위상 양자화장치 및 방법
CN1193347C (zh) * 2000-06-20 2005-03-16 皇家菲利浦电子有限公司 正弦编码
ATE330309T1 (de) * 2001-01-16 2006-07-15 Koninkl Philips Electronics Nv Verknüpfen von signalkomponenten bei der parametrischen codierung
KR100849375B1 (ko) * 2001-01-16 2008-07-31 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 또는 스피치 신호의 파라메트릭 코딩
EP1382035A1 (en) * 2001-04-18 2004-01-21 Koninklijke Philips Electronics N.V. Audio coding
US20040162721A1 (en) * 2001-06-08 2004-08-19 Oomen Arnoldus Werner Johannes Editing of audio signals
JP2006526161A (ja) * 2003-05-27 2006-11-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hossein et al., 'Narrowband preceptual audio coding: Enhancements for speech', Eurospeech 2001, September 2001*

Also Published As

Publication number Publication date
RU2368018C2 (ru) 2009-09-20
US20070112560A1 (en) 2007-05-17
KR20060037375A (ko) 2006-05-03
JP2007519027A (ja) 2007-07-12
BRPI0412717A (pt) 2006-09-26
ATE425533T1 (de) 2009-03-15
EP1649453B1 (en) 2009-03-11
US7640156B2 (en) 2009-12-29
RU2006105017A (ru) 2006-06-27
CN1826634A (zh) 2006-08-30
ES2322264T3 (es) 2009-06-18
WO2005008628A1 (en) 2005-01-27
DE602004019928D1 (de) 2009-04-23
JP4782006B2 (ja) 2011-09-28
EP1649453A1 (en) 2006-04-26
CN1826634B (zh) 2010-12-01

Similar Documents

Publication Publication Date Title
KR101058064B1 (ko) 저비트율 오디오 인코딩
EP1216474B1 (en) Efficient spectral envelope coding using variable time/frequency resolution
EP2450884B1 (en) Frame error concealment method and apparatus and decoding method and apparatus using the same
KR20060083202A (ko) 낮은 비트율 오디오 인코딩
KR102217709B1 (ko) 노이즈 신호 처리 방법, 노이즈 신호 생성 방법, 인코더, 디코더, 및 인코딩/디코딩 시스템
JP2011203752A (ja) オーディオ符号化方法及び装置
EP1568012B1 (en) Audio decoding
US20060009967A1 (en) Sinusoidal audio coding with phase updates
KR20070019650A (ko) 오디오 인코딩

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150803

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160809

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170801

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180809

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190813

Year of fee payment: 9