KR100986924B1 - 정보 신호 인코딩 - Google Patents

정보 신호 인코딩 Download PDF

Info

Publication number
KR100986924B1
KR100986924B1 KR1020087027709A KR20087027709A KR100986924B1 KR 100986924 B1 KR100986924 B1 KR 100986924B1 KR 1020087027709 A KR1020087027709 A KR 1020087027709A KR 20087027709 A KR20087027709 A KR 20087027709A KR 100986924 B1 KR100986924 B1 KR 100986924B1
Authority
KR
South Korea
Prior art keywords
prediction
signal
quantization
threshold
coefficients
Prior art date
Application number
KR1020087027709A
Other languages
English (en)
Other versions
KR20090007427A (ko
Inventor
젠스 허쉬펠트
제랄드 슐러
만프레드 러츠키
율리히 크레이머
스테판 와브닉
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20090007427A publication Critical patent/KR20090007427A/ko
Application granted granted Critical
Publication of KR100986924B1 publication Critical patent/KR100986924B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

프리필터링된 신호를 바로 양자화하지 않고, 프리필터링된 신호의 포워드-적응적 예측에 의해 얻어진 예측 에러를 양자화함으로써, 마스킹 임계치에 의해 결정되는 측정치를 초과하는 매우 코어스한 양자화가 품질 손실 없이 또는 매우 적은 품질 손실로 가능하게 된다. 포워드 적응성으로 인해, 양자화 에러가 디코더 측에서의 예측에 어떤 부정적인 영향도 미치지 않는다.

Description

정보 신호 인코딩{Information Signal Encoding}
본 발명은 오디오 또는 비디오 인코딩과 같은 정보 신호 인코딩에 관한 것이다.
양방향 실시간 통신을 위한 전문적인 오디오 제품들에서뿐만 아니라 새로운 통신 네트워크에서의 디지털 오디오 인코딩의 사용은 매우 짧은 인코딩 지연뿐 아니라 매우 값싼 알고리즘적인 인코딩을 필요로 한다. 직접적인 즉, 인코딩되지 않은 신호 및 전송된 즉, 인코딩되고 디코딩된 신호들이 동시에 사용될 경우, 디지털 오디오 인코딩의 어플리케이션이 지연 시간 측면에서 중요하게 되는 통상적인 시나리오가 존재한다. 그러므로 실시예들은, 무선 마이크로폰 및 동시적인 (귀 내부, in-ear) 모니터링을 이용한 라이브(live) 재생 혹은 아티스트들이 여러 스튜디오에서 동시에 연주하는 "분산된(scattered)" 재생이다. 이러한 어플리케이션들에서 허용 가능한 전체적인 지연 시간 주기는 10ms 미만이다. 만약, 예를 들어, 비동기적 참여자 라인들이 통신에 사용된다면, 비트 레이트가 추가적인 제한 요소가 된다.
MPEG-1 3 (MP3), MPEG-2 AAC 및 MPEG-2/4와 같은 스탠다드 오디오 인코더의 알고리즘적인 지연, 낮은 지연은 20 ms 내지 수백 ms 범위인데, 예를 들어, 116차 AES 컨벤션(Berlin, 2004년 5월)에서 소개된 M. Lutzky, G. Schuller, M. Gayer, U. Kraemer, S. Wabnik의 "A guideline to audio codec delay"라는 문헌을 참조하면 된다. 음성 인코더들은 낮은 비트 레이트에서 그리고 작은 알고리즘 지연을 가지고 동작하지만, 단지 한정적인 오디오 품질을 제공한다.
한편의 스탠다드 오디오 인코더와 다른 한편의 음성 인코더 사이의 상기 약술한 갭은, 예를 들어, 109차 AES 컨벤션(Los Angeles, 2000년 9월)에서 소개된 B. Edler, C. Faller 및 G. Schuller의 "Perceptual Audio Coding Using a Time-Varying Linear Pre- and Postfilter"라는 문헌에 기술된 인코딩 방법의 유형에 의해 메워지는데, 이에 따르면 인코딩될 신호는 인코더 측에서 마스킹 임계치의 역으로 필터링되고 이어서 무상관 감소(irrelevance reduction)를 수행하기 위해 양자화되며, 양자화된 신호는 무상관 감소와는 별개의 리던던시 감소를 수행하기 위한 엔트로피 인코딩에 제공되는데, 양자화된 프리필터링된(prefiltered) 신호는 디코더 측에서 재구성되고 전달 함수로서 마스킹 임계치로 포스트필터(postfilter)에서 필터링된다. 아래에서 ULD 인코딩 방법으로 일컬어지는 이러한 인코딩 방법은, 채널당 대략 80kBit/s 및 더 높은 비트 레이트에 대해 MP3와 같은 스탠다드 오디오 인코더에 비교될 수 있는 지각적 품질을 도출한다. 이러한 타입의 인코더는 예를 들어, WO 2005/078703 A1에 또한 기술되어 있다.
특히, 여기서 언급된 ULD 인코더는 양자화 노이즈를 형성하기 위해 음향심리학적으로(psychoacoustically) 조절된 선형 필터를 사용한다. 그 구조로 인해, 주어진 주파수 영역에서 아무런 신호가 없는 경우에도, 양자화 노이즈가 주어진 임계치상에 항상 존재한다. 노이즈가 음향심리학적 마스킹 임계치에 부합하는 한, 노이 즈는 들리지 않는다. 심지어 이러한 임계치에 의해 미리 설정된 비트 레이트보다 더 작은 비트 레이트를 획득하기 위해, 양자화 노이즈가 증가해야 하고, 이에 따라 노이즈가 들리게 된다. 특히, 노이즈는 신호 부분이 없는 영역에서 가청 상태가 된다. 예들은 그러므로 매우 낮고 매우 높은 오디오 주파수가 된다. 일반적으로, 마스킹 임계치는 높은 반면, 이러한 영역에서는 매우 낮은 신호 부분만이 있다. 만일 마스킹 임계치가 전체 주파수 영역에 걸쳐 균일하게 증가된다면, 아무런 신호가 없는 경우에도 양자화 노이즈가 증가된 임계치에 있어서, 양자화 노이즈가 스퓨리어스(spurious)하게 들리는 신호로서 들리게 된다. 서브밴드-기반 인코더는 이러한 문제점을 가지지 않는데, 이는 단순히 임계치보다 작은 신호를 가지는 서브밴드를 0으로 양자화하기 때문이다.
허용된 비트 레이트가, 어떤 스퓨리어스(spurious) 양자화 노이즈도 발생시키지 않고 마스킹 임계치에 의해 결정되는 최소 비트 레이트 아래로 떨어지는 경우 발생하는 상술한 문제점이 전부가 아니다. 또한, 상기 참고문헌에서 언급된 ULD 인코더는 일정 데이터 레이트를 획득하기 위한 복잡한 절차로 인해 곤란을 겪는데, 특히 샘플링 블록 당 역양자화 스텝 크기를 조절하는 증폭 인자 값을 결정하기 위해 거쳐야 될 반복 루프가 사용되기 때문이다.
본 발명의 목적은 ULD 인코더 타입에 일반적인 짧은 지연 시간을 높은 인코딩 품질을 유지하면서 낮은 비트 레이트로 허용하는 것을 가능하도록 하는 정보 인코딩 방법을 제공하는 것이다.
이러한 목적은 청구항 1 또는 24에 따른 장치, 청구항 44 또는 45에 따른 방법뿐 아니라 청구항 47에 따른 인코더 및 청구항 48에 따른 디코더에 의해 달성된다.
본 발명의 중심 아이디어는, 프리필터링된(prefiltered) 신호를 바로 양자화하지 않고 프리필터링된 신호의 포워드-적응적(forward-adaptive) 예측에 의해 얻어진 예측 에러를 양자화함으로써, 품질 손실 전혀 없이 혹은 아주 작은 품질 손실만으로 마스킹 임계치(masking threshold)에 의해 결정되는 측정을 능가하는 극도의 코어스(coarse) 양자화가 가능하다는 발견에 있다. 포워드 적응성으로 인해, 양자화 에러는 예측 계수 상에 어떤 부정적인 영향도 미치지 않는다.
다른 실시예에 따르면, 프리필터링된 신호는 비선형적 방식으로 양자화되거나 클립되기도(clipped) 하는데, 즉, 예측 에러의 비양자화된(unquantized) 값들을 양자화 스테이지의 양자화 인덱스 상으로 매핑시키는 양자화 함수를 통해 양자화되며, 양자화 함수의 코스(course)는 임계치 위에서보다 임계치 아래에서 더 가파르다. 그로 인해, 낮은 가용 비트 레이트(available bit rate)로 인해 마스킹 임계치와 관련하여 증가된 노이즈 PSD는 신호 PDS에 조절되어, 마스킹 임계치의 위반이 신호 부분 없이 스펙트럼 부분에서 일어나지 않게 되고, 이는 또한, 감소된 가용 비트 레이트에도 불구하고 각각 청취 품질을 향상시키거나 청취 품질을 유지한다.
본 발명의 또 다른 실시예에 따르면 양자화는, 클리핑(clipping)에 의해, 즉, 한정되고 고정된 개수의 양자화 레벨 또는 스테이지로 각각 양자화함으로써, 각각 양자화되거나 제한될 수 있다. 포워드-적응적 예측을 통해 프리필터링된 신호의 예측에 의해, 코어스 양자화는 예측 계수들 자체 상에 어떤 부정적인 영향도 미치지 않는다. 고정된 개수의 양자화 레벨로 양자화함으로써, 일정 비트 레이트를 획득하기 위한 반복을 자연스레 막을 수 있다.
본 발명의 또 다른 실시예에 따르면, 고정된 개수의 양자화 레벨들간의 양자화 스텝 크기 혹은 스테이지 높이 각각은 양자화에 의해 획득된 이전의 양자화 레벨 인덱스들로부터 백워드-적응적(backward-adaptive) 방식으로 결정되어, 한편으로, 매우 적은 개수의 양자화 레벨에도 불구하고, 디코더 측에 추가적인 부가 자료를 제공할 필요없이 예측 에러 또는 잔여 신호의 더 나은 혹은 적어도 최선의 가능한 양자화가 얻어질 수 있다. 다른 한편으로는, 디코더 측으로의 양자화된 잔여 신호의 전송 동안의 전송 에러가, 백워드-적응적 스텝 크기 조절의 적합한 구성을 가지는 디코더 측에서 단시간적 효과만을 가짐을 보장하는 것이 가능하다.
본 발명의 바람직한 실시예들이 첨부되는 도면들을 참조하여 설명될 것이다.
도 1은 본 발명의 일 실시예에 따른 인코더의 블록 다이어그램이다.
도 2a/b는 각각 청구항 1(그래프 a)에 따른 인코더의 경우 혹은 프리필터링된 신호의 백워드-적응적 예측 및 반복적 및 마스킹 임계치 블록 방식의(block-wise) 양자화 스텝 크기 조절(그래프 b)의 백워드-적응적 예측을 가지는 인코더의 비교적인 경우에 대해, 마스킹 임계치 및 신호 파워 스펙트럼 밀도와 관련한 노이즈 스펙트럼의 코스를 대표적으로 보여주는 그래프들이다.
도 3a/b 및 3c는 도 1의 인코더에서와 같이 프리필터링된 신호의 포워드-적 응적 예측 하지만 여전히 반복적인 양자화 스텝 크기 적응이 실행되는 경우에 다른 클립 확장 또는 다른 개수의 양자화 레벨 각각에 대해 노이즈 또는 에러 파워 스펙트럼 밀도와 관련한 신호 파워 스펙트럼 밀도를 대표적으로 보여주는 그래프들이다.
도 4는 본 발명의 일 실시예에 따른 도 1의 인코더에서의 계수 인코더 구조의 블록 다이어그램이다.
도 5는 본 발명의 일 실시예에 따른 도 1의 인코더에 의해 인코딩된 정보 신호를 디코딩하는 디코더의 블록 다이어그램이다.
도 6은 본 발명의 일 실시예에 따른 도 1의 인코더에서의 계수 인코더 혹은 도 5의 디코더 구조의 블록 다이어그램이다.
도 7은 청취 테스트 결과를 나타내는 그래프이다.
도 8a 내지 8c는 도 1, 4, 5 및 6에서의 각각의 양자화 및 양자화/클립 수단들에서 사용될 수 있는 대표적 양자화 함수의 그래프이다.
본 발명의 실시예들을 도면을 참조하여 보다 자세하게 살펴보기 전에 먼저, 이러한 실시예들의 장점 및 원리들의 보다 나은 이해를 위해, 결국 이러한 실시예들이 될 후속하는 실시예들이 보다 명확하게 설명될 수 있는 내재된 필수적인 장점 및 고려사항들이 기초로 하여, ULD-타입 인코딩 방법의 가능한 구현예가 비교적인 예로서 논의될 것이다.
설명의 소개에서 이미 기술된 바와 같이, 일정 비트 레이트, 특히 의도된 더 낮은 비트 레이트를 획득하기 위한 보다 간단한 방법뿐 아니라 비교 가능한 지각적 품질을 가지는, 더 낮은 비트 레이트, 예를 들어, 64k Bit/s, ULD 버전에 대한 필요성이 있다. 추가적으로, 전송 에러 이후의 회복 시간이 낮게 혹은 최소한으로 유지되는 경우 유리한 점이 있다.
음향심리학적으로 사전에 처리된 신호의 리던던시 감소를 위해, 비교 ULD 인코더는 샘플 방식의(sample-wise) 백워드-적응적 폐루프 예측을 이용한다. 이는 인코더 및 디코더의 예측 계수들의 계산이 단지 과거 또는 이미 양자화되고 재구성된 신호 샘플들에 기초한다는 것을 의미한다. 신호 혹은 프리필터링된 신호 각각 으로의 적응을 획득하기 위해, 새로운 세트의 예측자(predictor) 계수가 모든 샘플에 대해 다시 계산된다. 이는 긴 예측자 혹은 예측 값 결정 식, 즉 특히 많은 개수의 예측자 계수가 사용될 수 있다는 결론에 이르게 되는데, 인코더로부터 디코더 측으로 예측자 계수를 전송할 필요가 없기 때문이다. 다른 한편으로는, 이것은 이러한 내재된 인코딩 절차와 동일한 예측 계수들을 획득하기 위해, 양자화된 예측 에러가 정확성 손실 없이 디코더로 전송되어야 함을 의미한다. 그렇지 않으면, 인코더 및 디코더 내에서의 예측된 혹은 예측된 값들 각각이 서로 동일하지 않을 것이고, 이는 불안정한 인코딩 절차를 야기시킨다. 그보다는, 비교 ULD 인코더에서, 전송 에러의 전파를 중단시키기 위해서뿐 아니라 인코딩된 비트 스트림에 대한 선택적인 액세스를 허용하기 위해 인코더 및 디코더 측 양쪽 상에서의 예측자의 주기적인 리셋이 요구된다. 하지만, 주기적인 리셋은 비트 레이트 피크를 야기시키고, 이는 가변 비트 레이트를 가지는 채널에 대해서는 어떤 문제도 제기하지 않으며, 비트 레 이트 피크가 일정 비트 레이트 조정의 하한을 제한하는 고정된 비트 레이트를 가지는 채널에 대해 문제를 제기한다.
본 발명의 실시예들을 가지는 ULD 비교 인코딩 방법의 후속하는 보다 자세한 설명으로부터 도출될 것과 같이, 이러한 실시예들은 샘플 방식의 백워드-적응적 예측 대신에 백워드-적응적 양자화 스텝 크기 조절을 이용한 블록 방식의 포워드-적응적 예측을 사용함으로써, 비교 인코딩 방법과는 다르다. 반대로, 이것은 예측자가, 인코더 측을 향해 필요한 예측 계수를 전송하는 필요한 부가 정보의 양을 제한하기 위해, 더 짧아져야 하는 단점을 가지고, 이는 또한 감소된 인코더 효율성을 초래하는데, 하지만 다른 한편으로는, 이는 후속하는 실시예들의 절차가, 감소된 비트 레이트의 결과인 더 높은 양자화 에러에 대해서는 여전히 유효하게 기능하여 디코더 측의 예측자가 양자화 노이즈 형성을 위해 사용될 수 있게 된다.
후속하는 비교예에서 도출될 것이지만, 비교 ULD 인코더에 비교하여, 비트 레이트는 전송 전에 예측 잔여물의 값의 범위를 제한함으로써 제한된다. 이는 비교 ULD 인코딩 방법과 비교하며 노이즈 형성 변형을 초래하고 또한 다르고 더 작은 스퓨리어스 청취 아티팩트(artifact)를 초래한다. 또한, 일정 비트 레이트는 반복적인 루프를 이용하지 않고 생성된다. 또한, 블록 방식의 포워드 적응의 결과로서 모든 샘플 블록에 대해 "리셋"이 자연적으로 포함된다. 추가적으로, 아래에서 설명되는 실시예들에서 인코딩 방법은, 프리필터(prefilter) 계수들 또는 포워드 예측 계수들에 사용되며, 이는 계수들의 LSF(line spectral frequency) 표현에 대한 백워드-적응적 양자화 스텝 크기 제어를 가지는 다른 인코딩을 사용한다. 상기 방법은 계수들에 대한 블록 방식의 접근을 제공하고, 일정한 부가 정보 비트 레이트를 생성하며, 그에 더해, 상기 방법은 아래에서 설명될 것과 같이 전송 에러에 반하여 로버스트(robust)하다.
아래에서는, 비교 ULD 인코더 및 디코더 구조가 보다 상세히 설명될 것이고, 본 발명의 실시예들의 설명 및 높은 일정 비트 레이트로부터 낮은 비트 레이트에 이르기까지의 전송에 있어서의 그 이점에 대한 설명이 뒤따를 것이다.
비교 ULD 인코딩 방법에서, 인코더의 입력 신호는 신호의 지각적으로 비상관적인 부분들에 대한 정보를 얻기 위해 지각적 모델 또는 청취 모델 각각에 의해 인코더 측 상에서 분석된다. 이 정보는 시변(time-varying) 필터 계수들을 통해 프리필터를 제어하는 데 사용된다. 그 때문에, 프리필터는 입력 신호를 그 마스킹 임계치에 대해 정규화시킨다. 필터 계수는 128 샘플의 모든 블록 각각에 대해 한번씩 계산되고, 양자화되어 인코더 측에 부가 정보로서 전송된다.
백워드-적응적으로 예측된 신호를 감산함으로써 증폭 인자를 가지고 프리필터링된 신호를 곱한 이후, 예측 에러는 균일(uniform) 양자화기, 즉 균일 스텝 크기를 가지는 양자화기에 의해 양자화된다. 이미 앞서 언급된 바와 같이, 예측된 신호는 샘플 방식의 백워드-적응적 폐루프 예측을 통해 획득된다. 따라서, 예측 계수들의 디코더로의 어떤 전송도 필요없다. 따라서, 양자화된 예측 잔여 신호는 엔트로피 인코딩된다. 일정 비트 레이트를 획득하기 위해, 프리필터링된 샘플들의 모든 블록에 대해 곱셈, 예측, 양자화 및 엔트로피-인코딩의 단계를 여러번 반복하는 루프가 제공된다. 반복 후에는, 여전히 일정 비트 레이트 조건을 만족하는 기 설정된 증폭 값 세트 중 가장 높은 증폭 인자가 결정된다. 이 증폭 값은 디코더로 전송된다. 하지만, 만일 1보다 작은 증폭 값이 결정되면, 양자화 노이즈는 디코딩 후에 지각 가능한데, 즉, 그 스펙트럼이 마스킹 임계치와 유사하게 형성되는데, 하지만 그 전체적인 파워는 예측 모델에 의해 기 설정된 것보다 더 높다. 입력 신호 스펙트럼의 부분들에 대해, 양자화 노이즈는 입력 신호 스펙트럼 자체보다도 더 높아질 수 있고, 이는 다시 스펙트럼의 부분들(그렇지 않으면, 예측적인 인코더로 인해 어떤 가청의 신호도 존재하지 않는)에서 가청의 아티팩트를 생성한다. 양자화 노이즈에 의해 야기된 효과는 더 낮은 일정 비트 레이트가 관심일 경우 제한하는 요소를 나타낸다.
비교 ULD 방법의 설명을 계속하자면, 프리필터 계수는 단지 인프라 프레임 LSF 차이로서 전송되고, 또한 동일한 것이 특정 한계를 초과하자마자의 경우뿐이다. 제한되지 않은 주기에 대해 전송 에러 전파를 피하기 위해, 시스템은 때때로 리셋된다. 추가적인 테크닉이 전송 에러의 경우 디코딩된 신호의 인식에서의 감소를 최소화하기 위해 사용될 수 있다. 전송 방법은 상기 언급된 증폭 인자를 따라서 조절함으로써 상술한 루프 내에서 레벨되는 가변의 부가 정보 비트 레이트를 생성한다.
비교 ULD 인코더의 경우에서 양자회된 예측 잔여 신호의 엔트로피 인코딩은 Golomb, Huffman, 또는 수학적 인코딩 방법과 같은 방법들을 포함한다. 엔트로피 인코딩은 때때로 리셋되어야 하고 자연적으로 가변의 비트 레이트를 생성하는데, 이는 다시 상술한 루프에 의해 레벨된다.
비교 ULD 인코딩 방법의 경우에서, 디코더 내의 양자화된 예측 잔여 신호는 엔트로피 인코딩으로부터 획득되는데, 엔트로피 인코딩에서는 예측 잔여물 및 예측된 신호가 부가되고, 합계가 전송된 증폭 인자의 역과 곱해지며, 이로부터 재구성된 출력 신호가 프리필터 중 하나에 대해 역이 되는 주파수 응답을 가지는 포스트필터(postfilter)를 통해 생성되는데, 여기서 포스트필터는 전송된 프리필터 계수를 사용한다.
방금 설명한 타입의 비교 ULD 인코더는 예를 들어, 32 kHz 내지 48 kH의 샘플 주파수에서 5.33 내지 8 ms의 전체적인 인코더/디코더 지연을 획득한다. (스퓨리어스 루프) 반복 없이, 동일한 인코더가 80 내지 96 kBit/s의 범위 내의 비트 레이트를 생성한다. 상술한 바와 같이, 노이즈 스펙트럼의 일정한 증가로 인해, 더 낮은 일정 비트 레이트에서, 이러한 인코더 내에서의 청취 품질은 감소된다. 추가적으로, 반복으로 인해, 일정한 비트 레이트를 획득하기 위한 노력도 높다. 아래에서 설명되는 실시예들은 이러한 단점들을 극복하거나 최소화한다. 일정한 전송 데이터 레이트에서, 아래 설명되는 실시예들의 인코딩 방법은 양자화 에러의 변경된 노이즈 형성을 야기하고 반복을 요구하지 않는다. 보다 정확하게는, 앞서 논의된 비교 ULD 인코딩 방법에서, 반복 프로세스에서 일정한 전송 데이터 레이트의 경우, 프리필터로부터 들어오는 신호가 양자화 전에 곱해지는 덕택에, 승수(multiplicator)가 결정되는데, 여기서 양자화 노이즈는 스펙트럼적으로 백색(white)이고, 이것은 청취 임계치처럼 형성되지만 선택된 승수에 따라 청취 임계치 약간 아래 또는 약간 위에 놓이는(이는 또한 앞서 설명한 바와 같이, 정해진 청 취 임계치의 시프트로서 이해된다) 디코더 내에서의 양자화 노이즈를 야기시킨다. 이와 연결되어, 양자화 노이즈는 디코딩 후에 개별 주파수 영역에서의 파워가 각 주파수 영역에서의 입력 신호의 파워를 심지어 초과할 수 있는 결과를 초래한다. 결과적인 인코딩 아티팩트는 분명히 청취 가능하다. 아래에서 설명되는 실시예들은 그 스펙트럼 파워 밀도가 더 이상 스펙트럼적으로 백색이 아니도록 양자화 노이즈를 형성한다. 프리필터 신호의 코어스 양자화/제한 또는 클리핑 각각은 프리필터 신호의 스펙트럼 파워 밀도와 유사한 결과적 양자화 노이즈를 형성한다. 따라서, 디코더 내의 양자화 노이즈는 입력 신호의 스펙트럼 파워 밀도 아래로 유지되도록 형성된다. 이것은 결정된 청취 임계치의 변형으로 이해될 수 있다. 결과적인 인코딩 아티팩트는 비교 ULD 인코딩 방법에 비해 덜 스퓨리어스하다. 또한, 후속하는 실시예들은 반복 프로세스를 필요로 하지 않고, 이는 복잡도를 감소시킨다.
위의 비교 ULD 인코딩 방법을 설명함으로써, 이러한 실시예들의 설명을 위해 아래의 실시예들의 내재하는 이점 및 고려사항들로 관심을 돌릴 수 있는 충분한 근거가 제공되었으므로, 첫째, 본 발명의 일 실시예에 따른 인코더의 구조가 아래에서 설명될 것이다.
일반적으로 10으로 표시된 도 1의 인코더는, 인코딩될 정보 신호로서 입력(12)뿐 아니라, 인코딩된 정보 신호로서 출력(14)을 포함하며, 아래에서는 이러한 신호가 오디오 신호이고, 입력(12)에 후속하는 인코더 내의 샘플링이 또한 가능하기는 하지만, 대표적으로 특히 이미 샘플링된 오디오 신호인 것으로 가정된다. 도 1에서 입력되는 출력 신호의 샘플들은 x(n)으로 표시된다.
도 1에 나타난 바와 같이, 인코더(10)는 마스킹 임계치 결정 수단(16), 프리필터 수단(18), 포워드-예측적 예측 수단(20) 및 양자화/클립(quantizing/clip) 수단(22) 그리고 비트 스트림 생성 수단(24)으로 구분될 수 있다. 마스킹 임계치 결정 수단(16)은 입력(12)에서 유입되는 오디오 신호의 마스킹 또는 청취 임계치 각각의 표현을 지각적 모델을 이용해 결정하기 위한 지각적 모델 또는 청취 모델에 따라 동작하는데, 이것은 지각성(perceptibility) 또는 가청도(audibility) 각각과 무관하거나, 음향심리적 커버링 효과로 인해 들리지 않게 유지되는 스펙트럼 에너지에서의 주파수에 대한 스펙트럼 임계치를 나타내거나, 인간에 의해 지각되지 않는 오디오 신호의 부분을 나타낸다. 아래에서 설명될 것과 같이, 결정 수단(16)은 블록 방식 형태로 마스킹 임계치를 결정한다. 즉, 결정 수단은 오디오 신호의 샘플들의 연속하는 블록들의 블록마다 마스킹 임계치를 결정한다. 다른 절차들 또한 가능하다. 결정 수단(16)으로부터 도출되는 마스킹 임계치의 표현은 특히 도 4와 관련하여 후속하는 설명과는 대조적으로, 스펙트럼 마스킹 임계치의 스펙트럼 샘플들에 의한 표현이 될 수 있다.
프리필터(prefilter) 또는 프리평가(preestimation) 수단(18)은 마스킹 임계치 결정 수단(16) 및 입력(12) 양쪽에 연결되어, 프리필터링된 신호 f(n)를 획득하기 위한 마스킹 임계치와 관련하여 출력 신호를 정규화할 목적으로 출력 신호를 필터링한다. 프리필터 수단(18)은 예를 들어, 선형 필터를 기반으로 하고, 결정 수단(16)의 마스킹 임계치에 의해 제공되는 마스킹 임계치의 표현에 따라 필터 계수들을 조절하여, 선형 필터의 전달 함수가 마스킹 임계치의 역에 실질적으로 상응하 게 된다. 필터 계수들의 조절은 블록 방식, 아래에서 설명되는 마스킹 임계치 결정에서 반만큼 오버랩핑하는 블록들의 경우에서와 같은 해프 블록 방식(half block-wise), 또는 샘플 방식, 예를 들어 블록 방식 결정된 마스킹 임계치 표현에 의해 또는 인터블록 갭에 걸쳐 얻어지는 필터 계수들에 의해 얻어진 필터 계수들을 보간함(interpolating)으로써, 수행될 수 있다.
포워드 예측 수단(20)은, 예측된 신호가 재구성될 수 있는 것에 기초하여, 예측된 신호
Figure 112008078285473-pct00001
, 프리필터링된 신호 f(n)에 대한 예측 에러를 나타내는 잔여 신호 r(n), 및 예측 필터 계수들의 표현을 획득하기 위해, 음향심리학적 마스킹 임계치를 포워드-적응적 예측에 이용함으로써 시간 영역에서 적응적으로 필터링되는 프리필터링된 신호의 샘플 f(n)을 제공하는 프리필터 수단(18)에 연결된다. 특히, 포워드-적응적 예측 수단(20)은 잔여 신호 r의 후속하는 양자화에 기초할 뿐 아니라 프리필터링된 신호 f로부터 즉시 예측 필터 계수들의 표현을 결정할 수 있도록 구현된다. 도 4를 참조하여 아래에서 보다 상세히 설명될 것이지만, 예측 필터 계수는 LFS 영역, 특히 LFS 예측 잔여물의 형태로, 선형 필터 계수들의 형태의 직접적인 표현과 같은 다른 표현들로 표시되는 것 또한 가능하다. 또한, 수단(20)은 후속하는 설명에 따라 대표적으로 블록 방식으로, 즉 프리필터링된 신호의 샘플들 f(n)의 연속하는 블록의 블록마다 예측 필터 계수 결정을 수행하며, 다른 절차들 또한 가능하다. 그리고, 수단(20)은 이러한 결정된 예측 필터 계수들을 통해 예측된 신호
Figure 112008078285473-pct00002
를 결정하고 프리필터링된 신호 f로부터 예측된 신호를 감산하도록 구현 되며, 예측된 신호의 결정은 예를 들어, 필터 계수가 포워드-적응적으로 결정된 예측 계수 표현에 따라 조절되는 선형 필터를 통해 실행된다. 아래에서 보다 자세히 논의될 바와 같이, 디코더 측에서 이용할 수 있는 잔여 신호, 즉 이전에 출력된 필터 출력 신호 값에 추가된 양자화되고 클립된 잔여 신호 ic(n)가 필터 입력 신호로 제공될 수 있다.
양자화/클립 수단(22)는, 잔여 신호의 값 r(n)을 일정하고 제한된 숫자의 양자화 레벨로 매핑시키는 양자화 함수를 통해 잔여 신호를 양자화하거나 클리핑하기 위해, 그리고 이러한 방식으로 얻은 양자화 인덱스들 ic(n)의 형태의 양자화된 잔여 신호를, 앞서 설명한 바와 같이, 포워드-적응적 예측 수단(20)으로 전송하기 위해, 예측 수단(20)에 연결된다.
수단(16)에 의해 결정된 마스킹 임계치의 표현일뿐 아니라 수단(20)에 의해 결정된 예측 계수의 표현인 양자화된 잔여 신호 ic(n)는 인코딩된 신호(14)를 통해 디코더 측으로 제공되는 정보를 형성하며, 따라서, 도 1에서는, 연속적 비트 스트림 또는 패킷 전송에 따라 가능하게는 추가적인 비손실 인코딩을 이용해 정보를 결합하기 위해, 대표적으로 비트 스트림 생성 수단(24)이 제공된다.
도 1의 인코더의 구조가 보다 상세히 설명되기 전에, 인코더 1의 동작 모드가 상술한 인코더(10)의 구조에 기초하여 아래에서 설명될 것이다. 마스킹 임계치의 역에 대응하는 전달 함수를 가지는 프리필터 수단(18)에 의해 오디오 신호를 필터링함으로써, 프리필터링된 신호 f(n)는 대부분 백색 노이즈에 상응하는 균일 양 자화에 의해 에러의 스펙트럼 파워 밀도를 획득하는 결과를 얻으며, 디코더 측에서의 포스트 필터에서 필터링함으로써 마스킹 임계치와 유사한 노이즈 스펙트럼을 초래할 것이다. 하지만, 첫째, 잔여 신호 f는 포워드 적응적 예측된 신호
Figure 112008078285473-pct00003
만큼의 감산에 의해 포워드 적응적 예측 수단(20)에 의해 예측 에러 r로 감소한다. 양자화/클리핑 수단(22)에 의한 이러한 예측 에러 r의 후속하는 코어스 양자화는 예측 수단(20)의 예측 계수들 상 혹은 인코더 혹은 디코더 측 상에 어떤 영향도 미치지 않는데, 이는 예측 계수들의 계산이 포워드-적응적 방식으로 실행되고 따라서 비양자화된 값들 f(n)에 기초하기 때문이다. 양자화는 코어스 양자화 스텝 크기가 사용된다는 측면에서 거친 방식으로 실행될 뿐 아니라, 양자화조차도 일정하고 한정된 개수의 양자화 레벨에만 실행된다는 측면에서 또한 거친 방식으로 실행되어, 인코딩된 오디오 신호(14) 내의 모든 양자화된 잔여 신호 ic(n) 또는 모든 양자화 인덱스를 나타내기 위해 고정된 개수의 비트만이 필요하며, 이는 자연스레 잔여 값들 ic(n)과 관련하여 일정한 비트 레이트를 허용한다. 아래에서 설명되는 바와 같이, 양자화는 주로 고정된 개수의 균일하게 간격을 이룬 양자화 레벨로, 그리고 대표적으로 단지 3개의 양자화 레벨 아래로 양자화함으로써 실행되며, 양자화는 예를 들어, 동일한 것에 대해 상응하는 양자화 레벨의 양자화 인덱스 ic(n)을 얻기 위해 비양자화된 잔여 신호 값 r(n)이 다음 양자화 레벨로 양자화되도록 실행된다. 비양자화된 잔여 신호 r(n)의 극도로 높고 극도로 낮은 값들은 따라서, 동일한 스텝 크기를 가지는 균일 양자화에서라면 더 높은 양자화 레벨로 매핑되었을테지만, 각각 의 최고 또는 최저의 양자화 레벨로 각각 혹은 각각의 양자화 레벨 인덱스로 각각 매핑된다. 수단(22)에 의해 잔여 신호 r 또한 각각 "클립"되거나 제한된다. 하지만, 아래에서 설명될 것과 같이, 후자는 프리필터링된 신호의 에러 PSD(PSD= power spectral density)가 더이상 백색 노이즈가 아니며 클리핑의 정도에 따라 프리필터링된 신호의 신호 PSD에 근접한다는 효과를 가진다. 디코더 측에서는, 마스킹 임계치에 의해 결정된 것보다 낮은 비트 레이트에서조차도 노이즈 PSD가 신호 PSD 아래로 유지된다는 효과를 가진다.
아래에서는, 도 1의 인코더의 구조가 보다 상세히 설명될 것이다. 특히, 마스킹 임계치 결정 수단(16)은 입력(12), 그리고 비트 스트림 생성기(24)뿐 아니라 프리필터 수단(18) 사이에 차례로 연결된 지각적 모델에 따라 동작하는 마스킹 임계치 결정기 혹은 지각적 모델(26) 각각 및 프리필터 계수 계산 모듈(28) 및 계수 인코더(30)를 포함한다. 프리필터 수단(18)은 프리필터(34)뿐 아니라 그 입력이 계수 인코더(30)의 출력에 연결되는 계수 디코더(32)를 포함하는데, 여기서 프리필터는 예를 들어, 적응적 선형 필터이고 그 데이터 입력이 입력(12)으로 연결되고 그 데이터 출력이 수단(20)으로 연결되면서, 필터 계수 적응을 위한 그 적응 입력은 계수 디코더(32)의 출력에 연결되어 있다. 예측 수단(20)은 예측 계수 계산 모듈(36), 계수 인코더(38), 계수 디코더(40), 감산기(42), 예측 필터(44), 지연 소자(46), 추가 가산기(48), 및 역양자화기(50)를 포함한다. 예측 계수 계산 모듈(36)과 계수 인코더(38)는 프리필터(34)의 출력과 계수 디코더(40) 또는 비트 스트림 생성기(24) 각각의 추가 입력의 입력 사이에서 이러한 순서로 직렬로 연결되 어 있으며 포워드-적응적 방식으로 예측 계수 블록 방식의 표현을 결정하기 위해 협력한다. 계수 디코더(40)는 계수 인코더(38) 및 예를 들어, 선형 예측 필터인 예측 필터(44) 사이에 연결된다. 필터(44)는, 계수 디코더(40)에 연결된 예측 계수 입력과는 별개로, 필터(44) 외에도 가산기(48) 및 지연 소자(46)를 포함하는 폐루프 내에서 상기 필터로 연결되는 데이터 입력 및 데이터 출력을 포함한다. 특히, 지연 소자(46)는 가산기(48)와 필터(44) 사이에 연결되어 있고, 필터(44)의 데이터 출력은 가산기(48)의 제1 입력에 연결된다. 뿐만 아니라, 필터(44)의 데이터 출력은 또한 감산기(42)의 반전 입력으로 연결된다. 감산기(42)의 비반전 입력은 프리필터(34)의 출력으로 연결되고, 가산기(48)의 제2 입력은 역양자화기(50)로 연결된다. 역양자화기(50)의 데이터 입력은 역양자화기(50)의 스텝 크기 제어 입력뿐 아니라 양자화/클리핑 수단(22)으로 연결된다. 양자화/클리핑 수단(22)은 스텝 크기 적응 블록(54)뿐 아니라 양자화 모듈(52)을 포함하고, 다시 양자화 모듈(52)은, 감산기(42)의 출력 및 비트 스트림 생성기(24)의 추가 입력 사이에 순서대로 직렬로 연결되어 있는 균일하고 조절 가능한 스텝 크기를 가진 균일 양자화기(56) 및 제한기(58)로 구성되며, 스텝 크기 적응 블록(54)은 다시 제한기(58)의 출력 및 양자화기(56)의 스텝 크기 제어 입력 사이에 순서대로 직렬로 연결되어 있는 스텝 크기 적응 모듈(60) 및 지연 멤버(62)를 포함한다. 추가적으로, 제한기(58)의 출력은 또한 역양자화기(50)의 데이터 입력으로 연결되고, 역양자화기(50)의 스텝 크기 제어 입력은 스텝 크기 적응 블록(60)에 연결된다. 비트 스트림 생성기(24)의 출력은 다시 인코더(10)의 출력(14)을 형성한다.
도 1의 인코더의 상세 구조를 위에서 상세히 설명하였고, 그 동작 모드가 아래에서 설명될 것이다. 지각적 모델 모듈(26)이 오디오 신호로부터 블록 방식 방법으로 마스킹 임계치를 각각 결정하거나 추정한다. 그러므로, 지각적 모델 모듈(26)은 예를 들어, 길이 256의 DFT, 즉 블록들 간의 50% 오버래핑을 가지는 블록 길이 256의 샘플들 x(n)을 사용하고, 이는 128 샘플의 오디오 신호의 인코더 지연을 발생시킨다. 지각적 모델 모듈(26)에 의해 출력된 마스킹 임계치의 추정은, 예를 들어, 바크(Bark) 밴드 또는 선형 주파수 스케일로 스펙트럼적으로 샘플되어 표현된다. 지각적 모델 모듈(26)에 의한 블록당 마스킹 임계치 출력이 기설정된 필터, 즉 필터(34)의 필터 계수 계산을 위한 계수 계산 모듈(24)에 사용된다. 모듈(28)에 의해 계산된 계수들은 예를 들어, 마스킹 임계치를 모델링하는 LPC 계수들이 될 수 있다. 모든 블록에 대한 프리필터 계수들은 계수 인코더(30)에 의해 다시 인코딩되며, 이는 도 4를 참조로 해서 보다 자세히 설명될 것이다. 계수 디코더(34)는 모듈(28)의 프리필터 계수를 복원하기 위한 인코딩된 프리필터 계수들을 디코딩하며, 프리필터(34)는 다시 이러한 파라미터 또는 프리필터 계수들을 각각 획득하고, 이를 이용하여 각각 마스킹 임계치와 관련하여 입력 신호 x(n)을 정규화시키거나 전달 함수를 이용해 파라미터 혹은 프리필터 계수를 필터링하며, 이는 근본적으로 마스킹 임계치의 역에 대응한다. 입력 신호에 비교하여, 결과적인 프리필터링된 신호 f(n)은 양적으로 상당히 더 적다.
예측 계수 계산 모듈(36)에서, 프리필터링된 신호의 샘플은 블록 방식 형태로 처리되며, 블록 방식 분할은 지각적 모듈 모듈(26)에 의해 오디오 신호(12) 중 하나에 대표적으로 대응되지만, 꼭 그럴 필요는 없다. 프리필터링된 샘플들의 모든 블록에 대해, 계수 계산 모듈(36)은 예측 필터(44)에 의한 사용을 위해 예측 계수를 계산한다. 그러므로, 계수 계산 모듈(36)은 예측 계수들을 얻기 위해 예를 들어, 프리필터링된 신호의 블록마다 LPC(LPC= linear predictive coding) 분석을 수행한다. 그리고 계수 인코더(38)는, 이후에 보다 자세히 설명되겠지만, 계수 인코더(30)와 유사한 예측 계수들을 인코딩하고 예측 계수들의 이러한 표현을 비트 스트림 생성기(24) 및 특히 계수 디코더(40)로 출력하며, 계수 디코더는 계수 계산 모듈(36)에 의해 LPC 분석으로 획득한 예측 계수를 적용하기 위해 얻어진 예측 계수 표현을 사용하여, 필터(44), 지연 멤버(46) 및 가산기(48)의 폐루프로 구성되는 폐루프 예측기가 예측된 신호
Figure 112008078285473-pct00004
을 생성하도록 하며, 이 예측된 신호는 다시 감산기(42)에 의해 프리필터링된 신호 f(n)으로부터 감산된다. 선형 필터(44)는 예를 들어, 길이 N의 A(z) =
Figure 112008078285473-pct00005
타입의 선형 예측 필터이고, 계수 디코더(40)는 계수 계산 모듈(36)에 의해 계산된 예측 계수들에 따라 값 ai를 조절한다. 즉, 각각 새로운 혹은 현재의 예측된 값
Figure 112008078285473-pct00006
을 획득하기 위해 이전에 예측된 값들
Figure 112008078285473-pct00007
이 역양자화된 남은 신호 값들과 합쳐진 가중치들이 가중되고 합쳐진다.
감산기(42)에 의해 얻어진 예측 잔여물 r(n)은 양자화기(56)에서 균일 양자화, 즉 균일 양자화 스텝 크기를 가지는 양자화에 제공되고, 스텝 크기 Δ(n)은 시변(time-variable)이고 백워드-적응적 방식으로, 즉 양자화된 잔여 값들로부터 이전의 잔여 값들 r (m<n)까지 스텝 크기 적응 모듈에 의해 각각 계산되거나 결정된다. 보다 정확하게는, 균일 양자화기(56)는 잔여 값 r(n)마다 양자화된 잔여값 q(n)을 출력하며, 이는 q(n) = i(n)으로 표현될 수 있고, 인덱스를 이용한 일시적 양자화 스텝으로 일컬어질 수 있다. 일시적 양자화 인덱스 i(n)은 다시 제한기(58)에 의해 C = [-c; c]의 양으로 클리핑되며, 여기서 c는 상수 c ∈ {1,2, ...}이다. 특히, 제한기(58)는 모든 일시적 인덱스 값들 i(n) (|i(n)| > c)이 어느 쪽이 가까운지에 따라 -c 또는 c로 설정되도록 구현된다. 본 실시예들에서 다른 모든 지연 멤버와 더불어 지연 멤버(62)가 입력되는 값들을 하나의 샘플만큼 지연시키기 때문에, 단순히 각각 클리핑 또는 제한된 인덱스 시퀀스 또는 시리즈 ic(n)이 제한기(58)에 의해 비트 스트림 생성기(24), 역양자화기(50) 및 스텝 크기 적응 블록(54) 또는 지연 소자(62)로 각각 출력된다.
이제, 백워드-적응적 스텝 크기 제어가 스텝 크기 적응 블록(54)을 통해 실현되며, 백워드-적응적 스텝 크기 제어가 지속적으로 스텝 크기 Δ(n)을 변경함으로써 지연 멤버(62)에 의해 지연된 과거 인덱스 시퀀스 값들 ic(n)을 이용하여, 제한기(58)에 의해 제한되는 영역, 즉 "허용된" 양자화 인덱스들 또는 대응하는 양자화 레벨들 각각에 의해 설정되는 영역이 비양자화된 잔여 값들 r(n)의 발생의 통계적 확률에 대해 위치하도록, 허용된 양자화 레벨들이 생성된 클리핑된 양자화 인덱스 시퀀스 스트림 ic(n) 내에서 가능한한 균일하게 발생하도록 한다. 특히, 예를 들어, 스텝 크기 적응 모듈(60)은 예를 들어, 바로 전에 결정된 스텝 크기 값 Δ(n- 1) 뿐만 아니라 두 개의 바로 앞에 선행하는 클리핑된 양자화 인덱스들 ic(n-1) 및 i2(n-2)를 이용해, β∈[0.0; 1.0]에 대해 Δ(n) = βΔ(n-1) + δ(n), |ic(n-1) + i2(n-2)| ≤ I에 대해 δ(n) = δ0 이고, |ic(n-1) + i2(n-2)| > I에 대해 δ(n) = δ1 로 현재의 스텝 크기 Δ(n)을 계산하며, 여기서 δ0, δ1, 및 I는 β와 함께 적절히 조절된 상수들이다.
도 5를 참조하여 보다 자세히 설명될 것이지만, 디코더는 획득한 양자화 인덱스 시퀀스 ic(n) 및 스텝 크기 시퀀스 Δ(n)를 이용하는데, ic(n)·Δ(n)를 계산하여 역양자화된 잔류 값 시퀀스 qc(n)을 재구성하기 위해 또한 백워드-적응적 방식으로 계산되며, 이는 또한 도 1의 인코더(10), 즉 예측 수단(20) 내의 역양자화기(50)에 의해 수행된다. 디코더 측에서와 같이, 이러한 방식으로 구성된 잔류 값 시퀀스 qc(n)은 샘플 방식 방법으로 예측된 값들
Figure 112008078285473-pct00008
과의 가산에 제공되며, 여기서 가산은 가산기(48)를 통해 인코더 내에서 실행된다. 이러한 방식으로 각각 재구성된 또는 역양자화된 프리필터링된 신호는, 후속하는 예측된 값들
Figure 112008078285473-pct00009
을 계산하는 것 외에, 더이상 인코더(10)에서 사용되지 않는 반면, 포스트필터는 그로부터 프리필터(34)에 의한 정규화를 제거시키는 디코더 측에서, 디코딩된 오디오 샘플 시퀀스 y(n)을 생성한다.
양자화 인덱스 시퀀스 qc(n) 내에 삽입된 양자화 노이즈는 클리핑으로 인해 더이상 백색이 아니다. 그보다는, 그 스펙트럼 형태가 프리필터링된 신호 중 하나를 복사한다. 이를 설명하기 위해, 그래프 a, b, 및 c에서, 여러 개수의 양자화 레벨들 또는 단계들(즉, 그래프 a에서의 C = [-15; 15]에 대해, 그래프 b에서의 [-7; 7]의 제한기 범위에 대해, 및 그래프 c에서의 [-1;1]의 클리핑 범위에 대해)을 위한 프리필터링된 신호(위의 그래프)의 PSD 및 양자화 에러(각각의 아래 그래프)의 PSD를 간단히 참조한다. 보다 명백히 하기 위해, 그래프 A - C에서의 에러 PSD의 PSD 코스는 -10dB의 오프셋을 가지고 각각 그려졌다. 보는 바와 같이, 프리필터링된 신호는 σ2=34의 파워를 가지는 채색된 노이즈(colored noise)에 대응된다. 스텝 크기 Δ = 1을 가지는 양자화에서, 신호는 [-21; 21] 내에 놓여지는데, 즉 프리필터링된 신호의 샘플들은 각각 이 영역 내에 놓이는 발생분포를 가지거나 히스토그램을 형성한다. 도 3의 그래프 a 내지 c에 대해, 양자화 영역은 이미 언급한 바와 같이 a)에서 [-15; 15]로, b)에서 [-7; 7]로, c)에서 [-1; 1]로 제한된다. 양자화 에러는 비양자화된 프리필터링된 신호 및 디코딩된 프리필터링된 신호 간의 차이로서 측정된다. 보는 바와 같이 양자화 노이즈는 증가하는 클리핑에 의해 또는 양자화 레벨의 수의 증가하는 제한을 가지고 필터링된 신호에 부가되고, 이는 프리필터링된 신호의 PSD를 복사하며, 여기서 복사의 정도는 적용된 클리핑의 견고함 또는 확장에 각각 따르게 된다. 따라서, 포스트필터링 이후, 디코더 측에서의 양자화 노이즈 스펙트럼은 오디오 입력 신호의 보다 많은 PSD를 복사한다. 이는 양자화 노이즈가 디코딩 이후 신호 스펙트럼 아래에 머문다는 것을 의미한다. 이러한 효과가 도 2에 도시되어 있는데, 그래프 a에서 백워드-적응적 예측, 즉 앞서 설명된 비교 ULD 방법에 따른 예측의 경우에 대해, 그리고 그래프 b에서 도 1에 따라 적용된 클리핑을 이용한 포워드-적응적 예측의 경우에 대해, 정규화된 주파수 영역에서 3개의 코스들이 각각, 즉 위부터 아래까지, 신호 PSD, 즉, 오디오 신호의 PSD, 양자화 에러 PSD 또는 양자화 후의 양자화 노이즈(실선) 및 마스킹 임계치(점선)를 도시한다. 도시된 바와 같이, 비교 ULD 인코더(도 2a)를 위한 양자화 노이즈는 마스킹 임계치와 같이 형성되고 신호 부분을 위한 신호 스펙트럼을 초과한다. 양자화 레벨 개수의 후속하는 클리핑 또는 제한과 각각 결합된 프리필터링된 신호의 포워드-적응적 예측의 효과가 도 2b에 도시되어 있으며, 양자화 노이즈는 신호 스펙트럼보다 항상 낮고 그 형태는 신호 스펙트럼과 마스킹 임계치의 혼합을 나타낸다. 청취 테스트에서, 도 2b에 따른 인코딩 아티팩트는 덜 스퓨리어스하다. 즉 지각된 청취 품질이 향상된다.
도 1의 인코더의 동작 모드에 대한 앞선 설명은, 디코더 측으로 전송될 클리핑된 양자화 인덱스들 ic(n)을 획득하기 위해, 프리필터링된 신호 f(n)의 포스트처리에 집중하였다. 양자화 인덱스들이 일정하고 제한된 개수의 인덱스를 가지는 수량으로부터 비롯되므로, 이것들은 각각 출력(14)에서 인코딩된 데이터 스트림 내에서 동일한 개수의 비트로 표현된다. 그러므로, 비트 스트림 생성기(24)는, 예를 들어, 비트 m의 정해진 개수에 의해 표현될 수 있는 양자화 인덱스들의 m 비트 단어들로의 주사적인 매핑을 사용한다.
아래의 설명은 계수 계산 모듈(28 및 36)에 의해 계산된 프리필터 또는 예측 계수들의 디코더 측으로의 전송을 다루는데, 즉, 특히 계수 인코더(30 및 38)의 구조를 위한 실시예와 함께 설명된다.
보는 바와 같이, 도 4의 실시예에 따른 계수 인코더들은 LSF 변환 모듈(102), 제1 감산기(104), 제2 감산기(106), 균일하고 적응 가능한 양자화 스텝 크기를 가지는 균일 양자화기(108), 제한기(110), 역양자화기(112), 제3 가산기(114), 2개의 지연 멤버들(116 및 118), 고정된 필터 계수들 또는 일정한 필터 계수들 가지는 예측 필터(120) 각각, 그리고 스텝 크기 적응 모듈(122)을 포함한다. 인코딩될 필터 계수들이 입력(124)에서 들어오고, 출력(126)이 인코딩된 표현을 출력하기 위해 공급된다.
LSF 변환 모듈(102)이 바로 입력(124)에 뒤따른다. 비반전 입력 및 출력을 가지는 감산기(104)는 LSF 변환 모듈(102) 및 감산기(106)의 제1 입력에 연결되어 있으며, 상수 lc는 감산기(104)의 입력으로 인가된다. 감산기(106)는 그 비반전 입력 및 출력을 가지고 제1 감산기(104) 및 양자화기(108) 사이에 연결되며, 그 비반전 입력은 예측 필터(120)의 출력에 연결된다. 지연 멤버(118) 및 가산기(114)와 함께, 예측 필터(120)는 폐-루프 예측기를 형성하는데, 여기서 이들은 피드백을 가지는 루프 내에서 직렬로 연결되어, 지연 멤버(118)가 가산기(114)의 출력 및 예측 필터(12)의 입력 사이에 연결되고, 예측 필터(120)의 출력은 가산기(114)의 제1 입력으로 연결된다. 잔여 구조는 다시 주로 인코더(10)의 수단(22) 중 하나에 대응된다. 즉, 양자화기(108)는 감산기(106)의 출력과 제한기(110)의 입력 사이에 연결되 며, 제한기(110)의 출력은 다시 출력(126), 지연 멤버(116)의 입력 및 역양자화기(112)의 입력으로 연결된다. 지연 멤버(116)의 출력은 스텝 크기 적응 모듈(122)의 입력에 연결되며, 따라서, 이들은 함께 스텝 크기 적응 블록을 형성한다. 스텝 크기 적응 모듈(122)의 출력은 양자화기(108) 및 역양자화기(112)의 스텝 크기 제어 입력으로 연결된다. 역양자화기(112)의 출력은 가산기(114)의 제2 입력으로 연결된다.
위에서 계수 인코더의 구조가 설명된 이후에, 그 동작 모드가 아래에서 설명될 것인데, 다시 도 1이 참조될 것이다. 프리필터 및 각각 예측 또는 예측자 계수들 양자의 전송 또는 이들의 인코딩은, 각각 일정한 비트 레이트 인코딩 방법을 이용해 수행되고, 도 4에 따른 구조에 의해 실현된다. 그리고, LSF 변환 모듈(102)에서, 필터 계수들, 즉 프리필터 또는 예측 계수들은 각각 먼저 LSF 값들 l(n)으로 변환되거나 또는 LSF 영역으로 각각 옮겨진다. 모든 스펙트럼 라인 주파수 l(n)은 그리고 도 4의 잔여 소자에 의해 아래와 같이 처리된다. 이는 아래의 설명이 단지 하나의 스펙트럼 라인 주파수와 연결되고, 처리는 당연히 모든 스펙트럴 라인 주파수에 대해 실행되는 것을 의미한다. 예를 들어, 모듈(102)은 마스킹 임계치를 표현하는 모든 프리필터 계수들의 세트 혹은 프리필터링된 신호를 예측하는 예측 계수들의 블록에 대해 LSF 값들을 생성한다. 감산기(104)는 계산된 값 l(n)으로부터 일정한 참조 값 lc를 감산하며, lc에 대한 충분한 범위는 예를 들어 1부터 π까지의 범위이다. 결과적인 차이 ld(n)으로부터, 감산기(106)는 예측된 값
Figure 112008078285473-pct00010
d(n)을 감산하 는데, 이는 고정된 계수들 A(z)을 가지는, 선형 필터와 같은 예측 필터(120)를 포함하는 폐-루프 예측기(120, 118, 114)에 의해 계산된다. 남는 것, 즉, 잔여 값은 적응적 스텝 크기 양자화기(108)에 의해 양자화되고, 양자화기(108)에 의해 출력되는 양자화 인덱스들은 제한기(110)에 의해, 예를 들어, 모든 클리핑된 양자화 인덱스들 le(n)에 대해 제한기(110)에 의해 인덱스들이 출력됨에 따라, ∀ : le(n) ∈ {-1, 0, 1}이 적용되는 것과 같은 것에 의해 수신된 양자화 인덱스들의 서브셋으로 클리핑된다. LSF 잔여 양자화기(108)의 양자화 스텝 크기 적응 Δ(n)에 대해, 스텝 크기 적응 모듈(122) 및 지연 멤버(116)는 예를 들어, 도 1을 참조한 스텝 크기 적응 블록(54)과 관련하여 설명된 방식으로 협력하는데, 될 수 있는 한 다른 적응 함수로 또는 다른 상수들 β, I, δ0, δ1, 및 I룰 이용해 협력한다. 양자화기(108)는 현재의 잔류 값을 le(n)으로 양자화하기 위한 현재의 스텝 크기를 이용하는 반면, 역양자화기(112)는 이러한 인덱스 값 le(n)을 다시 역양자화하기 위한, 그리고 LSF 잔류 값을 위한 결과적인 재구성된 값을 공급하기 위한 스텝 크기 Δl(n)을 이용하는데, 감산기(106)에 의해 이 값이, 다음 LSF 값 ld(n)을 위한 예측된 LSF 값
Figure 112008078285473-pct00011
d(n)을 계산하기 위해, 역양자화된 인덱스 값을 상응하는 예측된 값
Figure 112008078285473-pct00012
d(n)에 가산하여 지연 멤버(118)를 통해 하나의 샘플만큼 지연된 값을 필터(120)로 공급하는 가산기(114)로 출력되어지는 동안 이런 동작이 이루어진다.
2개의 계수 인코더(30 및 38)가 도 4에 도시된 방식으로 구현된다면, 도 1의 코더(10)가 어떤 루프도 없이 일정한 비트 레이트 조건을 만족한다. LPC 계수들의 블록 방식 포워드 적응 및 적용된 인코딩 방법으로 인해, 예측기의 명백한 리셋이 필요치 않게 된다.
도 1 및 4에 따른 인코더에 의해 얻어진 청취 테스트의 결과 전에, 이러한 인코더로부터 인코딩된 데이터 스트림을 디코딩하기에 적합한 본 발명의 일 실시예에 따른 디코더의 구조가 도 5 및 6을 참조로 하여 아래에서 설명될 것이다. 도 6은 또한 도 1의 계수 디코더의 구조를 보여준다.
도 5에서 일반적으로 200으로 표시된 디코더는, 인코딩된 데이터 스트림을 수신하는 입력(202), 제한적이고 일정한 숫자의 양자화 레벨들을 가지는 역양자화 수단(206)뿐만 아니라 디코딩된 오디오 스트림 y(n)을 출력하는 출력(204), 예측 수단(208), 포스트필터 수단(212)뿐 아니라 재구성 수단(210)을 포함한다. 추가적으로, 입력(202)과 연결되고, 들어오는 인코딩된 비트 스트림으로부터, 양자화되고 클리핑된 프리필터 잔여 신호 ic(n), 프리필터 계수들에 대한 인코딩된 정보 및 예측 계수들에 대한 인코딩된 정보를, 이들이 계수 인코더들(30 및 38(도 1))로부터 생성되어지는 동안, 추출하도록 구현된 추출기(214)가 제공된다. 역양자화되거나 또는 재구성된 프리필터 신호 qc(n)을 각각 획득하기 위해서, 추출기로부터 양자화 인덱스들 ic(n)을 획득하고, 이러한 인덱스들을 제한적이고 일정한 숫자의 양자화 레벨들, 즉, (위에서와 동일한 표시를 유지할 경우) {-cΔ(n); cΔ(n)}로의 역양자화를 수행하는 역양자화 수단(206)이 추출기(214)로 연결된다. 예측 수단(208) 은 예측 계수들에 관한 정보로부터 프리필터링된 신호를 위한 예측된 신호, 즉
Figure 112008078285473-pct00013
c(n)를 결정하기 위하여 추출기(214)로 연결되며, 여기서 도 5의 실시예에 따른 예측 수단(208)이 또한 재구성 수단(210)의 출력으로 연결된다. 재구성 수단(210)은 예측된 신호
Figure 112008078285473-pct00014
및 역양자화된 잔여 신호들 qc(n)에 기초하여, 프리필터링된 신호를 재구성하기 위해 제공된다. 그리고, 이러한 재구성은 추출기(214)로부터 수신된 프리필터 계수 정보에 기초하여 프리필터링된 신호를 필터링하기 위한 후속하는 포스트필터 수단(212)에 의해 이용되어, 마스킹 임계치와 관련한 정규화가 디코딩된 오디오 신호 y(n)을 획득하기 위해 제거된다.
도 5의 디코더의 기존 구조가 위에서 설명되었고, 디코더(200)의 구조가 보다 자세히 설명될 것이다. 특히, 역양자화기(206)는 균일 역양자화기(220)뿐 아니라 지연 멤버(216)의 스텝 크기 적응 블록 및 스텝 크기 적응 모듈(218)을 포함한다. 양자화 인덱스들 ic(n)을 획득하기 위해 역양자화기(220)가 그 입력으로서 추출기(214)의 출력으로 연결된다. 또한, 스텝 크기 적응 모듈(218)은, 그 출력이 역양자화기(220)의 스텝 크기 제어 입력으로 다시 연결되는 지연 멤버(216)를 통해 추출기(214)의 이러한 출력으로 연결된다. 역양자화기(220)의 출력은 재구성 수단(210)을 형성하는 가산기(222)의 제1 입력으로 연결된다. 예측 수단(208)은 지연 멤버(228)뿐 아니라 계수 디코더(224), 예측 필터(226)를 포함한다. 계수 디코더(224), 가산기(222), 예측 필터(226) 및 지연 멤버(228)는 그 동작 모드 및 그 연결성과 관련하여 인코더(10)의 구성요소(40, 44, 46 및 48)에 상응한다. 특히, 예측 필터(226)의 출력은 또한, 그 출력이 포스트필터(212)에 연결될뿐 아니라, 지연 멤버(228)에 의해 다시 예측 필터(226)의 데이터 입력으로 궤환되는 가산기(222)의 입력으로 연결된다. 계수 디코더(224)는 추출기(214)의 다른 출력 및 예측 필터(226)의 적응 입력 사이에 연결된다. 포스트필터 수단은 계수 디코더(230) 및 포스트필터(232)를 포함하고, 포스트필터(232)의 데이터 입력은 가산기(222)의 출력으로 연결되고 포스트필터(232)의 데이터 출력은 출력(204)으로 연결되며, 포스트필터(232)의 적응 입력은, 그 입력이 다시 추출기(214)의 다른 출력으로 연결되는 포스트필터(232)를 적응시키기 위한 계수 디코더(230)의 출력으로 연결된다.
이미 서술한 바와 같이, 추출기(214)는 입력에서(212)의 인코딩된 데이터 스트림으로부터 양자화된 프리필터 잔여 신호를 나타내는 양자화 인덱스들 ic(n)를 추출한다. 균일 역양자화기(220)에서, 이러한 양자화 인덱스들은 양자화된 잔여 값들 qc(n)으로 역양자화된다. 따라서, 양자화된 인덱스들 ic(n)이 이미 인코더 측에서 클리핑되었기 때문에, 이러한 역양자화는 허용된 양자화 레벨들 내에 머무른다. 스텝 크기 적응은, 도 1의 인코더의 스텝 크기 적응 블록(54)에서와 동일한 방법으로 백워드-적응적 방식으로 수행된다. 전송 에러 없이, 역양자화기(220)는 도 1의 인코더의 역양자화기(50)와 동일한 값을 생성한다. 그러므로, 인코딩된 예측 계수들에 기초한 구성요소들(222, 226, 228 및 224)이 가산기(48)의 출력에서 도 1의 인코더(10)에서 얻어지는 것과 동일한 결과, 즉 각각 역양자화된 또는 재구성된 프리필터 신호를 얻는다. 재구성된 프리필터 신호는 마스킹 임계치에 대응하는 전송 함 수를 이용해 포스트필터(232)에서 필터링되고, 포스트필터(232)는 포스트필터(230) 또는 그 필터 계수들을 프리필터 계수 정보에 따라 적절히 변화시키는 계수 디코더(230)에 의해 적응적으로 조절된다.
도 4에 도시된 바와 같이 구현되는, 계수 인코더들(30 및 38)이 인코더(10)에 제공된다고 가정할 때, 인코더(200)의 계수 디코더들(224 및 230)뿐만 아니라 인코더(10)의 계수 디코더(40) 또한 도 6에 보여지는 바와 같이 구성된다. 보여지는 바와 같이, 계수 디코더는 2개의 지연 멤버들(302, 304), 지연 멤버(302)와 함께 스텝 크기 적응 블록을 형성하는 스텝 크기 적응 모듈(306), 균일 스텝 크기를 가지는 균일 역양자화기(308), 2개의 가산기들(312 및 314), 일정한 오프셋 -lc를 가지는 양자화된 LSF 잔여 값들 le(n)을 수신하는 입력(318)뿐 아니라 LSF 재변환 모듈(316), 및 재구성된 예측 또는 프리필터 계수들 각각을 출력하는 출력(320)을 포함한다. 그 때문에, 지연 멤버(302)는 스텝 크기 적응 모듈(306)의 입력 및 입력(318) 사이에 연결되고, 역양자화기(308)의 입력이 또한 입력(318)에 연결되며, 역양자화기(308)의 스텝 크기 적응 입력이 스텝 크기 적응 모듈(306)의 출력에 연결된다. 동작 모드 및 구성요소들(302, 206, 308)의 연결성은 도 4의 112, 116 및 122 중 하나에 대응된다. 가산기(312)의 출력 및 예측 필터(310)의 입력 사이에 지연 멤버(304)를 연결시킴으로써, 가산기(312)의 제1 입력을 역양자화기(308)의 출력에 연결시킴으로써, 그리고, 가산기(312)의 제2 입력을 예측 필터(310)의 출력으로 연결시킴으로써 공통 루프 내에 연결되는, 지연 멤버(304)의 폐루프 예측기, 예 측 필터(310) 및 가산기(312)가 역양자화기(308)의 출력에 연결된다. 구성요소들(304, 310, 및 312)은 그 동작 모드 및 연결성 면에서 도 4의 구성요소들(120, 118 및 114)에 상응한다. 추가적으로, 가산기(312)의 출력은, 일정한 값 lc 가 적용되는 제2 입력에서 가산기(314)의 제1 입력에 연결되며, 여기서 본 실시예에 따르면 상수 lc는, 인코더 및 디코더 양쪽에 존재하고, 따라서 부가 정보의 일부로서 전송될 필요가 없는(또한 비록 가능할 수도 있음) 동의된 양이다. LSF 재변환 모듈(316)은 가산기(314)의 출력 및 출력(320) 사이에 연결된다.
입력(318)으로 들어오는 LSF 잔여 신호 인덱스들 le(n)는 역양자화기(308)에 의해 역양자화되고, 역양자화기(308)는, 스텝 크기 적응 모듈(306)에 의해 이미 역양자화된 양자화 인덱스들로부터 백워드-적응적 방식으로 결정된, 백워드-적응적 스텝 크기 값들 Δ(n), 즉 지연 멤버(302)에 의해 한 샘플만큼 지연된 값들을 이용한다. 가산기(312)는 예측된 신호를 역양자화된 LSF 잔여 값들에 가산하는데, 가산기(312)가 이미 이전에 계산한 합계들로부터 지연 멤버(304) 및 예측 필터(210)의 결합을 계산하여, 재구성된 LSF 값들을 표현하는데, 여기에는 단지 일정한 오프셋 lc만큼의 일정 오프셋이 공급된다. 재구성된 LSF 값은, 값 lc 를 가산기(312)가 출력하는 LSF 값들에 더함으로써 가산기(314)에 의해 정정된다. 따라서, 가산기(314)의 출력에서, 재구성된 LSF 값들은 모듈(316)에 의해 LSF 영역으로부터 재구성된 예측 또는 프리필터 계수들로 각각 변환되는 결과를 낳는다. 그러므로, LSF 재변환 모듈(316)은 모든 스펙트럼 라인 주파수들을 고려하지만, 도 6의 다른 구성요소들 의 논의는 하나의 스펙트럼 라인 주파수의 설명에 국한된다. 하지만, 구성요소들(302 -314)는 다른 스펙트럼 라인 주파수들에서 또한 상기 설명된 측정들을 수행한다.
인코더 및 디코더 실시예들 양자를 위에서 제공한 후에, 청취 테스트 결과가 도 1, 4, 5, 및 6에 따른 인코딩 방법을 통해 얻어짐에 따라, 그 결과가 도 7을 기초로 하여 소개될 것이다. 수행된 테스트에서, 조절기들(moderators)이 생략된 MUSHRA 표준에 따른 청취 테스트에서, 도면들의 설명 시작 부분에서 논의된, 도 1, 4, 및 6에 따른 인코더 및 비교 ULD 인코딩 방법에 따른 인코더 양쪽이 테스트되었다. MUSHRA 테스트는 조용한 사무실 환경에서 외부 디지털-아날로그 변환기와 STAX 증폭기/헤드폰을 가진 노트북 컴퓨터에 상에서 실행되었다. 8명의 테스트 청취자 그룹은 전문가 및 비전문가 청취자들로 구성되었다. 참가자들이 청취 테스트를 시작하기 전에, 그들에게는 테스트 세트를 청취할 기회가 제공되었다. 이 테스트들은 MPEG 테스트 세트의 12 개의 모노 오디오 파일들을 가지고 실행되었으며, 여기서 테스트 세트는 모두 32 kHz의 샘플 주파수를 가지며, 일명 es01 (Suzanne Vega), es02 (남성 음성, 독일인), es03 (여성 음성, 영어), sc01 (트럼펫), sc02 (오케스트라), sc03 (팝 음악), si01 (켐발로, cembalo), si02 (캐스터네츠, castanets), si03 (피치 파치프), sm01 (백파이프), sm02 (글로켄슈필, glockenspiel), sm03 (퍼클드 스트림, puckled stings),
비교 ULD 인코딩 방법에 대해서는, 길이 64를 가지는 백워드-적응적 예측이, 64 kBit/s의 일정 비트 레이트를 가지고, 엔트로피 인코딩을 위한 백워드-적응적 Golomb 인코더와 함께, 구현에 사용되었다. 반대로, 도 1, 4 및 6에 따른 인코더를 구현하기 위해서, 길이 12를 가지는 포워드-적응적 예측기가 사용되었으며, 서로 다른 양자화 레벨들의 개수는 3으로 제한, 즉 ∀n : ic(n) ∈ {-1,0,1}이 되도록 하였다. 이것은 인코딩된 부가 정보와 함께, 동일한 비트 레이트를 의미하는, 64 kBis/s의 일정 비트 레이트라는 결과를 낳는다.
MUSHRA 청취 테스트의 결과는, 평균 값들 및 95% 신뢰도 구간이 도시된 도 7에서 12 개의 테스트 피스들 각각에 대해 및 모든 피스들에 걸친 전체적인 결과에 대해 나타나 있다. 신뢰도 구간이 겹치는 한, 인코딩 방법들 사이에 통계적으로 중요한 차이는 없다.
피스 es01 (Suzanne Vega)은 더 낮은 비트 레이트에서의 도 1, 4, 5, 및 6에 따른 인코딩 방법의 우수성의 좋은 예이다. 디코딩된 신호 스펙트럼의 더 높은 부분은 비교 ULD 인코딩 방법에 비해 더 잘 들리지 않는 아티팩트를 보여준다. 이것은 도 1, 4, 5 및 6에 따른 방법의 상당히 더 높은 레이팅(rating)을 초래한다.
피스 sm02 (글로켄슈필)의 신호 과도현상(transients)은 비교 ULD 인코딩을 위한 높은 비트 레이트 요구사항을 가진다. 사용된 64kBit/s에서, 비교 ULD 인코딩 방법은 샘플들의 전체 블록들에 걸쳐 스퓨리어스 인코딩 아티팩트를 생성한다. 반대로, 도 1, 4, 및 6에 따라 동작하는 인코더는 상당히 향상된 청취 품질 또는 지각된 품질을 각각 제공한다. 오른쪽의 도 7의 그래프에서 보는 바와 같이, 도 1, 4, 및 6에 따라 형성된 인코딩 방법의 전체적인 레이팅은 비교 ULD 인코딩 방법보 다 나은 레이팅을 얻는다. 전체적으로 이런 인코딩 방법은 주어진 테스트 조건들에서 전체적인 "좋은 오디오 품질"의 전체적인 레이팅을 얻었다.
정리하자면, 앞서 설명된 실시예들에서, 낮은 지연을 가지는 오디오 인코딩 방법은 백워드-적응적 샘플 방식 예측 대신에 클리핑/제한과 함께 블록-방식 포워드-적응적 예측을 이용한다. 노이즈 형성은 비교 ULD 인코딩 방법과 다르다. 청취 테스트는 앞서-설명된 실시예들이 보다 낮은 비트 레이트의 경우 비교 ULD 인코딩 방법에 따른 백워드-적응적 방법에 비해 우수하다는 것을 보여주었다. 따라서, 동일한 방법이 높은 품질 음성 인코더와 낮은 지연을 가지는 오디오 인코더 사이의 비트 레이트 간극(gap)을 메울 수 있는 후보가 된다. 전체적으로, 앞서 -설명된 실시예들은 줄어든 비트 레이트에 대해 6 - 8 ms의 매우 낮은 지연을 가지는 오디오 인코딩 방법에 대한 가능성을 제공하였으며, 이는 비교 ULD 인코더에 비해 아래와 같은 장점들을 가진다. 이 방법은 높은 양자화 에러에 대해 보다 로버스트(robust)하고, 추가적인 노이즈 형성 능력을 가지며, 일정 비트 레이트를 획득하는 보다 나은 능력을 가질 뿐 아니라, 보다 나은 에러 회복 행동을 보여준다. 신호가 없는 위치에서의 가청 양자화 노이즈의 문제는, 비교 ULD 인코딩 방법의 경우에서와 같이 마스킹 임계치 위의 증가하는 양자화 노이즈의 변형된 방법에 의한 실시예에 의해, 즉 마스킹 임계치를 어느 정도까지 균일하게 증가시키는 대신, 마스킹 임계치에 대해 신호 스펙트럼을 부가함으로써 다루어진다. 그러함으로써, 신호가 없는 위치에서 가청 양자화 노이즈가 없다.
즉, 위의 실시예들은 아래와 같이 비교 ULD 인코딩 방법과는 다르다. 비교 ULD 인코딩 방법에서는 백워드-적응적 예측이 사용되며, 예측 필터 A(z)를 위한 계수들이 이전에 디코딩된 신호 값들로부터 한 샘플씩의(samle-by-sample) 원칙에 따라 업데이트된다. 가변 스텝 크기를 가지는 양자화가 사용되며, 스텝 크기는 엔트로피 인코더들로부터의 정보를 이용하여 모든 128개의 샘플들을 적용시키고, 이것이 부가 정보로서 디코더 측으로 전송된다. 이 절차에 의해, 양자화 스텝 크기는 증가하고, 프리필터링된 신호에 백색 노이즈를 더 부가하게 되며, 따라서 마스킹 임계치를 균일하게 증가시킨다. 비교 ULD 인코딩 방법에서 백워드-적응적 예측이 포워드 적응적 방식으로 교체된다면, 이는 예측 필터 A(z)를 위한 계수들이 비양자화된 프리필터링된 샘플들로부터 128 샘플들에 대해 한 번 계산되며, 부가 정보로서 전송됨을 의미하고, 만일 양자화 스텝 크기가 엔트로피 인코더로부터의 정보를 이용해 128 샘플들에 대해 적응되고 부가 정보로서 디코더 측에 전송된다면, 비교 ULD 인코딩 방법에서의 경우와 같이 양자화 스텝 크기는 여전히 증가하지만, 예측기 업데이트는 어떤 양자화에 의해서도 영향을 받지 않는다. 위의 실시예들은 단지 포워드 적응된 블록 방식 예측을 사용하였고, 부가적으로 양자화기는 고정된 스텝 크기를 가지는 양자화 단계들(quantizing stages)의 주어진 개수 2N +1 만을 가졌다. 양자화기 범위 [-ΔN; ΔN]를 벗어난 진폭을 가지는 프리필터링된 신호 x(n)에 대해, 양자화된 신호는 [-ΔN; ΔN] 에 제한된다. 이는, 더이상 백색이 아닌, PSD를 가지는 양자화 노이즈를 초래하지만, 입력 신호, 즉 프리필터링된 오디오 신호의 PSD를 복사한다.
결론적으로, 위의 실시예들에 대해 아래와 같은 사항들이 유의되어야 한다. 먼저, 마스킹 임계치의 표현과 관련하여 정보를 전송하는 데에는 여러 가능성들이 존재한다는 것에 유의하여야 하는데, 이러한 가능성들은 프리필터(34) 또는 예측 필터(44) 각각에 대해, 디코더에 대해, 특히 포스트필터(232) 및 예측 필터(226)에 대해 인코더 내의 지각적 모델 모듈(26)에 의해 얻어지기 때문이다. 특히, 인코더 내 계수 디코더들(32 및 40)은 마스키 임계치와 관련하여 정확하게 동일한 정보를 수신하는데, 그것은 정보가 인코더의 출력(14)에서 출력되고, 디코더의 출력(202)에서 수신되기 때문이다. 그보다, 도 4에 따른 계수 인코더의 구조에서와 같은 예에 대해, 프리필터 잔여 신호 양자화 인덱스들 ic(n)뿐만 아니라 획득한 인덱스들 le(n)은 세 개의 값, 즉 -1, 0, 1의 양으로부터만 비롯되고, 비트 스트림 생성기(24)가 이러한 인덱스들을 상응하는 n 비트 단어에 대해 명확하게 매핑하는 것이 가능하다. 도 1, 4, 또는 5, 6 각각에 따른 실시예에 따라, 각각 -1, 0, 1의 양으로부터 비롯된, 프리필터 양자화 인덱스들, 예측 계수 양자화 인덱스들 및/또는 프리필터 양자화 인덱스들은 8-비트 단어에 대해 5 개의 그룹들로 매핑되며, 이는 28 비트 워드에 대해 35 개의 가능성들의 매핑에 해당한다. 매핑이 전사(surjective)가 아니므로, 여러 8-비트 단어가 미사용으로 남고, 동기화 등과 같은 다른 방법으로 사용될 수 있다.
이 경우, 아래의 사항들이 유의되어야 한다. 위에서, 계수 디코더들(32 및 230)의 구조가 동일한 도 6을 참조로 하여 설명되었다. 이 경우, 프리필터(34) 및 포스트필터(232)는, 동일한 필터 계수들을 적용할 때 계수들이 서로에 대해 역인 전달 함수를 가지도록 구현된다. 하지만, 예를 들어 계수 인코더(32)가 필터 계수들의 부가적인 변환을 실행하여, 프리필터가 주로 마스킹 임계치의 역에 상응하는 전달 함수를 가지도록 하는 반면, 포스트필터는 주로 마스킹 임계치에 상응하는 전달 함수를 가지도록 하는 것 또한 물론 가능하다.
상기 실시예들에서, 마스킹 임계치는 모듈(26)에서 계산되는 것을 가정하였다. 하지만, 계산된 임계치는 음향심리학적 임계치에 정확하게 상응하지는 않지만, 그에 어느 정도 가까운 정확한 추정을 표현하며, 이는 모든 음향심리학적 효과를 모두 고려하지는 않지만 그 중 몇몇만 고려할 수도 있다. 특히, 임계치는, 음향심리학적 마스킹 임계치의 추정과 반대를 이루는 변형에 고의적으로 종속되어온, 음향심리학적으로 유도된 임계치를 표현할 수 있다.
또한, 프리필터 잔여 신호 값들의 양자화에 있어 스텝 크기 백워드-적응적 적용이 꼭 필요한 것은 아니라는 것을 유의하여야 한다. 그보다, 어떤 어플리케이션 경우들에서, 고정된 스텝 크기면 충분할 수 있다.
또한, 본 발명은 오디오 인코딩 분야에만 국한되는 것은 아니다. 그보다는, 인코딩될 신호가 가상 세계 장갑에서의 손가락을 자극하기 위해 사용되는 신호일 수 있으며, 여기서 이 경우의 지각적 모델(26)은 인간의 촉감이 더이상 지각하지 않는 특정 촉각적 특징들을 고려한다. 인코딩될 정보 신호의 또 다른 실시예는, 예를 들어 비디오 신호이다. 인코딩될 정보 신호는 특히, 각각 픽셀 또는 이미지 포인트의 밝기 정보일 수 있으며, 지각적 모델(26)은 또한 다른 임시적이고, 지역적 이고, 주파수 시각심리학적(psychovisual) 차폐 효과들, 즉 시각적 마스킹 임계치를 고려할 수도 있다.
추가적으로 양자화기(56) 및 제한기(58) 또는 양자화기(108) 및 제한기(110), 각각은 별도의 요소들일 필요가 없다는 점 또한 이해되어야 할 것이다. 그보다는, 비양자화된 값들을 양자화된/클리핑된 값들로 매핑시키는 것이 또한 단일 매핑에 의해 실행된다. 반대로, 양자화기(56) 또는 양자화기(108) 각각은, 균일하고 일정한 스텝 크기를 가지는 양자화기가 뒤따르는 분리기의 시리즈 연결에 의해 실현될 수도 있으며, 여기서 분리기는 제수(divisor)와 같은 개별 스텝 크기 적응 모듈로부터 획득한 스텝 크기 값 Δ(n)을 사용할 수 있고, 인코딩될 잔여 신호는 피제수(dividend)를 형성한다. 일정하고 균일한 스텝 크기를 가지는 양자화기는 나누기 결과를 다음 정수로 라운딩(rounding)하는 간단한 라운딩 모듈로서 제공될 수 있으며, 그에 따라 후속하는 제한기가 앞서 설명된 정수를 허용된 양 C의 정수로 제한하게 된다. 개별 역양자화기에서, 균일 역양자화는 Δ(n)을 승수로 사용해 실행된다.
또한, 위의 실시예들은 일정 비트 레이트를 가지는 어플리케이션들에 제한되었다는 점을 주목해야 한다. 하지만, 본 발명이 거기에 국한되는 것은 아니며, 따라서 예를 들어 이러한 실시예들에서 사용된 프리필터링된 신호의 클리핑에 의한 양자화가 유일하게 가능한 하나의 대체물이다. 클리핑 대신에, 비선형 특성 곡선을 가지는 양자화 함수가 사용될 수 있다. 이를 설명하기 위해 도 8a 내지 8c가 참조된다. 도 8a는 위에서 사용된, 3개의 양자화 단계들에 대한 클리핑을 초래하는 양 자화 함수, 즉 비양자화된 값들(x 축)을 양자화 인덱스들(y 축)로 매핑시키는 3개의 단계들 402a, b, c를 가지는 스텝 함수를 보여주며, 여기에서는 양자화 단계 높이 또는 양자화 스텝 크기 Δ(n) 또한 마킹되어 있다. 도시된 바와 같이, Δ(n)/2보다 높은 비양자화된 값들이 개별적인 다음 단계(stage) 402a 또는 c로 각각 클리핑된다. 도 8b는 일반적으로 2n+1 양자화 단계들로의 클리핑을 초래하는 양자화 함수를 나타낸다. 양자화 스텝 크기 Δ(n)가 다시 보여진다. 도 8a 및 8b의 양자화 함수들은 양자화 함수들을 나타내며, 임계치들 -Δ(n) 및 Δ(n) 또는 -NΔ(n) 및 NΔ(n) 사이에서의 양자화는 균일 방식, 즉 동일한 단계 높이로 일어나며, 따라서 양자화 단계 함수는 클리핑에 대응되는 평평한 방식으로 진행된다. 도 8c는 비선형 양자화 함수를 나타내는데, 여기서 양자화 함수는 -NΔ(n) 및 NΔ(n) 사이의 영역에 걸쳐 완전히 평평하게 진행되지 않고, 더 낮은 슬로프, 즉 제1 영역에 비해 각각 더 큰 스텝 크기 또는 단계 높이를 가지고 진행된다. 이러한 비선형 양자화는, 위의 실시예들에서의 경우와 같이, 일정 비트 레이트를 자연히 도출하지는 않지만, 또한 양자화 노이즈의 앞서 설명된 변형을 생성시키고 따라서 신호 PSD에 대해 동일한 것이 적용된다. 단지 예방적 측정으로서, 도 8a-c를 참조하여, 균일 양자화 영역 대신 비균일 양자화가 예를 들어, 단계 높이가 지속적으로 증가하는 곳에 사용될 수 있음을 유의하여야 하는데, 여기서, 단계 높이는 그 상호 관계를 유지하면서도 단계 높이 조절 값 Δ(n)을 통해 조절 가능할 수 있다. 따라서, 예를 들어 비양자화된 값은 비선형 함수를 통해 각각의 양자화기에서 중간 값으로 매핑될 수 있으며, 그 전에 또는 그 후에 Δ(n)을 이용한 곱셈이 실행되고, 최종적으로 결과적 인 값은 균일하게 양자화된다. 개별 역양자화기에서, 그 역이 시행될 수 있는데, 이는 역 비선형 매핑이 뒤따르는 Δ(n)을 통한 균일 역양자화 또는, 반대로, 처음에 Δ(n)을 이용한 역양자화가 뒤따르는 비선형 변환 매핑을 의미한다. 최종적으로, 단계 높이가 매우 높게 조절되고, 양자화가 매우 코어스하게 되어, 이러한 양자화가 양자화될 신호의 신호 통계와 관련하여 비선형적 양자화와 같이 효과적으로 동작할 때(여기서 이러한 단계 높이 조절은 예측의 포워드 적응성에 의해 가능하도록 만들어지는 것이 또한 가능하다), 연속적으로 균일한, 즉 에러 PSD의 변형의 상술한 효과를 획득함에 의한 선형 양자화가 또한 가능하다는 것이 유의되어야 할 것이다.
또한, 상기 설명된 실시예들은 또한 인코딩된 비트 스트림의 처리와 관련하여 변할 수 있다. 특히, 비트 스트림 생성기 및 추출기9214) 각각이 또한 생략될 수 있다.
여러 양자화 인덱스들, 즉 프리필터링된 신호들의 잔여 값들, 프리필터 계수들의 잔여 값들, 및 예측 계수들의 잔여 값들 또한, 개별적인 채널들을 통해 개별적으로 서로에 대해 병렬로 전송되거나, 전송되거나 혹은 디코딩을 위해 다른 방법으로 유효하게 만들어질 수 있다. 반면, 일정한 비트 레이트가 필수적이지 않은 경우, 이러한 데이터는 또한 엔트로피-인코딩될 수 있다.
특히, 도 1, 4, 5 및 6의 블록들에서 상기 함수는 서브-프로그램 루틴들에 의해 개별적으로 혹은 조합으로 구현될 수 있다. 대체적으로, 집적 회로의 형태로서의 본 발명에 따른 장치의 구현 또한 가능하며, 이러한 블록들은 예를 들어, AISC의 개별적인 회로 부분들로서 구현될 수 있다.
특히, 환경들에 따라, 본 발명의 방법은 또한 소프트웨어로 구현되는 것도 가능하다. 프로그램 가능한 컴퓨터 시스템과 협력할 수 있어 개별 방법이 실행되도록 하는 디지털 메모리 매체, 특히 전자적으로 판독 가능한 제어 신호들을 가지는 디스크 혹은 CD 상에 구현될 수도 있다. 따라서, 일반적으로 본 발명은, 컴퓨터 프로그램 제품이 컴퓨터 상에서 동작할 때 본 방법을 실행하기 위해 기계-판독 가능한 캐리어(carrier) 상에 저장된 프로그램 코드를 가지는 컴퓨터 프로그램 매체로 또한 구성될 수 있다. 즉, 본 발명은 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 상기 방법을 실행하는 프로그램 코드를 갖는 컴퓨터 프로그램으로서 구체화될 수 있다.

Claims (48)

  1. 정보 신호를 인코딩된 정보 신호로 인코딩하는 장치로서,
    지각적 모델(perceptual model)을 이용하여, 지각성(perceptibility)과 관련하여 무관한 정보 신호의 일부분을 나타내는 심리-지각성 동기된 임계치(psycho-perceptibility motivated threshold)의 표현을 결정하는 수단(16);
    프리필터링된 신호를 획득하기 위해, 상기 심리-지각성 동기된 임계치와 관련하여 상기 정보 신호를 정규화하기 위하여 상기 정보 신호를 필터링하는 수단(18);
    프리필터링된 신호가 재구성될 수 있는 것에 기초하여, 프리필터링된 신호, 상기 프리필터링된 신호를 위한 예측 에러, 및 예측 계수들의 표현을 획득하기 위해 포워드-적응적 방식으로, 프리필터링된 신호를 예측하는 수단(20); 및
    양자화된 예측 에러를 획득하기 위해 예측 에러를 양자화하는 수단(22)으로서, 인코딩된 정보 신호는 심리-지각성 동기된 임계치의 표현, 예측 계수들의 표현 및 양자화된 예측 에러에 대한 정보를 포함하는, 양자화 수단(22)을 포함하는, 인코딩 장치.
  2. 청구항 1에 있어서,
    상기 양자화 수단(22)은, 예측 에러의 비양자화된 값들을 양자화 단계들의 양자화 인덱스들로 매핑하고 임계치 아래에서의 코스가 임계치 위에서보다 더 경사 진 양자화 함수를 통해 예측 에러를 양자화하도록 구현된, 인코딩 장치.
  3. 청구항 1에 있어서,
    상기 양자화 수단(22)은, 상기 양자화된 예측 에러로부터 백워드-적응적 방식으로 양자화 함수의 양자화 단계 높이 Δ(n)을 획득하도록 구현된 인코딩 장치.
  4. 청구항 1에 있어서,
    예측 에러를 양자화하는 상기 수단(22)은, 예측 에러의 비양자화된 값들이, 양자화된 예측 에러를 획득하기 위해 예측 에러의 비양자화된 값들을 일정하고 한정적인 제1 개수의 양자화 단계들의 양자화 인덱스들로 매핑시키는 양자화 함수에 의한 클리핑을 통해 양자화되도록 구현된 인코딩 장치.
  5. 청구항 4에 있어서,
    상기 양자화 수단(22)은,
    β∈[0.0; 1.0]에서 Δ(n) = βΔ(n-1) + δ(n), 상수 파라미터 δ0, δ1, 및 I에 대해 |ic(n-1) + i2(n-2)| ≤ I 인 경우 δ(n) = δ0, |ic(n-1) + i2(n-2)| > I인 경우 δ(n) = δ1 (여기서, Δ(n-1)은 예측 에러의 이전 값을 양자화 하기 위해 획득한 양자화 단계 높이를 나타냄)에 따라, 상기 양자화된 예측 에러의 2 개의 과거 양자화 인덱스들 ic(n-1) 및 ic(n-2)의 백워드-적응적 방식으로 상기 예측 에러 의 양자화값(r(n))을 양자화하기 위한, 양자화 함수의 양자화 단계 높이 Δ(n)을 획득하도록 구현된, 인코딩 장치.
  6. 청구항 4에 있어서,
    상기 양자화 수단(22)은 비선형 방식으로 예측 에러를 양자화하도록 구현된 인코딩 장치.
  7. 청구항 4에 있어서, 상기 일정하고 한정적인 제1 개수는 3인, 인코딩 장치.
  8. 청구항 1에 있어서,
    상기 결정 수단(16)은, 상기 심리-지각성 동기된 임계치를 상기 정보 신호로부터 블록 방식(block-wise) 방법으로 결정하도록 구현된 인코딩 장치.
  9. 청구항 1에 있어서,
    상기 결정 수단(16)은, 상기 심리-지각성 동기된 임계치를 LSF 영역에서 표현하도록 구현된 인코딩 장치.
  10. 청구항 1에 있어서,
    상기 결정 수단(16)은, 양자화된 필터 계수 잔여 신호를 획득하기 위해, 상기 심리-지각성 동기된 임계치를 블록 방식 방법으로 결정하여 필터링된 계수들로 표현하고, 상기 필터 계수들을 예측에 제공하며, 상기 예측으로부터 초래된 필터 계수 잔여 신호를 추가적인 양자화 함수를 통한 양자화에 제공하되, 상기 추가적인 양자화 함수는 상기 필터 계수 잔여 신호의 비양자화된 값들을 양자화 단계들의 양자화 인덱스들로 매핑하고 임계치 아래에서의 코스가 임계치 위에서보다 더 경사지며, 상기 인코딩된 정보 신호는 또한 양자화된 필터 계수 잔여 신호에 관한 정보를 포함하는, 인코딩 장치.
  11. 청구항 10에 있어서,
    상기 결정 수단(16)은 필터 계수 잔여 신호의 비양자화된 값들이, 필터 계수 잔여 신호의 비양자화된 값들을 일정하고 한정적인 제2 개수의 양자화 단계들의 양자화 인덱스들로 매핑시키는 추가적인 양자화 함수에 의한 클리핑을 통해 양자화되도록 구현된, 인코딩 장치.
  12. 청구항 11에 있어서,
    상기 결정 수단(16)은, 상기 예측이 양자화된 필터 계수 잔여 신호의 양자화 인덱스들에 기초하여 백워드-적응적 방식으로 수행되도록 구현된, 인코딩 장치.
  13. 청구항 10에 있어서,
    상기 결정 수단(16)은 상기 필터 계수들의 예측이 일정한 계수들을 가진 예측 필터를 사용하여 수행되도록 구현된, 인코딩 장치.
  14. 청구항 9에 있어서,
    상기 결정 수단(16)은 또한, 필터 계수들을 예측에 제공하기에 앞서, 심리-지각성 동기된 임계치를 표현하기 위해 상기 필터 계수들을 일정한 값과의 감산에 제공하도록 구현된, 인코딩 장치.
  15. 청구항 1에 있어서,
    포워드-적응적 방식으로 상기 프리필터링된 신호를 예측하는 상기 수단(20)은,
    상기 프리필터링된 신호로부터 예측 필터 계수들을 결정하는 수단(36); 및
    상기 예측 필터 계수들에 의해 조절되는 필터(44)를 더 포함하는, 인코딩 장치.
  16. 청구항 15에 있어서,
    상기 결정 수단(36)은, 상기 프리필터링된 신호로부터 블록 방식 방법으로 상기 예측 필터 계수들 결정하도록 구현된, 인코딩 장치.
  17. 청구항 15에 있어서,
    상기 결정 수단(36)은, 상기 예측 필터 계수들을 LSF 영역에서 표현하도록 구현된, 인코딩 장치.
  18. 청구항 15에 있어서,
    상기 결정 수단(36)은, 양자화된 예측 필터 계수 잔여 신호를 획득하기 위해, 블록 방식 방법으로 예측 필터 계수들을 결정하고, 상기 예측 필터 계수들을 예측으로 제공하며, 상기 예측으로부터 비롯된 예측 필터 계수 잔여 신호를 제3 양자화 함수에 의한 양자화로 제공하되, 상기 제3 양자화 함수는 상기 예측 필터 계수 잔여 신호의 비양자화된 값들을 양자화 단계들의 양자화 인덱스들로 매핑하고 제3 임계치 아래에서의 코스가 상기 제3 임계치 위에서보다 더 경사지며, 상기 인코딩된 정보 신호는 또한 양자화된 예측 필터 계수 잔여 신호에 관한 정보를 포함하는, 인코딩 장치.
  19. 청구항 18에 있어서,
    상기 결정 수단(36)은, 상기 예측 필터 계수 잔여 신호의 비양자화된 값들이, 상기 제3 양자화 함수에 의한 양자화 단계들의 제3 개수의 양자화 인덱스들로의 클리핑을 통해 양자화되도록 구현되며, 상기 제3 양자화 함수는 상기 예측 필터 계수 잔여 신호의 비양자화된 값들을 일정하고 한정적인 제3 개수의 양자화 단계들의 양자화 인덱스들로 매핑하는, 인코딩 장치.
  20. 청구항 18에 있어서,
    상기 결정 수단(36)은, 상기 예측이, 상기 프리필터링된 신호의 하나 또는 여러 이전의 블록들에 대한 상기 양자화된 예측 필터 계수 잔여 신호의 양자화 인덱스들에 기초하여 백워드-적응적 방식으로 수행되도록 구현된 인코딩 장치.
  21. 청구항 18에 있어서,
    상기 결정 수단(36)은, 상기 예측 필터 계수들의 예측이 일정한 계수들을 가진 예측 필터를 사용하여 수행되도록 구현된 인코딩 장치.
  22. 청구항 18에 있어서,
    상기 결정 수단(36)은 또한, 예측 필터 계수들을 예측에 제공하기에 앞서, 상기 예측 필터 계수들을 일정한 값과의 감산에 제공하도록 구현된, 인코딩 장치.
  23. 청구항 1에 있어서,
    상기 장치는 정보 신호로서 오디오 신호 또는 비디오 신호를 인코딩하도록 구현되며, 상기 지각적 모델은 음향심리학적 모델이고 상기 심리-지각성 동기된 임계치는 음향심리학적으로 동기된 임계치이거나, 또는 상기 지각적 모델은 시각심리학적(psychovisual) 모델이고 상기 심리-지각성 동기된 임계치는 시각심리학적으로 동기된 임계치인, 인코딩 장치.
  24. 심리-지각성 동기된 임계치의 표현, 예측 계수들의 표현, 및 양자화된 예측 에러와 관련한 정보를 포함하는 인코딩된 정보 신호를 디코딩된 정보 신호로 디코딩하는 장치로서,
    역양자화된 예측 에러를 획득하기 위해 상기 양자화된 예측 에러를 역양자화하는 수단(206);
    상기 예측 계수들에 기초하여 예측된 신호를 결정하는 수단(208);
    상기 예측된 신호 및 상기 역양자화된 예측 에러를 기초로 하여 프리필터링된 신호를 재구성하는 수단(210); 및
    상기 디코딩된 정보 신호를 획득하기 위해 상기 심리-지각성 동기된 임계치와 관련한 정규화를 재변환하기 위해 상기 프리필터링된 신호를 필터링하는 수단(212)을 포함하는 디코딩 장치.
  25. 청구항 24에 있어서,
    상기 역양자화 수단(206)은 상기 양자화된 예측 에러를 한정적이고 일정한 개수의 양자화 단계들로 역양자화하도록 구현된, 디코딩 장치.
  26. 청구항 25에 있어서,
    상기 역양자화 수단(206)은, 상기 양자화된 예측 에러의 이미 역양자화된 양자화 인덱스들로부터 백워드-적응적 방식으로, 상기 양자화 단계들 사이의 양자화 단계 높이 Δ(n)을 획득하도록 구현된, 디코딩 장치.
  27. 청구항 25에 있어서,
    β∈[0.0; 1.0]에서 Δ(n) = βΔ(n-1) + δ(n), 상수 파라미터 δ0, δ1, 및 I에 대해 |ic(n-1) + i2(n-2)| ≤ I 인 경우 δ(n) = δ0, |ic(n-1) + i2(n-2)| > I인 경우 δ(n) = δ1 (여기서, Δ(n-1)은 예측 에러의 이전 값을 양자화 하기 위해 획득한 양자화 단계 높이를 나타냄)에 따라, 상기 양자화된 예측 에러의 2 개의 과거 양자화 인덱스들 ic(n-1) 및 ic(n-2)로부터 백워드-적응적 방식으로 상기 양자화된 예측 에러의 양자화 인덱스들을 역양자화하기 위한, 상기 양자화 단계들 사이의 양자화 단계 높이 Δ(n)을 획득하도록 구현된, 디코딩 장치.
  28. 청구항 25에 있어서, 상기 일정하고 한정적인 개수는 32 이하인, 디코딩 장치.
  29. 청구항 25에 있어서, 상기 일정하고 한정적인 개수는 3인, 디코딩 장치.
  30. 청구항 24에 있어서,
    상기 필터링 수단(212)은,
    상기 프리필터링된 신호의 블록 시퀀스들의 블록들에 대해 블록 방식 방법으로 상기 심리-지각성 동기된 임계치의 표현에 관한 정보로부터 지각적 임계치 필터 계수들을 결정하는 수단(230); 및
    상기 지각적 임계치 필터 계수들을 이용하여 상기 프리필터링된 신호를 필터링하는 포스트필터(232)를 포함하는, 디코딩 장치.
  31. 청구항 24에 있어서,
    상기 결정 수단(230)은, LSF 영역으로부터의 재변환에 의해 상기 지각적 임계치 필터 계수들을 획득하도록 구현된, 디코딩 장치.
  32. 청구항 24에 있어서,
    상기 결정 수단(230)은, 상기 심리-지각성 동기된 임계치의 표현으로부터 양자화된 필터 계수 잔여 신호의 양자화 인덱스들을 획득하고, 이를 한정되고 일정한 제2 개수의 양자화 레벨들로 역양자화하여 역양자화된 필터 계수 잔여 신호를 획득하고, 상기 심리-지각성 동기된 임계치를 나타내는 필터 계수들을 예측하여, 이를 상기 역양자화된 필터 계수 잔여 신호에 가산하고, 재변환에 의한 상기 가산으로부터 비롯되는 재구성된 필터 계수 잔여 신호를 상기 지각적 임계치 필터 계수들로 변환하도록 구현된, 디코딩 장치.
  33. 청구항 32에 있어서,
    상기 결정 수단(230)은, 상기 예측이 상기 심리-지각성 동기된 임계치를 표현하는 이미 예측된 필터 계수들에 기초하여 백워드-적응적 방식으로 수행되도록 구현된, 디코딩 장치.
  34. 청구항 32에 있어서,
    상기 결정 수단(230)은, 상기 심리-지각성 동기된 임계치를 표현하는 필터 계수들의 상기 예측이, 일정한 계수들을 가지는 예측 필터를 이용하여 수행되도록 구현된, 디코딩 장치.
  35. 청구항 32에 있어서,
    상기 결정 수단(230)은, 재변환에 앞서, 상기 가산으로부터 비롯된 상기 재구성된 필터 계수 잔여 신호를 일정 값과의 가산에 제공하도록 또한 구현된, 디코딩 장치.
  36. 청구항 24에 있어서,
    예측된 신호를 결정하는 상기 수단(208)은,
    상기 인코딩된 정보 신호 내에 포함된 예측 계수들의 표현으로부터 예측 필터 계수들을 결정하는 수단(224); 및
    상기 예측 필터 계수들에 의해 조절되는 필터(226)를 통해 상기 프리필터링된 신호를 예측하는 수단(226, 228)을 더 포함하는, 디코딩 장치.
  37. 청구항 36에 있어서,
    예측 필터 계수들을 결정하는 상기 수단(224)은, 상기 프리필터링된 신호의 블록들의 시퀀스의 블록들에 대해 블록 방식 방법으로 상기 예측 필터 계수들을 결정하도록 구현된, 디코딩 장치.
  38. 청구항 36에 있어서,
    상기 결정 수단(224)은, LSF 영역으로부터의 재변환에 의해 상기 예측 필터 계수들을 획득하도록 구현된, 디코딩 장치.
  39. 청구항 36에 있어서,
    상기 결정 수단(224)은,
    상기 예측 계수들의 표현으로부터 양자화된 예측 계수 잔여 신호의 양자화 인덱스들을 획득하고, 이를 한정되고 일정한 제3 개수의 양자화 레벨들로 역양자화하여 역양자화된 예측 계수 잔여 신호를 획득하고, 예측 필터 계수들을 예측하여, 이를 상기 역양자화된 예측 계수 잔여 신호에 가산하고, 재변환에 의한 상기 가산으로부터 비롯된 재구성된 예측 계수 잔여 신호를 상기 예측 필터 계수들로 변환하도록 구현된, 디코딩 장치.
  40. 청구항 39에 있어서,
    상기 결정 수단(224)은, 상기 예측이 이미 예측된 예측 계수들에 기초하여 백워드-적응적 방식으로 수행되도록 구현된, 디코딩 장치.
  41. 청구항 39에 있어서, 상기 결정 수단(224)은 상기 예측 계수들의 예측이 일정 계수들을 가지는 예측 필터를 이용하여 수행되도록 구현된, 디코딩 장치.
  42. 청구항 39에 있어서, 상기 결정 수단(224)은 재변환에 앞서, 상기 가산으로부터 비롯된 상기 재구성된 예측 계수 잔여 신호를 일정 값과의 가산에 제공하도록 구현된, 디코딩 장치.
  43. 청구항 24에 있어서, 상기 장치는 정보 신호로서 오디오 신호 또는 비디오 신호를 디코딩하도록 구현되며, 상기 심리-지각성 동기된 임계치는 음향적 마스킹 임계치 또는 시각적 마스킹 임계치인, 디코딩 장치.
  44. 정보 신호를 인코딩된 정보 신호로 인코딩하는 방법으로서,
    지각성 모델(perceptibility model)을 이용하여, 지각성과 관련하여 무관한 정보 신호의 일부분을 나타내는 심리-지각성 동기된 임계치(psycho-perceptibility motivated threshold)의 표현을 결정하는 단계;
    프리필터링된 신호를 획득하기 위해, 상기 심리-지각성 동기된 임계치와 관련하여 상기 정보 신호를 정규화하기 위하여 상기 정보 신호를 필터링하는 단계;
    프리필터링된 신호가 재구성될 수 있는 것에 기초하여, 프리필터링된 신호, 상기 프리필터링된 신호에 대한 예측 에러, 및 예측 계수들의 표현을 획득하기 위해 포워드-적응적 방식으로, 프리필터링된 신호를 예측하는 단계; 및
    양자화된 예측 에러를 획득하기 위해 예측 에러를 양자화하는 단계로서, 인코딩된 정보 신호는 심리-지각성 동기된 임계치의 표현, 예측 계수들의 표현 및 양자화된 예측 에러에 대한 정보를 포함하는, 양자화 단계를 포함하는, 인코딩 방법.
  45. 심리-지각성 동기된 임계치의 표현, 예측 계수들의 표현, 및 양자화된 예측 에러와 관련한 정보를 포함하는 인코딩된 정보 신호를 디코딩된 정보 신호로 디코딩하는 방법으로서,
    역양자화된 예측 에러를 획득하기 위해 상기 양자화된 예측 에러를 역양자화하는 단계;
    상기 예측 계수들에 기초하여 예측된 신호를 결정하는 단계;
    상기 예측된 신호 및 상기 역양자화된 예측 에러를 기초로 하여 프리필터링된 신호를 재구성하는 단계; 및
    상기 디코딩된 정보 신호를 획득하기 위한 상기 심리-지각성 동기된 임계치와 관련한 정규화를 변환하기 위해 상기 프리필터링된 신호를 필터링하는 단계를 포함하는 디코딩 방법.
  46. 컴퓨터 상에서 동작할 때, 인코딩 또는 디코딩 방법을 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램을 기록한 컴퓨터로 판독 가능한 매체로서,
    상기 인코딩 방법은,
    정보 신호를 인코딩된 정보 신호로 인코딩하는 방법으로서,
    지각성 모델(perceptibility model)을 이용하여, 지각성과 관련하여 무관한 정보 신호의 일부분을 나타내는 심리-지각성 동기된 임계치(psycho-perceptibility motivated threshold)의 표현을 결정하는 단계;
    프리필터링된 신호를 획득하기 위해, 상기 심리-지각성 동기된 임계치와 관련하여 상기 정보 신호를 정규화하기 위하여 상기 정보 신호를 필터링하는 단계;
    프리필터링된 신호가 재구성될 수 있는 것에 기초하여, 프리필터링된 신호, 상기 프리필터링된 신호에 대한 예측 에러, 및 예측 계수들의 표현을 획득하기 위해 포워드-적응적 방식으로, 프리필터링된 신호를 예측하는 단계; 및
    양자화된 예측 에러를 획득하기 위해 예측 에러를 양자화하는 단계로서, 인코딩된 정보 신호는 심리-지각성 동기된 임계치의 표현, 예측 계수들의 표현 및 양자화된 예측 에러에 대한 정보를 포함하는, 양자화 단계를 포함하고,
    상기 디코딩 방법은,
    심리-지각성 동기된 임계치의 표현, 예측 계수들의 표현, 및 양자화된 예측 에러에 대한 정보를 포함하는 인코딩된 정보 신호를 디코딩된 정보 신호로 디코딩하는 방법으로서,
    역양자화된 예측 에러를 획득하기 위해 상기 양자화된 예측 에러를 역양자화하는 단계;
    상기 예측 계수에 기초하여 예측된 신호를 결정하는 단계;
    상기 예측된 신호 및 상기 역양자화된 예측 에러를 기초로 하여 프리필터링된 신호를 재구성하는 단계; 및
    상기 디코딩된 정보 신호를 획득하기 위해 상기 심리-지각성 동기된 임계치와 관련한 정규화를 변환하기 위해 상기 프리필터링된 신호를 필터링하는 단계를 포함하는, 컴퓨터로 판독 가능한 매체.
  47. 정보 신호 입력(12);
    상기 정보 신호 입력 및 지각성 임계치 출력에 연결된 입력을 가지고 지각성 모델에 따라 동작하는 지각성 임계치 결정기(26);
    상기 정보 신호 입력에 연결된 필터 입력, 필터 출력, 및 상기 지각성 임계치 출력에 연결된 적응 제어 입력을 포함하는 적응적 프리필터(34);
    상기 프리필터 출력에 연결된 입력 및 예측 계수 출력을 포함하는 포워드 예측 계수 결정기(36);
    상기 프리필터 출력에 연결된 제1 입력, 제2 입력, 및 출력을 포함하는 제1 감산기(42);
    제한적이고 일정한 개수의 양자화 레벨들, 상기 감산기 출력에 연결된 입력, 양자화 스텝 크기 제어 입력, 및 출력을 포함하는 클리핑 및 양자화 스테이지(52);
    상기 클리핑 및 양자화 스테이지(52)의 출력에 연결된 입력 및 상기 클리핑 및 양자화 스테이지(52)의 상기 양자화 스텝 크기 제어 입력에 연결된 양자화 스텝 크기 출력을 포함하는 스텝 크기 조절기(54);
    상기 클리핑 및 양자화 스테이지의 출력에 연결된 입력 및 역양자화기 제어 출력을 포함하는 역양자화 스테이지(50);
    상기 역양자화기 출력에 연결된 제1 가산기 입력, 제2 가산기 입력 및 가산기 출력을 포함하는 가산기(48);
    상기 가산기 출력에 연결된 예측 필터 입력, 상기 제2 가산기 입력뿐 아니라 상기 제2 감산기 입력에 연결된 예측 필터 출력, 및 상기 예측 계수 출력에 연결된 예측 계수 입력을 포함하는 예측 필터(44, 46);
    상기 지각성 임계치 출력에 연결된 제1 입력, 상기 예측 계수 출력에 연결된 제2 입력, 상기 클리핑 및 양자화 스테이지의 출력에 연결된 제3 입력, 및 인코더 출력을 나타내는 출력을 포함하는 정보 신호 생성기(24)를 포함하는, 인코더.
  48. 심리-지각성 동기된 임계치, 예측 계수들, 및 양자화된 예측 에러의 표현에 관한 정보를 포함하는 인코딩된 정보 신호를 디코딩된 정보 신호로 디코딩하는 디코더로서,
    디코더 입력;
    상기 디코더 입력에 연결된 입력, 지각성 임계치 출력, 예측 계수 출력, 및 양자화된 예측 에러 출력을 포함하는 추출기(214);
    제한적이고 일정한 개수의 양자화 레벨들, 상기 양자화된 예측 에러 출력에 연결된 역양자화기 입력, 역양자화기 출력 및 양자화 임계치 제어 입력을 포함하는 역양자화기(206);
    상기 양자화된 예측 에러 출력에 연결된 입력, 및 상기 양자화된 임계치 제어 입력에 연결된 출력을 포함하는 백워드-적응적 임계치 조절기;
    상기 역양자화기 출력에 연결된 제1 가산기 입력, 제2 가산기 입력 및 가산기 출력을 포함하는 가산기(222);
    상기 가산기 출력에 연결된 예측 필터 입력, 상기 제2 입력에 연결된 예측 필터 출력, 및 상기 예측 계수 출력에 연결된 예측 필터 계수 입력을 포함하는 예측 필터(226); 및
    상기 가산기 출력에 연결된 예측 필터 입력, 디코더 출력을 표현하는 예측 필터 출력, 및 상기 지각성 임계치 출력에 연결된 적응 제어 입력을 포함하는 적응적 포스트필터(232)를 포함하는 디코더.
KR1020087027709A 2006-05-12 2007-02-28 정보 신호 인코딩 KR100986924B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102006022346A DE102006022346B4 (de) 2006-05-12 2006-05-12 Informationssignalcodierung
DE102006022346.2 2006-05-12

Publications (2)

Publication Number Publication Date
KR20090007427A KR20090007427A (ko) 2009-01-16
KR100986924B1 true KR100986924B1 (ko) 2010-10-08

Family

ID=38080073

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087027709A KR100986924B1 (ko) 2006-05-12 2007-02-28 정보 신호 인코딩

Country Status (19)

Country Link
US (2) US9754601B2 (ko)
EP (1) EP2022043B1 (ko)
JP (1) JP5297373B2 (ko)
KR (1) KR100986924B1 (ko)
CN (1) CN101443842B (ko)
AT (1) ATE542217T1 (ko)
AU (1) AU2007250308B2 (ko)
BR (1) BRPI0709450B1 (ko)
CA (1) CA2651745C (ko)
DE (1) DE102006022346B4 (ko)
ES (1) ES2380591T3 (ko)
HK (1) HK1121569A1 (ko)
IL (1) IL193784A (ko)
MX (1) MX2008014222A (ko)
MY (1) MY143314A (ko)
NO (1) NO340674B1 (ko)
PL (1) PL2022043T3 (ko)
RU (1) RU2407145C2 (ko)
WO (1) WO2007131564A1 (ko)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
WO2010028299A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US9774875B2 (en) * 2009-03-10 2017-09-26 Avago Technologies General Ip (Singapore) Pte. Ltd. Lossless and near-lossless image compression
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
US8705623B2 (en) * 2009-10-02 2014-04-22 Texas Instruments Incorporated Line-based compression for digital image data
BR112012007803B1 (pt) * 2009-10-08 2022-03-15 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear
EP2466580A1 (en) * 2010-12-14 2012-06-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Encoder and method for predictively encoding, decoder and method for decoding, system and method for predictively encoding and decoding and predictively encoded information signal
TWI603632B (zh) 2011-07-01 2017-10-21 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
PL397008A1 (pl) * 2011-11-17 2013-05-27 Politechnika Poznanska Sposób kodowania obrazu
EP2791938B8 (en) * 2011-12-15 2016-05-04 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer programm for avoiding clipping artefacts
US9716901B2 (en) * 2012-05-23 2017-07-25 Google Inc. Quantization with distinct weighting of coherent and incoherent quantization error
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
US9711156B2 (en) 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9620134B2 (en) 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10083708B2 (en) 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
US10614816B2 (en) 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
US9384746B2 (en) 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
US10163447B2 (en) 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
DE102014101307A1 (de) * 2014-02-03 2015-08-06 Osram Opto Semiconductors Gmbh Kodierverfahren zur Datenkompression von Leistungsspektren eines optoelektronischen Bauteils und Dekodierverfahren
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US10756755B2 (en) 2016-05-10 2020-08-25 Immersion Networks, Inc. Adaptive audio codec system, method and article
US10699725B2 (en) 2016-05-10 2020-06-30 Immersion Networks, Inc. Adaptive audio encoder system, method and article
WO2017196833A1 (en) * 2016-05-10 2017-11-16 Immersion Services LLC Adaptive audio codec system, method, apparatus and medium
US10770088B2 (en) 2016-05-10 2020-09-08 Immersion Networks, Inc. Adaptive audio decoder system, method and article
US11281312B2 (en) 2018-01-08 2022-03-22 Immersion Networks, Inc. Methods and apparatuses for producing smooth representations of input motion in time and space
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
CN112564713B (zh) * 2020-11-30 2023-09-19 福州大学 高效率低时延的动觉信号编解码器及编解码方法
US11935546B2 (en) * 2021-08-19 2024-03-19 Semiconductor Components Industries, Llc Transmission error robust ADPCM compressor with enhanced response
CN116193156A (zh) * 2022-12-30 2023-05-30 北京天兵科技有限公司 航天遥测码流地面传输分组压缩编码方法、装置和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4677671A (en) 1982-11-26 1987-06-30 International Business Machines Corp. Method and device for coding a voice signal
US4811396A (en) 1983-11-28 1989-03-07 Kokusai Denshin Denwa Co., Ltd. Speech coding system
WO2002082425A1 (en) 2001-04-09 2002-10-17 Koninklijke Philips Electronics N.V. Adpcm speech coding system with specific step-size adaptation
KR20060113999A (ko) * 2004-02-13 2006-11-03 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 정보 신호의 양자화 방법 및 장치

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2481026B1 (ko) * 1980-04-21 1984-06-15 France Etat
GB8410044D0 (en) 1984-04-18 1984-05-31 Communications Patents Ltd Data transmission system
US4751736A (en) * 1985-01-31 1988-06-14 Communications Satellite Corporation Variable bit rate speech codec with backward-type prediction and quantization
US5125030A (en) * 1987-04-13 1992-06-23 Kokusai Denshin Denwa Co., Ltd. Speech signal coding/decoding system based on the type of speech signal
JPH02272500A (ja) * 1989-04-13 1990-11-07 Fujitsu Ltd コード駆動音声符号化方式
EP0401452B1 (en) * 1989-06-07 1994-03-23 International Business Machines Corporation Low-delay low-bit-rate speech coder
US5347478A (en) * 1991-06-09 1994-09-13 Yamaha Corporation Method of and device for compressing and reproducing waveform data
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
DK0799531T3 (da) * 1994-12-20 2000-07-10 Dolby Lab Licensing Corp Fremgangsmådeapparat til at anvende bølgeformsforudsigelse til underbånd af et kodningssystem, der vedrører sanseopfattelse
JP2842276B2 (ja) * 1995-02-24 1998-12-24 日本電気株式会社 広帯域信号符号化装置
US5699481A (en) * 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
MX9708203A (es) * 1996-02-26 1997-12-31 At & T Corp Cuantificacion de señales vocales usando modelos de publico humano en sistemas de codificacion predictivas.
JP3357795B2 (ja) * 1996-08-16 2002-12-16 株式会社東芝 音声符号化方法および装置
GB2318029B (en) * 1996-10-01 2000-11-08 Nokia Mobile Phones Ltd Audio coding method and apparatus
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
JP3064947B2 (ja) * 1997-03-26 2000-07-12 日本電気株式会社 音声・楽音符号化及び復号化装置
JP3199020B2 (ja) * 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
RU2144222C1 (ru) 1998-12-30 2000-01-10 Гусихин Артур Владимирович Способ сжатия звуковой информации и система для его реализации
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
TW536692B (en) 1999-04-16 2003-06-11 Dolby Lab Licensing Corp Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
DE60035453T2 (de) * 1999-05-11 2008-03-20 Nippon Telegraph And Telephone Corp. Auswahl des Synthesefilters für eine CELP Kodierung von breitbandigen Audiosignalen
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
JP2002006895A (ja) * 2000-06-20 2002-01-11 Fujitsu Ltd ビット割当装置および方法
EP1944759B1 (en) * 2000-08-09 2010-10-20 Sony Corporation Voice data processing device and processing method
CA2418722C (en) * 2000-08-16 2012-02-07 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
EP1339040B1 (en) * 2000-11-30 2009-01-07 Panasonic Corporation Vector quantizing device for lpc parameters
US6675148B2 (en) * 2001-01-05 2004-01-06 Digital Voice Systems, Inc. Lossless audio coder
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
US7020603B2 (en) * 2002-02-07 2006-03-28 Intel Corporation Audio coding and transcoding using perceptual distortion templates
US7275036B2 (en) * 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
WO2003102922A1 (en) * 2002-05-30 2003-12-11 Koninklijke Philips Electronics N.V. Audio coding
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
KR100480341B1 (ko) * 2003-03-13 2005-03-31 한국전자통신연구원 광대역 저전송률 음성 신호의 부호화기
CN1826634B (zh) * 2003-07-18 2010-12-01 皇家飞利浦电子股份有限公司 低比特率音频编码
CN1846253B (zh) * 2003-09-05 2010-06-16 皇家飞利浦电子股份有限公司 低比特率音频编码
CN1867969B (zh) * 2003-10-13 2010-06-16 皇家飞利浦电子股份有限公司 用于对音频信号进行编码或解码的方法和设备
US7324937B2 (en) * 2003-10-24 2008-01-29 Broadcom Corporation Method for packet loss and/or frame erasure concealment in a voice communication system
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
EP1758099A1 (en) * 2004-04-30 2007-02-28 Matsushita Electric Industrial Co., Ltd. Scalable decoder and expanded layer disappearance hiding method
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
KR101041895B1 (ko) * 2006-08-15 2011-06-16 브로드콤 코포레이션 패킷 손실 후 디코딩된 오디오 신호의 시간 워핑
US7756350B2 (en) * 2006-11-13 2010-07-13 Global Ip Solutions, Inc. Lossless encoding and decoding of digital data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4677671A (en) 1982-11-26 1987-06-30 International Business Machines Corp. Method and device for coding a voice signal
US4811396A (en) 1983-11-28 1989-03-07 Kokusai Denshin Denwa Co., Ltd. Speech coding system
WO2002082425A1 (en) 2001-04-09 2002-10-17 Koninklijke Philips Electronics N.V. Adpcm speech coding system with specific step-size adaptation
KR20060113999A (ko) * 2004-02-13 2006-11-03 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 정보 신호의 양자화 방법 및 장치

Also Published As

Publication number Publication date
ES2380591T3 (es) 2012-05-16
ATE542217T1 (de) 2012-02-15
RU2008148961A (ru) 2010-06-20
US20180012608A1 (en) 2018-01-11
WO2007131564A1 (de) 2007-11-22
AU2007250308B2 (en) 2010-05-06
PL2022043T3 (pl) 2012-06-29
NO20084786L (no) 2008-12-11
MY143314A (en) 2011-04-15
MX2008014222A (es) 2008-11-14
HK1121569A1 (en) 2009-04-24
US20090254783A1 (en) 2009-10-08
BRPI0709450A2 (pt) 2011-07-12
JP5297373B2 (ja) 2013-09-25
US10446162B2 (en) 2019-10-15
IL193784A (en) 2014-01-30
DE102006022346B4 (de) 2008-02-28
DE102006022346A1 (de) 2007-11-15
KR20090007427A (ko) 2009-01-16
BRPI0709450A8 (pt) 2019-01-08
US9754601B2 (en) 2017-09-05
CA2651745C (en) 2013-12-24
BRPI0709450B1 (pt) 2020-02-04
NO340674B1 (no) 2017-05-29
CA2651745A1 (en) 2007-11-22
CN101443842B (zh) 2012-05-23
EP2022043B1 (de) 2012-01-18
CN101443842A (zh) 2009-05-27
EP2022043A1 (de) 2009-02-11
AU2007250308A1 (en) 2007-11-22
RU2407145C2 (ru) 2010-12-20
JP2009537033A (ja) 2009-10-22

Similar Documents

Publication Publication Date Title
KR100986924B1 (ko) 정보 신호 인코딩
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
JP3513292B2 (ja) 雑音荷重フィルタリング方法
KR100991448B1 (ko) 스펙트럼 홀 충전을 사용하는 오디오 코딩 시스템
Pan Digital audio compression
CA2716926C (en) Apparatus for mixing a plurality of input data streams
RU2555221C2 (ru) Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой
JP4212591B2 (ja) オーディオ符号化装置
KR100941011B1 (ko) 부호화 방법 및 장치, 및 복호 방법 및 장치
MXPA96004161A (en) Quantification of speech signals using human auiditive models in predict encoding systems
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
KR100738109B1 (ko) 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치
KR101363206B1 (ko) 인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩
Schuller et al. Low delay audio compression using predictive coding
US20130197919A1 (en) &#34;method and device for determining a number of bits for encoding an audio signal&#34;
JPH0918348A (ja) 音響信号符号化装置及び音響信号復号装置
KR970006825B1 (ko) 오디오신호 부호화장치
CA2303711C (en) Method for noise weighting filtering
Bayer Mixing perceptual coded audio streams
Touimi et al. A summation algorithm for MPEG-1 coded audio signals: a first step towards audio processing in the compressed domain

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130930

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141002

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150930

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160927

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170925

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180927

Year of fee payment: 9