KR20070051857A - 스케일러블 오디오 코딩 - Google Patents

스케일러블 오디오 코딩 Download PDF

Info

Publication number
KR20070051857A
KR20070051857A KR1020077003540A KR20077003540A KR20070051857A KR 20070051857 A KR20070051857 A KR 20070051857A KR 1020077003540 A KR1020077003540 A KR 1020077003540A KR 20077003540 A KR20077003540 A KR 20077003540A KR 20070051857 A KR20070051857 A KR 20070051857A
Authority
KR
South Korea
Prior art keywords
signal
audio
excitation pattern
representation
encoder
Prior art date
Application number
KR1020077003540A
Other languages
English (en)
Inventor
스티븐 엘. 제이. 디. 이. 반 데 파
발레리 에스 코트
니콜레 에이치. 반 쉬즌델
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20070051857A publication Critical patent/KR20070051857A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오 인코더와 디코더 그리고, 오디오 인코딩과 디코딩을 하기 위한 방법에 대한 것이다. 바람직한 실시예에서, 오디오 신호는 제1 인코딩된 신호 부분을 형성하기 위한 결정된 인코더 수단에 의해 인코딩된다. 오디오 신호의 스펙트럼은 여기 패턴, 즉, 인간의 청각 필터에 대응하는 스펙트럼 값에 의해 제2 인코딩된 신호 부분으로서 결정되고 표현된다. 마스킹 곡선은 또한 여기 패턴세 기초해서 추출되고, 따라서 비트 속도의 견지에서 인코딩 효율을 개선시킨다. 바람직한 디코더에서 제1 인코딩된 신호 부분은 결정적 디코딩 수단에 의해 디코딩된다. 잡음 생성기는 잡음 신호를 생성하기 위해 제2 신호 부분, 즉, 원래 오디오 신호에 대한 여기 패턴과 함께, 디코딩된 제1 신호 부분을 사용한다. 그 후, 잡음 신호는 출력 오디오 신호를 형성하기 위해 제1 디코딩된 신호 부분에 추가된다. 디코더측에서, 마스킹 곡선이 또한 제2 인코딩된 신호 부분, 즉, 여기 패턴에 기초해서 추출된다. 출력 오디오 신호가 원래 오디오 신호와 거의 동일한 여기 패턴을 나타내도록 잡음 신호가 생성된다. 따라서, 인지된 고 품질 오디오가 얻어지는 한편, 인코딩된 신호는 스케일러블(scalable)한데, 그 이유는 제1 신호 부분의 인코딩과 디코딩 간의 가능한 편차는 디코더 측에서 잡음 생성기에 의해 보상되기 때문이다. 바람직한 실시예에서, 코딩 수단은 사인파 코더를 포함한다.

Description

스케일러블 오디오 코딩{SCALABLE AUDIO CODING}
본 발명은 오디오 신호 코딩의 분야에 대한 것이다. 특히, 본 발명은 낮은 비트 속도에 적응된 효율적인 오디오 코딩에 대한 것이다. 보다 특별히, 본 발명은 스케일러블(scalable)한 오디오 코딩에 대한 것이다. 본 발명은 인코더, 디코더, 인코딩하고 디코딩하기 위한 방법, 인코딩된 오디오 신호, 이러한 인코딩된 신호를 나타내는 데이터를 가진 저장 및 전송 매체, 그리고 인코더 및/또는 디코더를 가진 디바이스에 대한 것이다.
저 비트 속도 오디오 코딩 내에서, 종종 이용 가능한 비트 속도는 사인파 또는 파형 인코더와 같은 결정적 유형의 인코더를 가지고 오디오 신호의 전체 스펙트럼을 모델링하기에는 너무 느리다. 두 개의 해결법이 이 문제를 극복하기 위해 사용되어 왔다.
하나의 해결책에 따라, 이용 가능한 비트 속도가 결정적 인코더를 가지고 제한된 대역폭을 모델링 하기에 충분하도록, 모델링될 신호의 대역폭이 제한된다. 이러한 해결책의 단점은 필요한 대역폭 제한은 효과상에 있어서 오디오 품질의 저하이다.
제2 해결책에 따라, 전체 대역폭이 모델링 된다. 신호의 일부는 이용 가능한 비트 속도의 큰 부분을 사용해서 결정적 인코더를 가지고 모델링되고, 오디오 신호의 잔여 부분은 잡음을 가지고 모델링된다. 원래 오디오 신호의 인지된 대역폭과 음질이 거의 유지되기 때문에, 이것은 종종 합리적인 결과를 가져온다. 하지만, 제2 언급된 해결책에 대해, 문제점은 어떻게 잡음 신호가 생성되어야 하는 것을 결정하는 것이다.
사인파 인코더가 결정적 인코더로서 사용될 때, 종종 잔여 신호, 즉, 각 오디오 세그먼트에서 사인파 성분을 뺀 후에 남은 신호는 잡음 파라미터를 추정하기 위한 기초로서 사용된다. 많은 진보된 인코더는 디코딩된 신호의 과도한 잡음 품질 또는 잡음 인코더의 불량한 스펙트럼 해상도에 기인한 저주파수 아티팩트(artefact)와 같은 특정한 아티팩트를 극복하기 위해 잡음 파라미터 추정 이전에 잔여 신호를 준비한다. 이러한 해결책의 한 예는 WO 2004049311에서 보여진다.
예를 들면, 변환 인코더와 같은 파형 인코더가 사용될 때, 인코더는 어느 오디오 대역이 변환 인코더에 의해 모델링되지 말아야 하거나 모델링될 수 없는지를 결정한다. 그러면, 이러한 생략된 대역에 대한 정보는 전송되어서, 이에 따라 디코더가 잡음을 생성하는 것을 허용한다.
상기 설명된 방법은 디코더 측에서 생성될 잡음 신호에 대한 최종 결정이 이미 인코더 측에서 내려져야 한다는 단점을 가지고 있다. 결과적으로, 디코더의 결정적 부분에 대한 파라미터 또는 데이터는 일단 신호가 인코딩 되었으면 변경되는 것이 허용되지 않는다. 이것은 예를 들면, 인코딩된 신호의 전송 동안 또는 정보의 특정 층이 누락된 압축된 오디오 파일의 고속 재 스케일링(scaling) 동안에 발생할 수 있다. 만약 이것이 수행된다면, 그 결과는 디코더 측에서, 생성된 잡음 신호는 결정적 디코더 부분으로부터 야기된 신호와 매칭이 되지 않을 것이고, 상당한 오디오 아티팩트가 결과일 수 있다는 것일 것이다. 다른 말로 하면, 설명된 원리에 따른 잡음 코딩은 스케일러블하지 않은데, 그 이유는 상기 잡음 코딩은 잡음 파라미터가 추정된 후에 결정적 신호로의 수정을 허용하지 않기 때문이다.
본 발명은 목적은 스케일러블한 인코딩을 제공하는, 즉, 결과적인 디코딩된 신호의 상당한 가청 아티팩트 없이 디코딩 이전에 인코딩된 신호의 수정을 허용하는 방법, 오디오 인코더와 디코더를 제공하는 것이라 할 수 있다.
본 발명의 제1 양상에 따라, 이 목적은 오디오 신호를 인코딩하기 위해 적응된 오디오 인코더를 제공하여 달성되고, 상기 오디오 인코더는:
- 상기 오디오 신호를 제1 인코딩된 신호 부분으로 인코딩하기 위해 적응된 인코더 수단,
- 상기 오디오 신호의 여기 패턴의 표현을 계산하고, 이 표현을 제2 인코딩된 신호 부분에 제공하기 위해 적응된 계산 수단으로서, 상기 계산 수단은 상기 여기 패턴의 표현에 기초하여 마스킹(masking) 곡선의 표현을 계산하고, 인코딩 효율을 최적화하기 위해 상기 인코더 수단에 상기 마스킹 곡선의 표현을 제공하기 위해 더 적응되는, 계산 수단을 포함한다.
용어 "여기 패턴"은 인간 청각 시스템에서 청각 필터에 걸쳐서 스펙트럼 에너지 분포라고 이해되며, 참고 문헌 [1](실시예의 섹션의 끝에서 참고 문헌의 목록 참조)이 또한 참조된다. 여기 패턴은 오디오 신호에 대한 인간의 두개저 막(basilar membrane) 또는 인간의 청각 응답의 표현이다. 이 응답은 예를 들면, 40개의 병렬 청각 필터들의 필터 뱅크에 의해 모델링 될 수 있다. 따라서, 청각 필터의 주파수 대역의 신호 레벨과 각각 관련된 40개의 값들을 포함하는 여기 패턴의 표현은 인간의 청각 시스템의 적절한 모델이라고 간주된다. 따라서, 오디오 신호의 여기 패턴은 오디오 신호의 파라미터식 스펙트럼 설명이다. 청각적 필터 형상의 스펙트럼 중첩에 기인하여 상관된 예를 들면 40개의 값들에 의해, 만약 예를 들면 차동 인코딩이 사용된다면, 여기 패턴의 포함은 인코딩된 오디오 신호에서 포함될 데이터의 분량의 견지에서 아주 값싸다. 예를 들면, 목표 주파수 범위에 따라, 여기 패턴은 30개, 또는 20개 또는 더 작은 수의 값들과 같은 40개의 값들보다 더 적은 수의 값들에 의해 표현될 수 있다.
오디오 신호에 관련된 '마스킹 곡선'은 인간의 청각 시스템에 입력으로서 오디오 신호가 주어진다면 인간의 청각 임계치의 스펙트럼 표현이라고 이해된다. 인코딩 정밀도에 대해, 이것은 중요한데, 그 이유는 잡음 산출물이 마스킹 곡선을 초과하지 않는 한 원래 신호에 추가된 가능한 왜곡 또는 상기 잡음 산출물이 인지가능하지 않은 정보를 인코더 수단에 제공하기 때문이다. 따라서, 예를 들면, 사인파 진폭 또는 변환 계수의 인코딩은, 예를 들면 마스킹 곡선에 대하여 신호 성분을 인코딩하여 인지될 수 없는 원래 신호의 세부 사항에 대해 불필요한 비트 할당을 회피하면서, 수행될 수 있다. 따라서, 마스킹 곡선 표현은 인코더 수단의 인코딩 효율을 개선하는 것을 돕는다.
제1 양상에 따른 오디오 인코더는 제2 인코딩된 신호 부분의 포함, 즉, 인코더의 출력 비트 스트림에서 원래 오디오 신호의 여기 패턴의 포함에 기인된 스케일러블한 인코딩된 신호를 제공한다. 따라서, 인코딩된 신호를 수신하는 디코더가 원래 신호의 여기 패턴에 대한 정보를 제공받으므로, 예를 들면, 잡음과 같은 적절한 신호를 제1 인코딩된 신호 부분에 추가하는 것이 가능하여, 그 결과 원래 신호의 여기 패턴과 거의 동일한 여기 패턴을 나타내는 결과 신호를 생성한다. 결과적으로, 재생성된 신호의 인지된 음질은 원래 신호와 유사할 것이고, 따라서 전체 음향 품질과 관련된 중요한 파라미터가 보장된다.
인지적으로, 원래 여기 패턴을 재생성하는 것은 적절한 인지적 목표인데, 그 이유는 여기 패턴은 다른 청각적 필터에 걸쳐 에너지 분포를 설명하며, 이에 따라서 적절히 원래 스펙트럼 엔벨로프의 재구성을 위해 필요한 것보다 더 많지도 않고 더 적지도 않은 스펙트럼 엔벨로프 정보를 포함하기 때문이다. 하지만, 여기 패턴이 모든 인지적으로 관련된 정보를 포함하지 않는다는 것이 주목되어야 한다. 오디오 신호의 시간적 구조는 여기 패턴 이내에서 일반적으로 획득되지 않는다. 이러한 시간적 정보가 인지적으로 관련되는 한, 부분적으로 이것이 인코더 수단을 이용해서 모델링되고, 따라서 제1 인코딩된 신호 부분에 포함되는 것이 가정된다. 하지만, 여기 패턴 인코더는 두 개의 방식으로 시간적 정보를 또한 인코딩할 수 있다. 먼저, 여기 파라미터의 규칙적인 갱신에 의해 인코딩될 수 있다. 둘째로, 제1 디코딩된 신호 부분에 추가될 신호를 변조하기 위해 요구된 시간적 정보를 포함하는 시간적 엔벨로프를 사용해서 인코딩될 수 있다.
인코딩된 비트 스트림에서 원래 오디오 신호의 여기 패턴을 포함하는 다른 이점은, 이것은 인코더와 디코더 측 모두에서 원래 신호의 대응하는 마스킹 곡선의 표현의 쉬운 계산을 위한 편리한 정보를 제공한다는 것이다. 마스킹 곡선의 지식은 제1 인코딩된 신호 부분의 코딩 효율에 대해 중요한데, 그 이유는, 파라미터 값의 특정 부분이 인간의 청각 시스템에 의한 마스킹으로 인해 최종 신호 내에서 청취자에 의해 인지되지 않을 것이므로, 파라미터 값의 특정 부분이 생략될 수 있는지를 인코더가 결정하는 것을 가능케 하는 정보를 마스킹 곡선이 포함하기 때문이다. 바람직하게, 마스킹 곡선의 표현은 인코더 측에서 여기 패턴의 양자화된 표현에 기초해서 계산된다. 이에 따라, 동일한 마스킹 곡선이 인코더와 디코더 측에서 동일하게 이용 가능한 것이 보장된다.
바람직하게, 오디오 인코더 수단은 파라미터식 인코더(예, 사인파 인코더), 변환 인코더, 파형 인코더, 정규 펄스 여기 인코더, 코드북(codebook) 여기된 선형 예측 인코더로 이루어진 그룹으로부터 선택된 결정적 신호 유형의 인코더를 포함한다.
본 발명의 제2 양상은 인코딩된 오디오 신호로부터 오디오 신호를 재생성하기 위해 적응된 오디오 디코더를 제공하며, 이 오디오 디코더는:
- 제2 인코딩된 오디오 신호 부분으로부터 상기 오디오 신호의 여기 패턴의 표현을 생성하기 위해 적응된 수단,
- 제1 인코딩된 신호 부분으로부터 제1 디코딩된 신호 부분을 생성하기 위해 적응된 디코더 수단,
- 제2 디코딩된 신호 부분을 생성하여, 제1 및 제2 디코딩된 신호 부분의 합이 상기 오디오 신호의 여기 패턴과 실질적으로 동일한 여기 패턴을 보여주도록 적응된 신호 생성기(NM) 수단을 포함한다.
원래 신호에 유사한 인지적인 스펙트럼 특성을 가진 디코딩된 오디오 신호를 생성하는 목적을 위해서, 원래 신호의 여기 패턴이 디코딩된 제1 인코딩된 신호 부분의 여기 패턴과 비교된다. 가능한 편차는 적절한 신호를 추가하여 디코더에 의해 보상될 것이고, 그 결과 적어도 결과 신호는 여기 패턴에 대해 원래 오디오 신호와 유사할 것이다. 따라서, 디코더는 인코더 수단에 정확히 역전인 디코딩 수단을 포함할 필요가 없다.
바람직하게, 디코더는 원래 오디오 신호의 표현으로서 제1 및 제2 디코딩된 신호 부분의 합을 제공하기 위한 수단을 포함한다.
바람직하게, 디코더 수단은 파라미터식 디코더(예, 사인파 디코더), 변환 디코더, 파형 디코더, 정규화 펄스 여기 디코더 및 코드북 펄스 여기 선형 예측 디코더로 이루어진 그룹으로부터 선택된 결정적 신호 유형의 디코더를 포함한다.
디코더 수단은 인코더에서 사용된 원래 오디오 신호에 기초해서 마스킹 곡선의 표현을 이용할 수 있다. 이런 마스킹 곡선은 제2 디코딩된 신호 부분으로부터 추출된 여기 패턴의 표현에 편리하게 기초하고 있다.
신호 생성기 수단은 잡음 생성기 또는 스펙트럼 대역 복제 수단 또는 이것들의 조합을 포함할 수 있다. 바람직하게, 신호 생성기는 반복적 방법을 사용해서 여기 패턴의 표현에 기초한 제2 디코딩된 신호 부분을 생성하기 위한 수단을 포함한다.
제3 양상에서, 본 발명은 오디오 신호를 인코딩하는 방법을 제공하는데, 이 방법은:
- 상기 오디오 신호의 여기 패턴의 표현을 계산하는 단계,
- 상기 여기 패턴의 표현에 기초해서 마스킹 곡선의 표현을 계산하는 단계,
- 상기 마스킹 곡선을 이용해서 제1 인코딩된 신호 부분으로 인코딩 방식에 따라 상기 오디오 신호를 인코딩하는 단계, 및
- 상기 오디오 신호의 여기 패턴의 표현을 포함하는 제2 인코딩된 신호 부분을 제공하는 단계를 포함한다.
동일한 설명이 제1 양상에 대해서와 마찬가지로 적용된다.
제4 양상에서, 본 발명은 인코딩된 오디오 신호로부터 오디오 신호를 재생성하는 방법을 제공하는데, 이 방법은:
- 제2 인코딩된 신호 부분으로부터 상기 오디오 신호의 여기 패턴의 표현을 생성하는 단계,
- 상기 여기 패턴의 표현으로부터 마스킹 곡선의 표현을 생성하는 단계,
- 디코딩 방식에 따라 제1 인코딩된 신호 부분을 제1 디코딩된 신호 부분으로 디코딩하는 단계,
- 제1 및 제2 디코딩된 신호 부분의 합이 상기 오디오 신호의 여기 패턴과 실질적으로 동일한 여기 패턴을 나타내도록, 상기 여기 패턴의 표현에 기초해서 제2 디코딩된 신호 부분을 생성하는 단계를 포함한다.
동일한 설명이 제2 양상에서처럼 적용된다.
제5 양상에서, 본 발명은 원래 오디오 신호를 나타내는 인코딩된 오디오 신호를 제공하고, 인코딩된 신호는 제1 인코딩된 신호 부분을 포함하는 제1 부분과, 오디오 신호의 여기 패턴의 표현을 포함하는 제2 부분을 포함한다.
인코딩된 신호는 표준 디지털 오디오 포맷에 따른 포맷을 가진 디지털 전기 신호일 수 있다. 이 신호는 두 개의 오디오 디바이스간의 전기적 연결 케이블을 사용해서 송신될 수 있다. 하지만, 인코딩된 신호는 무선 주파수 반송파를 사용하는 공중(air-borne) 신호와 같은 무선 신호일 수 있거나, 광 섬유를 사용해서 송신하기 위해 적응된 광 신호일 수 있다.
제6 양상에서, 본 발명은 제5 양상에 따른 인코딩된 오디오 신호를 나타내는 데이터를 포함하는 저장 매체를 제공한다. 저장 매체는 바람직하게 DVD, DVD+r, DVD+rw, DVD-r, DVD-rw, CD, CD-r, CD-rw, 판독-기록가능한 CD, 컴팩트 플래시(flash), 메모리 스틱 등과 같은 표준 오디오 데이터 저장 매체이다. 하지만, 이것은 또한 컴퓨터 하드 디스크, 컴퓨터 메모리, 고체 디바이스, 플로피 디스크 등과 같은 컴퓨터 데이터 저장 매체일 수 있다.
제7 양상에서, 본 발명은 제1 양상에 따른 오디오 인코더를 포함하는 디바이스를 제공한다.
제8 양상에서, 본 발명은 제2 양상에 따른 오디오 디코더를 포함하는 디바이스를 제공한다.
제7 및 제8 양상에 따른 바람직한 디바이스는 다른 모든 유형의 테이프, 디스크, 또는 메모리 기반의 오디오 기록기와 재생기이다. 예를 들면, 휴대용 오디오 디바이스, 자동차 CD 재생기, DVD 재생기, 컴퓨터를 위한 오디오 프로세서 등과 같은 것이 이런 디바이스에 속한다. 추가적으로, 본 발명은 휴대폰에 대해 이로울 수 있다.
아래에서, 본 발명은 첨부된 도면을 참조해서 보다 상세히 설명된다.
도 1은 바람직한 오디오 인코더의 블록도.
도 2는 대응하는 오디오 디코더의 블록도.
본 발명이 다양한 수정과 대안적인 형태로 구현될 수 있지만, 특정 실시예가 도면들의 예를 통해 보여졌고, 여기서 상세히 설명될 것이다. 하지만, 본 발명이 개시된 특별한 형태에 제한되는 것으로 의도되지 않는다. 오히려, 본 발명은 첨부된 청구항들에서 한정된 본 발명의 정신과 범위 내에서 모든 수정, 등가물과 대안들을 포괄하는 것이다.
도 1은 신호 흐름에 대한 바람직한 오디오 인코더의 원리를 설명하는 블록도이다. 오디오 입력 신호(IN)는 인코더 수단(ENC)에 인가된다. 인코더 수단(ENC)은 오디오 인코더로부터 출력 비트 스트림(OUT)으로 제1 인코딩된 신호 부분을 제공하는 비트 스트림 인 인코더(BSE)에 인가되는 제1 인코딩된 신호 부분을 제공한다. 바람직하게, 인코더 수단은 예를 들면, 사인파 인코더 또는 변환 인코더와 같은 결정적 유형의 인코더를 포함한다. 사인파 인코더의 경우에는, 인코더는 오디오 입력 신호(IN)의 어느 부분이 사인파를 가지고 모델링될지를 결정한다. 변환 인코더의 경우에서, 인코더 수단은 오디오 입력 신호(IN)를 나타내는 변환 계수의 세트를 결정한다.
도 1의 실시예에서, 오디오 입력 신호(IN)의 스펙트럼 표현은 여기 패턴에 의해 표현된다. 오디오 입력 신호(IN)는 원래 신호의 여기 패턴을 계산하기 위해 적응된 여기 패턴 계산 수단(EPC)에 인가되고, 바람직하게 40개의 값들이 예를 들면, 인간의 청각 시스템의 임계 대역의 레벨과 같은 여기 패턴을 표현하기 위해 사용된다. 하지만, 특정 애플리케이션에 대해, 청각 필터의 일부를 배제하는 것이 바람직할 수 있어서, 그 결과 예를 들면 완전한 여기 패턴으로부터 단지 30개의 값들만이 사용된다. 휴대폰과 같은, 최하의 오디오 주파수 범위가 중요하지 않은 응용들에 대해, 최하의 주파수 대역 중의 일부는 무시될 수 있다.
바람직하게, 여기 패턴에서 시간 상의 변화가 추적될 수 있도록, 여기 패턴은 입력 신호의 짧은 세그먼트에 대해 계산된다. 여기 패턴은 비트 스트림 인코더(BSE)에 인가되고, 따라서, 출력 비트 스트림(OUT)에 포함된다.
오디오 인코더는 여기 패턴 계산 수단(EPC)에 의해 계산된 여기 패턴을 수신하기 위해 적응된 마스킹 곡선 계산 유닛(MCC)를 포함한다. 여기 패턴을 기초로 해서 마스킹 곡선 계산 유닛(MCC)에 의해 계산된 마스킹 곡선은 인코더 수단(ENC)에 인가된다. 인코더 수단(ENC)은 마스킹 곡선에 기초해서 그 인코딩 효율을 향상시키기 위해 적응되는데, 그 이유는 마스킹 곡선은 인코딩될 필요가 없는 오디오 입력 신호(IN)의 부분에 대해 인코더 수단에게 알려주기 때문인데, 그 신호 부분은 인간 의 청각 시스템에 의해 마스킹될 것이고, 따라서, 최종 신호에서는 인지되지 않기 때문이다. 추가적으로, 제1 인코딩된 신호 부분의 파라미터의 인코딩이 예를 들면 마스킹 곡선에 대해 수행될 수 있고 따라서, 불필요한 비트 할당을 피한다. 바람직하게, 마스킹 곡선은 참고 문헌[2]에 따라 계산된다. 마스킹 곡선 계산에 대한 추가적인 세부 사항이 아래에 주어진다.
도 2는 상기 설명된 오디오 인코더로부터 인코딩된 오디오 신호를 나타내는 입력 비트 스트림(IN)을 수신하기 위해 바람직하게 사용하기 바람직한 오디오 디코더를 설명한다. 제1 및 제2 인코딩된 신호 부분이 생성되도록, 오디오 디코더는 입력 비트 스트림(IN)으로부터 정보를 재생하기 위해 적응된 비트 스트림 디코더(BSD)를 포함한다.
제1 인코딩된 신호 부분은 예를 들면 사인파 또는 변환 디코더와 같은 결정적 유형의 디코더를 바람직하게 포함하는 디코더 수단(DEC)에 인가된다. 디코더 수단(DEC)은 제1 인코딩된 신호 부분을 생성한 인코더와 필수적으로 동일한 유형이다. 하지만, 그것은 디코더에서, 인코더에서 원래 송신되거나 이용가능한 비트 스트림/파라미터가 아닌, 다운스케일링된(downscaled) 버전의 비트 스트림/파라미터가 수신되는 경우 일 수 있다. 디코더 수단(DEC)은 제1 인코딩된 신호 부분에 응답하여 제1 디코딩된 신호 부분을 생성한다.
제2 인코딩된 신호 부분, 즉, 원래 오디오 신호의 여기 패턴이 잡음 모델기(NM)로서 설명된 이러한 바람직한 실시예에서 신호 생성기에 인가된다. 제1 디코딩된 신호 부분은 응답으로서 제2 디코딩된 신호 부분을 생성하는 잡음 모델기(NM)에 또한 인가된다. 잡음 모델기(NM)는 제2 디코딩된 신호 부분, 즉, 잡음 신호를 생성하기 위해 적응되어, 그 결과 제1 및 제2 디코딩된 신호 부분의 합은 원래 오디오 신호의 표현을 형성하고, 원래 오디오 신호의 여기 패턴으로부터 단지 미소하게 차이가 나는 여기 패턴을 나타낸다. 이러한 측면에서 추가적인 세부 사항이 아래에서 주어진다.
제1 및 제2 디코딩 신호 부분은 제1 및 제2 디코딩 신호 부분을 더하기 위해 적응된 합계 수단에 인가되어, 그 결과 입력 비트 스트림(IN)에서 수신된 인코딩된 오디오 신호의 디코딩된 표현이고, 따라서 원래 오디오 신호의 표현인, 출력 신호(OUT)를 생성하게 된다.
오디오 디코더는 제2 인코딩된 신호 부분, 즉, 원래 신호 여기 패턴을 수신하기 위해 적응된 마스킹 곡선 계산 유닛(MCC)를 더 포함한다. 응답으로서, 마스킹 곡선 계산 유닛(MCC)은 원래 여기 패턴에 기초해서 마스킹 곡선 표현을 디코더 수단(DEC)에 인가한다. 만약 제1 인코딩된 신호 부분의 파라미터의 인코딩이 예를 들면 마스킹 곡선을 사용해서 수행되었고, 불필요한 비트 할당이 회피되었다면, 마스킹 곡선 표현은 제1 인코딩된 신호 부분을 디코딩하기 위해 디코더(DEC)에 의해 사용된다.
아래에서, 도 1에서 도시된 오디오 인코더 실시예 방식이 가정되고, 여기서 인코딩 수단(ENC)은 사인파 인코더이다. 사인파 인코더는 참고문헌[3]에서 설명된 사인파 분석 기술에 기초한다고 가정된다.
오디오 입력 신호(IN)를 인코딩하는 제1 단계는 여기 패턴을 추정하는 것이 다. 이 추정은 바람직하게 참고문헌[2]에서 설명된 인지적 모델에 기초한다. 참고문헌[2]에서, 마스킹 함수{v(fm)}은
Figure 112007013598658-PCT00001
에 의해 계산된다고 기재되어 있으며, 여기서, fm은 마스킹 곡선이 계산되는 주파수이고, f는 마스커(masker) 스펙트럼 내의 성분이고,
Figure 112007013598658-PCT00002
은 평가 중인 오디오 세그먼트의 유효 기간이고, Hom은 인간의 외부 및 중간 귀 내에서 가정된 필터이고,
Figure 112007013598658-PCT00003
는 인간의 청각 필터 기능을 모델링하는 i번째 감마 톤(tone) 필터의 전이 함수이고, m은 원래 오디오 입력 신호의 스펙트럼이고, 한편 Ca와 Cs는 교정(calibration) 상수이다.
여기 패턴은 다음 양에 의해 정의된다:
Figure 112007013598658-PCT00004
이 여기 패턴은 청각적 필터 수를 지정하는 인덱스(i)를 가진다. 일반적으로, 청각적 필터의 수는 약 40개의 값으로 제한될 수 있으며, 따라서 비교적 덜 비싼 표현이 원래 입력 오디오 신호의 스펙트럼으로부터 얻어진다. 여기 파라미터(Ei)의 각각은 인코딩이 가능하기 전에 양자화될 필요가 있다. 대수적(logarithmic) 양 자화가 선호된다. 바람직하게, 0.5 dB와 5 dB간의 단계 크기가 사용되는데, 보다 바람직하게 이 단계 크기는 약 2 dB이다. 초래되는 양자화된 파라미터는 Eqi로 표시된다.
일단 여기 패턴이 알려지면, 마스킹 곡선이 수학식 1로부터 볼 수 있는 것처럼 또한 알려지는데, 여기서 분모는 i번째 여기 패턴 파라미터와 동일한 수식을 포함하고, 분자는 입력 신호에 따르지 않는다. 따라서, 수학식 1은:
Figure 112007013598658-PCT00005
로 재표기될 수 있다.
바람직하게, 양자화된 여기 패턴 파라미터는 마스킹 곡선을 생성하기 위해 사용된다. 이것은 인코더에 의해 사용된 마스킹 곡선이 디코더에 의해 사용된 것과 동일한 것을 보장하는데, 그 이유는 디코더 측에서 계산된 마스킹 곡선은 필연적으로 제2 인코딩된 신호 부분에서 수신된 양자화된 여기 파라미터에 기초하기 때문이다.
비트 스트림 인코더(BSE)에 의해 여기 패턴 파라미터(Eqi)의 인코딩은 프레임 내 차동 인코딩을 사용해서 효울적으로 수행될 수 있다.
Figure 112007013598658-PCT00006
를 정의해서, 많이 변하지 않는 차동 파라미터의 적절한 세트가 획득될 수 있고, 이 경우에, 추가적인 시간-차동 인코딩이 프레임들의 일부를 위해 사용될 수 있다.
사인파 인코더를 구비한 인코더 실시예에서, 입력 오디오 신호(IN)의 일부분이 사인파를 가지고 모델링된다. 사인파 파라미터는 마스킹 곡선을 사용해서 보다 효과적으로 인코딩될 수 있다. 마스킹 곡선 내에 포함된 정보로부터 이득을 얻는 복수의 방식이 존재한다. 하나의 방법은 마스킹 곡선에 의해 모든 사인파 진폭 값을 나누는 것이다. 이 변환을 수행하여, 진폭 파라미터의 엔트로피는 감소할 것인데, 그 이유는 진폭 값의 배분이 마스킹 곡선 분할에 의해 상당히 밀집되기 때문이다.
이것으로부터 이득을 얻는 하나의 대안적인 방법은 참고문헌[4]에서와 제안된 바와 같은 고속 양자화 방식에서 마스킹 곡선을 활용하는 것이다. 대안적으로, 변환 인코더가 결정적 신호 부분을 인코딩하기 위해 사용될 때, 일부 기술(예, 참고문헌[5] 참조)은 변환 계수를 인코딩하기 전에 마스킹 함수에 의해 변환 계수를 가중화한다. 디코더 측에서, 역전 변환이 수행된다. 가중 곡선은 변환 계수의 스케일링을 지정하는 부차적(side) 정보를 인코딩하기 위한 필요를 효과적으로 없앤다.
디코딩 프로세스는 여기 패턴 파라미터를 디코딩하는 것을 시작한다. 수학식 3을 사용해서, 제1 인코딩된 신호 부분의 디코딩 시에, 디코더 수단(DEC)에 이용 가능하게 되는 마스킹 곡선이 유도된다.
잡음 모델기(NM)는 여기 패턴과 제1 디코딩된 신호 부분에 응답해서 잡음 신호를 생성한다. 제1 디코딩된 신호 부분과 함께 이러한 잡음 신호가 원래 오디오 신호와 유사한 여기 패턴을 갖도록, 잡음 신호를 합성하기 위해 사용될 수 있는 다양한 알고리즘이 존재한다. 아래에서, 하나의 방법이 비교적 낮은 계산적 복잡도를 갖는 양호한 결과를 산출하는 하나의 방법이 설명될 것이다.
분석의 길이 및 합성 세그먼트가 M이고, M이 짝수라는 것을 가정하면, 합성 세그먼트의 스펙트럼 표현에서, 처음 1/2M 복소수들은 완전한 신호를 정의하는데, 그 이유는 시간-도메인 신호는 실수라고 알려지기 때문이다. 1/2M개의 숫자들은 참고문헌[6]에서 제안된 등가 직사각형-대역폭(Equivalent Rectangular-Bandwidth: ERB)에 비례하는 대역폭을 갖는 L개의 잡음 대역들로 분할된다. 각 잡음 대역의 L개의 시작 위치들은 kj로 표시된다. 추가적으로, kj+1는 최종 잡음 대역의 끝 위치에 1을 더한 값이다.
확산(spreading) 매트릭스(G)는:
Figure 112007013598658-PCT00007
라고 정의된다.
확산 매트릭스는 각 잡음 대역(j) 내의 에너지가 청각적 필터들(i)에 걸쳐서 어떻게 배분되는지를 정의한다. 확산 매트릭스에 기초해서, 역행 확산 매트릭스가:
Figure 112007013598658-PCT00008
라고 정의된다.
알고리즘은 이제
Figure 112007013598658-PCT00009
이, 각 i에 대해 원래 신호의 여기 패턴(Eqi)에 가능한 근접하도록 각 잡음 대역에 대해 에너지 값들(Xj)을 발견하려고 시도할 것이다. Edi는 제1 인코딩된 신호 부분의 여기 패턴이고, bi≥1인 bi는 디코더에 의해 생성된 잡음의 초과에 이를 수 있는 제1 및 제2 인코딩된 신호 부분에서 양자화 효과를 보상하기 위해 적응된 인수이다. bi를 위한 좋은 값은 1.3이라는 것이 발견되었지만, 선택된 양자화 방식과, 작은 i값들(즉, 저 주파수들)에 대한 보다 큰 값들을 가진 i에 대한 종속은 개선된 결과를 야기할 수 있다. bi=1에 대해, 아무런 보상이 가해지지 않는다.
아래의 6개의 단계들은 Xj에 대해 적절한 해결책을 찾는 바람지한 반복적인 방법을 정의한다:
단계 1, 모든 j에 대해, Xj를 초기화한다:
Figure 112007013598658-PCT00010
단계 2,
Figure 112007013598658-PCT00011
에 따라 여기 패턴을 계산한다.
단계 3,
Figure 112007013598658-PCT00012
에 따라 에러를 계산한다.
단계 4,
Figure 112007013598658-PCT00013
에 따라 에러를 전파한다.
단계 5,
Figure 112007013598658-PCT00014
에 따라 에러를 정정한다.
단계 6, 만약 반복 프로세스가 끝나지 않았다면, 단계 2로 복귀한다.
바람직하게, 이러한 반복적 방법에 대한 중지 기준은, 모든 cj 값들이 단위 값(unity)에 충분히 근접한 후에, 또는 대안적으로 고정된 수의 반복들 이후에 반복이 중지되도록 선택된다. 중지 기준으로서, 만약 후자가 선택된다면, 합계 20개의 반복들이 양호한 품질의 잡음 신호를 산출하기에 충분하다는 것이 발견되었다.
에너지 값(Xj)이 이제 각 에너지 대역(j)에 대해
Figure 112007013598658-PCT00015
이 되도록 잡음 신호(W)의 스펙트럼 표현에 인가된다.
역전 이산적 푸리에 변환은 이러한 신호를 시간 도메인으로 변환하기 위해 사용된다. 이 다음에는 제1 디코딩된 신호 부분에 추가될 준비가 된 잡음 신호의 최종 구성을 허용하기 위한 스케일링, 윈도우잉(windowing) 및 중첩-추가(overlap-add)가 이어진다.
제1 인코딩된 신호 부분을 생성하기 위해 사인파 인코더를 사용하는 상기 설명된 실시예는 M=2048의 세그먼트 길이와 세그먼트들 간의 50%의 중첩을 사용해서 44.1 kHz의 샘플링 주파수에서 테스트되었다. 여기 패턴 파라미터의 프레임 내 차동 인코딩만이 사용될 때, 9-10 kbps의 비트 속도가 여기 패턴, 즉 제2 인코딩된 신호 부분을 나타내기 위해 요구된다.
사인파 인코더/디코더와 결합해서, 양호한 오디오 품질이 얻어지는데, 여기서 일반적으로 잡음은 사인파 디코더로부터 결정적 신호 부분을 가지고 잘 통합된다. 잡음 모델은 스케일러블하다는 것이 증명되었다. 사인파 디코더에서 사용된 사인파들의 수와는 상관없이, 동일한 여기 패턴이 송신될 수 있고, 적절한 잡음 신호는 사인파 신호 부분을 상보하기 위해 디코더 측에서 생성될 수 있다.
본 발명에 따른 인코더와 디코더는 디지털 신호 프로세서를 가진 단일 칩 상 에서 구현될 수 있다. 그러면, 이 칩은 오디오 디바이스와 같은 디바이스로 만들어 질 수 있다. 인코더와 디코더는 응용 디바이스의 주요 신호 프로세서 상에 실행되는 알고리즘에 의해 순전히 대안적으로 구현될 수 있다.
비트 속도의 견지에서 코딩 효율에 추가해서, 상기 설명된 코딩 방법은 인코더에 의해 수행될 계산 부하에 대해 또한 고효율을 제공한다.
참고 문헌 목록:
[1] B. C. J. Moore. An Introduction to the Psychology of Hearing. Academic Press, London, 1995.
[2] S. van de Par, A. Kohlrausch, G. Charestan, R. Heusdens(2002). A new psychoacoustical masking model for audio coding applications. In IEEE Int. Conf. Acoust., Speech and Signal Process., Orlando, USA, 2002, pp. 1805-1808.
[3] R. Heusdens, R. Vafin, and W. B. Kleijn. Sinusoidal modeling using psychoacoustic-adaptive matching pursuits. IEEE Signal Processing Letters, 9(8): pp. 262-265, August 2002.
[4] R. Vafin and W. B. Kleijn. Entropy-constrained polar quantosation: Theory and an application to audio coding. In IEEE Int. Conf. Acoust., Speech and Signal Process., Orlando, Florida, USA, 2002.
[5] B. Edler and G. Schuller. Audio coding using a psychoacoustic pre- and pist-filter. In IEEE Int. Conf. Acoustic., Speech and Signal Process., Vol. 2, pp. 881-884, 2000.
[6] B. R. Glasberg and B. C. J. Moore. Derivation of auditory filter shapes from notched-noise data. Hearing Research, 47:pp. 103-138, 1990.
본 발명은 오디오 신호 코딩의 분야에 이용가능하며, 특히, 본 발명은 낮은 비트 속도에 적응된 효율적인 오디오 코딩에 이용 가능하다.

Claims (20)

  1. 오디오 신호(IN)를 인코딩하기 위해 적응된 오디오 인코더로서, 상기 오디오 인코더는:
    - 상기 오디오 신호(IN)를 제1 인코딩된 신호 부분으로 인코딩하도록 적응시키기 위한 인코더 수단(ENC),
    - 상기 오디오 신호(IN)의 여기 패턴(EPC)의 표현을 계산하고, 이 표현을 제2 인코딩된 신호 부분에 제공하기 위해 적응된 계산 수단으로서, 상기 계산 수단은 상기 여기 패턴(EPC)의 표현에 기초하여 마스킹(masking) 곡선(MCC)의 표현을 계산하고, 인코딩 효율을 최적화하기 위해 상기 인코더 수단(ENC)에 상기 마스킹 곡선(MCC)의 표현을 제공하기 위해 더 적응되는, 계산 수단을
    포함하는, 오디오 인코더.
  2. 제1항에 있어서, 상기 오디오 인코더 수단(ENC)은 파라미터식 인코더, 변환 인코더, 파형 인코더, 정규 펄스 여기 인코더, 코드북 여기된 선형 예측 인코더로 이루어진 그룹으로부터 선택된 결정적 신호 유형의 인코더를 포함하는, 오디오 인코더.
  3. 제1항에 있어서, 상기 여기 패턴(EPC)의 표현의 양자화된 버전을 생성하여 그후 이것을 제2 인코딩된 신호 부분으로서 제공하기 위한 수단을 포함하는, 오디 오 인코더.
  4. 제1항에 있어서, 프레임 내 차동 코딩과 세그먼트 횡단 차동 인코딩으로 이루어진 그룹으로부터 선택된 코딩 방식에 따라 제2 인코딩된 신호 부분을 코딩하기 위해 적응된 수단을 포함하는, 오디오 인코더.
  5. 인코딩된 오디오 신호(IN)로부터 오디오 신호(OUT)를 재생성하기 위해 적응된 오디오 디코더로서,
    - 제2 인코딩된 오디오 신호 부분으로부터 상기 오디오 신호의 여기 패턴의 표현을 생성하기 위해 적응된 수단,
    - 제1 인코딩된 신호 부분으로부터 제1 디코딩된 신호 부분을 생성하기 위해 적응된 디코더 수단(DEC),
    - 제2 디코딩된 신호 부분을 생성하여, 제1 및 제2 디코딩된 신호 부분의 합이 상기 오디오 신호의 여기 패턴과 실질적으로 동일한 여기 패턴을 보여주도록 적응된 신호 생성기(NM) 수단을
    포함하는 오디오 디코더.
  6. 제5항에 있어서, 제1 및 제2 디코딩된 신호 부분의 합(SUM)으로서 상기 오디오 신호(OUT)의 표현을 생성하기 위해 적응된 합계 수단을 더 포함하는, 오디오 디코더.
  7. 제5항에 있어서, 상기 신호 생성기 수단(NM)은 반복 방법을 사용해서 상기 오디오 신호(IN)의 여기 패턴의 표현에 기초해서 제2 디코딩된 신호 부분을 생성하기 위한 수단을 포함하는, 오디오 디코더.
  8. 제5항에 있어서, 상기 신호 생성기 수단(NM)은 상기 오디오 신호의 여기 패턴으로부터 제1 디코딩된 신호 부분(DEC)의 여기 패턴의 표현을 빼는 것을 수행하기 위해 적응된, 오디오 디코더.
  9. 제5항에 있어서, 상기 신호 생성기 수단(NM)은 잡음 생성기를 포함하는, 오디오 디코더.
  10. 제5항에 있어서, 상기 신호 생성기 수단(NM)은 스펙트럼 대역 복제 수단을 포함하는, 오디오 디코더.
  11. 제5항에 있어서, 상기 디코더 수단(DEC)은 파라미터식 디코더, 변환 디코더, 파형 디코더, 정규화 펄스 여기 디코더 및 코드북 여기된 선형 예측 디코더로 이루어진 그룹으로부터 선택된 결정적 신호 유형의 디코더를 포함하는, 오디오 디코더.
  12. 제5항에 있어서, 상기 오디오 신호(IN)의 여기 패턴의 표현에 대응하는 마스 킹 곡선(MCC)의 표현을 계산하고, 상기 디코더 수단(DEC)에 상기 마스킹 곡선의 표현을 제공하기 위해 적응된 수단을 더 포함하는, 오디오 디코더.
  13. 오디오 신호를 인코딩하는 방법으로서:
    - 상기 오디오 신호의 여기 패턴의 표현을 계산하는 단계,
    - 상기 여기 패턴의 표현에 기초해서 마스킹 곡선의 표현을 계산하는 단계,
    - 상기 마스킹 곡선을 이용해서 제1 인코딩된 신호 부분으로 인코딩 방식에 따라 상기 오디오 신호를 인코딩하는 단계, 및
    - 상기 오디오 신호의 여기 패턴의 표현을 포함하는 제2 인코딩된 신호 부분을 제공하는 단계를
    포함하는, 오디오 신호를 인코딩하는 방법.
  14. 인코딩된 오디오 신호로부터 오디오 신호를 재생성하는 방법으로서,
    - 제2 인코딩된 신호 부분으로부터 상기 오디오 신호의 여기 패턴의 표현을 생성하는 단계,
    - 상기 여기 패턴의 표현으로부터 마스킹 곡선의 표현을 생성하는 단계,
    - 디코딩 방식에 따라 제1 인코딩된 신호 부분을 제1 디코딩된 신호 부분으로 디코딩하는 단계,
    - 제1 및 제2 디코딩된 신호 부분의 합이 상기 오디오 신호의 여기 패턴과 실질적으로 동일한 여기 패턴을 나타내도록, 상기 여기 패턴의 표현에 기초해서 제 2 디코딩된 신호 부분을 생성하는 단계를
    포함하는, 오디오 신호를 재생성하는 방법.
  15. 오디오 신호를 나타내는 인코딩된 오디오 신호로서,
    - 제1 인코딩된 신호 부분을 포함하는 제1 부분, 및
    - 상기 오디오 신호의 여기 패턴의 표현을 포함하는 제2 부분을
    포함하는 인코딩된 오디오 신호.
  16. 제15항에 따른 인코딩된 오디오 신호를 나타내는 데이터를 포함하는 저장 매체.
  17. 제1항에 따른 오디오 인코더를 포함하는 디바이스.
  18. 제5항에 따른 오디오 디코더를 포함하는 디바이스.
  19. 제13항의 방법에 따른 오디오 신호를 인코딩하기 위해 적응된 컴퓨터 판독가능한 프로그램 코드.
  20. 제14항의 방법에 따른 인코딩된 오디오 신호를 디코딩하기 위해 적응된 컴퓨터 판독가능한 프로그램 코드.
KR1020077003540A 2004-08-17 2005-07-25 스케일러블 오디오 코딩 KR20070051857A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04103940 2004-08-17
EP04103940.5 2004-08-17

Publications (1)

Publication Number Publication Date
KR20070051857A true KR20070051857A (ko) 2007-05-18

Family

ID=35448254

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077003540A KR20070051857A (ko) 2004-08-17 2005-07-25 스케일러블 오디오 코딩

Country Status (6)

Country Link
US (1) US7921007B2 (ko)
EP (1) EP1782419A1 (ko)
JP (1) JP2008510197A (ko)
KR (1) KR20070051857A (ko)
CN (1) CN101006496B (ko)
WO (1) WO2006018748A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101299155B1 (ko) 2006-12-29 2013-08-22 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
KR101346771B1 (ko) * 2007-08-16 2013-12-31 삼성전자주식회사 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
BR112014008376B1 (pt) 2011-11-02 2021-01-05 Telefonaktiebolaget Lm Ericsson (Publ) codificação/decodificação de áudio baseada em uma representação eficaz de coeficientes autorregressivos
US9999769B2 (en) * 2014-03-10 2018-06-19 Cisco Technology, Inc. Excitation modeling and matching
US11416742B2 (en) * 2017-11-24 2022-08-16 Electronics And Telecommunications Research Institute Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function
EP3576088A1 (en) * 2018-05-30 2019-12-04 Fraunhofer Gesellschaft zur Förderung der Angewand Audio similarity evaluator, audio encoder, methods and computer program
TWI748465B (zh) * 2020-05-20 2021-12-01 明基電通股份有限公司 噪音判斷方法及噪音判斷裝置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1268546C (en) 1985-08-30 1990-05-01 STEREO VOICE SIGNAL TRANSMISSION SYSTEM
EP0551705A3 (en) * 1992-01-15 1993-08-18 Ericsson Ge Mobile Communications Inc. Method for subbandcoding using synthetic filler signals for non transmitted subbands
US5623577A (en) 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
JP3024468B2 (ja) * 1993-12-10 2000-03-21 日本電気株式会社 音声復号装置
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
EP1072036B1 (en) * 1998-04-15 2004-09-22 STMicroelectronics Asia Pacific Pte Ltd. Fast frame optimisation in an audio encoder
US6493665B1 (en) 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
GB0108080D0 (en) * 2001-03-30 2001-05-23 Univ Bath Audio compression
US20040002856A1 (en) 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US7328151B2 (en) * 2002-03-22 2008-02-05 Sound Id Audio decoder with dynamic adjustment of signal modification
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
KR20050086762A (ko) 2002-11-27 2005-08-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 정현파 오디오 코딩
FR2849727B1 (fr) * 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
US7548852B2 (en) 2003-06-30 2009-06-16 Koninklijke Philips Electronics N.V. Quality of decoded audio by adding noise
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
DE102004023446B3 (de) * 2004-05-12 2005-12-29 Fci Steckverbinder und Verfahren seiner Vormontage

Also Published As

Publication number Publication date
CN101006496A (zh) 2007-07-25
JP2008510197A (ja) 2008-04-03
WO2006018748A1 (en) 2006-02-23
EP1782419A1 (en) 2007-05-09
CN101006496B (zh) 2012-03-21
US7921007B2 (en) 2011-04-05
US20070198274A1 (en) 2007-08-23

Similar Documents

Publication Publication Date Title
US7921007B2 (en) Scalable audio coding
RU2575993C2 (ru) Основанная на линейном предсказании схема кодирования, использующая формирование шума в спектральной области
US20130218577A1 (en) Method and Device For Noise Filling
US20090192792A1 (en) Methods and apparatuses for encoding and decoding audio signal
US20090198500A1 (en) Temporal masking in audio coding based on spectral dynamics in frequency sub-bands
BR112019020515A2 (pt) aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente
TWI536369B (zh) 用以基於線性預測編碼之於頻域中編碼的低頻率增強技術
JP6181773B2 (ja) Celp状コーダのためのサイド情報を用いないノイズ充填
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
CN115171709B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
US7197454B2 (en) Audio coding
BR112019020491A2 (pt) aparelho e método para pós-processamento de um sinal de áudio usando formato com base em previsão
JP3360046B2 (ja) 音声符号化装置、音声復号化装置及び音声符復号化方法
Spanias et al. Analysis of the MPEG-1 Layer III (MP3) Algorithm using MATLAB
Gunjal et al. Traditional Psychoacoustic Model and Daubechies Wavelets for Enhanced Speech Coder Performance
KR20080034819A (ko) 부호화/복호화 장치 및 방법
Dongmei et al. Complexity scalable audio coding algorithm based on wavelet packet decomposition
CN114783449A (zh) 神经网络训练方法、装置、电子设备及介质
Lin et al. Wideband Speech and Audio Coding in the Perceptual Domain
Schuijers Quality Scalability of a Parametric Audio Coder
Bhatt Audio coder using perceptual linear predictive coding
Pena et al. Realtime implementations of MPEG-2 and MPEG-4 natural audio coders
Najafzadeh-Azghandi Percept ual Coding of Narrowband Audio
KR20080034817A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee