KR20000076297A - 오디오신호 코딩방법 - Google Patents

오디오신호 코딩방법 Download PDF

Info

Publication number
KR20000076297A
KR20000076297A KR1019997008398A KR19997008398A KR20000076297A KR 20000076297 A KR20000076297 A KR 20000076297A KR 1019997008398 A KR1019997008398 A KR 1019997008398A KR 19997008398 A KR19997008398 A KR 19997008398A KR 20000076297 A KR20000076297 A KR 20000076297A
Authority
KR
South Korea
Prior art keywords
noise
spectral
audio signal
signal
coding
Prior art date
Application number
KR1019997008398A
Other languages
English (en)
Other versions
KR100346066B1 (ko
Inventor
쥬르겐 헤르
우베 그부르
안드레아스 에흐레트
마틴 디에쯔
보도 타이크만
올리버 쿤쯔
칼하인쯔 부란덴부르크
하인쯔 게라우세
Original Assignee
슈베르트 헬무트
프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=7835664&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20000076297(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 슈베르트 헬무트, 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. filed Critical 슈베르트 헬무트
Publication of KR20000076297A publication Critical patent/KR20000076297A/ko
Application granted granted Critical
Publication of KR100346066B1 publication Critical patent/KR100346066B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

본 발명의 오디오신호의 코딩 또는 디코딩방법은 TNS 처리와 잡음 대체의 장점을 조합한 것이다. 시간 불연속적인 오디오신호를 시간 오디오신호의 스펙트럼 값을 구하기 위해 주파수영역으로 변환한다. 이어서 스펙트럼 잔류값을 구하기 위해 주파수에 관한 스펙트럼 값의 예측을 수행한다. 스펙트럼 잔류값내에서 잡음의 성질을 가진 스펙트럼 잔류값을 포함하는 영역을 검출한다. 잡음 영역내의 스펙트럼 잔류값을 잡음 대체하고, 잡음 영역과 잡음 대체에 관한 정보를 코딩된 오디오신호에 관련된 부수 정보에 통합시킨다.

Description

오디오신호 코딩방법{METHOD FOR CODING AN AUDIO SIGNAL}
본 발명은 오디오신호의 코딩방법에 관한 것으로, 특히 개발중인 MPEG-2 AAC를 위한 오디오신호 코딩방법에 관한 것이다.
동화상 전문가그룹(Moving picture expert group; MPEG)으로도 잘 알려져 있는 표준화 기구 ISO/IEC JTC1/SC29/WG11는 낮은 비트율을 위한 디지털 비디오 및 오디오 코딩기구를 규정하기 위하여 1988년에 설립되었다. 첫 번째 개발단계는 표준 MPEG-1에 의해 1992년 11월에 완성되었다. ISO 11172-3에서 규정된 MPEG-1에 의한 오디오 코딩시스템은 샘플링 주파수 32kHz, 44.1kHz, 48kHz에서 단일채널 또는 2채널 스테레오모드에서 동작한다. 표준 MPEG-1 계층II는 국제 전자통신 협회가 규정하는 채널당 128kb/s의 데이터속도의 방송품질을 제공한다.
두 번째 개발단계에 있어서, MPEG의 목적은 이미 존재하고 있는 MPEG-1 시스템에 대하여 역방향으로 호환성을 가져야 하는 MPEG-1 오디오를 위한 다채널 확장을 규정하는데 있으며, 또한 MPEG-1의 샘플링 주파수보다 낮은 샘플링 주파수 (16kHz, 22.5kHz, 24kHz)의 오디오 코딩 표준을 규정하는데 있다. 역방향 호환 표준(MPEG-2 BC)과 낮은 샘플링 주파수 (MPEG-2 LSF)에 대한 표준은 1994년 11월에 완성되었다. MPEG-2 BC는 전대역폭의 5채널을 위한 640-896kb/s의 데이터속도의 우수한 오디오품질을 제공한다. 1994년 이래로 MPEG-2 오디오 표준 협회는 MPEG-1으로의 역방향 호환성이 요구되는 경우 얻을 수 있는 품질보다 높은 품질의 다채널 표준을 규정하기 위한 노력을 해오고 있다. 이러한 MPEG-2에 의한 비역방향 호환 오디오 표준이 지정된 MPEG-2 NBC이다. 이것은 ITU-R 요구조건에 따라 각각의 채널이 전대역폭을 갖는 5채널 오디오신호를 위한 384kb/s의 데이터율의 방송품질을 얻기 위한 목적으로 개발되었다. 오디오 코딩 표준 MPEG-2 NBC는 1997년 4월에 완성되었다. MPEG-2 NBC는 높은 데이터율 (데이타 채널당 40kb/s이상)을 가지게 될 오디오 표준 MPEG-4를 위한 핵심을 구성할 것이다. NBC 또는 비역방향 호환 표준은 매우 낮은 데이터율의 방송품질의 오디오 코딩을 위하여 높은 분해능(resolution)의 필터뱅크의 코딩 효율과 예측 기술 및 리던던시(redundancy) 감소 호프만 코딩을 조합한 것이다. 또한, 표준 MPEG-2 NBC는 MPEG-2 NBC AAC (AAC=Advanced Audio Coding)라고도 한다. MPEG-2 AAC의 기술적 내용에 대한 상세한 설명은 M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio Coding", 제101회 AES 회의, Los Angeles 1996, 예비보고서 4382에 기술되어 있다.
효율적인 오디오 코딩방법은 오디오신호로부터 리던던시와 무관계성을 제거한다. 리던던시를 제거하기 위해서는 오디오 샘플링값들 사이의 상호관계와 샘플값의 통계가 이용된다. 감지할 수 없는 신호성분 (무관계성)을 제거하기 위해서는 인간의 청각시스템의 특성을 차단하는 주파수범위와 시간범위가 이용된다. 오디오신호의 주파수 내용은 필터뱅크에 의해 부분적인 대역들로 구분된다. 데이터율은 정신음향학적(psycho-acoustic) 모델에 의한 시간신호의 스펙트럼을 양자화하여 감소시키며, 이러한 감소방법에는 손실이 없는 코딩방법이 포함될 수 있다.
일반적으로, 시간 연속 오디오신호는 시간 불연속 오디오신호를 얻기 위해 샘플링된다. 시간 불연속 오디오신호는 윈도윙된 시간 불연속 샘플링값인 예컨대 1024개의 연속적인 블록 또는 프레임을 얻기 위하여 윈도우 기능에 의해 윈도윙된다. 오디오신호의 각각의 블록의 윈도윙된 시간 불연속 샘플링값은 주파수 범위로 연속적으로 변환되는데 이를 위하여 예컨대, 변형된 이산 코사인 변환(Modified discrete cosine transformation; MDCT)를 이용할 수 있다. 얻어진 스펙트럼값은 아직 양자화되지 않았으므로 양자화시켜야 한다. 이와 같이 양자화하는 주된 목적은 양자화 잡음을 양자화된 신호에 의해 은폐하거나(masking) 커버하는 방식으로 스펙트럼값을 양자화하는데 있다. 이를 위해 MPEG AAC 표준에 기술된 정신음향학적모델을 이용하는데, 이것은 인간의 귀의 특성을 고려하여 오디오신호를 기준으로 은폐 문턱값(masking threshold)을 계산한다. 스펙트럼값은 발생된 양자화잡음을 은폐하여 들리지 않도록 양자화한다. 따라서 양자화는 가청 잡음을 발생시키지 않는다.
NBC 표준은 이른바 불균등한 양자화기를 사용한다. 또한, 양자화 잡음을 형성하기 위한 방법을 사용한다. NBC방법은 이전의 표준과 마찬가지로 기준화 인자 대역(scale factor band)으로 알려져 있는 스펙트럼 계수 그룹의 개별적인 증폭을 이용한다. 가능한 한 효율적인 방식으로 동작시키기 위하여 양자화 잡음을 가능한 한 인간의 청각시스템의 주파수 그룹에 정합되지 않는 단위로 형성하는 것이 바람직하다. 따라서 주파수그룹의 대역폭을 매우 비슷하게 반영하는 스펙트럼값을 분류할 수 있다. 개별적인 기준화 인자 대역은 1.5dB 단계의 기준화 인자에 의해 증폭할 수 있다. 증폭된 계수가 높은 진폭을 가지게 되면 잡음이 형성된다. 따라서 양자화된 후에 높은 신호 대 잡음비가 나타나게 된다. 반면에 높은 진폭은 코딩에 더 많은 비트를 필요로 한다. 즉, 기준화 인자 대역들 사이의 비트 분포가 암암리에 변화한다. 기준화 인자에 의한 증폭은 디코더에서 보정되어야 한다. 이러한 이유로 1.5dB 단계의 단위로 기준화 인자에 저장된 증폭 정보는 부수적인 정보로서 디코더로 전송해야 한다.
기준화 인자 대역내에 존재하며 기준화 인자에 의해 임의로 증폭된 스펙트럼값은 양자화된 후에 코딩된다. 따라서 잡음이 없는 코딩 모듈로 입력되는 입력신호는 예컨대, 1024개의 양자화된 스펙트럼 계수들의 집합이 된다. 잡음이 없는 코딩 모듈에 의해 1024개의 양자화된 스펙트럼 계수들의 집합은 각각의 구역을 코딩하기 위해 단일 호프만 코딩 테이블("코드북")을 이용하도록 상기 구역들로 구분된다. 코딩 효율 때문에 기준화 인자 대역 한계에만 구역의 한계가 존재할 수 있으므로 스펙트럼의 각각의 구역에 대하여 기준화 인자 대역내의 구역의 길이와 상기 구역을 위해 사용되는 호프만 코딩 테이블 번호를 부수적인 정보로서 전송해야 한다.
구역의 형성은 동적이며 블록에서 블록으로 변화되므로 양자화된 스펙트럼 계수의 전체 집합을 나타내는데 필요한 비트수가 최소화된다. 호프만 코딩은 n조의 양자화된 계수를 나타내는데 사용되는 것으로, 호프만 코딩은 12개의 코딩 테이블중의 하나로부터 나온 것이다. 각각의 호프만 코딩 테이블에 의해 나타낼 수 있는 양자화된 계수의 최대 절대값 및 각각의 코딩 테이블에 대한 n조내의 계수의 수는 맨 처음에 규정된다.
상기 구역들을 형성하는 이유는 하나의 단일 호프만 코딩 테이블을 이용하여 구역에 대하여 가능한 한 높은 코딩 이득을 얻기 위해 동일한 신호 통계를 갖는 영역들을 분류하기 때문이다. 코딩 이득은 일반적으로 코딩전의 비트와 코딩후의 비트의 지수에 의해 규정된다. NBC방법에 사용되는 비트 플로우 신택스(Bit flow syntax)에서 규정되는 코딩 테이블 번호 ("코드북 번호")를 이용하여 특정 구역에 대하여 가장 높은 코딩 이득을 허용하는 12개의 호프만 코딩 테이블중의 하나를 참고로 한다. "코딩 테이블 번호"라는 표현은 코딩 테이블 번호를 위해 준비된 비트 플로우 신택스에서의 위치를 의미한다. 11개의 서로 다른 코딩 테이블 번호들을 이진법으로 코딩하기 위해서는 4비트가 필요하다. 이 4비트는 각각의 구역, 즉, 각각의 스펙트럼값 그룹에 대한 부수적인 정보로서 전달되어야 하므로 디코더는 디코딩을 위하여 해당 보정 코딩 테이블을 선택할 수 있다.
도 2는 기준 원리에 따라 동작하는 코더와 디코더의 일반적인 개관을 도시한 것이다. 시간 불연속적으로 이미 존재하고 있는 오디오 신호가 오디오 입력(200)을 통해 입력된다. 그런 다음 이 시간 불연속 오디오신호는 "프레임"이라고 하는 시간 불연속적인 윈도윙된 오디오 신호 블록을 얻기 위하여 분석 필터 뱅크라고 나타낸 윈도윙기능을 가진 블록(202)내에서 윈도윙된다. 분석 필터 뱅크(202)에 있어서, 윈도윙된 값의 블록은 주파수 영역으로 변환된다. 따라서 분석 필터 뱅크(202)의 출력에 나타나는 스펙트럼값들이 존재하며 이 값들은 "양자화 및 코딩" 블록(204)에서 먼저 양자화된 후, 예컨대 호프만 코딩에 의해 리던던시코딩된다. 또한, 오디오 입력(200)에서의 시간 불연속 오디오 입력신호로부터 양자화에 사용되는 은폐(masking)정보를 정신음향학적 모델(206)을 이용하여 산출함으로써 상기 스펙트럼값들을 양자화할 때 도입되는 양자화 잡음을 정신 음향적으로 은폐 또는 커버한다. 코더의 경우, 양자화되고 코딩된 스펙트럼값은 비트 플로 멀티플렉서(bit flow multiplexer)(208)로 보내지며, 이 비트 플로 멀티플렉서는 상기 양자화되고 리던던시코딩된 스펙트럼값을 비트 플로로 만든다. 이 비트 플로는 알려진 바와 같이 디코딩에 필요한 부수적인 정보를 포함하고 있다. 상기 코딩된 비트 플로는 비트 플로 출력(210)에 존재하며, 오디오 입력(200)에서의 오디오 신호의 코딩된 형태를 구성한다. 이 비트 플로는 디코더로 전송되어 비트 플로 입력(212)에 제공된다. 비트 플로 디멀티플렉서(214)에 있어서, 상기 비트 플로는 부수적인 정보와 양자화되고 코딩된 스펙트럼값으로 분해되며, 이것들은 자신의 입력부에 존재하는 스펙트럼값을 다시 시간 영역으로 변환하는 합성 필터 뱅크(218)에 제공되기 위하여 "역양자화" 블록(216)에서 리던던시코딩되고 역양자화된다. 한편, 코딩되고 디코딩된 오디오신호는 디코더의 오디오 출력(220)에 존재한다. 오디오 출력(220)에 존재하는 코딩되고 디코딩된 오디오신호는 발생된 코딩 에러를 제외하고는 오디오 입력(200)에 존재하는 원래의 시간 불연속적인 오디오신호와 동일하다.
이른바 "일시적 잡음 정형(temporal noise shaping)" 기술이라고 하는 것은 공지의 것으로, J. Herre, J.D. Johnston의 "Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS)", 제101회 AES 총회, 로스엔젤레스 1996, 예비보고서 4364에 기술되어 있다. TNS기술은 일반적으로 스펙트럼값을 예측 코딩함으로써 양자화 잡음의 미세 구조를 일시적으로 정형하는 것이다. TNS기술은 시간과 주파수 범위간의 이중성(dualism)의 응용에 기초한 것이다. 이 기술에서 알 수 있는 바와 같이 시간신호의 자기 상관함수(auto-correlation function)가 주파수영역으로 변환되면 이 시간신호의 스펙트럼밀도를 나타낸다. 신호의 스펙트럼의 자기 상관함수가 형성되어 시간영역으로 변환되면 이중적인 경우가 발생한다. 시간영역으로 변환되거나 다시 원래대로 변환된 자기 상관함수는 시간신호의 힐버트 포락선(Hilbert envelope curve)의 제곱이 된다. 따라서 신호의 힐버트 포락선은 그 스펙트럼의 자기 상관함수와 직접적인 관계가 있다. 신호의 힐버트 포락선의 제곱과 스펙트럼 파워밀도는 시간영역과 주파수영역에서의 이중적인 국면을 구성한다. 신호의 힐버트 포락선이 주파수영역에 걸쳐 각각의 부분적인 대역통과 신호에 대하여 일정하면, 인접한 스펙트럼값들간의 자기 상관도도 일정할 것이다. 이것은 주파수와 관련된 일련의 스펙트럼 계수들이 일정하다는 것을 의미하며, 이에 의해 예측계수 집합을 이용하여 신호를 나타내는데 예측 코딩 기술을 사용할 수 있는 것이다.
이러한 사실들을 도 5a 및 도 5b를 참조하여 설명한다. 도 5a는 약 40ms 동안 지속되며 시간에 따라 빠르게 변화하는 "캐스터네츠형" 신호의 일부를 나타낸 것이다. 이 신호는 몇 개의 부분적인 대역통과 신호들로 구분되며, 각각의 부분적인 대역통과 신호는 500Hz의 대역폭을 갖는다. 도 5b는 1500Hz 내지 4000Hz 범위의 중심주파수를 갖는 상기 대역통과 신호들에 대한 힐버트 포락선을 나타낸다. 설명의 명확성을 위하여, 모든 포락선은 최대진폭으로 정규화되었다. 모든 부분적인 포락선의 형태는 서로 밀접한 관계가 있으며, 따라서 신호를 효율적으로 코딩하기 위하여 상기 주파수영역내에서 공통 예측기(common predictor)를 사용할 수 있다. 이와 유사한 것을 음성신호에서도 발견할 수 있는 바, 인간의 목소리를 형성하는 메카니즘의 본질로 인해 전체 주파수영역에 걸쳐 성문의 여기펄스(glottal excitation pulse)의 효과가 존재한다.
도 5는 예컨대 주파수 200Hz의 인접한 스펙트럼값들의 상관관계가 주파수 3000Hz 또는 1000Hz에서 존재하는 상관관계와 유사하다는 것을 보여준다.
과도신호(transient signal)의 스펙트럼 예측가능성의 특징을 이해할 수 있는 다른 방법은 도 4에 나타낸 표를 이용하는 것이다. 도 4의 표의 좌측 상부에는 사인곡선의 경로를 갖는 시간 연속적인 신호 u(t)를 나타내었고, 그 반대편에는 단일 다이랙 펄스(single Dirac pulse)로 이루어진 상기 신호의 스펙트럼 U(f)을 나타내었다. 이 신호에 대하여 최적의 코딩을 수행하기 위해서는 전체 시간 신호에 대하여 푸리에 계수의 양과 위상만이 전송되어 상기 시간신호를 완전하게 재구성할 수 있어야 하기 때문에 코딩 스펙트럼 데이터 또는 스펙트럼값이 필요하다. 동시에 스펙트럼 데이터의 코딩은 시간 영역에서의 예측을 의미한다. 따라서 예측 코딩은 시간영역에서 일어나야 한다. 그러므로 사인곡선의 시간신호는 최대값에서 평탄하지 않은 주파수범위에서의 포락선에 상응하는 평탄한 시간 포락선을 갖는다.
이하에 상기와 반대의 경우에 대하여 설명하는바, 이 경우에는 시간신호 u(t)가 시간영역에서의 다이랙 펄스의 평탄한 부분에서의 최대 과도신호이다. 시간영역에서의 다이랙 펄스는 "평탄한" 파워 스펙트럼에 해당하며, 위상 스펙트럼은 상기 펄스의 일시적인 위치에 따라 교대로 변화한다. 이 신호는 상기한 종래의 방법, 예컨대 변환 코딩, 스펙트럼 데이터 코딩 또는 시간영역 데이터의 선형 예측 코딩에 있어서 문제점을 유발한다. 이 신호는 다이랙 펄스의 일시적인 위치와 파워만 전송하면 되므로 시간영역에서 가장 효율적으로 코딩할 수 있다. 이에 따라 이중성의 적용에 의해 주파수영역에서의 예측 코딩에 의해서도 효율적인 코딩을 위한 적절한 방법을 구성하게 된다.
주파수와 관련된 스펙트럼 계수의 예측 코딩과 공지된 한 블록에서 다음 블록으로의 스펙트럼 계수 예측을 혼동하지 않아야 한다. 이것은 상기한 문헌(M. Bosi, K. Brandenburg, S. Quakenbush, L. Herre, G. Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio Coding", 제101회 AES총회, 로스엔젤레스 1996, 예비보고서 4382)에 기술되어 있다. 시간과 관련된 예측에 해당하는 한 블록에서 그 다음 블록으로의 스펙트럼 계수의 예측에 있어서, 스펙트럼 해상도는 증가하는 반면에, 주파수와 관련된 스펙트럼값의 예측은 일시적인 해상도를 증진시킨다. 예컨대 1000Hz에서의 스펙트럼 계수는 동일한 블록 또는 프레임에서의 900Hz에서의 스펙트럼 계수에 의해 결정할 수 있다.
이러한 것들을 고려하면 과도신호에 대한 효율적인 코딩방법이 제안된다. 시간과 주파수영역간의 이중성을 고려하면 예측코딩 기술은 하나의 스펙트럼 계수로부터 다음 블록의 동일한 주파수의 스펙트럼 계수로의 예측과 유사하게 취급할 수 있다. 신호의 힐버트 포락선 제곱과 스펙트럼 파워밀도가 서로 관련된 이중적인 특성이라는 사실로 인해 종래의 예측 방법에서의 스펙트럼 평탄도의 정도와는 다른 신호의 포락선 제곱의 평탄도의 정도에 따라 잔류 신호에너지 또는 예측 이득이 감소된다. 잠재적인 코딩 이득은 신호가 더욱 더 과도적으로 될수록 증가한다.
가능한 예측기구는 역방향 예측이라고도 하는 폐쇄루프를 갖는 예측기구와 정방향 예측이라고도 하는 개방루프를 갖는 예측기구이다. 폐쇄루프를 갖는 스펙트럼 예측기구(역방향 예측)의 경우, 에러의 포락선은 평탄하다. 즉, 에러신호 에너지가 시간에 대하여 균일하게 분포한다.
그러나 정방향 예측의 경우에는 도 6에 나타낸 바와 같이 양자화에 의해 발생된 잡음의 일시적인 정형이 일어난다. 예측할 스펙트럼 계수 x(f)는 합산점(600)으로 제공된다. 또한, 이 스펙트럼 계수는 예측기(610)로 보내지는데 이 예측기(610)의 (-)부호의 출력신호는 합산점(600)으로 인가된다. 양자화기(620)로의 입력신호는 스펙트럼 값 x(f)와 예측에 의해 산출된 스펙트럼 값 xp(f)의 차이를 나타낸다. 정방향 예측에 있어서, 디코딩된 스펙트럼 계수 데이터에 있어서의 전체 에러 에너지는 동일할 것이다. 그러나 스펙트럼 계수에 대한 예측을 이용하였기 때문에 양자화 에러신호의 일시적인 정형이 나타나 디코더의 출력에서 일시적으로 정형될 것이다. 이에 따라 양자화 잡음은 실제 신호의 아래에 일시적으로 존재하므로 은폐가 가능하게 된다.
이러한 형태의 스펙트럼 값의 예측코딩을 TNS 또는 일시적인 잡음 정형(temporal noise shaping) 기술이라고 한다. 이 기술을 도 7a를 참조하여 설명한다. 도 7a의 좌측 상부에는 심하게 변화하는 시간신호의 시간곡선을 나타내었다. 도 7a의 우측 상부에는 DCT 스펙트럼을 나타내었다. 또한, 도 7a의 좌측 하부에는 LPC(Linear Prediction Coding)에 의해 산출된 TNS 합성필터의 주파수 응답을 나타내었다. 도 7a에 있어서, 시간영역과 주파수영역의 이중성으로 인해 (정규화된) 주파수 좌표가 시간 좌표와 동일하다는데 주목해야 한다. LPC에 의해 산출된 합성필터의 주파수 응답이 심하게 변화하는 시간신호의 포락선과 유사하므로 LPC계산은 결국 입력신호의 "소오스 모델"이 된다. 도 7a의 우측 하부에는 주파수와 관련된 도 6의 양자화기(620)의 입력신호의 스펙트럼 잔류값을 나타내었다. 예측후의 스펙트럼 잔류값과 직접적인 시간-주파수 변환시의 스펙트럼 값을 비교하면 스펙트럼 잔류값이 원래의 스펙트럼 값보다 훨씬 적은 에너지를 갖는다는 것을 알 수 있다. 도 7a의 경우, 스펙트럼 잔류값의 에너지 감소는 약 12dB의 전체 예측이득과 동일하다.
다음에 도 7a의 좌측 하부에 나타낸 TNS 합성필터의 주파수 응답에 대하여 설명한다. 시간영역 신호에 대한 예측의 전통적인 응용에 있어서, 합성필터의 주파수응답은 입력신호의 스펙트럼 값과 비슷하다. 합성필터는 대략적으로 "백색" 스펙트럼을 갖는 잔류 신호로부터 신호의 스펙트럼 형태를 (재)생성한다. 예측을 스펙트럼 신호에 적용하면, TNS기술의 경우와 마찬가지로 합성필터의 주파수응답은 입력 필터의 포락선와 비슷하다. 합성필터의 주파수응답은 펄스 응답의 푸리에 변환이며, 종래의 경우에는 역푸리에 변환에 해당한다.
TNS 합성필터는 대략적으로 "백색(즉, 평탄한)" 포락선을 갖는 잔류 신호로부터 신호의 포락선 패턴을 (재)생성한다. 도 7a의 좌측 하부에 나타낸 것은 TNS 합성필터에 의해 모델링된 입력신호의 포락선이다. 이것은 그 위에 나타낸 캐스터네츠형 신호와 유사한 포락선의 대수적인 표현이다.
그런 다음 코딩 잡음이 스펙트럼 잔류값에 도입되어 예컨대 0.5Bark의 폭을 갖는 각각의 코딩 대역에서 약 13dB의 신호 대 잡음비가 나타난다. 양자화 잡음의 도입으로 인해 발생되는 시간영역에서의 에러신호를 도 7b에 나타내었다. 도 7b의 좌측에는 TNS 기술을 사용했을 경우의 양자화 잡음으로 인한 에러신호를 나타내었고, 비교를 위하여 우측에는 TNS 기술을 사용하지 않은 경우의 에러신호를 나타내었다. 예상되는 바와 같이 좌측에 나타낸 에러신호는 블록에 걸쳐서 균일하게 분포하지 않고 최적의 방식으로 양자화 잡음을 커버할 높은 레벨의 신호 요소가 존재하는 부분에 집중되어 있다. 우측 도면의 경우에는 상기와 대조적으로 도입된 양자화 잡음이 블록에서, 즉, 시간에 대하여 균일하게 분포하고 있어 실제적으로 신호가 존재하지 않거나 신호가 거의 존재하지 않는 앞부분에 가청 잡음이 존재하게 되는 반면, 높은 레벨의 신호요소를 포함하는 영역에는 거의 잡음이 존재하지 않아 신호의 은폐 가능성을 활용할 수 없다.
코더에 있어서의 TNS 필터(804)의 이용을 도 8a에 도시하였다. TNS 필터(804)는 분석 필터 뱅크(802)와 양자화기(806) 사이에 위치한다. 도 8a에 나타낸 코더의 경우, 시간 불연속적인 입력신호는 오디오 입력(800)으로 인가되며, 양자화된 오디오신호와 양자화된 스펙트럼 값 또는 양자화된 스펙트럼 잔류값은 리던던시코더를 구비한 출력부(808)에서 출력된다. 상기 입력신호는 스펙트럼 값으로 변환된다. 산출된 스펙트럼 값을 기준으로 일반적인 선형 예측 계산을 수행하는데, 이것은 예컨대, 스펙트럼 값의 자기 상관 매트릭스를 형성하거나 레빈슨-더빈 반복 (Levinson-Durbin recursion)을 이용하여 행한다. 도 8b에 TNS 필터(804)를 더욱 상세히 나타내었다. 스펙트럼 값 x(1), ..., x(i), ..., x(n)은 필터 입력부(810)의 입력이 된다. 특정한 주파수 영역만이 과도신호를 가질 수 있는 반면, 다른 주파수 영역은 안정된 특성을 가질 수 있다. 이것은 TNS 필터(804)의 입력 스위치(812)와 출력 스위치(814)에 있어서 고려되어야 한다. 이 스위치들은 처리할 데이터의 병렬-직렬 변환과 직렬-병렬 변환을 우선적으로 담당한다. 특정 주파수영역이 변화하는지의 여부, 그리고 TNS 기술에 의해 특정한 코딩 이득이 확보되는지의 여부에 따라서 상기 스펙트럼 범위만이 TNS 처리되며, 이는 입력 스위치(812)가 예컨대, 스펙트럼 값 x(i)에서 시작하여 스펙트럼 값 x(i+2)에 도달할 때까지 동작하는 경우에 일어난다. 필터의 내부는 정방향 예측 구조, 예컨대, 예측기(610)와 합산점(600)으로 구성된다.
TNS 필터의 필터 계수를 결정하고 예측 계수를 결정하기 위한 계산은 다음과 같이 수행한다. 잡음 정형 필터의 최고 허용 차수, 예컨대 20을 얻기 위하여 자기 상관 매트릭스를 형성하고 레빈슨-더빈 반복을 이용한다. 계산된 예측 이득이 특정 문턱치를 넘으면 TNS 처리는 활성화된다.
상기 잡음 정형 필터의 차수는 계수 어레이의 종단으로부터의 충분히 작은 절대값으로 모든 계수를 차례로 제거함으로써 결정한다. 이러한 방식으로 TNS 필터는 비디오 신호에 대하여 일반적으로 4 내지 12의 차수를 가지게 된다.
스펙트럼 값 x(i)의 영역에 대하여 예컨대, 충분히 높은 코딩 이득이 확인되는 경우, TNS 처리가 수행되며, 스펙트럼 값 x(i)가 아닌 스펙트럼 잔류값 xR(i)가 TNS 필터의 출력부에 나타난다. 스펙트럼 잔류값은 도 7a에서 볼 수 있듯이 원래의 스펙트럼 값 x(i)보다 상당히 낮은 진폭을 갖는다. 디코더로 전송된 부수적인 정보는 일반적인 부수 정보와 더불어 TNS의 사용을 나타내는 플래그를 포함하며, 필요한 경우에는 목표 주파수영역에 대한 정보와 코딩에 사용되는 TNS 필터에 대한 정보도 포함한다. 필터 데이터는 양자화된 필터 계수로 표현될 수 있다.
도 9a에 나타낸 디코더에 있어서, TNS 코딩은 각각의 채널에 대하여 역으로 수행된다. 스펙트럼 잔류값 xR(i)은 역양자화기(216)에서 재양자화되어 역TNS필터(900)로 인가된다. 역TNS필터(900)의 구조를 도 9b에 상세히 나타내었다. 역TNS필터(900)는 출력신호로서 합성 필터 뱅크(218)에서 시간영역으로 변환되는 스펙트럼 값을 전달한다. TNS필터(900)는 처리된 데이터의 병렬-직렬 변환 및 직렬-병렬 변환을 우선적으로 수행하는 입력 스위치(902)와 출력 스위치(908)를 포함한다. 입력 스위치(902)는 역TNS 코딩에 스펙트럼 잔류값만을 제공하기 위해 채용된 목표 주파수 영역을 고려한다. TNS 코딩되지 않은 스펙트럼 값은 변화되지 않은 채로 출력부(910)로 전달된다. 역예측필터는 예측기(906)와 합산점(904)를 포함한다. 그러나, TNS필터와는 달리 상기 역예측필터는 다음과 같이 연결된다. 스펙트럼 잔류값은 입력 스위치(902)를 통해 합산점(904)으로 인가되어 예측기(906)의 출력신호와 합산된다. 예측기는 예상되는 스펙트럼 값 xp(i)을 출력신호로서 출력한다. 스펙트럼 값 x(i)은 출력 스위치를 통해 역TNS필터의 출력부로 출력된다. TNS와 관련된 부수적인 정보는 디코더에서 디코딩되는데, 이 부수적인 정보는 TNS의 사용을 나타내는 플래그를 포함하며, 필요할 경우에는 목표 주파수영역에 관련된 정보도 포함한다. 또한, 상기 부수적인 정보는 블록 또는 "프레임"의 코딩에 사용되는 예측 필터의 필터 계수를 포함한다.
상기 TNS 방법은 다음과 같이 요약될 수 있다. 고해상도 분석 필터 뱅크에 의해 입력신호가 스펙트럼 값으로 변환된다. 그런 다음, 주파수영역에서의 선형 예측이 수행된다. 즉, 주파수-인접 스펙트럼 값들 사이에서 선형 예측이 수행된다. 이 선형 예측은 스펙트럼 영역에서 수행되는 스펙트럼 값을 필터링하기 위한 필터링 과정으로 볼 수 있다. 본래의 스펙트럼 값은 예측 에러, 예컨대 스펙트럼 잔류값으로 대체된다. 이 스펙트럼 잔류값은 일반적인 스펙트럼 값과 마찬가지로 양자화되고 코딩된 형태로 디코더로 전달되어 다시 디코딩되고 역으로 양자화된다. 역필터 뱅크 (합성 필터 뱅크)의 적용에 앞서 코더에서 수행되는 예측과 반대되는 예측이 전송된 예측 에러신호, 즉, 재양자화된 스펙트럼 잔류값을 위한 역예측 필터를 사용하여 행해진다.
이 방법을 적용함으로써 양자화 잡음의 시간 포락선을 입력신호의 포락선에 맞출 수 있다. 이에 따라 시간적으로 미세한 구조를 가지거나 과도적인 특성을 가진 신호의 경우 에러신호를 보다 잘 은폐할 수 있게 된다. 과도 신호의 경우, TNS방법은 양자화 잡음이 신호의 "스트라이킹"전에 이미 나타나는 "프리에코(pre-echoes)"를 방지한다.
또한, 정신음향학 분야에서 알려진 바와 같이 잡음 신호의 감지는 실제의 신호 형태가 아니라 스펙트럼 조성에 의해 결정된다. 이에 따라 이른바 잡음 대체 방법을 이용하여 오디오 신호의 데이터를 감소시킬 수 있다.
"잡음 대체"에 관해서는 Donald Schulz의 "Improving Audio Coders by Noise Substitution", Journal of the Audio Eng. Soc., Vol. 44, No. 7/8, pp. 593-598, 7월/8월 1996에 기술되어 있다. 상술한 바와 같이 종래의 오디오 코딩 알고리즘은 데이터율 또는 전송되는 비트수를 충분히 감소시키기 위해 인간의 귀의 은폐 효과를 이용하였다. 은폐(masking)라는 것은 스펙트럼 값으로서의 하나 이상의 주파수 요소가 청취 불가능한 낮은 레벨의 다른 주파수 요소들을 만드는 것을 의미한다. 첫째, 다른 요소들에 의해 은폐되는 오디오 신호요소는 코딩할 필요가 없다. 둘째로, 본래의 신호의 요소에 의해 잡음이 은폐되는 경우 상술한 양자화에 의해 잡음 도입이 허용된다.
잡음과 같은 신호의 경우, 인간의 청각계는 이러한 신호의 정확한 경로를 때맞춰 확인하는 것이 불가능하다. 종래의 알고리즘의 경우, 이것은 인간의 귀와 거의 무관한 백색 잡음의 파형까지도 코딩되는 결과를 초래한다. 잡음을 포함하는 신호의 청취-보상(hearing-compensated) 코딩은 특정한 예방책이 없는 경우의 청취할 수 없는 정보에 대하여 높은 비트율을 필요로 한다. 그러나 신호의 잡음을 포함하는 요소를 검출하여 그 잡음 레벨에 대한 정보와 주파수 영역에 대한 정보 및 시간 확장에 대한 정보에 따라 코딩한다면 불필요한 코딩을 줄일 수 있어 비트율을 상당히 감소시킬 수 있다. 이러한 사실은 잡음신호의 감지가 실제의 파형이 아닌 스펙트럼 조성에 의해 결정된다고 하는 정신음향학에 의해 뒷받침된다. 따라서 잡음 대체방법을 이용하여 오디오 신호의 데이터를 감소시킬 수 있다.
코더는 오디오신호의 전체 스펙트럼에서 잡음과 유사하거나 잡음과 같은 스펙트럼 값을 찾아내거나 인식해야 한다. 잡음과 유사한 스펙트럼 값은 다음과 같은 것을 의미한다. 사람의 청각에 의해 청취될 수 있는 차이를 가지지 않으면서 잡음 대체 방법에 의해 신호요소를 재구성할 수 있도록 이 신호요소를 그 레벨과 주파수 영역 및 시간 확장에 의해 특징지울 수 있다면, 이 신호요소는 잡음으로 분류한다. 이러한 특성은 상기 참고문헌에서 지적된 바와 같이 주파수영역이나 시간영역에서 검출할 수 있다. 예를 들어, 가장 단순한 방법은 시간-주파수 변환을 이용하여 음조(tonal) 요소, 즉, 잡음과 같지 않은 요소를 검출하고 스펙트럼의 변화하지 않고 정지된 피크들을 따르는 것이다. 이 피크들은 음조라고 하며, 나머지는 모두 잡음과 유사한 요소라고 한다. 그러나, 이러한 구성은 잡음 검출을 위해서는 다소 엉성한 시스템이다. 잡음 요소와 음조 스펙트럼 요소를 구분하는 다른 방법은 연속되는 블록들에서의 스펙트럼 값들에 대하여 예측기를 이용하는 것이다. 하나의 스펙트럼에서 그 다음의 스펙트럼, 즉, 다음 시간 블록 또는 프레임과 관련된 스펙트럼으로의 예측이 행해진다. 예측된 스펙트럼 값과 다음 블록 또는 프레임의 스펙트럼 값간에 변환에 의해 실제로 확인된 차이가 전혀 없거나 거의 없는 경우에는 이 스펙트럼 값을 음조 스펙트럼 요소로 본다. 이에 따라 음조 스펙트럼 값과 잡음 스펙트럼 값을 구분하기 위한 결정의 기초를 구성하는 값으로부터 조성(tonality)을 측정할 수 있다. 그러나, 이 검출방법은 매우 안정된 신호에 대해서만 적합한 방법으로, 시간과 관련되어 주파수가 약간 변화하는 사인곡선의 신호가 존재하는 경우에는 사용할 수 없다. 이러한 신호는 비브라토(vibrato)와 같은 오디오 신호에 종종 나타나는 것으로, 잡음 요소로 교체될 수 없다는 것은 잘 알려진 사실이다.
잡음 신호를 검출하는 다른 방법은 시간 영역에서의 예측에 의한 것이다. 이를 위해서 잘 알려진 바와 같이 선형 예측을 수행하기 위하여 반복해서 이용할 수 있는 예측기로서 정합 필터를 사용할 수 있다. 통과된 오디오신호를 입력하고 출력신호를 실제의 오디오 샘플링값과 비교한다. 미소한 예측 에러의 경우에는 조성(tonality)을 추측할 수 있다. 다른 주파수 영역들의 특성을 결정하기 위해, 즉, 스펙트럼 영역을 검출하기 위해서 스펙트럼 값의 그룹이 잡음 그룹인지 아닌지 원래의 신호와 예측된 신호의 시간-주파수 변환을 수행해야 한다. 그러면 원래의 값과 예측된 값을 비교함으로써 각각의 주파수 그룹에 대하여 조성(tonality)의 크기를 계산할 수 있다. 이 경우에 있어서의 주요 문제점은 예측기의 제한된 동적 범위이다. 높은 레벨의 잡음 주파수 그룹은 높은 에러로 인해 예측기를 통제한다. 음조 요소의 다른 영역들은 잡음으로 해석할 수 있다. 이 문제는 에러신호의 레벨이 원래의 신호보다 낮고 상기 에러신호가 부가적인 예측기에 의해 다시 입력되어 예측된 신호가 더해지는 반복 알고리즘을 이용하여 해결할 수 있다. 다른 방법들은 Schulz의 논문에 기술되어 있다.
잡음으로 분류되는 스펙트럼 값 그룹은 일반적으로 양자화되고 엔트로피 코딩되거나 리던던시 코딩된 형태 (예컨대 호프만 테이블에 의해)로 수신기로 전달되지 않고, 잡음 대체를 나타내는 식별 및 잡음 그룹의 스펙트럼 값의 에너지의 크기가 부수적인 정보로서 전달된다. 수신기에 있어서, 대체된 계수는 전송된 에너지에 따라 랜덤한 값(잡음)으로 교체된다. 따라서 잡음과 같은 스펙트럼 값은 해당량의 에너지를 갖는 랜덤한 스펙트럼 값으로 대체된다.
코드 그룹, 즉, 양자화된 스펙트럼 계수에 대한 몇 개의 양자화되고 코딩된 스펙트럼 값 대신에 에너지 정보의 신호 항목을 전송함으로써 데이터를 상당히 줄일 수 있다. 따라서 데이터율을 신호에 따라 감소시킬 수 있다는 것은 명백하다. 예를 들면, 잡음 요소가 거의 없는 신호 또는 과도 특성을 가진 신호가 관련된 경우, 매우 많은 잡음 그룹을 갖는 매우 잡음이 강한 신호를 코딩하는 경우보다 데이터율이 덜 감소된다.
처음에 기술한 표준 MPEG-2 AAC는 잡음 대체의 가능성을 지원하지 않는다. 따라서 현재 존재하는 표준으로는 데이터율을 많이 감소시킬 수 없다.
도 3에 코더와 디코더를 간략하게 도시하였다. 도 3의 코더와 디코더는 도 2의 코더와 디코더에 상응하는 것으로, 잡음 대체 기능을 가진 것이다. 도 3에 나타낸 바와 같이 잡음 대체는 종래 기술의 일부가 아니가 아니라는 것을 다시 한번 여기에서 강조한다. 도 2와 도3에 있어서 동일한 참조번호는 동일한 기능 블록을 나타내는 것이다. 도 3의 코더는 도 2의 코더와 비교할 경우, 하나의 새로운 "잡음 검출" 블록(310)을 가지고 있음을 알 수 있다. 잡음 검출은 분석 필터 뱅크(202)의 출력신호, 즉, 스펙트럼 값으로 수행한다. 그러나 잡음 검출을 위해 오디오 입력(200)을 "잡음 검출" 블록(310)으로 연결하는 화살표로 나타낸 바와 같이 분석 필터 뱅크의 시간 입력신호를 이용하는 것도 가능하다. 잡음 대체는 "잡음 검출" 블록으로부터 "양자화 및 코딩" 블록(204)으로 확장되는 화살표와 "잡음 검출" 블록(310)으로부터 "비트 플로 멀티플렉서" 블록(208)으로 확장되는 화살표로 나타낸 바와 같이 두 부류의 부수적인 정보를 필요로 한다. 잡음 대체된 코딩된 신호를 다시 디코딩할 수 있도록 하기 위해서는 잡음 대체 지시가 부수적인 정보로서 전달되어야 하는데 이것은 잡음 대체가 수행된 주파수 영역 또는 바람직한 방법에 있어서의 기준화 인자 대역을 나타내는 것이다. 또한, 잡음 그룹 또는 잡음 기준화 인자 대역에서의 스펙트럼 값의 에너지의 크기도 부수적인 정보로서 전달되어야 한다. 잡음 대체된 스펙트럼 값은 양자화되고 코딩되지 않는다. 즉, "양자화 및 코딩" 블록(204)이 잡음 대체가 기준화 인자 대역내에 존재한다는 것을 알려준다. 비트 플로 멀티플렉서는 잡음 그룹의 스펙트럼 값의 에너지량을 부수적인 정보로서 잡음 대체 지시를 전달받는다. 디코더는 도 2의 디코더와 유사한 것으로, 새로운 "잡음 대체"블록(312)만이 도 2의 디코더와 다르다. "잡음 대체" 블록(312)에는 비트 플로 멀티플렉서(204)로부터 잡음 대체 지시와 대체신호의 에너지, 즉, 잡음 그룹과 잡음 기준화 인자 대역에서의 스펙트럼 값의 에너지량을 포함하는 부수적인 정보가 입력신호로서 인가된다. "잡음 대체"블록은 잡음 그룹과 잡음 기준화 인자 대역에 대하여 각각 랜덤한 값 또는 "잡음" 스펙트럼 값을 생성한다. 이 값들은 코딩되고 디코딩된 시간 불연속적인 오디오 신호를 다시 얻기 위해 합성 필터 뱅크(218)로 보내진다. 합성 필터 뱅크(218)가 잡음 스펙트럼 값 또는 "정상적인" 재양자화된 스펙트럼 값을 시간 영역으로 변환시키는지의 여부는 합성 필터 뱅크와 무관하다는 것은 명백하다.
공지의 잡음 대체 방법은 입력신호가 균일한 잡음 구조, 즉, 평탄한 스펙트럼을 나타내는 경우, 입력신호의 일부가 잡음으로 대체되어 들리지 않는 품질의 손실로 다시 디코딩될 수 있다는 문제점을 가지고 있다. 이것은 과도신호 또는 음성신호의 경우에는 유효하지 않으므로 잡음 대체 방법을 사용할 수 없거나 잡음 대체를 이용하는 경우에도 상기 종래의 방법은 적용할 수 없어 신호의 왜곡을 교란시키는 결과를 초래한다.
본 발명은 오디오신호의 코딩방법에 관한 것으로, 특히 개발중인 MPEG-2 AAC를 위한 오디오신호 코딩방법에 관한 것이다.
도 1은 본 발명에 의한 코더 및 디코더의 블록도,
도 2는 공지의 코더 및 디코더의 기본 개념을 나타낸 블록도,
도 3은 잡음 대체에 의해 확장된 도 2에 나타낸 코더의 블록도,
도 4는 시간영역과 주파수영역간의 이중성을 설명하기 위한 표,
도 5a는 과도신호의 일예를 나타낸 도면,
도 5b는 도 5a에 나타낸 과도 시간신호에 의거하여 부분적인 대역통과 신호의 힐버트 포락선을 나타낸 도면,
도 6은 주파수영역에서의 예측을 도식적으로 나타낸 도면,
도 7a는 TNS방법을 설명하기 위한 예를 나타낸 도면,
도 7b는 TNS기술을 채용한 경우의 도입된 양자화 잡음의 시간 패턴(좌측)과 TNS기술을 채용하지 않은 경우의 도입된 양자화 잡음의 시간 패턴(우측)을 비교한 도면,
도 8a는 TNS필터를 구비한 코더의 간략화된 블록도,
도 8b는 도 8a의 TNS필터를 상세히 나타낸 도면,
도 9a는 역TNS필터를 구비한 디코더의 간략화된 블록도,
도 9b는 도 9a의 역TNS필터를 상세히 나타낸 도면.
본 발명은 상술한 문제점을 해결하기 위한 것으로, 가능하다면 가청 신호의 왜곡을 수반하지 않으면서 높은 코딩 효율로 오디오 신호를 코딩하고 디코딩하는 방법을 제공하는 것을 그 목적으로 한다.
상기한 본 발명의 목적은 특허청구범위 제1항과 제2항의 코딩방법에 의해 달성된다.
본 발명은 TNS기술과 잡음대체를 조합하여 가청신호를 왜곡시키지 않으면서 코딩 이득을 더욱 증가시키는 것이다. TNS처리에 의해 생성된 스펙트럼 잔류값은 원래의 스펙트럼 값보다 훨씬 낮은 에너지량을 가진다. 이 스펙트럼 잔류값에 속하는 신호는 원래의 신호와 비교할 경우 훨씬 평탄한 경로를 가진다. 주파수와 관련하여 스펙트럼 값을 예측하여 과도신호의 포락선의 심하게 변동하는 패턴을 추출함으로써 과도신호의 경우에 있어서도 비트율을 낮출 수 있도록 하기 위해 본 발명에 의한 잡음 대체를 적용할 수 있는 평탄한 포락선을 갖는 신호가 남도록 한다.
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
도 1에 본 발명에 의한 코더 및 디코더를 도시하였다. 도 3에 나타낸 코더와 비교했을 때 도 1에 나타낸 바와 같이 본 발명의 코더는 TNS필터링과 잡음 대체의 조합을 포함한다. 스펙트럼 값의 잡음 대체를 수행하는 종래의 코더와는 달리 도 1에 나타낸 본 발명의 코더는 TNS필터(804)의 출력에서의 스펙트럼 잔류값의 잡음 대체를 부가적으로 수행한다. 스펙트럼 잔류값 그룹 또는 스펙트럼 잔류값을 갖는 기준화 인자 대역에 있어서, 잡음 대체에 의해 그룹 또는 기준화 인자 대역에서의 스펙트럼 잔류값의 에너지 크기가 확인되며, 양자화기 및 코더(204)와 비트 플로 멀티플렉서(208)로 원래의 스펙트럼 값에 대한 잡음대체와 유사하게 잡음 대체 지시가 전달된다.
디코더에 있어서도 유사한 과정이 진행된다. 비트 플로 멀티플렉서(214)는 TNS 부수정보를 역TNS필터로 제공한다. 이 TNS 부수정보는 상술한 바와 같이 TNS필터의 예측 계수와 필터 계수, TNS처리가 주파수 선택적으로 수행되었을 경우의 목표 주파수 영역에 대한 지시, 및 TNS기술에 어디에서 활성화되었고 어디에서 활성화되지 않았는지를 나타내는 플래그를 포함한다.
또한, 잡음 대체 지시와 대체된 스펙트럼 값의 에너지량과 해당 기준화인자 대역에서의 스펙트럼 잔류값의 에너지량이 비트 플로 멀티플렉서에서 잡음 생성 블록(312)으로 전달된다. 잡음 생성 블록(312)은 잡음 대체된 스펙트럼 값 또는 잡음 대체된 스펙트럼 잔류값의 관련여부와 무관하게 잡음 스펙트럼 값을 생성하며, 이 잡음 스펙트럼 값은 역TNS필터(900)로 입력된다. 역TNS필터(900)는 TNS처리되지 않거나 음조 특성을 가지거나 잡음 스펙트럼 값인 스펙트럼 값이 변화하지 않고 통과되도록 한다. 반면, 스펙트럼 잔류값은 TNS 재처리되어 합성 필터 뱅크(218)는 오디오 출력(220)에서 다시 코딩되고 디코딩된 시간 불연속적인 출력 신호를 출력할 수 있게 된다.
다음에 스펙트럼 값과 스펙트럼 잔류값의 비교를 통해 잡음 검출을 설명한다. 상술한 바와 같이 Schulz의 문헌에 스펙트럼 값에서의 잡음 영역을 검출하는 방법들이 기술되어 있다. 이 방법들은 스펙트럼 값에만 의존하거나 시간 불연속적인 오디오신호만에 의존하거나 또는 시간 불연속적인 오디오신호와 이 시간 불연속적인 오디오신호의 스펙트럼 값에 의존할 수 있다. 이것을 도 1과 도 2 및 도 3에 오디오 입력(200)을 "잡음 검출"블록에 연결하는 화살표로 나타내었다.
본 발명에 의한 방법은 다음과 같이 요약할 수 있다. 코더에 있어서, 신호의 일시적인 미세구조는 TNS필터링에 의해 추출된다. 잔류 스펙트럼 또는 스펙트럼 잔류값은 진폭에 있어서 "등화된" 코더의 입력에 있어서의 시간 불연속적인 오디오신호의 형태에 상응하는 것으로, 스펙트럼 잔류값을 포함하는 잔류 스펙트럼은 대략적으로 일정한 포락선 구조를 가진다. 본래의 포락선 경로에 대한 정보는 선형 예측에 의해 얻어진 TNS필터의 필터 계수에 포함되어 있는데, 이 정보는 부수적인 정보로서 디코더로 전달된다.
잔류 스펙트럼 값을 포함하며 시간적으로 일정한 잔류 스펙트럼은 TNS처리되지 않은 스펙트럼 값에 대한 잡음 대체와 유사하게 잡음 대체될 수 있다. 해당 부수정보(대체된 주파수 대역 및 대역에너지를 나타내는)는 부수적인 정보로서 디코더로 전달된다. 디코더에 있어서, 공지의 디코딩과정이 잡음 대체되지 않은 주파수 대역과 잡음 대체된 주파수 대역에 대하여 수행된다. 잡음 대체에 의해 도입된 잡음은 일시적인 미세구조를 가지지 않으며, 대략적으로 평탄한 시간 포락선을 갖는다. 이어지는 역TNS필터링과정동안 본래의 미세한 시간구조는 합성 필터 뱅크에 의해 시간영역으로 스펙트럼 값이 다시 전달되기 전에 상기 전달된 TNS 부수정보에 의해 신호로 다시 도입된다.
잡음 대체와 "일시적인 잡음 정형"의 조합에 의해 잡음 대체를 개선할 수 있으며, 이것은 일시적인 미세구조를 갖는 신호에 대하여 효과적으로 이용될 수 있다. TNS방법으로 인해 도입된 양자화 잡음은 일시적으로 정형되어 시간 신호의 "아래"에 존재하게 된다.

Claims (8)

  1. 시간 오디오신호의 스펙트럼 값(x(1), ..., x(n))을 구하기 위하여 상기 시간 오디오신호를 주파수영역으로 변환하는 단계와,
    스펙트럼 잔류값(xR(1), ..., xR(n))을 구하기 위하여 주파수에 관한 스펙트럼 값의 예측을 수행하는 단계,
    상기 스펙트럼 잔류값에 있어서의 잡음 영역을 검출하는 단계,
    상기 잡음 영역에서의 스펙트럼 잔류값을 잡음-대체하는 단계, 및
    상기 잡음 영역과 잡음 대체에 관한 정보를 코딩된 오디오신호의 부수적인 정보에 포함시키는 단계를 포함하는 오디오신호의 코딩방법.
  2. 코딩된 오디오신호를 입력하는 단계와,
    부수적인 정보에서 잡음 대체와 스펙트럼 잔류값의 잡음 영역과 관련된 정보를 검출하는 단계,
    상기 검출한 정보에 의거하여 상기 잡음 영역에 스펙트럼 잡음 잔류값을 생성하는 단계,
    잡음 대체된 스펙트럼 잡음 잔류값으로부터 스펙트럼 값을 구하기 위하여 주파수에 관한 역예측을 수행하는 단계, 및
    디코딩된 오디오신호를 얻기 위하여 상기 스펙트럼 값을 시간영역으로 변환하는 단계를 포함하는 코딩된 오디오신호의 디코딩방법.
  3. 제1항 또는 제2항에 있어서,
    상기 예측 또는 역예측은 스펙트럼 값(x(1), ..., x(n))의 특정 범위에 대해서만 수행하는 오디오신호의 코딩 또는 디코딩방법.
  4. 선행하는 항 중 하나에 있어서,
    예측이 사용되었다는 암시와 예측 계수 및 예측을 위한 주파수영역 정보가 상기 코딩된 오디오신호의 부수적인 정보에 포함되는 오디오신호의 코딩 또는 디코딩방법.
  5. 선행하는 항 중 하나에 있어서,
    상기 예측에 의해 생성된 필터 계수가 상기 코딩된 오디오신호의 부수적인 정보에 포함되는 오디오신호의 코딩 또는 디코딩방법.
  6. 선행하는 항 중 하나에 있어서,
    상기 잡음 대체가 기준화 인자 대역의 형태로 수행되는 오디오신호의 코딩 또는 디코딩방법.
  7. 선행하는 항 중 하나에 있어서,
    상기 잡음 대체 단계가 기준화 인자 대역을 갖는 검출된 잡음 영역에서의 스펙트럼 잔류값(xR(1), ..., xR(n))의 에너지를 산출하는 단계를 포함하는 바, 상기 코딩된 오디오신호의 부수 정보에 포함된 잡음 대체에 관한 상기 정보가 하나의 기준화 인자 대역의 기준화 인자에 대한 비트 플로내에 마련된 위치에 포함되며 해당 잡음 영역내의 에러 잔류값의 에너지를 포함하는 오디오신호의 코딩 또는 디코딩방법.
  8. 선행하는 항 중 하나에 있어서,
    코딩되는 동안 잡음 영역내에 위치하지 않는 스펙트럼 잔류값이 정신음향학적 은폐를 고려하여 양자화되고, 디코딩되는 동안 잡음 영역내에 위치하지 않는 상기 양자화된 스펙트럼 잔류값이 스펙트럼 값(x(1), ..., x(n))을 구하기 위해 재양자화되고 역예측되는 오디오신호의 코딩 또는 디코딩방법.
KR1019997008398A 1997-07-14 1998-03-13 오디오신호 코딩방법 KR100346066B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19730130A DE19730130C2 (de) 1997-07-14 1997-07-14 Verfahren zum Codieren eines Audiosignals
DE19730130.4 1997-07-14

Publications (2)

Publication Number Publication Date
KR20000076297A true KR20000076297A (ko) 2000-12-26
KR100346066B1 KR100346066B1 (ko) 2002-07-24

Family

ID=7835664

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019997008398A KR100346066B1 (ko) 1997-07-14 1998-03-13 오디오신호 코딩방법

Country Status (11)

Country Link
US (1) US6424939B1 (ko)
EP (1) EP0954909B1 (ko)
JP (1) JP3577324B2 (ko)
KR (1) KR100346066B1 (ko)
AT (1) ATE205030T1 (ko)
AU (1) AU723582B2 (ko)
CA (1) CA2286068C (ko)
DE (2) DE19730130C2 (ko)
DK (1) DK0954909T3 (ko)
ES (1) ES2161052T3 (ko)
WO (1) WO1999004506A1 (ko)

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6300888B1 (en) * 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
US6931372B1 (en) * 1999-01-27 2005-08-16 Agere Systems Inc. Joint multiple program coding for digital audio broadcasting and other applications
US6871180B1 (en) 1999-05-25 2005-03-22 Arbitron Inc. Decoding of information in audio signals
US6687663B1 (en) * 1999-06-25 2004-02-03 Lake Technology Limited Audio processing method and apparatus
DE10000934C1 (de) * 2000-01-12 2001-09-27 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals
US6735561B1 (en) * 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
EP1168734A1 (en) * 2000-06-26 2002-01-02 BRITISH TELECOMMUNICATIONS public limited company Method to reduce the distortion in a voice transmission over data networks
US20020049586A1 (en) * 2000-09-11 2002-04-25 Kousuke Nishio Audio encoder, audio decoder, and broadcasting system
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
MXPA02010770A (es) * 2001-03-02 2004-09-06 Matsushita Electric Ind Co Ltd Aparato para codificar y aparato para descodificar.
AUPR433901A0 (en) 2001-04-10 2001-05-17 Lake Technology Limited High frequency signal construction method
WO2002087241A1 (en) * 2001-04-18 2002-10-31 Koninklijke Philips Electronics N.V. Audio coding with partial encryption
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
ES2378462T3 (es) 2002-09-04 2012-04-12 Microsoft Corporation Codificación entrópica por adaptación de codificación entre modalidades de nivel y de longitud/nivel de cadencia
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7254533B1 (en) * 2002-10-17 2007-08-07 Dilithium Networks Pty Ltd. Method and apparatus for a thin CELP voice codec
JP4657570B2 (ja) * 2002-11-13 2011-03-23 ソニー株式会社 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体
US6845360B2 (en) * 2002-11-22 2005-01-18 Arbitron Inc. Encoding multiple messages in audio data and detecting same
US7318027B2 (en) * 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
US7610553B1 (en) * 2003-04-05 2009-10-27 Apple Inc. Method and apparatus for reducing data events that represent a user's interaction with a control interface
US7742926B2 (en) * 2003-04-18 2010-06-22 Realnetworks, Inc. Digital audio signal compression method and apparatus
US20040208169A1 (en) * 2003-04-18 2004-10-21 Reznik Yuriy A. Digital audio signal compression method and apparatus
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
CN1771533A (zh) * 2003-05-27 2006-05-10 皇家飞利浦电子股份有限公司 音频编码
US7325023B2 (en) * 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7426462B2 (en) * 2003-09-29 2008-09-16 Sony Corporation Fast codebook selection method in audio encoding
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7283968B2 (en) 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
KR20060131798A (ko) * 2004-01-20 2006-12-20 돌비 레버러토리즈 라이쎈싱 코오포레이션 블록 그룹화에 기반한 오디오 코딩
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US7457747B2 (en) * 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
EP1817767B1 (en) * 2004-11-30 2015-11-11 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
JP5017121B2 (ja) * 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
KR100707173B1 (ko) * 2004-12-21 2007-04-13 삼성전자주식회사 저비트율 부호화/복호화방법 및 장치
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
JP4207902B2 (ja) * 2005-02-02 2009-01-14 ヤマハ株式会社 音声合成装置およびプログラム
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
TWI330355B (en) 2005-12-05 2010-09-11 Qualcomm Inc Systems, methods, and apparatus for detection of tonal components
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US20080071550A1 (en) * 2006-09-18 2008-03-20 Samsung Electronics Co., Ltd. Method and apparatus to encode and decode audio signal by using bandwidth extension technique
WO2008035949A1 (en) * 2006-09-22 2008-03-27 Samsung Electronics Co., Ltd. Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding
US20080147385A1 (en) * 2006-12-15 2008-06-19 Nokia Corporation Memory-efficient method for high-quality codebook based voice conversion
KR101379263B1 (ko) 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
US8983830B2 (en) * 2007-03-30 2015-03-17 Panasonic Intellectual Property Corporation Of America Stereo signal encoding device including setting of threshold frequencies and stereo signal encoding method including setting of threshold frequencies
US20080255688A1 (en) * 2007-04-13 2008-10-16 Nathalie Castel Changing a display based on transients in audio data
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US8179974B2 (en) 2008-05-02 2012-05-15 Microsoft Corporation Multi-level representation of reordered transform coefficients
CA2729665C (en) 2008-07-10 2016-11-22 Voiceage Corporation Variable bit rate lpc filter quantizing and inverse quantizing device and method
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
US8233629B2 (en) * 2008-09-04 2012-07-31 Dts, Inc. Interaural time delay restoration system and method
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US8364471B2 (en) * 2008-11-04 2013-01-29 Lg Electronics Inc. Apparatus and method for processing a time domain audio signal with a noise filling flag
US9947340B2 (en) 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
WO2011042464A1 (en) * 2009-10-08 2011-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
EP4362014A1 (en) * 2009-10-20 2024-05-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
WO2011048099A1 (en) 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a region-dependent arithmetic coding mapping rule
BR122021008583B1 (pt) 2010-01-12 2022-03-22 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, e método de decodificação de uma informação de áudio que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
CN104737227B (zh) 2012-11-05 2017-11-10 松下电器(美国)知识产权公司 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
US9747909B2 (en) * 2013-07-29 2017-08-29 Dolby Laboratories Licensing Corporation System and method for reducing temporal artifacts for transient signals in a decorrelator circuit
MX360512B (es) * 2014-02-10 2018-11-07 Audimax Llc Sistemas, metodos y dispositivos de comunicaciones que tienen inmunidad mejorada al ruido.
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4805193A (en) 1987-06-04 1989-02-14 Motorola, Inc. Protection of energy information in sub-band coding
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
US5285498A (en) 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
DE4331376C1 (de) * 1993-09-15 1994-11-10 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
ATE211869T1 (de) 1994-10-28 2002-01-15 Rai Radiotelevisione Italiana Teilbandkodierung mit auf tonhöhen basierter prädiktionskodierung in jedem einzelnen teilband
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5692102A (en) * 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction

Also Published As

Publication number Publication date
CA2286068A1 (en) 1999-01-28
DE59801307D1 (de) 2001-10-04
EP0954909A1 (de) 1999-11-10
CA2286068C (en) 2004-04-27
JP2001500640A (ja) 2001-01-16
AU723582B2 (en) 2000-08-31
EP0954909B1 (de) 2001-08-29
ATE205030T1 (de) 2001-09-15
DK0954909T3 (da) 2001-10-08
ES2161052T3 (es) 2001-11-16
JP3577324B2 (ja) 2004-10-13
AU7520798A (en) 1999-02-10
DE19730130A1 (de) 1999-01-21
US6424939B1 (en) 2002-07-23
WO1999004506A1 (de) 1999-01-28
KR100346066B1 (ko) 2002-07-24
DE19730130C2 (de) 2002-02-28

Similar Documents

Publication Publication Date Title
KR100346066B1 (ko) 오디오신호 코딩방법
US6502069B1 (en) Method and a device for coding audio signals and a method and a device for decoding a bit stream
KR100304055B1 (ko) 음성 신호 부호화동안 잡음 대체를 신호로 알리는 방법
EP0797324B1 (en) Enhanced joint stereo coding method using temporal envelope shaping
KR970007663B1 (ko) 신호 양자화 장치 및 방법
KR970007661B1 (ko) 스테레오포닉 오디오 신호의 입력세트 코딩방법
Iwakami et al. High-quality audio-coding at less than 64 kbit/s by using transform-domain weighted interleave vector quantization (TWINVQ)
US6721700B1 (en) Audio coding method and apparatus
US5825320A (en) Gain control method for audio encoding device
EP0720148B1 (en) Method for noise weighting filtering
JP4033898B2 (ja) 知覚符号化システムのサブバンドに波形予測を適用する装置及び方法
JPH0629859A (ja) デジタル入力信号符号化方法
KR20040080003A (ko) 파라메트릭 오디오 코딩
GB2318029A (en) Predictive coding of audio signals
Mahieux et al. High-quality audio transform coding at 64 kbps
Mahieux et al. Transform coding of audio signals using correlation between successive transform blocks
Iwakami et al. Audio coding using transform‐domain weighted interleave vector quantization (twin VQ)
Cambridge et al. Audio data compression techniques
Rongshan et al. High quality audio coding using a novel hybrid WLP-subband coding algorithm
Liu et al. Audio coding standards
CA2303711C (en) Method for noise weighting filtering
Noll et al. Digital audio: from lossless to transparent coding
Mahieux et al. 3010 zyxwvutsrqponmlkjihgfedcbaZYX
Trinkaus et al. An algorithm for compression of wideband diverse speech and audio signals
Bhaskaran et al. Standards for Audio Compression

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130626

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20140701

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20150706

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20160708

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20170626

Year of fee payment: 16

EXPY Expiration of term