KR101325339B1 - 계층적 필터뱅크 및 다중 채널 조인트 코딩을 이용한 인코더 및 디코더 그리고 그 방법들과 시간 도메인 출력신호 및 입력신호의 시간 샘플을 재구성하는 방법, 그리고 입력신호를 필터링하는 방법 - Google Patents

계층적 필터뱅크 및 다중 채널 조인트 코딩을 이용한 인코더 및 디코더 그리고 그 방법들과 시간 도메인 출력신호 및 입력신호의 시간 샘플을 재구성하는 방법, 그리고 입력신호를 필터링하는 방법 Download PDF

Info

Publication number
KR101325339B1
KR101325339B1 KR1020077030321A KR20077030321A KR101325339B1 KR 101325339 B1 KR101325339 B1 KR 101325339B1 KR 1020077030321 A KR1020077030321 A KR 1020077030321A KR 20077030321 A KR20077030321 A KR 20077030321A KR 101325339 B1 KR101325339 B1 KR 101325339B1
Authority
KR
South Korea
Prior art keywords
time
residual
components
samples
timbre
Prior art date
Application number
KR1020077030321A
Other languages
English (en)
Other versions
KR20080025377A (ko
Inventor
드미트리 브이 쉬뭉크
리차드 제이 비톤
Original Assignee
디티에스 (비브이아이) 에이지 리서치 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스 (비브이아이) 에이지 리서치 리미티드 filed Critical 디티에스 (비브이아이) 에이지 리서치 리미티드
Publication of KR20080025377A publication Critical patent/KR20080025377A/ko
Application granted granted Critical
Publication of KR101325339B1 publication Critical patent/KR101325339B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/28Programmable structures, i.e. where the code converter contains apparatus which is operator-changeable to modify the conversion process
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

오디오 입력 신호를 압축하여 임의로 규정된 데이터 전송율을 가진 스케일된 비트 스트림을 형성하도록 스케일가능한 마스터 비트 스트림을 형성하는 방법을 제공한다. 계층적 필터뱅크(2100)는 인코더가 음색 성분(2106)과 잔여 성분(2117)을 둘 다 효율적으로 추출할 수 있는 다중 해상도 시간/주파수 표시로 입력 신호를 분해한다. 상기 성분들은 등급이 정해지고, 그 다음에 동일한 마스킹 함수 또는 상이한 심리음향 기준에 따라 양자화된다. 선택된 음색 성분은 다중 채널 오디오까지 연장되는 차분 코딩을 이용하여 적절히 암호화된다. 잔여 성분을 구성하는 시간-샘플 및 배율 성분은 다중 채널 오디오까지 연장되는 조인트 채널 코딩(JCC)을 이용하여 암호화된다. 디코더는 역 계층적 필터뱅크를 이용하여 스케일된 비트 스트림의 음색 성분 및 잔여 성분으로부터 오디오 신호를 재구성한다.
Figure R1020077030321
계층적 필터뱅크, 다중 채널 조인트 코딩, 스케일러블 압축 오디오 비트 스트림, 코덱

Description

계층적 필터뱅크 및 다중 채널 조인트 코딩을 이용한 인코더 및 디코더 그리고 그 방법들과 시간 도메인 출력신호 및 입력신호의 시간 샘플을 재구성하는 방법, 그리고 입력신호를 필터링하는 방법{ENCODER AND DECODER, METHODS OF ENCODING AND DECODING, METHOD OF RECONSTRUCTING TIME DOMAIN OUTPUT SIGNAL AND TIME SAMPLES OF INPUT SIGNAL AND METHOD OF FILTERING AN INPUT SIGNAL USING A HIERARCHICAL FILTERBANK AND MULTICHANNEL JOINT CODING}
본 발명은 오디오 신호의 스케일러블 암호화(scalable encoding)에 관한 것으로, 더 구체적으로 말하면, 계층적 필터링, 음색 성분의 조인트 코딩 및 잔여 신호의 시간-도메인 성분의 조인트 채널 코딩을 포함한 다중 채널 오디오 신호에 대하여 효과적인 방법으로 데이터 전송율 스케일링(data rate scaling)을 수행하는 방법에 관한 것이다.
오디오 압축 알고리즘의 주요 목적은 가능한 한 적은 디지털 비트를 이용하여 입력 오디오 신호의 음향적으로 허용가능한 표시를 생성하는 것이다. 이것은 입력 오디오 신호의 낮은 데이터 전송율 버젼이 인터넷 등의 제한된 대역폭 전송 채널을 통하여 전달될 수 있게 하고, 나중의 재생을 위해 입력 오디오 신호를 저장하는데 필요한 기억 용량을 감소시킨다. 전송 채널의 데이터 용량(data capacity)이 고정되어 있고, 저장할 필요가 있는 오디오의 시간(분) 또는 양(amount)에 따른 불변이 미리 알려져 있고 증가되지 않는 응용에서, 종래의 오디오 압축 방법은 압축 암호화시의 데이터 전송율 및 그에 따른 오디오 품질 레벨을 고정시킨다. 데이터 전송율에서의 추가적인 감소는 낮은 데이터 전송율로 원래 신호를 기록하거나 압축 오디오 신호를 압축풀기하고 그 다음에 상기 압축풀기된 신호를 더 낮은 데이터 전송율로 재압축하는 것 없이 실행될 수 없다. 이러한 방법은 채널 용량을 변경하거나, 고정식 메모리에 추가의 콘텐츠를 저장하거나, 또는 다른 응용을 위해 가변 데이터 전송율로 비트 스트림을 공급하는 문제들을 취급하는데 있어서 "스케일러블"(scalable)이 아니다.
스케일러블 특성으로 비트 스트림을 생성하고 전술한 제한 요소들을 회피하기 위해 사용되는 하나의 기술은 낮은 데이터 전송율 비트 스트림의 부분집합(subset)으로 구성된 높은 데이터 전송율 비트 스트림으로서 입력 오디오 신호를 암호화한다. 이처럼 암호화된 낮은 데이터 전송율 비트 스트림은 부호화 신호(coded signal)로부터 추출되어, 데이터 전송율이 광범위한 데이터 전송율에 걸쳐 조절가능한 출력 비트 스트림을 제공하도록 결합될 수 있다. 이러한 개념을 구현하는 한가지 방법은 데이터를 최저 지원의 데이터 전송율로 먼저 암호화하고, 그 다음에 원래 신호와 상기 최저 데이터 전송율 비트 스트림의 복호 버젼(decoded version) 간의 오차(error)를 암호화하는 것이다. 상기 암호화된 오차는 저장되고 최저 지원의 데이터 전송율 비트 스트림과 또한 결합되어 제2의 최저 데이터 전송율 비트 스트림을 생성한다. 원래 신호와 상기 제2의 최저 데이터 전송율 신호의 복호 버젼 간의 오차는 암호화되어 저장되고 상기 제2의 최저 데이터 전송율 비트 스트림에 가산(add)되어 제3의 최저 데이터 전송율 비트 스트림을 형성하며, 이러한 방식으로 순차적인 최저 데이터 전송율 비트 스트림을 생성한다. 이러한 처리는 상기와 같이 유도된 각 오차 신호의 비트 스트림과 관련된 데이터 전송율과 최저 지원 데이터 전송율 비트 스트림의 데이터 전송율의 합이 지원 대상의 최고 데이터 전송율 비트 스트림과 동일하게 될 때까지 반복된다. 최종의 높은 스케일러블 데이터 전송율 비트 스트림은 최저 데이터 전송율 비트 스트림과 각각의 암호화된 오차 비트 스트림으로 구성된다.
넓게 간격을 두고 있는 최저 데이터 전송율과 최고 데이터 전송율 사이에서 소수의 상이한 데이터 전송율을 지원하기 위해 일반적으로 사용되는 제2 기술은 "적층형"(layered) 스케일러블 비트 스트림을 생성하기 위해 하나 이상의 압축 알고리즘을 사용한다. 이러한 방법으로 부호화된 비트 스트림에서 스케일링 동작을 수행하는 장치는, 출력 데이터 전송율 필요조건에 따라서, 적층형 비트 스트림으로 운반되는 다수의 비트 스트림 중 어느 것을 부호화 오디오 출력으로서 사용할 것인지를 선택한다. 코딩 효율을 개선하고 광범위한 스케일된 데이터 전송율을 제공하기 위해, 낮은 전송율 비트 스트림으로 운반된 데이터가 높은 전송율 비트 스트림에 의해 사용되어 추가적인 더 높은 품질의 더 높은 전송율 비트 스트림을 형성할 수 있다.
본 발명은 임의로 규정된 데이터 전송율을 가진 스케일된 비트 스트림을 형성하도록 스케일가능한 마스터 비트 스트림을 형성하기 위해 오디오 입력 신호를 암호화하고, 오디오 신호를 재구성하기 위해 상기 스케일된 비트 스트림을 복호하는 방법을 제공한다.
이것은 일반적으로 오디오 입력 신호를 압축하고 압축된 입력 신호를 마스터 비트 스트림을 형성하도록 배열함으로써 달성된다. 마스터 비트 스트림은 복호된 신호 품질에 대한 그들의 상대적 기여도에 기초하여 등급이 정해진(ranked) 양자화 성분을 포함한다. 입력 신호는 입력 신호를 복수의 음색 성분(tonal component)과 잔여 성분(residual component)으로 분리하여 등급을 정하고, 그 다음에 상기 성분들을 양자화함으로써 적절히 압축된다. 상기 분리는 계층적 필터뱅크(hierarchical filterbank)를 이용하여 적절히 수행된다. 상기 성분들은 동일한 마스킹 함수 또는 상이한 심리음향(psychoacoustic) 기준에 따라서 적절히 등급이 정해지고 양자화된다. 그 다음에, 상기 성분들은 효율적인 스케일링을 촉진하기 위해 그들의 등급에 기초하여 순서정해질 수 있다. 마스터 비트 스트림은 소망하는 데이터 전송율과 대략 같거나 더 적은 스케일된 데이터 전송율을 가진 스케일된 비트 스트림을 형성하도록 충분한 수의 낮은 등급 성분들을 제거함으로써 스케일된다. 스케일된 비트 스트림은 주파수 스펙트럼 내에서 성분들의 위치를 표시하는 정보를 포함한다. 스케일된 비트 스트림은, 출력 비트 스트림을 생성하기 위해, 위치 형성(position formation)에 기초하여 양자화 성분들을 배열하고, 누락된 성분들을 무시하고, 배열된 성분들을 복호함으로써, 역(inverse) 계층적 필터뱅크를 이용하여 적절히 복호된다.
일 실시예에서, 인코더는 계층적 필터뱅크를 사용하여 입력 신호를 다중 해상도(multi-resolution) 시간/주파수 표시로 분해한다. 인코더는 다른 주파수 해상도로 HFB를 반복할 때마다 음색 성분을 추출하고, 상기 음색 성분을 입력 신호로부터 제거하여 잔여 신호를 HFB의 다음 반복으로 전달하며, 그 다음에 잔여 성분을 최종 잔여 신호로부터 추출한다. 음색 성분은 주파수 해상도마다 적어도 하나의 주파수 서브도메인(sub-domain)으로 그룹화되고, 부호화 신호의 품질에 대한 그들의 심리음향 중요도에 따라 등급이 정해진다. 잔여 성분은 시간-샘플 성분(예를 들면, 그리드 G)과, 상기 시간-샘플 신호를 수정한 배율(scale factor) 성분(예를 들면, 그리드 G0, G1)을 포함한다. 시간-샘플 성분은 적어도 하나의 시간-샘플 서브도메인으로 그룹화되고 복호된 신호의 품질에 대한 그들의 기여도에 따라서 등급이 정해진다.
디코더에서, 역 계층적 필터뱅크는 하나의 효율적 필터뱅크 구조 내에서 음색 성분과 잔여 성분 둘 다를 추출하기 위해 사용될 수 있다. 모든 성분들은 역 양자화되고 잔여 신호는 시간 샘플들에 배율을 적용함으로써 재구성된다. 주파수 샘플들이 재구성되고 재구성된 시간 샘플에 추가되어 출력 오디오 신호를 생성한다. 역 계층적 필터뱅크는 계층적 필터뱅크가 암호화 처리중에 사용되었는지 여부와 상관없이 디코더에서 사용될 수 있다는 점에 주목한다.
예시적인 실시예에서, 다중 채널 오디오 신호의 선택된 음색 성분은 차분 코딩(differential coding)을 이용하여 암호화된다. 각각의 음색 성분을 위하여, 하나의 채널이 1차 채널(primary channel)로서 선택된다. 1차 채널의 채널 번호 및 그 진폭과 위상은 비트 스트림에 저장된다. 다른 채널들 중 어느 것이 표시 음색 성분을 포함하고, 따라서 2차 채널로서 부호화되어야 하는지를 표시하는 비트 마스크(bit-mask)가 저장된다. 1차와 2차의 진폭 및 위상 간의 차이는 그 다음에 엔트로피 부호화되고, 음색 성분이 존재하는 각 2차 채널용으로 저장된다.
예시적인 실시예에서, 잔여 신호를 구성하는 시간-샘플 및 배율 성분은 다중 채널 오디오까지 연장되는 조인트 채널 코딩(JCC)을 이용하여 암호화된다. 채널 그룹화 처리는 다수의 채널들 중 어느 것이 공동으로 부호화될 수 있는지를 먼저 결정하고, 모든 채널들은 그룹으로 형성되는데 아마도 최종 그룹은 완성되지 않을 수 있다.
본 발명의 추가의 목적, 특징 및 장점들은 첨부 도면과 함께하는 이하의 예시적인 실시예의 설명에 포함된다. 비록 이들 예시적인 실시예가 오디오 데이터와 관련되지만, 비디오, 멀티미디어 및 다른 유형의 데이터도 유사한 방법으로 처리될 수 있다는 것을 이해할 것이다.
도 1은 본 발명에 따라 잔여 코딩 토폴로지를 이용하는 스케일러블 비트 스트림 인코더의 블록도이다.
도 2a 및 도 2b는 계층적 필터뱅크에서 사용하는 쉬멍크 윈도우의 주파수 및 시간 도메인 표시를 나타내는 도이다.
도 3은 본 발명에 따라 음색 성분 및 잔여 성분이 추출될 수 있는 입력 신호의 다중 해상도 시간/주파수 표시를 제공하기 위한 계층적 필터뱅크를 나타낸 도이다.
도 4는 계층적 필터뱅크와 관련된 단계들을 보인 흐름도이다.
도 5a 내지 도 5c는 '중복 가산' 윈도우잉('overlap-add' windowing)을 보인 도이다.
도 6은 계층적 필터뱅크의 주파수 응답을 보인 도이다.
도 7은 인코더에서 사용하기 위한 계층적 분석 필터뱅크의 예시적인 구현을 보인 블록도이다.
도 8a 및 도 8b는 3-스테이지 계층적 필터뱅크의 간단한 블록도 및 단일 스테이지의 더 상세한 블록도이다.
도 9는 다중 채널 오디오까지 음색 성분의 차분 코딩을 연장하기 위한 비트 마스크를 보인 도이다.
도 10은 본 발명의 인코더의 실시예에서 사용되는 잔여 인코더의 구체적 실시예를 보인 도이다.
도 11은 다중 채널 오디오의 조인트 채널 코딩을 위한 블록도이다.
도 12는 본 발명의 스케일러블 비트 스트림 인코더에 의해 생성된 데이터의 스케일러블 프레임을 개략적으로 보인 도이다.
도 13은 본 발명에서 사용되는 디코더의 일 구현예를 보인 상세 블록도이다.
도 14는 본 발명에 따라서 시간-샘플 및 주파수 성분으로부터 시계열 데이터를 재구성하기 위한 역 계층적 필터뱅크를 보인 도이다.
도 15는 역 계층적 필터뱅크의 예시적 구현예를 보인 블록도이다.
도 16은 디코더에서 역 계층적 필터뱅크를 이용한 음색 성분과 잔여 성분의 결합을 보인 블록도이다.
도 17a 및 도 17b는 3-스테이지 역 계층적 필터뱅크의 간단한 블록도 및 단 일 스테이지의 더 상세한 블록도이다.
도 18은 잔여 디코더의 상세 블록도이다.
도 19는 G1 맵핑 표를 보인 도이다.
도 20은 기본 함수 합성 보정 계수의 표를 보인 도이다.
도 21 및 도 22는 오디오 인코더/디코더에서 계층적 필터뱅크의 다중 해상도 시간/주파수 표시의 응용을 나타내는, 인코더와 디코더의 기능 블록도를 각각 보인 도이다.
본 발명은 임의로 규정된 데이터 전송율을 가진 스케일된 비트 스트림을 형성하도록 스케일될 수 있는 마스터 비트 스트림을 형성하기 위하여 오디오 입력 신호를 압축 및 암호화하고, 오디오 신호를 재구성하도록 상기 스케일된 비트 스트림을 복호하는 방법을 제공한다. 계층적 필터뱅크(HFB)는 인코더가 음색 성분(tonal component)과 잔여 성분(residual component)을 둘 다 효율적으로 추출할 수 있는 입력 신호의 다중 해상도 시간/주파수 표시를 제공한다. 다중 채널 오디오에 대해서, 음색 성분의 조인트 코딩과 잔여 신호 내 잔여 성분의 조인트 채널 코딩이 구현된다. 상기 성분들은 복호된 신호 품질에 대한 그들의 상대적 기여도에 기초하여 등급이 정해지고 마스킹 함수에 따라 양자화된다. 마스터 비트 스트림은 소망하는 데이터 전송율과 대략 같거나 더 적은 스케일된 데이터 전송율을 가진 스케일된 비트 스트림을 형성하도록 충분한 수의 낮은 등급 성분들을 제거함으로써 스케일된다. 스케일된 비트 스트림은 위치 정보에 기초하여 양자화 성분을 배열하고, 누락 성분들을 무시하고 상기 배열된 성분들을 복호함으로써 역 계층적 필터뱅크를 이용하여 적절히 복호되고 출력 비트 스트림을 생성한다. 하나의 가능한 응용에서, 마스터 비트 스트림이 저장되고, 그 다음에 다른 매체에 기록하거나 대역 제한된 채널을 통해 전송하기 위해 소망의 데이터 전송율로 스케일 다운된다. 다수의 스케일된 비트 스트림이 매체에 저장되는 다른 응용에서, 각 스트림의 데이터 전송율은 모든 비트 스트림에 포함된 집성 데이터 전송율을 만족시키면서 인식 품질(perceived quality)을 최대화하도록 독립적으로 및 동적으로 제어된다.
여기에서 사용되는 용어 "도메인", "서브도메인"과 "성분"은 비트 스트림의 스케일러블 요소의 계층(hierarchy)을 나타낸다. 그 예로는 하기의 것들이 있다.
도메인 서브도메인 성분
음색 1024-포인트 해상도 변환
(4 서브프레임)
음색 성분
(위상/진폭/위치)
잔여 배율 그리드 그리드 1 그리드 1 내의 배율
잔여 부대역 부대역 3 내의 모든 시간 샘플의 집합 부대역 3 내의 각 시간 샘플
잔여 코딩 토폴로지를 가진 스케일러블 비트 스트림 인코더
도 1에 도시된 바와 같이, 예시적인 실시예에서, 스케일러블 비트 스트림 인코더는 코어(음색 성분) 및/또는 잔여(시간-샘플 및 배율) 성분으로부터 최저 등급 성분을 선택적으로 제거함으로써 비트 스트림을 임의의 데이터 전송율로 스케일하기 위해 잔여 코딩 토폴로지를 사용한다. 인코더는 계층적 필터뱅크를 사용하여 입력 신호를 인코더가 음색 성분과 잔여 성분을 효율적으로 추출할 수 있는 다중 해상도 시간/주파수 표시로 효율적으로 분해한다. 다중 해상도 시간/주파수 표시를 제공하기 위해 여기에서 설명하는 계층적 필터뱅크(HFB)는 이러한 입력 신호의 표 시가 요구되는 많은 다른 응용에서 사용될 수 있다. 오디오 인코더에서 사용하는 계층적 필터뱅크 및 그 구성에 관한 일반적인 설명은 특수 오디오 인코더에 의해 사용되는 수정된 HFB와 함께 뒤에서 설명된다.
입력 신호(100)는 마스킹 계산기(101)와 멀티오더(multi-order) 음색 추출기(102)에 인가된다. 마스킹 계산기(101)는 입력 신호(100)를 분석하고 입력 신호(100) 내에 존재하는 주파수 중에서 인간의 귀로 들을 수 없는 주파수 이하의 주파수 함수로서 마스킹 레벨을 식별한다. 멀티오더 음색 추출기(102)는 예를 들면 다수의 중복 FFT를 이용해서, 또는 MDCT에 기초한 계층적 필터뱅크에 나타난 것처럼 입력 신호(101) 내에 존재하는 주파수들을 식별하는데, 이것은 음색에 대하여 규정되어 있는 심리음향 기준과 부합하고, 이 기준에 따라 음색을 선택하며, 상기 선택된 음색의 진폭, 주파수, 위상 및 위치 성분들을 양자화하고, 상기 음색들을 음색 리스트에 배치한다. 각각의 반복 또는 레벨에서, 선택된 음색들은 입력 신호로부터 제거되고 잔여 신호가 순방향(forward)으로 전달된다. 이것이 완료되면, 음색의 기준에 부합하지 않은 다른 모든 주파수들이 입력 신호로부터 추출되어 라인(111)상의 시간 도메인 내에서 멀티오더 음색 추출기(102), 구체적으로 말하면 계층적 필터뱅크 MDCT(256)의 최종 스테이지로부터 최종 잔여 신호로서 출력된다.
멀티오더 음색 추출기(102)는 최대로부터 시작하여 최소까지 하향으로 작용하는, 예를 들면 5개 순서의 중복 변환을 이용하여 기본 함수의 사용에 의해 음색을 검출한다. 크기의 변환, 즉 8192, 4096, 2048, 1024 및 512는 샘플링 속도가 44100 Hz인 오디오 신호에 대하여 각각 사용된다. 다른 변환 크기를 선택할 수도 있다. 도 7은 변환들이 어떻게 서로 중복되는지를 그래프적으로 보여주고 있다. 기본 함수는 하기 수학식으로 정의된다.
Figure 112007093255511-pct00001
여기에서, Ai = 진폭 = (Rei·Rei+Imi·Imi)-(Rei+1·Rei+1+Imi+1·Imi+1)
t = 시간 (t∈N, N은 양의 정수값)
ㅣ= 2의 멱수로서의 변환 크기(ㅣ∈512, 1024, ..., 8192)
φ = 위상
f = 주파수
Figure 112007093255511-pct00002
각 변환 크기에서 검출된 음색은 본 발명의 디코더에 의해 사용된 것과 동일한 복호 처리를 이용하여 국부적으로 복호되고, 이것에 대해서는 뒤에서 설명된다. 상기 국부적으로 복호된 음색은 위상 반전되고 시간 도메인 합산을 통하여 원래 입력 신호와 결합되어 HFB의 다음 반복 또는 레벨로 전달되는 잔여 신호를 형성한다.
마스킹 계산기(101)로부터의 마스킹 레벨 및 멀티오더 음색 추출기(102)로부터의 음색 리스트는 음색 선택기(103)에 입력된다. 음색 선택기(103)는 마스킹 계산기(101)에 의해 제공된 마스킹 레벨보다 위인 상대적 파워에 의해 멀티오더 음색 추출기(102)로부터 음색 선택기(103)에 제공된 음색 리스트를 먼저 분류한다. 그 다음에, 반복 처리를 이용하여 어떤 음색 성분이 마스터 비트 스트림 내의 암호화된 데이터의 프레임과 일치하는지를 결정한다. 음색 성분의 프레임에서 이용가능한 공간(space)의 양은, 스케일링 전에, 암호화된 마스터 비트 스트림의 미리 정해진 데이터 전송율에 의존한다. 만일 전체 프레임이 음색 성분용으로 할당되면, 잔여 코딩은 수행되지 않는다. 일반적으로, 이용가능한 데이터 전송율의 일부는 음색 성분용으로 할당되고 나머지(마이너스 오버헤드)는 잔여 성분용으로 보존된다.
채널 그룹은 인식 품질에 대한 기여도와 같은 메트릭에 따라 각 채널 그룹 내에서 식별된 다중 채널 신호 및 1차/2차 채널에 대하여 적절히 선택된다. 선택된 음색 성분은 차분 코딩을 이용하여 저장되는 것이 바람직하다. 스테레오 오디오에 대해서, 2-비트 필드는 1차 및 2차 채널을 표시한다. 진폭/위상 및 차분 진폭/위상은 1차 및 2차 채널에 대하여 각각 저장된다. 다중 채널 오디오에 대해서, 1차 채널은 그 진폭 및 위상과 함께 저장되고, 비트-마스크(도 9 참조)는 내포된 2차 채널에 대한 차분 진폭/위상과 함께 모든 2차 채널에 대해서 저장된다. 비트-마스크는 다른 채널들 중 어느 것이 1차 채널과 공동으로 부호화되고 1차 채널의 각 음색 성분용으로 비트 스트림에 저장되는지를 표시한다.
상기 반복적 처리 중에, 프레임에서 일치하지 않은 것으로 결정된 음색 성분의 일부 또는 전부는 시간 도메인으로 다시 변환되고 잔여 신호(111)와 결합될 수 있다. 예를 들어서 만일 데이터 전송율이 충분히 높으면, 전형적으로 선택되지 않은 모든 음색 성분이 재결합된다. 그러나, 만일 데이터 전송율이 낮으면, 비교적 강한 '선택되지 않은' 음색 성분이 잔여 신호에서 적절히 무시된다. 이것은 낮은 데이터 전송율에서 인식 품질을 개선하는 것으로 나타났다. 신호(110)로 표시한 선택되지 않은 음색 성분은 로컬 디코더(104)에 의해 국부적으로 복호되어 라인(114) 상에서 시간 도메인으로 다시 변환되고 멀티오더 음색 추출기(102)로부터의 잔여 신호(111)와 결합기(105)에서 결합되어 결합 잔여 신호(113)를 형성한다. 라인 114 및 111에서 나타나는 신호는 둘 다 시간 도메인 신호이기 때문에 상기 결합 처리가 쉽게 영향을 받을 수 있다는 점에 주목한다. 결합된 잔여 신호(113)는 잔여 인코더(107)에 의해 추가로 처리된다.
잔여 인코더(107)에 의해 수행되는 최초의 행동은 신호를 임계적으로 샘플링된 시간 도메인 주파수 부대역으로 하위 분할하는 필터뱅크를 통하여 상기 결합된 잔여 신호(113)를 처리하는 것이다. 양호한 실시예에서, 음색 성분을 추출하기 위해 계층적 필터뱅크를 사용할 때, 상기 시간-샘플 성분은 계층적 필터뱅크에서 직접 읽어낼 수 있고, 이것에 의해 잔여 신호 처리에 전용되는 제2 필터뱅크의 필요성을 제거한다. 이 경우, 도 21에 도시된 바와 같이, 결합기(104)는 계층적 필터뱅크의 최종 스테이지(MDCT(256))의 출력에서 동작하여 IMDCT(2106)를 연산하기 전에 '전용' 및 복호된 음색 성분(114)을 잔여 신호(111)와 결합하고, 부대역 시간-샘플을 생성한다(도 7의 단계 3906, 3908 및 3910을 또한 참조). 상기 부대역을 심리음향적으로 관련있는 순서로 추가로 분해하고 양자화하고 배열하는 것은 그 다음에 수행된다. 잔여 성분(시간-샘플 및 배율)은 시간-샘플이 그리드 G에 의해 표시되고 배율이 그리드 G0 및 G1에 의해 표시되는 조인트 채널 코딩을 이용하여 적절히 부호화된다(도 11 참조). 잔여 신호의 조인트 코딩은 1차 채널 그룹과 2차 채널 그룹 간의 신호 에너지의 비율을 표시하는, 채널 그룹에 인가된 부분 그리드를 이용한다. 그룹들은 교차 보정 또는 다른 메트릭을 이용하여 (동적으로 또는 정적으로) 선택된다. 하나 이상의 채널이 결합될 수 있고 1차 채널로서 사용될 수 있다(예를 들면, L+R 1차, C 2차). 시간/주파수 치수(dimension)를 통한 배율 부분 그리드(G0, G1)의 사용은 다중 채널 그룹에 인가되는 것으로서 신규한 것이고, 하나 이상의 2차 채널은 주어진 1차 채널과 연관될 수 있다. 개개의 그리드 요소 및 시간 샘플은 주파수에 의해 등급이 정해지는데, 더 낮은 주파수가 더 높게 등급이 정해진다. 그리드는 비트 전송율에 따라 등급이 정해진다. 2차 채널 정보는 1차 채널 정보보다 더 낮은 우선순위로 등급이 정해진다.
코드열 발생기(108)는 라인(120)에서 음색 선택기(103)로부터 및 라인(122)에서 잔여 인코더(107)로부터 입력을 취하고, 당업계에 잘 알려진 엔트로피 코딩을 이용하여 상기 2개의 입력으로부터의 값들을 비트 스트림(124)으로 암호화한다. 비트 스트림 포매터(109)는 코드열 발생기(108)를 통하여 부호화된 후에, 음색 선택기(103) 및 잔여 인코더(107)로부터의 심리음향 요소가 마스터 비트 스트림(126) 내의 적당한 위치에 나타나는 것을 보장한다. '등급정하기'(ranking)는 다른 성분들의 순서정하기(ordering)에 의해 마스터 비트 스트림에 암시적으로 포함된다.
스케일러(115)는 인코더에 의해 생성된 마스터 비트 스트림(126)의 각 프레임으로부터 충분한 수의 최저 등급 암호화 성분을 제거하여 소망의 데이터 전송율과 대략 갖거나 더 작은 데이터 전송율을 가진 스케일된 비트 스트림(116)을 형성한다.
계층적 필터뱅크
멀티오더 음색 추출기(102)는 바람직하게 '수정' 계층적 필터뱅크를 사용하여 음색 성분 및 잔여 성분이 효율적으로 추출될 수 있는 다중 해상도 시간/주파수 해상도를 제공한다. HFB는 입력 신호를 연속적으로 더 낮은 주파수 해상도의 변환 계수로 분해하고, 각각의 연속적인 반복에서 연속적으로 더 정교한 시간 스케일 해상도의 시간 도메인 부대역 샘플로 다시 분해한다. 계층적 필터뱅크에 의해 발생된 음색 성분은 다수의 중복 FFT에 의해 발생된 음색 성분들과 정확히 동일하지만, 연산 부하가 훨씬 더 적다. 계층적 필터뱅크는 거의 임의의 시간/주파수 분해를 달성하기 위해 다른 시간/주파수 해상도의 입력 신호를 병렬로 동시에 분석함으로써 인간 청각 기관의 동일하지 않은 시간/주파수 해상도를 모델링하는 문제를 취급한다. 계층적 필터뱅크는 공지의 분해에서 발견되지 않은 내부 변환에서 윈도우잉(windowing) 및 중복 가산(overlap-add) 단계를 사용한다. 윈도우 함수의 이러한 단계 및 신규 설계는 이 구조가 임의의 트리에서 반복되어 소망하는 분해를 달성하게 하고, 이것은 신호 적응 방법으로 행하여질 수 있다.
도 21에 도시된 바와 같이, 단일 채널 인코더(2100)는 각 반복(2101a, ..., 2101e)에서 변환 계수로부터 음색 성분을 추출하고, 추출된 음색 성분을 양자화하여 음색 리스트(2106)에 저장한다. 다중 채널 신호의 음색과 잔여 신호의 조인트 코딩에 대해서는 뒤에서 설명한다. 각 반복에서, 시간-도메인 입력 신호(잔여 신호)가 윈도우되고(2107) N-포인트 MDCT가 적용되어(2108) 변환 계수를 생성한다. 음색은 변환 계수로부터 추출되고(2109) 양자화되어(2110) 음색 리스트에 추가된 다. 선택된 음색 성분은 국부적으로 복호되고(2111) 역변환을 수행(2113)하기 전에 변환 계수로부터 차감(2112)되어 HFB의 다음 반복용의 잔여 신호(2114)를 형성하는 시간 도메인 부대역 샘플을 발생한다. HFB의 최종 반복보다 상대적으로 더 낮은 주파수 해상도를 가진 최종 역변환(2115)은 최종의 결합된 잔여 성분에서 수행되고(113) 윈도우되어(2116) 잔여 성분(G)을 추출한다(2117). 전술한 바와 같이, 임의의 '선택되지 않은' 음색은 국부적으로 복호되고(104) 최종 역변환의 연산 전에 잔여 신호(111)와 결합된다(105). 잔여 성분은 블록 2118 및 2119에서 그리드 G로부터 추출된 시간-샘플 성분(그리드 G) 및 배율 성분(그리드 G0, G1)을 포함한다. 그리드 G는 재계산되고(2120) 그리드 G와 G1은 양자화된다(2121, 2122). 그리드 G, G1 및 G0의 계산은 뒤에서 설명된다. 음색 리스트에서의 양자화 음색 그리드(G) 및 배율 그리드(G1)는 모두 암호화되고 마스터 비트 스트림에 배치된다. 각 반복에서 입력 신호로부터 선택 음색의 제거 및 최종 역변환의 연산은 오디오 인코더에 의해 HFB에 부여된 수정(modification)이다.
오디오 코딩에서의 기본적인 난제(challenge)는 인간 인식의 시간/주파수 해상도의 모델링이다. 박수 소리와 같은 과도 신호(transient signal)는 시간 도메인에서 높은 해상도를 요구하고, 경적 소리와 같은 고조파 신호(harmonic signal)는 암호화된 비트 스트림에 의해 정확히 표시되도록 주파수 도메인에서 높은 해상도를 요구한다. 그러나, 시간 및 주파수 해상도가 서로 역의 관계에 있고 단일 변환이 양측 도메인에서 동시에 높은 정확성을 발휘할 수 없다는 것은 잘 알려진 원리이다. 유효 오디오 코덱의 설계는 시간 해상도와 주파수 해상도 사이에서 이와 같은 트레이드오프를 균형잡을 것을 요구한다.
이러한 문제점에 대한 공지의 해법은 윈도우 스위칭을 이용하여 변환 크기를 입력 신호의 과도 특성에 적응시키는 것이다(1994년 10월 발행된 오디오 엔지니어링 소사이어티의 저널, 42권, 제10호에서 K. Brandenburg 등의 "The ISO-MPEG-Audio Codec: A Generic Standard for Coding of High Quality Digital Audio" 참조). 이러한 분석창 크기의 적응은 추가적인 복잡성을 유도하고 입력 신호에서 과도적인 이벤트의 검출을 요구한다. 알고리즘적 복잡성(algorithmic complexity)을 관리하기 위해, 종래의 윈도우 스위칭 방법은 전형적으로 다른 윈도우 크기의 수를 2로 제한한다. 여기에서 설명하는 계층적 필터뱅크는 다수의 시간/주파수 해상도를 병렬로 제공하는 필터뱅크에 의해 입력 신호를 표시/처리함으로써 신호/청각 특성에 대한 조악한 조정을 회피한다.
입력 신호를 주어진 시간/주파수 표시로 분해하는, 하이브리드 필터뱅크라고 알려진 많은 필터뱅크가 있다. 예를 들면, ISO/IEC 11172-3에서 설명된 MPEG 계층 3 알고리즘은 각 부대역에서 의사 사분 미러 필터뱅크(Pseudo-Quadrature Mirror Filterbank) 다음에 MDCT 변환을 이용하여 소망하는 주파수 해상도를 제공한다. 우리의 계층적 필터뱅크에서, 우리는 스펙트럼선 그룹에서 MDCT와 같은 변환 다음에 역변환(예를 들면, IMDCT)을 이용하여 입력 신호의 융통성있는 시간/주파수 변환을 수행한다.
하이브리드 필터뱅크와는 다르게, 계층적 필터뱅크는 '중복된' 내부 변환을 연산하기 위해 2개의 연속적인 중복 외부 변환으로부터의 결과를 이용한다. 계층적 필터뱅크에 의해, 제1 변환의 상부에서 하나 이상의 변환을 집성하는 것이 가능하다. 이것은 또한 종래의 필터뱅크(예를 들면, 트리형 필터뱅크)로도 가능하지만, 레벨의 수가 증가함에 따라 주파수-도메인 분리의 빠른 감퇴 때문에 비실용적이다. 계층적 필터뱅크는 약간의 시간-도메인 감퇴를 감수하면 상기 주파수-도메인 감퇴를 피할 수 있다. 그러나, 시간-도메인 감퇴는 윈도우 형상을 적절히 선택함으로써 제어될 수 있다. 적당한 분석 윈도우의 선택에 의해, 내부 변환 계수들은 (종래의 방법에서와 같이 최외곽 변환의 크기에 대해서가 아니라) 내부 변환의 크기와 동일한 시간 전이(time shift)에 대해 불변으로 또한 될 수 있다.
계층적 필터뱅크와 함께 사용되는, 여기에서 "쉬멍크 윈도우"(Shmunk Window)라고 부르는 적절한 윈도우 W(x)는 다음과 같이 정의된다.
Figure 112007093255511-pct00003
여기에서 x는 시간 도메인 샘플 지수(0<x≤L)이고, L은 샘플에서 윈도우의 길이이다.
공동으로 사용되는 카이저 베슬(Kaiser-Bessel) 유도 윈도우(2602)와 관련한 쉬멍크 윈도우의 주파수 응답(2603)은 도 2a에 도시되어 있다. 도 2a에서, 2개의 윈도우는 형상이 유사하지만 사이드로브 감쇠(sidelobe attenuation)는 제안된 윈도우에서 더 크다는 것을 알 수 있다. 쉬멍크 윈도우의 시간-도메인 응답(2604)은 도 2b에 도시되어 있다.
시간/주파수 분해를 제공하기 위한 일반적인 적용성(applicability)의 계층적 필터뱅크는 도 3 및 도 4에 도시되어 있다. HFB는 오디오 코덱에서 사용하기 위해 전술한 바와 같이 수정되어야 한다. 도 3에서, 각 점선에 부여된 숫자는 각 레벨에서 동일하게 이격된 주파수 빈(frequency bin)의 수를 나타낸다(그러나 이들 빈 모두가 계산되는 것은 아니다). 하향 화살표는 N/2개의 부대역을 야기하는 N-포인트 MDCT 변환을 나타낸다. 상향 화살표는 N/8개의 부대역을 취하고 이들을 하나의 부대역 내에서 N/4개의 시간 샘플로 변환하는 IMDCT를 나타낸다. 각각의 사각형은 하나의 부대역을 나타낸다. 각각의 직사각형은 N/2개의 부대역을 나타낸다. 계층적 필터뱅크는 하기의 단계들을 수행한다.
(a) 도 5a에 도시된 바와 같이, 입력 신호 샘플(2702)은 N개의 샘플(2704)의 프레임에 버퍼되고, 각 프레임은 N-샘플 윈도우 함수(도 5b)(2706)에 의해 승산되어 N개의 윈도우 샘플(2708)(도 5c)을 생성한다(단계 2900).
(b) 도 3에 도시된 바와 같이, (도 3에서 하향 화살표(2802)로 표시된) N-포인트 변환이 윈도우 샘플(2708)에 적용되어 N/2개의 변환 계수(2804)를 생성한다(단계 2902).
(c) 선택적으로 링잉 감소(ringing reduction)가 하나 이상의 인접 변환 계수의 선형 결합의 적용에 의해 하나 이상의 변환 계수(2804)에 적용된다(단계 2904).
(d) N/2개의 변환 계수(2804)가 P개의 Mi 계수 그룹으로 나누어져서 Mi 계수 의 합이 N/2로 되게 한다.
Figure 112007093255511-pct00004
;
(e) P개의 그룹 각각에 대하여, (도 3에서 상향 화살표(2806)로 표시된) (2*Mi)-포인트 역변환이 변환 계수에 적용되어 각 그룹으로부터 (2*Mi)개의 부대역 샘플을 생성한다(단계 2906).
(d) 각각의 부대역에서, (2*Mi)개의 부대역 샘플은 (2*Mi)-포인트 윈도우 함수(2706)에 의해 승산된다(단계 2908).
(e) 각각의 부대역에서, Mi개의 이전 샘플이 대응하는 전류값에 중복되고 가산되어 각각의 부대역에 대하여 Mi개의 새로운 샘플을 생성한다(단계 2910).
(f) N은 이전 Mi와 동일한 집합이고 P와 Mi에 대하여 새로운 값을 선택한다.
(g) 상기 단계들은 소망하는 시간/변환 해상도가 달성될 때(단계 2914)까지 N에 대하여 연속적으로 더 작은 변환 크기를 이용하여 Mi개의 새로운 샘플의 하나 이상의 부대역에서 반복된다(단계 2912). 주목할 것은 상기 단계들이 모든 부대역에서, 최저 부대역에서만 또는 이들의 임의의 조합에서 반복될 수 있다는 것이다. 만일 단계들이 모든 부대역에서 반복되면 HFB는 균일하고, 다른 경우에는 HFB가 불균일하다.
전술한 도 3의 필터뱅크를 구현하는 주파수 응답(3300) 도면은 도 6에 도시되어 있는데, 이 경우 N=128, Mi=16, P=4이고, 단계들은 각 스테이지의 2개의 최저 부대역에서 반복된다.
계층적 필터뱅크에 대한 잠재적 응용은 오디오를 넘어서 비디오 및 다른 종류의 신호(예를 들면, 지진 신호, 의료 신호, 기타 시계열 신호)의 처리로 간다. 비디오 코딩 및 압축은 시간/주파수 분해를 위하여 유사한 필요조건을 가지며, 계층적 필터뱅크에 의해 제공된 분해의 임의 특성은 이산 코사인 변환 및 웨이블릿 분해에 기초한 현재의 최신 기술보다도 중요한 장점을 가질 수 있다. 필터뱅크는 지진 또는 기계적 측정의 분석 및 처리, 생의학 신호 처리, 자연적 또는 생리학적 신호, 음성 또는 다른 시계열 신호의 분석 및 처리에 또한 적용될 수 있다. 주파수 도메인 정보는 연속적으로 더 낮은 주파수 해상도의 각 반복에서 생성된 변환 계수로부터 추출될 수 있다. 마찬가지로, 시간 도메인 정보는 연속적으로 더 정교한 시간 스케일의 각 반복에서 생성된 시간-도메인 부대역 샘플로부터 추출될 수 있다.
계층적 필터뱅크: 균일하게 간격진 부대역
도 7은 계층적 필터뱅크(3900)의 예시적 실시예의 블록도를 도시한 것이고, 이것은 균일하게 간격진 부대역 필터뱅크를 구현한다. 균일한 필터뱅크에 있어서 Mi=M=N/(2*P)이다. 입력 신호를 부대역 신호(3914)로 분해하는 것은 이하에서 설명된다.
1. 입력 시간 샘플(3902)이 N-포인트 50% 중복 프레임(3904)으로 윈도우된다.
2. N-포인트 MDCT(3906)가 각 프레임에서 수행된다.
3. 결과적인 MDCT 계수는 각 그룹에서 M개 계수의 P개 그룹으로 그룹지어진다.
4. (2*M)-포인트 IMDCT(3910)가 각 그룹에서 수행되어 (2*M)개의 부대역 시간 샘플(3911)을 형성한다.
5. 결과적인 시간 샘플(3911)은 (2*M)-포인트, 50% 중복 프레임에서 윈도우되고 중복 가산(OLA)(3912)되어 각 부대역(3914)에서 M개의 시간 샘플을 형성한다.
예시적인 구현예에서, N=256, P=32 및 M=4이다. N, P 및 M에 대하여 다른 값을 취함으로써 표시되는 다른 변환 크기 및 부대역 그룹핑도 또한 소망하는 시간/주파수 분해를 달성하기 위해 사용될 수 있다.
계층적 필터뱅크: 불균일하게 간격진 부대역
계층적 필터뱅크(3000)의 다른 실시예는 도 8a 및 도 8b에 도시되어 있다. 이 실시예에서, 필터뱅크 스테이지의 일부는 미완성으로 되어 3개의 다른 주파수 범위를 가진 변환을 생성하며 변환 계수들은 각 범위에서 다른 주파수 해상도를 나타낸다. 시간 도메인 신호는 일련의 직렬 접속된 단일 요소 필터뱅크를 이용하여 변환 계수들로 분해된다. 상세한 필터뱅크 요소는 다수회 반복되어 소망하는 시간/주파수 분해를 생성한다. 버퍼 크기, 변환 크기 및 윈도우 크기의 수, 및 변환을 위한 MDCT/IMDCT의 사용은 하나의 예시적인 실시예만을 보인 것이고 본 발명의 범위를 제한하는 것이 아니다. 다른 버퍼 윈도우 및 변환 크기와 다른 변환 유형도 또한 사용할 수 있다. 일반적으로, Mi는 서로 다르지만 Mi의 합이 N/2로 되는 제약 조건은 만족시킨다.
도 8b에 도시된 바와 같이, 단일 필터뱅크 요소 버퍼(3022)는 샘플(3020)들을 입력하여 256개 샘플(3024)의 버퍼를 형성하고, 이것은 256-샘플 윈도우 함수에 의해 샘플들을 승산함으로써 윈도우된다(3026). 윈도우된 샘플(3028)들은 256-포인트 MDCT(3030)를 통해 변환되어 128개의 변환 계수(3032)를 형성한다. 상기 128개의 계수 중에서, 96개의 최고 주파수 계수는 출력(3037)을 위해 선택되고(3034) 더 이상 처리되지 않는다. 그 다음에, 32개의 최저 주파수 계수들이 역변환되어(3042) 64개의 시간 도메인 샘플을 생성하고, 이 샘플들은 그 다음에 샘플(3046)로 윈도우되고(3044) 이전 출력 프레임에 중복 가산되어(3048) 32개의 출력 샘플(3050)을 생성한다.
도 8a에 도시된 예에서, 필터뱅크는 256개 샘플의 입력 버퍼 크기로 1회 반복되는 하나의 필터뱅크 요소(3004) 및 그 다음에 256개 샘플의 입력 버퍼 크기로 또한 반복되는 하나의 필터뱅크 요소(3010)로 구성된다. 최종 스테이지(3016)는 축약된 단일 필터뱅크 요소를 나타내고, 0~1378 Hz의 최저 주파수 범위를 나타내는 128개의 주파수 도메인 계수를 출력하도록 버퍼링(3022), 윈도우잉(3026) 및 MDCT(3030) 단계만으로 구성된다.
따라서, 44100 Hz의 샘플 속도를 가진 입력(3002)을 가정하면, 도시된 필터뱅크는 "Out1"(3008)에서 5513~22050 Hz의 주파수 범위를 나타내는 96개의 계수를 생성하고, "Out2"(3014)에서 1379~5512 Hz의 주파수 범위를 나타내는 96개의 계수를 생성하며, "Out3"(3018)에서 0~1378 Hz의 주파수 범위를 나타내는 128개의 계수 를 생성한다.
주파수 변환/역변환을 위한 MDCT/IMDCT의 사용은 예시적인 것이고 다른 시간/주파수 변환도 본 발명의 일부로서 적용될 수 있다는 것을 주목하여야 한다. 변환 크기에 대한 다른 값들도 가능하고, 전술한 계층에서 임의의 브랜치를 선택적으로 연장함으로써 이 방법에 의한 다른 분해도 가능하다.
음색 및 잔여 성분의 다중 채널 조인트 코딩
도 1의 음색 선택기(103)는 마스크 계산기(101)로부터의 데이터 및 멀티오더 음색 추출기(102)로부터의 음색 리스트를 입력으로서 취한다. 음색 선택기(103)는 마스크 계산기(101)로부터의 마스킹 레벨에 대한 상대적 파워에 의해 음색 리스트를 먼저 분류하고, 심리음향 중요도에 의한 오더링을 형성한다. 사용되는 공식은 다음과 같다.
Figure 112007093255511-pct00005
여기에서, Ak = 스펙트럼선 진폭이고, Mi ,k = i의 마스크 서브프레임 내 k의 스펙트럼선의 마스킹 레벨이고, l = 마스크 서브프레임에 있어서 기본 함수의 길이이다.
합산은 스펙트럼 성분이 제로 값이 아닌 서브프레임에 대해서 수행된다.
그 다음에, 음색 선택기(103)는 반복 처리를 사용하여 프레임의 분류된 음색 리스트로부터 어떤 음색 성분이 비트 스트림과 일치하는지를 결정한다. 음색의 진 폭이 하나 이상의 채널에서 대략 동일한 스테레오 또는 다중 채널 오디오 신호에 있어서, 완전한 진폭(full amplitude) 및 위상만이 1차 채널에 저장되는데, 이 1차 채널은 음색 성분에 대해 최고의 진폭을 가진 채널이다. 유사한 음색 특성을 가진 다른 채널들은 1차 채널로부터의 차이를 저장한다.
각 변환 크기의 데이터는 다수의 서브프레임을 포함하는데, 최소 변환 크기는 2개의 서브프레임을 커버하고, 두번째 작은 변환 크기는 4개의 서브프레임을 커버하고, 세번째 작은 변환 크기는 8개의 서브프레임을 커버하고, 네번째 작은 변환 크기는 16개의 서브프레임을 커버하고, 다섯번째 작은 변환 크기는 32개의 서브프레임을 커버한다. 1 프레임에는 16개의 서브프레임이 있다. 음색 데이터는 음색 정보가 발견된 변환의 크기에 따라 그룹지어진다. 각각의 변환 크기에 대해서, 엔트로피 부호화 서브프레임 위치, 엔트로피 부호화 스펙트럼 위치, 엔트로피 부호화 양자화 진폭 및 양자화 위상 등의 음색 성분 데이터가 양자화되고, 엔트로피 암호화되고, 비트 스트림에 배치된다.
다중 채널 오디오의 경우, 각각의 음색 성분용으로 하나의 채널이 1차 채널로서 선택된다. 어느 채널을 1차 채널로 할 것인지의 결정은 고정되어 있을 수도 있고, 신호 특성 또는 인식 기준(perceptual criteria)에 따라 정해질 수도 있다. 1차 채널의 채널 번호 및 그 진폭과 위상은 비트 스트림에 저장된다. 도 9에 도시된 것처럼 비트 마스크(3602)가 저장되고, 이것은 다른 채널들 중의 어느 것이 표시된 음색 성분을 포함하고 있고, 그에 따라서 2차 채널로서 부호화되어야 하는지를 표시한다. 그 다음에, 1차 채널의 진폭 및 위상과 2차 채널의 진폭 및 위상 간 의 차이가 엔트로피 부호화되고, 음색 성분이 존재하는 각 2차 채널용으로 저장된다. 상기 특수한 예는 7개의 채널이 있고 메인 채널은 채널 3인 경우를 가정한 것이다. 비트 마스크(3602)는 2차 채널 1, 4 및 5에서 음색 성분의 존재를 표시한다. 1차 채널용으로 사용된 비트는 없다.
멀티오더 음색 추출기(102)의 출력(4211)은 하나 이상의 해상도의 MDCT 계수의 프레임으로 구성된다. 음색 선택기(103)는 복호된 신호 품질에 대한 그들의 관련성에 기초해서, 코드열 발생기(108)에 의한 비트 스트림 출력 프레임에의 삽입을 위해 어느 음색 성분이 보유될 수 있는지를 결정한다. 프레임에서 일치하지 않는 것으로 결정된 음색 성분들은 로컬 디코더(104)에 출력된다(110). 로컬 디코더(104)는 음색 선택기(103)의 출력(110)을 취하여 룩업 테이블(도 20)로부터의 합성 계수(2000)로 스케일된 각각의 음색 성분을 가산함으로써 모든 음색 성분들을 합성하고 MDCT 계수의 프레임들을 생성한다(도 16 참조). 이 계수들은 결합기(105)에서 멀티오더 음색 추출기(102)의 출력(111)에 가산되어 계층적 필터뱅크의 최종 반복의 MDCT 해상도로 잔여 신호(113)를 생성한다.
도 10에 도시된 바와 같이, 각 채널의 잔여 신호(113)는 도 7에 도시된 윈도우잉 및 중복 가산(3904)과 IMDCT(3910) 단계 전에, 계층적 필터뱅크(3900)의 MDCT 계수(3908)로서 잔여 인코더(107)에 전달된다. IMDCT(3910)의 후속 단계인 윈도우잉 및 중복 가산(3912)이 수행되어 각 채널의 시간 도메인에서 동일하게 간격진 임계적으로 샘플링된 주파수 부대역(3914)을 생성한다. 시간-샘플 성분을 구성하는 32개의 부대역은 그리드 G라고 부른다. 계층적 필터뱅크의 다른 실시예를 인코더에 서 사용하여 전술한 것과는 다른 시간/주파수 분해를 구현할 수 있고, 다른 변환이 음색 성분을 추출하기 위해 사용될 수 있다는 것에 주목한다. 만일 계층적 필터뱅크가 음색 성분을 추출하기 위해 사용되지 않으면, 다른 형태의 필터뱅크가 더 높은 연산 부담을 갖고서 부대역을 추출하기 위해 사용될 수 있다.
스테레오 또는 다중 채널 오디오에 있어서, 음색 성분을 암호화하기 위한 방법(예를 들면, 좌-우, 중간-측면) 뿐만 아니라, 음색 성분을 암호화하기 위한 1차 채널 및 2차 채널을 결정하기 위해 몇가지 계산이 채널 선택 블록(501)에서 행하여진다. 도 11에 도시된 바와 같이, 채널 그룹핑 처리(3702)는 다수의 채널들 중 어느 것이 공동으로 부호화될 수 있는지를 먼저 결정하고, 모든 채널들은 그룹으로 형성되며 최종 그룹은 아마도 미완성으로 될 것이다. 그룹핑은 청취자의 인식 기준 및 코딩 효율에 의해 결정되고, 채널 그룹은 2개 이상의 채널 조합으로 구성될 수 있다(예를 들어서 L, R, Ls, Rs 및 C 채널로 구성된 5-채널 신호는 {L,R}, {Ls,Rs}, {L+R, C}로 그룹지어질 수 있다). 그 다음에, 채널 그룹들은 1차 채널과 2차 채널로 순서정해진다. 예시적인 다중 채널 실시예에서, 1차 채널의 선택은 프레임에 대한 채널의 상대적 파워에 기초하여 행하여진다. 하기 수학식은 상대적 파워를 규정한다.
Figure 112007093255511-pct00006
그룹핑 모드는 도 11의 단계 3704에 도시된 것처럼 또한 결정된다. 음색 성분은 좌-우 또는 중간-측면 표시로서 암호화되고, 또는 이 단계의 출력은 점선으로 도시된 것처럼 단일 1차 채널만으로 될 수 있다. 좌-우 표시에서, 부대역에 대해 최고 파워를 가진 채널은 1차 채널로서 간주되고, 부대역에 대한 비트 스트림(3706) 내의 단일 비트는 우측 채널이 최고 파워의 채널인 경우에 설정된다. 중간-측면 암호화는 부대역에 대하여 하기의 조건이 만족되는 경우에 부대역에 대하여 사용된다.
Figure 112007093255511-pct00007
다중 채널 신호에 있어서, 상기의 것은 각 채널 그룹에 대하여 수행된다.
스테레오 신호에 있어서, 그리드 계산(502)은 스테레오 패닝(stereo panning)이 대략적으로 재구성되고 잔여 신호에 적용될 수 있는 스테레오 패닝 그리드를 제공한다. 스테레오 그리드는 '4개의 부대역 × 4개의 시간 간격'이고, 스테레오 그리드 내의 각 부대역은 3 kHz 이상의 주파수 대역에서 시작하여 필터 뱅크(500)의 출력으로부터 4개의 부대역과 32개의 샘플을 커버한다. 다른 그리드 크기, 커버되는 주파수 부대역, 및 시간 분할도 선택할 수 있다. 스테레오 그리드의 셀 내의 값들은 셀에 의해 커버되는 값의 범위에 대하여 1차 채널의 파워에 대한 주어진 채널의 파워의 비율이다. 상기 비율은 음색 성분을 암호화하기 위해 사용된 것과 동일한 테이블에 양자화된다. 다중 채널 신호에 있어서, 상기 스테레오 그리드는 각 채널 그룹에 대하여 계산된다.
다중 채널 신호에 있어서, 그리드 계산(502)은 공간 도메인에서 그들의 심리음향 중요도 정도로 비트 스트림에 삽입되는, 각 채널 그룹마다 하나씩 다수의 배 율 그리드를 제공한다. '4개 부대역 × 32개 샘플'의 각 그룹에 대하여 1차 채널에 대한 주어진 채널의 파워 비율이 계산된다. 이 비율은 그 다음에 양자화되고, 상기 양자화 값 + 파워 비율의 대수 기호(logarithm sign)가 비트 스트림에 삽입된다.
배율 그리드 계산(503)은 그리드 G1을 계산하고, 이 그리드는 비트 스트림에 배치된다. G1을 계산하는 방법에 대하여 이제 설명한다. G0는 G로부터 최초로 유도된다. G0는 모두 32개의 부대역을 포함하지만 시간 해상도는 G의 절반에 불과하다. G0의 셀의 콘텐츠는 G로부터 주어진 부대역의 2개의 이웃 값 중 최대인 양자화 값이다. 양자화(아래의 수학식에서는 Quantize라고 표시됨)는 멀티오더 음색 추출기(102)에서 음색 성분을 암호화하기 위해 사용된 것과 동일한 수정된 대수 양자화를 이용하여 수행된다. G0의 각 셀은 하기 식에 의해 결정된다.
Figure 112007093255511-pct00008
여기에서, m은 부대역의 수이고, n은 G0의 칼럼 번호이다.
G1은 G0에서 유도된다. G1은 11개의 중복 부대역과 G0의 1/8의 시간 해상도를 가지며, 치수가 11×8인 그리드를 형성한다. G1의 각 셀은 음색 성분에 대하여 사용된 것과 동일한 테이블을 사용하여 양자화되고 하기의 수학식을 이용하여 알 수 있다.
Figure 112007093255511-pct00009
여기서,
Figure 112007093255511-pct00010
은 도 19의 표 1로부터 얻어진 중량치이다.
G0는 로컬 그리드 디코더(506)에서 G1으로부터 재계산된다. 시간 샘플 양자화 블록(507)에서, 출력 시간 샘플("시간-샘플 성분")은 계층적 필터뱅크(그리드 G)로부터 추출되고, 이것은 양자화 레벨 선택 블록(504)를 통하여 전달되고, 시간-샘플 성분들을 로컬 그리드 디코더(506)로부터 재계산된 G0의 각 값에 의해 나눔으로써 스케일되며, 양자화 레벨 선택 블록(504)에 의해 결정된, 부대역의 함수로서, 양자화 레벨의 수로 양자화된다. 이 양자화 시간-샘플들은 그 다음에 양자화 그리드 G1과 함께 암호화 비트 스트림에 배치된다. 모든 경우에 상기 성분들의 심리음향 중요도를 반영하는 모델이 비트 스트림 기억 동작을 위한 우선순위를 결정하기 위해 사용된다.
일부 신호에 대한 코딩 이득을 개선하기 위한 추가의 향상 단계에서, G, G1 및 부분 그리드를 포함한 그리드는 양자화 및 코딩 전에 2차원 이산 코사인 변환(DCT)을 적용함으로써 추가로 처리될 수 있다. 대응하는 역 DCT는 역 양자화 다음에 디코더에 적용되어 원래 그리드를 재구성한다.
스케일러블 비트 스트림 및 스케일링 메카니즘
전형적으로, 마스터 비트 스트림의 각 프레임은 (a) 입력 신호의 다른 주파수 해상도로 주파수 도메인 콘텐츠를 나타내는 복수의 양자화 음색 성분과, (b) 재구성된 음색 성분과 입력 신호 간의 차이로부터 형성된 시간-도메인 잔여를 나타내는 양자화 잔여 시간-샘플 성분과, (c) 입력 신호의 주파수 범위에 걸치는 잔여 신호의 신호 에너지를 나타내는 배율 그리드를 포함한다. 다중 채널 신호에 있어서, 각 프레임은 또한 d) 채널 그룹 내의 잔여 신호 채널의 신호 에너지 비율을 나타내 는 부분 그리드와 e) 음색 성분에 대한 2차 채널의 공동 암호화를 특정하는 각 1차 채널에 대한 비트마스크를 포함할 수 있다. 일반적으로, 각 프레임 내에서 이용가능 데이터 전송율의 일부는 음색 성분(a)으로부터 할당되고, 일부는 잔여 성분(b, c)에 대하여 할당된다. 그러나, 일부 경우에, 모든 이용가능 전송율은 음색 성분을 암호화하도록 할당될 수 있다. 대안적으로, 모든 이용가능 전송율은 잔여 성분을 암호화하도록 할당될 수 있다. 극단적인 경우에, 배율 그리드만이 암호화될 수 있고, 이 경우 디코더는 출력 신호를 재구성하기 위해 잡음 신호를 사용한다. 대부분의 실제 응용에 있어서, 스케일된 비트 스트림은 음색 성분을 포함하는 적어도 일부의 프레임과 배율 그리드를 포함하는 일부 프레임을 포함할 것이다.
본 발명에서 규정된 것처럼 마스터 비트 스트림에 배치된 성분들의 구조 및 순서는 넓은 비트 범위의 미립자 비트 스트림 확장성을 제공한다. 비트 스트림이 외부 메카니즘에 의해 원활하게 스케일되게 하는 것은 이 구조 및 순서이다. 도 12는 원래 비트 스트림을 심리음향적으로 관련있는 성분들의 특수한 집합으로 분해하는 도 1의 오디오 압축 코덱에 기초한 성분들의 구조 및 순서를 도시한 것이다. 이 예에서 사용되는 스케일러블 비트 스트림은 "청크"(chunk)라고 부르는 데이터 구조인 다수의 자원 상호교환 파일 포맷(RIFF)으로 구성되지만, 다른 데이터 구조도 이용할 수 있다. 당업계에서 잘 알려져 있는 이 파일 포맷은 청크에 의해 운반된 데이터의 유형뿐만 아니라 청크에 의해 운반된 데이터의 양을 식별할 수 있게 한다. 규정된 비트 스트림 데이터 구조로 운반된 데이터의 양 및 유형에 관한 정보를 운반하는 임의의 비트 스트림 포맷은 본 발명의 실시에 사용될 수 있다는 것을 주목 한다.
도 12는 스케일러블 데이터 전송율 프레임 청크(900)의 레이아웃을, 프레임 청크(900) 내에서 운반되는 심리음향 데이터로 구성된 서브청크(902, 903, 904, 905, 906, 907, 908, 909, 910, 912)와 함께 도시한 것이다. 비록 도 12가 프레임 청크의 청크 ID 및 청크 길이만을 묘사하지만, 서브청크 ID 및 서브청크 길이 데이터도 각 서브청크 내에 포함된다. 도 12는 스케일러블 비트 스트림의 프레임에서 서브청크의 순서를 도시하고 있다. 이 서브청크들은 암호화된 비트 스트림의 각 서브도메인용으로 사용된 유일한(unique) 서브청크와 함께, 스케일러블 비트 스트림 인코더에 의해 생성된 심리음향 성분을 포함한다. 연역적 결정 또는 계산에 의해, 심리음향 중요도에 따라 배열된 서브청크 외에, 서브청크 내의 성분들도 또한 심리음향 중요도에 따라 배열된다. 프레임 내의 최종 청크인 무효 청크(Null Chunk)(911)는 프레임이 일정하거나 특수한 크기를 갖도록 요구되는 경우에 청크를 메우기 위해 사용된다. 그러므로, 청크(911)는 심리음향 관련성이 없고 최저 중요도의 심리음향 청크이다. 시간 샘플 2 청크(910)는 도면의 우측에서 나타나고 최고 중요도의 심리음향 청크이며, 그리드 1 청크(902)는 도면의 좌측에서 나타난다. 비트 스트림의 끝에서 최저 심리음향적 관련 청크(청크 910)로부터의 데이터를 먼저 제거하도록 동작하고 비트 스트림의 시작쪽으로 점점 더 큰 심리음향적 관련 성분(청크 902)을 제거하도록 작용함으로써, 최고 품질 가능성이 데이터 전송율에 있어서 각각의 연속적인 감소를 위해 유지된다. 비트 스트림에 의해 지원될 수 있는 최고 데이터 전송율은 최고 오디오 품질과 함께 암호화 시간에 정의된다는 것을 주목 하여야 한다. 그러나, 스케일링 후의 최저 데이터 전송율은 응용에 따라서 또는 채널이나 매체에 배치된 전송율 제약에 의해 사용할 수 있는 오디오 품질 레벨에 의해 규정된다.
제거된 각각의 심리음향 성분은 동일한 수의 비트를 사용하지 않는다. 본 발명의 현재 구현을 위한 스케일링 해상도는 최저 심리음향 중요도의 성분에 대한 1 비트로부터 최고 심리음향 중요도의 성분에 대한 32 비트까지의 범위를 갖는다. 비트 스트림을 스케일링하기 위한 메카니즘은 전체 청크를 한번에 제거할 필요가 없다. 앞에서 언급한 바와 같이, 각 청크 내의 성분들은 심리음향적으로 가장 중요한 데이터가 청크의 시작부에 배치되도록 배열된다. 이 때문에, 성분들은 스케일링 메카니즘에 의해 한번에 하나의 성분씩 청크의 끝으로부터 제거될 수 있고, 한편 각각의 제거된 성분으로 가능한 최상의 오디오 품질을 유지한다. 본 발명의 일 실시예에서, 전체 성분들은 스케일링 메카니즘에 의해 제거되지만, 다른 실시예에서는 성분들의 일부 또는 전부가 제거될 수 있다. 스케일링 메카니즘은 필요에 따라 청크 내의 성분들을 제거하고, 성분들이 제거된 특수 청크의 청크 길이 필드, 즉 프레임 청크 길이(915)와 프레임 체크섬(901)을 업데이트한다. 본 발명의 예시적인 실시예의 상세한 설명으로부터 알 수 있는 바와 같이, 각각의 스케일된 청크의 업데이트된 청크 길이뿐만 아니라 디코더에 이용가능한 업데이트된 프레임 청크 길이 및 프레임 체크섬 정보에 의해, 디코더는 스케일된 비트 스트림을 적절히 처리할 수 있고, 누락 성분인 비트 스트림 내에 청크가 있는 경우뿐만 아니라 청크가 비트 스트림으로부터 완전히 누락된 경우에도, DAC로 전송할 고정식 샘플 속도 오디오 출력 신호를 자동으로 생성한다.
잔여 코딩 토폴로지를 위한 스케일러블 비트 스트림 디코더
도 13은 디코더를 블록도로 도시한 것이다. 비트 스트림 파서(Bit stream Parser)(600)는 암호화 전 암호화 신호의 샘플 속도(헤르쯔), 오디오 채널의 수, 스트림의 원래 데이터 전송율 및 암호화 데이터 전송율로 이루어진 초기 부수 정보(side information)를 판독한다. 상기 초기 부수 정보는 원래 신호의 완전 데이터 전송율(full data rate)을 재구성할 수 있게 한다. 또한 비트 스트림(599) 내의 성분들은 비트 스트림 파서(600)에 의해 파싱(parse)되고 적당한 복호화 요소, 예를 들면, 음색 디코더(601) 또는 잔여 디코더(602)에 전달된다. 음색 디코더(601)에 의해 복호된 성분들은 신호를 다시 시간 도메인으로 바꾸는 역 주파수 변환(604)을 통하여 처리된다. 중복 가산 블록(608)은 이전에 복호된 프레임의 최종 절반의 값을 역 주파수 변환(604)의 출력인 지금 막 복호된 프레임의 최초 절반의 값에 가산한다. 비트 스트림 파서(600)가 잔여 복호 처리의 일부라고 결정한 성분들은 잔여 디코더(602)에 의해 처리된다. 시간 도메인으로 표시된 32개의 주파수 부대역을 포함한 잔여 디코더(602)의 출력은 역 필터 뱅크(605)에 의해 처리된다. 역 필터 뱅크(605)는 32개의 부대역을 하나의 신호로 재결합하여 결합기(607)에서 중복 가산(608)의 출력과 결합되게 한다. 결합기(607)의 출력은 복호된 출력 신호(614)이다.
연산 부담을 감소시키기 위해, 신호를 시간 도메인으로 다시 바꾸는 역 주파수 변환(604) 및 역 필터 뱅크(605)는 역 계층적 필터뱅크에 의해 구현될 수 있고, 이것은 상기 동작들을 결합기(607)로 통합하여 복호된 시간 도메인 출력 오디오 신호(614)를 형성한다. 디코더에서 계층적 필터뱅크를 사용하는 것은 음색 성분이 디코더에서 계층적 필터뱅크의 잔여 성분과 결합되는 방법에서 신규한 것이다. 잔여 신호는 각각의 부대역에서 MDCT를 이용하여 순방향 변환되고, 그 다음에 음색 성분이 최종 스테이지 IMDCT 전에 재구성되고 결합된다. 다중 해상도 방법은 다른 응용(예를 들면, 본 발명의 범위 내에 있는 다중 레벨 및 다른 분해)에도 일반화될 수 있다.
역 계층적 필터뱅크
디코더의 복잡성을 줄이기 위해, 계층적 필터뱅크는 역 주파수 변환(604), 역 필터뱅크(605), 중복-가산(608) 및 결합기(607)의 단계들을 결합하기 위해 사용될 수 있다. 도 15에 도시된 바와 같이, 잔여 디코더(602)의 출력은 역 계층적 필터뱅크(4000)의 제1 스테이지로 전달되고, 음색 디코더(601)의 출력은 최종 역변환(4010) 전에 더 높은 주파수 해상도 스테이지의 잔여 샘플에 가산된다. 결과적인 역변환 샘플들은 그 다음에 중복 가산되어 선형 출력 샘플(4016)을 생성한다.
HFB(2400)를 이용하는 단일 채널의 디코더의 전체 동작은 도 22에 도시되어 있다. 음색 및 잔여 신호의 다중 채널 복호화를 위한 추가의 단계들은 도 10, 11 및 18에 도시되어 있다. 양자화 그리드 G1과 G'는 비트 스트림 파서(600)에 의해 비트 스트림(599)으로부터 판독된다. 잔여 디코더(602)는 그리드 G'(2403)와 G1(2404)을 역양자화(Q-1)하고(2401, 2402), 그리드 G1으로부터 그리드 G0를 재구성 한다(2405). 그리드 G0는 각 그리드의 대응하는 요소들을 승산함으로써(2406) 그리드 G'에 적용되어 스케일된 그리드 G를 형성하고, 상기 스케일된 그리드 G는 계층적 필터뱅크(2401)의 다음 스테이지에 입력되는 부대역 시간-샘플(4002)로 구성된다. 다중 채널 신호에 있어서, 부분 그리드(508)는 2차 채널을 복호하기 위해 사용된다.
최저 주파수 해상도(P=16, M=256)의 음색 성분(T5)(2407)들은 비트 스트림 파서(600)에 의해 비트 스트림으로부터 판독된다. 음색 디코더(601)는 음색 성분을 역양자화(2408)하고 합성(2409)하여 M개의 주파수 도메인 계수로 이루어진 P개의 그룹을 생성한다.
그리드 G 시간 샘플(4002)은 도 15에 도시된 것처럼 윈도우되고 중복-가산(2410)되며, 그 다음에 P개의 (2*M)-포인트 MDCT(2411)에 의해 순방향 변환되어 M개의 주파수 도메인 계수로 이루어진 P개의 그룹을 형성하고, 상기 P개의 그룹은 그 다음에 도 16에 도시된 것처럼 음색 성분으로부터 합성된 M개의 주파수 도메인 계수로 이루어진 P개의 그룹과 결합(2412)된다. 그 다음에, 결합된 주파수 도메인 계수들이 연결되고 길이-N인 IMDCT(2413)에 의해 역변환되며, 윈도우잉 및 중복-가산(2414)되어 계층적 필터뱅크의 다음 스테이지에 입력되는 N개의 출력 샘플(2415)을 생성한다.
다음으로 낮은 주파수 해상도 음색 성분(T4)은 비트 스트림으로부터 판독되고, 전술한 바와 같이 계층적 필터뱅크의 이전 스테이지의 출력과 결합되며, 그 다음에 모든 주파수 성분이 비트 스트림으로부터 판독되고 결합되고 재구성될 때까지 P=8, 4, 2, 1 및 M=512, 1024, 2048, 4096에 대하여 상기 반복이 계속된다.
디코더의 최종 스테이지에서, 역변환은 복호된 출력(614)으로서 출력되는 N개의 전대역폭(full-bandwidth) 시간 샘플을 생성한다. P, M 및 N의 진행 값들은 하나의 예시적인 실시예를 보인 것뿐이고, 본 발명의 범위를 제한하는 것은 아니다. 다른 버퍼, 윈도우 및 변환 크기와 다른 변환 유형이 또한 사용될 수 있다.
전술한 바와 같이, 디코더는 음색 성분, 시간-샘플 성분 및 배율 그리드를 포함한 프레임의 수신을 예상한다. 그러나, 만일 이들 중의 하나 이상이 스케일된 비트 스트림으로부터 누락되면, 디코더는 복호화 출력을 끊김없이(seamlessly) 재구성한다. 예를 들어서, 만일 프레임이 음색 성분만을 포함하고 있으면, 4002에서 시간-샘플이 제로이고 역 HFB의 제1 스테이지에서 잔여 신호가 합성 음색 성분과 결합(2403)되지 않는다. 만일 하나 이상의 음색 성분(T5, ..., T1)이 누락되면, 그 반복에서 제로 값이 결합(2403)된다. 만일 프레임이 배율 그리드만을 포함하고 있으면, 디코더는 출력 신호를 복호하기 위해 그리드 G를 잡음 신호로 대체한다. 결국, 디코더는 스케일된 비트 스트림의 각 프레임의 조합이 신호의 내용, 변화하는 데이터 전송율 제약 등에 의해 변할 수 있기 때문에 복호화 출력 신호를 끊김없이 재구성한다.
도 16은 도 15의 역 계층적 필터뱅크 내에서 음색 성분이 어떻게 결합되는지를 더 상세히 보여주고 있다. 이 경우에, 부대역 잔여 신호(4004)는 윈도우되고 중복-가산되고(4006) 순방향 변환되며(4008), 모든 부대역으로부터의 결과적인 계수는 그룹화되어 계수들의 단일 프레임(4010)을 형성한다. 그 다음에, 각각의 음색 계수는 합성 계수(4104)의 그룹에 의해 음색 성분 진폭 엔벨로프(4102)를 승산(4106)하고 그 결과를 주어진 음색 성분 주파수(4106) 주변에 중심이 있는 계수들에 가산함으로써 잔여 계수의 프레임과 결합된다. 이들 음색 합성 계수의 가산은 음색 성분의 전 길이에 걸쳐서 동일 주파수 범위의 스펙트럼 선에서 수행된다. 이러한 방법으로 모든 음색 성분이 가산된 후, 최종 IMDCT(4012)가 수행되고 그 결과가 윈도우되어 이전 프레임과 중복-가산(4014)되어 출력 시간 샘플(4016)을 생성한다.
역 계층적 필터뱅크(2850)의 일반적인 형태는 도 14에 도시되어 있으며, 이것은 도 3에 도시된 계층적 필터뱅크와 호환된다. 각각의 입력 프레임은 P개의 부대역 각각에 Mi개의 시간 샘플을 포함하여 Mi 계수의 합이 N/2이 되게 한다.
Figure 112007093255511-pct00011
도 14에서, 상향 화살표는 N/2개의 MDCT 계수를 취하고 그 계수를 N개의 시간 도메인 샘플로 변환하는 N-포인트 IMDCT 변환을 나타낸다. 하향 화살표는 하나의 부대역 내에서 N/4개의 샘플을 취하고 그 샘플들을 N/8개의 MDCT 계수로 변환하는 MDCT를 나타낸다. 각각의 사각형은 하나의 부대역을 나타낸다. 각각의 직사각형은 N/2개의 MDCT 계수를 나타낸다. 하기의 단계들은 도 14에 도시되어 있다.
(a) 각 부대역에서, Mi개의 이전 샘플이 버퍼링되고 현재의 Mi개의 샘플과 연결되어 각각의 부대역(2828)에 대하여 (2*Mi)개의 새로운 샘플을 형성한다.
(b) 각각의 부대역에서, (2*Mi)개의 부대역 샘플들이 (2*Mi)-포인트 윈도우 함수(2706)(도 5a~5c)에 의해 승산된다.
(c) (2*Mi)-포인트 변환(하향 화살표(2826)로 표시됨)이 적용되어 각 부대역에 대하여 Mi개의 변환 계수를 생성한다.
(d) 각 부대역의 Mi개의 변환 계수가 연결되어 N/2개 계수의 단일 그룹(2824)을 형성한다.
(e) N-포인트 역변환(상향 화살표(2822)로 표시됨)이 연결 계수에 적용되어 N개의 샘플을 생성한다.
(f) N개의 샘플(2704)로 이루어진 각 프레임은 N-샘플 윈도우 함수(2706)로 승산되어 N개의 윈도우 샘플(2708)을 생성한다.
(g) 결과적인 윈도우 샘플(2708)이 중복 가산되어 주어진 부대역 레벨에서 N/2개의 새로운 출력 샘플을 생성한다.
(h) 모든 부대역이 처리되고 원래의 시간 샘플(2840)이 재구성될 때까지 상기 단계들이 현재 레벨 및 모든 후속 레벨에서 반복된다.
역 계층적 필터뱅크: 균일하게 간격진 부대역
도 15는 도 7에 도시된 순방향 필터뱅크와 호환되는 역 계층적 필터뱅크(4000)의 예시적 실시예의 블록도를 도시한 것이다. 복호된 출력 신호(4016)의 합성은 이하에서 상세히 설명된다.
1. 각 입력 프레임(4002)은 P개의 부대역 각각에서 M개의 시간 샘플을 포함 한다.
2. 각 부대역(4004)을 버퍼링하고, M개의 새로운 샘플에서 이동하고, (2*Mi)-포인트 윈도우, 50% 중복-가산(OLA)(4006)을 적용하여 M개의 새로운 부대역 샘플을 생성한다.
3. (2*Mi)-포인트 MDCT(4008)가 각 부대역에서 수행되어 P개의 부대역 각각에서 M개의 MDCT 계수를 형성한다.
4. 결과적인 MDCT 계수가 그룹화되어 (N/2)개의 MDCT 계수로 이루어진 단일 프레임(4010)을 형성한다.
5. N-포인트 IMDCT(4012)가 각 프레임에서 수행된다.
6. IMDCT 출력이 N-포인트, 50% 중복 프레임에서 윈도우되고 중복-가산(4014)되어 N/2개의 새로운 출력 샘플(4016)을 형성한다.
예시적인 구현예에서, N=256, P=32, 및 M=4이다. N, P 및 M에 대한 다른 선택에 의해 표시된 다른 변환 크기 및 부대역 그룹핑이 소망하는 시간/주파수 분해를 달성하기 위해 또한 사용될 수 있다.
역 계층적 필터뱅크: 불균일하게 간격진 부대역
역 계층적 필터뱅크의 다른 실시예는 도 17a 및 도 17b에 도시되어 있고, 이 실시예는 도 8a 및 도 8b에 도시된 필터뱅크와 호환된다. 이 실시예에서, 상세한 필터뱅크 요소의 일부는 불완전하고 각 범위의 다른 주파수 해상도를 나타내는 변환 계수를 가진 3개의 다른 주파수 범위를 가진 변환을 생성한다. 이들 변환 계수 로부터의 시간 도메인 신호의 재구성에 대해서는 뒤에서 설명된다.
이 경우, 제1 합성 요소(3110)는 도 17b에 도시된 상세 요소에서 버퍼링(3122), 윈도우잉(3124) 및 MDCT(3126)의 단계들을 생략한다. 그 대신에, 입력(3102)은 256개의 시간 샘플을 생성하도록 역변환된 계수들의 단일 집합을 형성하고, 상기 단일 집합은 윈도우되고(3132) 이전 프레임과 중복-가산되어(3134) 이 스테이지에 대하여 128개의 새로운 시간 샘플로 된 출력(3136)을 생성한다.
제1 요소(3110)의 출력과 96개의 계수는 제2 요소(3112)에 입력되고 도 17b에 도시된 것처럼 결합되어 필터뱅크의 제3 요소(3114)에 대한 입력용으로 128개의 시간 샘플을 생성한다. 도 17a의 제2 요소(3112)와 제3 요소(3114)는 도 17b의 완전 구체화 요소(full detailed element)를 구현하고 직렬 접속되어 필터뱅크(3116)로부터 128개의 새로운 시간 샘플 출력을 생성한다. 버퍼 및 변환 크기는 단지 예로서 제공된 것이고 다른 크기를 사용할 수도 있다는 점에 주목한다. 특히, 구체화 요소에 대한 입력에서의 버퍼링(3122)은 그것이 일반 필터뱅크의 계층에서 사용되는 곳에 따라 다른 입력 크기를 수용하도록 변경될 수 있다는 점에 주목한다.
이제, 디코더 블록에 관하여 더 상세히 설명한다.
비트 스트림 파서(600)
비트 스트림 파서(600)는 비트 스트림으로부터 IFF 청크 정보를 판독하고 그 정보의 요소들을 적당한 디코더, 예를 들면, 음색 디코더(601) 또는 잔여 디코더(602)에 전달한다. 비트 스트림은 디코더에 도달하기 전에 스케일될 수 있다. 사용되는 스케일링 방법에 따라서, 청크의 끝에서의 심리음향 데이터 요소는 누락 비 트 때문에 무효로 될 수 있다. 음색 디코더(601)와 잔여 디코더(602)는 청크의 끝에서 무효로 되도록 발견된 데이터를 적절히 무시한다. 전체 심리음향 데이터 요소를 무시하는 음색 디코더(601)와 잔여 디코더(602)의 대안예는, 요소의 비트들이 누락된 때, 상기 디코더들이 가능한 한 많은 요소들을 존재하고 있는 비트에서 판독하고, 나머지의 누락 비트들을 제로, 랜덤 패턴 또는 선행 심리음향 데이터 요소에 기초한 패턴들로 채움으로써 회복시키는 것이다. 비록 더 연산 지향적이지만, 선행 심리음향 데이터 요소에 기초한 데이터의 사용은 결과적인 복호화 오디오가 원래 오디오 신호와 더 밀접하게 매칭되기 때문에 바람직하다.
음색 디코더(601)
비트 스트림 파서(600)에 의해 발견된 음색 정보는 음색 디코더(601)에 의해 처리된다. 음색 성분의 재합성은 전술한 바와 같이 계층적 필터뱅크를 이용하여 수행된다. 대안적으로, 인코더에서 음색 성분을 추출하기 위해 사용되었던 최소 변환 크기와 그 크기가 동일한 역 고속 퓨리에 변환을 사용할 수도 있다.
하기의 단계들은 음색 복호를 위해 수행된다.
a) 주파수 도메인 서브프레임을 제로 값으로 초기화한다.
b) 음색 성분의 필요한 부분을 최소 변환 크기로부터 주파수 도메인 서브프레임으로 재합성한다.
c) 필요한 부분에서 음색 성분을 다른 4개의 변환 크기로부터 동일한 서브프레임으로 재합성 및 가산한다. 상기 다른 4개의 변환 크기의 재합성은 임의의 순서로 행하여질 수 있다.
음색 디코더(601)는 각각의 변환 크기 그룹핑을 위하여 양자화 진폭, 양자화 위상, 그룹핑을 위한 이전 음색 성분으로부터의 스펙트럼 거리, 및 전(full) 프레임 내에서 성분의 위치 등의 값들을 복호한다. 다중 채널 신호에 있어서, 2차 정보는 1차 채널 값과의 차이로서 저장되고, 비트 스트림으로부터 얻어진 값들을 1차 채널에 대하여 얻어진 값에 가산함으로써 절대치로 복구될 필요가 있다. 다중 채널 신호에 있어서, 음색 성분의 채널마다의 '존재'가 비트 스트림으로부터 복호된 비트 마스크(3602)에 의해 또한 제공된다. 2차 채널에 대한 추가의 처리는 1차 채널과는 독립적으로 행하여진다. 만일 음색 디코더(601)가 청크로부터 음색을 재구성하기 위해 필요한 요소들을 완전하게 획득할 수 없으면, 그 음색 요소는 버려진다. 양자화 진폭은 인코더에서 값을 양자화하기 위해 사용된 테이블의 역수를 이용하여 양자화된다. 양자화 위상은 인코더에서 위상을 양자화하기 위해 사용된 선형 양자화의 역을 이용하여 역양자화(dequantize)된다. 절대 주파수 스펙트럼 위치는 비트 스트림으로부터 얻어진 차이값을 미리 복호된 값에 가산함으로써 결정된다. Amplitude를 역양자화 진폭이라고 하고, Phase를 역양자화 위상이라고 하며, Freq를 절대 주파수 위치하고 하면, 하기의 의사코드(pseudo-code)는 최소 변환 크기의 음색 성분의 재합성을 묘사한다.
Figure 112007093255511-pct00012
더 긴 기본 함수의 재합성은 더 많은 서브프레임에 걸쳐 확산되고, 따라서 진폭 및 위상값은 기본 함수의 주파수 및 길이에 따라 업데이트될 필요가 있다. 하기의 의사코드는 상기 업데이트를 어떻게 할 것인지를 묘사한다.
Figure 112007093255511-pct00013
여기에서, Amplitude, Freq 및 Phase는 앞에서 규정된 것과 동일하다. Group는 기본 함수 변환 크기를 나타내는 수, 예를 들면, 최소 변환크기는 1이고 최대 변환 크기는 5이다. length는 Group에 대한 서브프레임이고 'length = 2 ^ (Group -1)'로서 주어진다. >>는 시프트 라이트 연산자(shift rigth operator)이다. CurrentAmplitude와 CurrentPhase는 다음 서브프레임을 위해 저장된다. Envelope[Group][i]는 각 그룹에 대한 적당한 길이(length)의 삼각형 엔벨로프이고, 양 끝에서는 제로 값이 주어지고 중간에서는 1의 값이 주어진다.
전술한 방법에 의한 3개의 최대 변환 크기에서 낮은 주파수의 재합성은 출력 오디오에서 가청 왜곡을 야기하고, 따라서 하기의 경험에 기초한 보정이 그룹 3, 4 및 5에서 60 미만의 스펙트럼 선에 적용된다.
Figure 112007093255511-pct00014
Figure 112007093255511-pct00015
Figure 112007093255511-pct00016
Figure 112007093255511-pct00017
}
여기에서, Amplitude, Freq, Phase, Envelope[Group][i], Group 및 Lingth는 모두 앞에서 규정한 것과 동일하고, CorrCf는 표 2(도 20)에 의해 주어지며, abs(val)은 val의 절대치를 복귀시키는 함수이다.
비트 스트림은 암호화된 음색 성분의 수에 대한 어떠한 정보도 포함하고 있지 않기 때문에, 디코더는 변환 크기의 데이터를 다 소모할 때까지 각 변환 크기에 대한 음색 데이터를 판독한다. 따라서, 외부 수단에 의해 비트 스트림으로부터 제거되는 음색 성분은 비트 스트림에 아직 내포되어 있는 데이터를 취급하기 위한 디코더의 능력에 영향을 주지 않는다. 비트 스트림으로부터 요소들을 제거하면 제거된 데이터 성분의 양만큼 오디오 품질을 감퇴시킨다. 음색 청크를 또한 제거할 수 있고, 이 경우 디코더는 그 변환 크기에 대한 음색 성분의 어떠한 재구성 작업도 수행하지 않는다.
역 주파수 변환(604)
역 주파수 변환(604)은 인코더에서 주파수 도메인 표시를 생성하는데 사용된 변환의 반대이다. 이 실시예는 전술한 역 계층적 필터뱅크를 사용한다. 대안적으 로, 중복 FFT가 암호화시에 사용되었다면, 인코더에 의해 음색을 추출하기 위해 최소 FFT의 반대인 역 고속 퓨리에 변환이 사용된다.
잔여 디코더(602)
잔여 디코더(602)의 상세 블록도는 도 18에 도시되어 있다. 비트 스트림 파서(600)는 비트 스트림으로부터의 G1 요소를 라인(610)을 통해 그리드 디코더(702)로 전달한다. 그리드 디코더(702)는 G1을 복호하여 '32 주파수 부대역 × 64 시간 간격'인 G0를 다시 생성한다. 비트 스트림은 양자화 G1 값 및 그 값들간의 거리를 포함한다. 비트 스트림으로부터의 G1 값은 음색 성분 진폭을 역양자화할 때 사용한 것과 동일한 역양자화 테이블을 이용하여 역양자화된다. 비트 스트림으로부터의 값들 간의 선형 보간은 각각의 G1 부대역에 대하여 8개의 최종 G1 진폭을 유도한다. G1의 부대역 0과 1은 제로로 초기화되고, 제로 값들은 상기 2개의 부대역에 대한 부대역 정보가 비트 스트림에서 발견될 때 교체된다. 그 다음에, 상기 진폭들이 도 19의 표 1로부터 얻어진 맵핑 가중치(1900)를 이용하여 재생성 G0 그리드로 가중된다. G0의 일반식은 다음과 같다.
Figure 112007093255511-pct00018
여기에서, m은 부대역 번호이고, W는 표 1로부터의 입력이고, n은 G0 칼럼 번호이고, k는 11개의 G1 부대역에 걸친다.
역양자화기(700)
비트 스트림 파서(600)에 의해 발견된 시간 샘플들은 역양자화기(700)에서 역양자화된다. 역양자화기(700)는 인코더의 역처리를 이용하여 비트 스트림으로부터의 시간 샘플들을 역양자화한다. 부대역 0으로부터의 시간 샘플은 16 레벨로 역양자화되고, 부대역 1과 2로부터의 시간 샘플은 8 레벨로, 부대역 11 내지 25로부터의 시간 샘플은 3 레벨로, 및 부대역 26 내지 31로부터의 시간 샘플은 2 레벨로 역양자화된다. 임의의 누락되거나 무효인 시간 샘플은 백색 잡음(white-noise) 스펙트럼 에너지 분포를 가진 -1 ~ 1 범위의 의사 랜덤 시퀀스의 값으로 교체된다. 이것은 상기 시퀀스의 값들이 제로 값으로 교체하는 것보다 원래 신호를 더 근접하게 모방하는 특성이 있기 때문에 스케일된 비트 스트림 오디오 품질을 개선한다.
채널 디먹서(701)
비트 스트림의 2차 채널 정보는 비트 스트림에 설정된 플래그에 따라 일부 부대역에 대한 1차 채널과의 차이로서 저장된다. 이들 부대역에 있어서, 채널 디먹서(demuxer)(701)는 1차 채널의 값 및 비트 스트림 내의 차이 값으로부터 2차 채널의 값을 복구한다. 만일 2차 채널 정보가 비트 스트림을 누락하면, 2차 채널 정보는, 뒤에서 설명하는 바와 같이, 1차 채널 정보를 2차 채널로 이중화하고 스테레오 그리드를 이용함으로써 1차 채널로부터 개략적으로 복구될 수 있다.
채널 재구성(706)
스테레오 재구성(706)은 비트 스트림에서 2차 채널 정보(시간 샘플)이 발견되지 않은 때 2차 채널에 적용된다. 그리드 디코더(702)에 의해 재구성된 스테레오 그리드는 1차 채널 시간 샘플 정보를 이중화함으로써 복구된 2차 시간 샘플에 적용되어 채널들 간에 원래의 스테레오 파워 비율을 유지한다.
다중 채널 재구성
다중 채널 재구성(706)은 비트 스트림에 2차 채널용의 2차 정보(시간 샘플 또는 그리드)가 존재할 때 2차 채널에 적용된다. 이 처리는 그리드 디코더(702)에 의해 재구성된 부분 그리드가 각 채널 그룹 내의 2차 채널의 시간 샘플에 적용되고 2차 채널에서 적당한 파워 레벨을 유지하기 위해 1차 채널 시간 샘플 정보를 이중화함으로써 복구된다는 점을 제외하면 스테레오 재구성(706)과 유사하다. 부분 그리드는 재구성된 채널 그룹의 각 2차 채널에 개별적으로 적용되고, 그 다음에 그리드 G의 시간 샘플을 각 2차 채널용의 부분 그리드의 대응 요소로 승산함으로써 스케일링 단계(703)에서 그리드 G0를 포함한 다른 배율 그리드에 의해 스케일링된다. 부분 그리드인 그리드 G0는 본 발명의 범위 내에서 임의의 순서로 적용될 수 있다.
지금까지 본 발명의 몇가지 예시적인 실시예를 도시하고 설명하였지만, 당업자라면 많은 다른 변형예 및 대안적인 실시예를 생각할 수 있을 것이다. 그러한 변형예 및 대안적인 실시예는 청구범위에서 규정하는 본 발명의 정신 및 범위로부터 벗어남이 없이 생각되고 만들어질 수 있다.

Claims (45)

  1. 입력 신호를 암호화하는 방법에 있어서,
    입력 신호를 다중 해상도 시간/주파수 표시로 분해하기 위해서 계층적 필터뱅크(HFB)를 이용하는 단계;
    시간/주파수 표시로부터 다중 주파수 해상도의 음색 성분을 추출하는 단계;
    시간/주파수 표시로부터 잔여 성분을 추출하는 단계;
    복호화 신호 품질에 대한 그들의 상대적 기여도에 기초하여 상기 성분들의 등급을 정하는 단계;
    상기 성분들을 양자화 및 암호화하는 단계; 및
    소망하는 데이터 전송율과 같거나 그보다 적은 데이터 전송율을 가진 스케일된 비트 스트림을 형성하기 위해서 미리 결정된 수의 최저 등급 암호화 성분을 제거하는 단계를 포함하는 입력 신호 암호화 방법.
  2. 제1항에 있어서, 상기 성분들은,
    음색 성분을 상이한 주파수 해상도의 적어도 하나의 주파수 부대역으로 먼저 그룹핑하고, 잔여 성분을 상이한 시간 스케일 및/또는 주파수 해상도의 적어도 하나의 잔여 부대역으로 그룹핑하는 단계,
    서브 도메인을 복호화 신호 품질에 대한 그들의 상대적 기여도에 기초하여 등급을 정하는 단계, 및
    각각의 서브 도메인 내의 성분들을 복호화 신호 품질에 대한 그들의 상대적 기여도에 기초하여 등급을 정하는 단계
    에 의해 등급이 정해지는 것인, 입력 신호 암호화 방법.
  3. 삭제
  4. 삭제
  5. 제1항에 있어서, 스케일된 비트 스트림은 제약으로서 소망 데이터 전송율을 가진 채널에 기록되거나 그 채널을 통해 전송되는 것인 입력 신호 암호화 방법.
  6. 제5항에 있어서,
    스케일된 비트 스트림은 다수의 스케일된 비트 스트림 중의 하나이고,
    각각의 개별 비트 스트림의 데이터 전송율은, 개별 데이터 전송율의 합이 최대의 총 데이터 전송율을 초과하지 않는다는 제약을 만족시키는 범위에서 독립적으로 제어되며, 상기 데이터 전송율은 각각 모든 비트 스트림의 암호화 신호 품질에 따라서 동적으로 제어되는 것인, 입력 신호 암호화 방법.
  7. 제1항에 있어서, 잔여 성분은 입력 신호와 음색 성분 사이에서 잔여 신호로부터 유도되며, 이것에 의해 스케일된 비트 스트림을 형성하기 위해 제거되는 음색 성분들이 잔여 신호로부터 또한 제거되는 입력 신호 암호화 방법.
  8. 제1항에 있어서, 잔여 성분은 시간-샘플 성분 및 상기 시간-샘플 성분을 상이한 시간 스케일 및/또는 주파수 해상도로 수정하는 배율 성분을 포함하는 것인, 입력 신호 암호화 방법.
  9. 제8항에 있어서,
    시간-샘플 성분은 그리드 G로 표시되고,
    배율 성분은 시간/주파수 평면에서 그리드 G를 G0, G1의 그리드 요소로 나눔으로써 시간-샘플 성분에 적용되는 다중 시간 스케일 및 주파수 해상도에서의 일련의 하나 이상의 그리드 G0, G1을 포함하며, G0, G1 각 그리드는 시간 및/또는 주파수에서 다른 수의 배율을 갖는 것인, 입력 신호 암호화 방법.
  10. 제8항에 있어서,
    상기 배율 성분은,
    2차원 변환을 상기 배율 성분에 적용하고 변환 계수를 양자화함으로써 암호화되는 것인 입력 신호 암호화 방법.
  11. 제10항에 있어서, 상기 변환은 2차원 이산 코사인 변환인 입력 신호 암호화 방법.
  12. 제1항에 있어서,
    HFB는 입력 신호를 연속적인 반복에서 연속적으로 더 낮은 주파수 해상도 레벨의 변환 계수로 분해하고,
    상기 음색 성분 및 잔여 성분은,
    각 반복에서 변환 계수로부터 음색 성분을 추출하고, 양자화하며, 추출된 음색 성분을 음색 리스트에 저장하는 단계;
    잔여 신호를 HFB의 다음 반복에 전달하기 위해 음색 성분을 입력 신호에서 제거하는 단계; 및
    잔여 성분을 추출하기 위해서 HFB의 최종 반복보다 상대적으로 더 낮은 주파수 해상도를 가진 최종 역변환을 잔여 신호에 적용하는 단계에 의해 추출되는 것인, 입력 신호 암호화 방법.
  13. 제12항에 있어서,
    최종 반복 후에 음색 성분의 일부를 음색 리스트로부터 제거하는 단계; 및
    제거된 양자화 음색 성분을 국부적으로 복호 및 역양자화하고, 그 결과물을 최종 반복에서 잔여 신호와 결합하는 단계를 더 포함하는, 입력 신호 암호화 방법.
  14. 제13항에 있어서, 리스트로부터 제거된 상대적으로 강한 음색 성분의 적어도 일부를 국부적으로 복호 및 재결합하지 않는 입력 신호 암호화 방법.
  15. 삭제
  16. 제12항에 있어서, 잔여 성분은 그리드 G로서 표시되는 시간-샘플 성분을 포함하고, 잔여 성분 추출 단계는,
    그 요소들이 시간/주파수 영역에서 최대 신호 값 또는 신호 에너지를 표시하는 상이한 시간/주파수 해상도의 하나 이상의 배율 그리드를 구성하는 단계;
    스케일된 시간-샘플 그리드 G를 생성하기 위해서 배율 그리드의 요소들을 대응시킴으로써 시간-샘플 그리드 G의 요소들을 나누는 단계; 및
    암호화 비트 스트림에 삽입하기 위해 상기 스케일된 시간-샘플 그리드 G 및 배율 그리드를 양자화 및 암호화하는 단계를 더 포함하는 것인 입력 신호 암호화 방법.
  17. 제1항에 있어서,
    (a) 입력 신호의 샘플들을 N개 샘플의 프레임에 버퍼링하는 단계;
    (b) 각 프레임 내의 N개 샘플을 N-샘플 윈도우 함수로 승산하는 단계;
    (c) N/2개의 원래 변환 계수를 생성하기 위해서 N-포인트 변환을 적용하는 단계;
    (d) 음색 성분을 N/2개의 원래 변환 계수로부터 추출하고, 추출된 음색 성분을 양자화하고 음색 리스트에 저장하는 단계;
    (e) 음색 성분을 역양자화에 의해 차감하고, N/2개의 잔여 변환 계수를 제공하기 위해서 결과적인 음색 변환 계수를 원래 변환 계수로부터 차감하는 단계;
    (f) Mi개의 계수의 합이 N/2 (
    Figure 112013047399268-pct00046
    )로 되도록 N/2개의 잔여 변환 계수를 Mi개의 계수로 이루어진 P개의 그룹으로 나누는 단계;
    (g) P개의 그룹 각각에 대하여, 각 그룹으로부터 (2*Mi)개의 부대역 샘플을 생성하기 위해서 (2*Mi)-포인트 역변환을 잔여 변환 계수에 적용하는 단계;
    (h) 각 부대역에서, 2*Mi개의 부대역 샘플을 2*Mi-포인트 윈도우 함수에 의해 승산하는 단계;
    (i) 각 부대역에서, 각 부대역에 대하여 Mi개의 새로운 샘플을 생성하기 위해서 Mi개의 이전 샘플과 중복(overlap)시키고 대응하는 값을 가산하는 단계;
    (j) 소망의 시간/변환 해상도가 달성될 때까지 연속적으로 더 작은 변환 크기 N을 이용하여 Mi개의 새로운 샘플로 이루어진 하나 이상의 부대역에 대하여 상기 단계 (a)~(i)를 반복하는 단계; 및
    (k) 부대역의 그리드 G에서 시간-샘플의 부대역 및 각 부대역의 다중 시간-샘플을 생성하기 위해서 상대적으로 더 낮은 주파수 해상도 N을 가진 최종 역변환을 최종 반복에서 각각의 부대역 출력에 대한 Mi개의 새로운 샘플에 적용하는 단계
    에 의해 입력 신호가 분해되고 음색 성분 및 잔여 성분이 추출되는 것인, 입력 신호 암호화 방법.
  18. 제1항에 있어서, 입력 신호는 다중 채널 입력 신호이고,
    각각의 상기 음색 성분은 상기 채널들의 그룹들을 형성하고, 각각의 상기 그룹에 대하여,
    1차 채널 및 적어도 하나의 2차 채널 - 2차 채널은 각 비트가 2차 채널의 존재를 식별하는 비트마스크를 통하여 식별됨 - 을 선택하는 단계;
    1차 채널을 양자화 및 암호화하는 단계;
    1차 채널과 각 2차 채널 간의 차이를 양자화 및 암호화하는 단계를 통해 함께(jointly) 암호화되는 것인, 입력 신호 암호화 방법.
  19. 제18항에 있어서, 각 채널 그룹을 암호화하기 위한 공동 채널 모드가, 어떤 모드가 복호화 출력 신호에서 소망의 데이터 전송율에 대하여 최소의 인식 왜곡을 제공하는지를 표시하는 메트릭에 기초하여 선택되는 입력 신호 암호화 방법.
  20. 삭제
  21. 제18항에 있어서, 상기 적어도 하나의 2차 채널은 하나 이상의 채널의 선형 결합에 의해 구성되는 것인 입력 신호 암호화 방법.
  22. 오디오 입력 신호를 암호화하는 방법에 있어서,
    오디오 입력 신호를 다중 해상도 시간/주파수 표시로 분해하는 단계;
    각 주파수 해상도의 음색 성분을 추출하는 단계;
    잔여 신호를 형성하기 위해서 시간/주파수 표시로부터 음색 성분을 제거하는 단계;
    잔여 신호로부터 잔여 성분을 추출하는 단계;
    음색 성분을 적어도 하나의 주파수 서브도메인으로 그룹화하는 단계;
    잔여 성분을 적어도 하나의 잔여 서브도메인으로 그룹화하는 단계;
    심리음향 중요도에 기초하여 서브 도메인들의 등급을 정하는 단계;
    심리음향 중요도에 기초하여 각 서브 도메인 내의 성분들의 등급을 정하는 단계;
    각 서브 도메인 내의 성분들을 양자화 및 암호화하는 단계; 및
    소망하는 데이터 전송율과 같거나 그보다 적은 데이터 전송율을 가진 스케일된 비트 스트림을 형성하기 위해서 최저 등급 서브 도메인으로부터 미리 결정된 수의 낮게 등급된 성분을 제거하는 단계를 포함하는 오디오 입력 신호 암호화 방법.
  23. 제22항에 있어서, 음색 성분은 상이한 주파수 해상도의 복수의 주파수 서브도메인으로 그룹화되고, 상기 잔여 성분은 상이한 주파수 및/또는 시간 해상도의 복수의 잔여 서브도메인으로 그룹화되는 그리드를 포함하는 것인 오디오 입력 신호 암호화 방법.
  24. 삭제
  25. 입력 오디오 신호를 암호화하여 스케일러블 비트 스트림을 형성하는 스케일러블 비트 스트림 인코더에 있어서,
    입력 오디오 신호를 연속적으로 더 낮은 주파수 해상도 레벨의 변환 계수로 분해하고, 연속적인 반복에서 연속적으로 더 미세한 시간 스케일로 시간-도메인 부대역 샘플로 다시 분해하는 계층적 필터뱅크(HFB);
    (a) 각 반복에서 변환 계수로부터 음색 성분을 추출하여 양자화하고 추출된 음색 성분을 음색 리스트에 저장하고, (b) 음색 성분을 입력 오디오 신호에서 제거하고 잔여 신호를 HFB의 다음 반복에 전달하며, (c) 모든 추출된 음색 성분을 복호화 신호 품질에 대한 그들의 상대적 기여도에 따라 등급을 정하는 음색 인코더;
    HFB의 최종 반복보다 상대적으로 더 낮은 주파수 해상도를 가진 최종 역변환을 최종 잔여 신호에 적용하여 잔여 성분을 추출하고, 상기 잔여 성분을 복호화 신호 품질에 대한 그들의 상대적 기여도에 따라 등급을 정하는 잔여 인코더;
    음색 성분 및 잔여 성분을 프레임 바이 프레임(frame-by-frame) 기초로 조합하여 마스터 비트 스트림을 형성하는 비트 스트림 포매터; 및
    미리 결정된 수의 최저 등급 암호화 성분을 마스터 비트 스트림의 각 프레임으로부터 제거하여 소망하는 데이터 전송율과 같거나 그보다 적은 데이터 전송율을 가진 스케일된 비트 스트림을 형성하는 스케일러를 포함하는, 스케일러블 비트 스트림 인코더.
  26. 제25항에 있어서,
    음색 인코더는 음색 성분을 상이한 주파수 해상도의 주파수 서브도메인으로 그룹화하고 상기 성분들을 각각의 서브 도메인으로 등급을 정하고,
    잔여 인코더는 잔여 성분을 상이한 시간 스케일 및/또는 주파수 해상도의 잔여 서브 도메인으로 그룹화하고 상기 성분들을 각각의 서브 도메인으로 등급을 정하며,
    상기 비트 스트림 포매터는 서브 도메인을 복호화 신호 품질에 대한 그들의 상대적 기여도에 기초하여 등급을 정하는 것인, 스케일러블 비트 스트림 인코더.
  27. 제26항에 있어서,
    비트 스트림 포매터는 서브 도메인 및 각 서브 도메인 내의 성분들을 그들의 등급에 기초하여 순서를 정하고,
    상기 스케일러는 소망하는 데이터 전송율이 달성될 때까지 최저 등급 서브 도메인의 최저 등급 성분에서부터 시작하여 차례대로 성분들을 제거함으로써 낮은 등급의 성분들을 제거하는 것인, 스케일러블 비트 스트림 인코더.
  28. 제25항에 있어서,
    입력 오디오 신호는 다중 채널 입력 오디오 신호이고,
    상기 음색 인코더는 상기 채널들의 그룹을 형성하고,각각의 상기 그룹에 대하여,
    1차 채널 및 적어도 하나의 2차 채널 - 2차 채널은 각 비트가 2차 채널의 존재를 식별하는 비트마스크를 통하여 식별됨 - 을 선택하고,
    1차 채널을 양자화 및 암호화하며,
    1차 채널과 각 2차 채널 간의 차이를 양자화 및 암호화함으로써 함께 암호화하는 것인, 스케일러블 비트 스트림 인코더.
  29. 제25항에 있어서, 입력 신호는 다중 채널 오디오 신호이고,
    상기 잔여 인코더는,
    잔여 신호의 채널들을 인식 기준 및 코딩 효율에 의해 결정된 그룹으로 형성하고,
    각각의 상기 잔여 신호 그룹에 대한 1차 채널 및 2차 채널을 결정하며,
    각각의 잔여 신호 그룹에서 각각의 1차/2차 채널 쌍 사이의 상대적 공간 정보를 암호화하기 위해 부분 그리드를 계산하고,
    각각의 그리드 G로서 각 그룹에서 1차 채널에 대한 잔여 성분을 양자화 및 암호화하며,
    요구된 데이터 전송율을 감소시키도록 부분 그리드를 양자화 및 암호화하고,
    각 그룹의 암호화 부분 그리드 및 그리드 G를 스케일된 비트 스트림에 삽입하도록 구성되는 것인, 스케일러블 비트 스트림 인코더.
  30. 제25항에 있어서,
    상기 잔여 인코더는 그리드 G 및 시간/주파수 평면에서 그리드 G를 그리드 요소 G0와 G1으로 나눔으로써 시간-샘플 성분에 적용되는 다중 시간 및 주파수 해상도의 일련의 하나 이상의 그리드 G0, G1에 의해 표시되는 시간-샘플 성분을 추출하며,
    각 그리드(G0, G1)는 시간 및/또는 주파수에서 다른 수의 배율을 갖는 것인 스케일러블 비트 스트림 인코더.
  31. 암호화 비트 스트림으로부터 시간-도메인 출력 신호를 재구성하는 방법에 있어서,
    각각의 프레임이 a) 입력 신호의 상이한 주파수 해상도로 주파수 도메인 콘텐츠를 표시하는 복수의 양자화된(quantized) 음색 성분, b) 상기 양자화된 음색 성분과 입력 신호 간의 차이로부터 형성된 시간-도메인 잔여를 표시하는 양자화 잔여 시간-샘플 성분 및 c) 입력 신호의 주파수 범위에 적어도 부분적으로 걸치는 잔여 신호의 신호 에너지를 표시하는 배율 그리드 중에서 적어도 하나를 포함하는 프레임들의 시퀀스로서 주어진 범위 내의 미리 정해진 데이터 전송율을 가진 스케일된 비트 스트림을 수신하는 단계;
    주파수 범위 내에서 양자화 성분 및/또는 그리드의 위치에 관한 각 프레임의 정보를 수신하는 단계;
    스케일된 비트 스트림의 프레임들을 성분 및 그리드로 파싱하는 단계;
    변환 계수를 형성하기 위해서 음색 성분들을 복호화(decode)하는 단계;
    시간-샘플 성분들 및 그리드들을 복호하는 단계;
    시간-도메인 샘플을 형성하기 위해서 시간-샘플 성분을 그리드 요소로 승산하는 단계; 및
    시간-도메인 출력 신호를 재구성하기 위해서 변환 계수 및 시간-도메인 샘플에 역 계층적 필터뱅크를 적용하는 단계를 포함하는 시간-도메인 출력 신호 재구성 방법.
  32. 제31항에 있어서, 상기 시간-도메인 샘플은,
    비트 스트림을 G1 배율 그리드 및 시간-샘플 성분으로 파싱하는 단계;
    G0 배율 그리드를 생성하기 위해서 G1 배율 그리드를 복호 및 역양자화하는 단계; 및
    재구성 시간-도메인 샘플을 생성하기 위해서 시간-샘플 성분을 복호 및 역양자화하고, 상기 시간-샘플 값들을 G0 배율 그리드로 승산하는 단계에 의해 형성되는 것인 시간-도메인 출력 신호 재구성 방법.
  33. 제32항에 있어서, 상기 신호는 잔여 채널들이 그룹화되어 암호화된 다중 채널 신호이고, 각각의 상기 프레임은 d) 채널 그룹 내에서 잔여 신호 채널의 신호 에너지 비율을 표시하는 부분 그리드를 더 포함하며,
    비트 스트림을 부분 그리드로 파싱하는 단계와;
    상기 부분 그리드를 복호 및 역양자화하는 단계와;
    재구성 시간-도메인 샘플을 생성하기 위해서 재구성 시간-샘플들을 채널 그룹 내의 각 2차 채널에 적용된 부분 그리드로 승산하는 단계를 더 포함하는 시간-도메인 출력 신호 재구성 방법.
  34. 제31항에 있어서, 입력 신호는 음색 성분 그룹이 1차 채널 및 하나 이상의 2차 채널을 포함한 다중 채널이고, 각각의 상기 프레임은 e) 각 비트가 1차 채널과 공동으로 암호화된 2차 채널의 존재를 식별하는 각 그룹의 1차 채널과 관련된 비트마스크를 더 포함하며,
    비트 스트림을 비트마스크로 파싱하는 단계;
    각 그룹의 1차 채널의 음색 성분을 복호하는 단계;
    각 그룹의 공동으로 암호화된 음색 성분을 복호하는 단계;
    각 그룹에 대하여, 1차 채널의 음색 성분 및 공동으로 암호화된 음색 성분으로부터 각각의 상기 2차 채널의 음색 성분을 재구성하기 위해서 비트마스크를 이용하는 단계를 더 포함하는 시간-도메인 출력 신호 재구성 방법.
  35. 제34항에 있어서, 2차 채널 음색 성분은, 음색 성분이 존재하는 각 2차 채널에 대해 엔트로피 코딩되고 저장되는 1차 및 2차 주파수, 진폭 및 위상들 간의 차이 정보를 복호화함으로써, 복호화되는 것인 시간-도메인 출력 신호 재구성 방법.
  36. 제31항에 있어서, 역 계층적 필터뱅크는 시간-도메인 샘플을 잔여 변환 계수로 변환하고, 그 결과물을 낮은 주파수 해상도의 음색 성분 집합에 대한 변환 계수와 결합시키며 그 결합된 변환 계수를 역변환하여 부분적으로 재구성된 출력 신호를 형성하며, 출력 신호가 재구성될 때까지 다음의 최고 주파수 해상도의 음색 성분의 다른 집합에 대한 변환 계수를 가지고 상기 부분적으로 재구성된 출력 신호에 대해 상기 잔여 변환계수로의 변환, 상기 변환계수와의 결합 및 상기 변환계수의 역변환을 반복함으로써 출력 신호를 재구성하는 것인 시간-도메인 출력 신호 재구성 방법.
  37. 제36항에 있어서, 시간-도메인 샘플들은 부대역으로서 표시되고, 상기 역 계층적 필터뱅크는,
    a) 윈도우된 시간-도메인 부대역을 형성하기 위해서 입력 프레임의 각각의 시간-도메인 부대역에서 신호(들)을 윈도우잉(window)하는 단계;
    b) 변환 계수를 형성하기 위해서 시간-주파수 도메인 변환을 각각의 윈도우된 시간-도메인 부대역에 적용하는 단계;
    c) 더 큰 집합의 잔여 변환 계수를 형성하기 위해서 결과적인 변환 계수들을 연결(concatenate)하는 단계;
    d) 음색 성분의 집합으로부터 변환 계수들을 합성하는 단계;
    e) 음색 및 시간-도메인 성분으로부터 재구성된 변환 계수들을 단일 집합의 결합 변환 계수에 결합하는 단계;
    f) 부분적으로 재구성된 시간 도메인 신호를 재구성하기 위해서 결합 변환 계수에 역변환을 적용하고 이전 프레임과 윈도우잉 및 중복 가산하는 단계; 및
    g) 시간-도메인 출력 신호가 재구성될 때까지 다음 집합의 음색 성분을 이용하여 부분적으로 재구성된 시간 도메인 신호에 대하여 상기 단계 (a) 내지 (f)의 연속 반복을 적용하는 단계에 의해 시간-도메인 출력 신호를 재구성하는 것인 시간-도메인 출력 신호 재구성 방법.
  38. 제36항에 있어서, 각각의 입력 프레임은 P개의 부대역 각각에서 Mi개의 시간 샘플을 포함하고, 상기 역 계층적 필터뱅크는,
    (a) 각 부대역(i)에서, 2*Mi개의 새로운 샘플을 생성하기 위해서 Mi개의 이전 샘플을 버퍼링하고 현재의 Mi개 샘플과 연결(concatenate)하는 단계;
    (b) 각 부대역(i)에서, 2*Mi개의 부대역 샘플을 2*Mi 포인트 윈도우 함수와 승산하는 단계;
    (c) 각 부대역(i)에 대한 Mi개의 변환 계수를 생성하기 위해서 (2*Mi)-포인트 변환을 부대역 샘플에 적용하는 단계;
    (d) 단일 집합의 N/2개의 계수를 형성하기 위해서 각 부대역(i)에 대한 Mi개의 변환 계수를 연결하는 단계;
    (e) 단일 집합의 결합된 연결 계수를 형성하기 위해서 복호화되고 역양자화된 음색 성분의 집합으로부터 총 변환 계수를 합성하고, 그 결과물을 이전 단계의 연결된 계수와 결합하는 단계;
    (f) N개의 샘플을 생성하기 위해서 N-포인트 역변환을 결합된 연결 계수에 적용하는 단계;
    (g) N개의 윈도우 샘플을 생성하기 위해서 N개 샘플의 각 프레임을 N-샘플 윈도우 함수와 승산하는 단계;
    (h) 주어진 부대역 레벨에서 부분적으로 재구성된 출력 신호로서 N/2개의 새로운 출력 샘플을 생성하기 위해서 결과적인 윈도우 샘플을 중복 가산하는 단계; 및
    (i) 모든 부대역이 처리되고 N개의 원래 시간 샘플이 출력 신호로서 재구성될 때까지 다음 음색 성분 집합을 이용하여 N/2개의 새로운 출력 샘플에서 상기 단계 (a)~(h)를 반복하는 단계를 수행하는 것인, 시간-도메인 출력 신호 재구성 방법.
  39. 암호화 비트 스트림으로부터 시간-도메인 출력 오디오 신호를 재구성하기 위한 디코더에 있어서,
    각각의 프레임이 a) 입력 신호의 상이한 주파수 해상도로 주파수 도메인 콘텐츠를 표시하는 복수의 양자화된(quantized) 음색 성분, b) 상기 양자화된 음색 성분과 입력 신호 간의 차이로부터 형성된 시간-도메인 잔여를 표시하는 양자화 잔여 시간-샘플 성분, 및 c) 잔여 신호의 신호 에너지를 표시하는 배율 그리드 중에서 적어도 하나를 포함하는, 스케일된 비트 스트림의 각 프레임을 그 오디오 성분으로 파싱하는 비트 스트림 파서;
    시간-샘플 성분들 및 그리드들을 복호하여 시간 샘플을 재구성하는 잔여 디코더;
    음색 성분들을 복호하여 변환 계수를 형성하는 음색 디코더; 및
    시간 샘플을 잔여 변환 계수로 변환하고, 그 결과물을 낮은 주파수 해상도의 음색 성분 집합에 대한 변환 계수와 결합하고 그 결합된 변환 계수를 역변환하여 부분적으로 재구성된 출력 신호를 형성하며, 출력 오디오 신호가 재구성될 때까지 다음의 최고 주파수 해상도의 음색 성분의 다른 집합에 대한 변환 계수를 가지고 상기 부분적으로 재구성된 출력 신호에 대해 상기 잔여 변환계수로의 변환, 상기 변환계수와의 결합 및 상기 변환계수의 역변환을 반복함으로써 출력 신호를 재구성하는 역 계층적 필터뱅크를 포함하는 디코더.
  40. 제39항에 있어서, 각각의 입력 프레임은 P개의 부대역 각각에서 Mi개의 시간 샘플을 포함하고, 상기 역 계층적 필터뱅크는,
    (a) 각 부대역(i)에서, 2*Mi개의 새로운 샘플을 생성하기 위해서 Mi개의 이전 샘플을 버퍼링하고 현재의 Mi개 샘플과 연결(concatenate)하고,
    (b) 각 부대역(i)에서, 2*Mi개의 부대역 샘플을 2*Mi 포인트 윈도우 함수와 승산하며,
    (c) 각 부대역(i)에 대한 Mi개의 잔여 변환 계수를 생성하기 위해서 (2*Mi)-포인트 변환을 부대역 샘플에 적용하고,
    (d) 단일 집합의 N/2개의 계수를 형성하기 위해서 각 부대역(i)에 대한 Mi개의 잔여 변환 계수를 연결하며,
    (e) 단일 집합의 결합된 연결 계수를 형성하기 위해서 복호화되고 역양자화된 음색 성분의 집합으로부터 총 변환 계수를 합성하고, 그 결과물을 이전 단계의 연결된 잔여 변환 계수와 결합하며,
    (f) N개의 샘플을 생성하기 위해서 N-포인트 역변환을 결합된 연결 계수에 적용하며,
    (g) N개의 윈도우 샘플을 생성하기 위해서 N개 샘플의 각 프레임을 N-샘플 윈도우 함수와 승산하고,
    (h) 주어진 부대역 레벨에서 부분적으로 재구성된 출력 신호로서 N/2개의 새로운 출력 샘플을 생성하기 위해서 결과적인 윈도우 샘플을 중복 가산하며,
    (i) 모든 부대역이 처리되고 N개의 원래 시간 샘플이 출력 신호로서 재구성될 때까지 다음 음색 성분 집합을 이용하여 N/2개의 새로운 출력 샘플에서 상기 (a)~(h)를 반복하는, 디코더.
  41. 시간/주파수 분해를 달성하기 위해 입력 신호를 계층적으로 필터링하는 방법에 있어서,
    (a) 입력 신호의 샘플들을 N개 샘플의 프레임에 버퍼링하는 단계;
    (b) 각 프레임 내의 N개 샘플을 N-샘플 윈도우 함수로 승산하는 단계;
    (c) N/2개의 원래 변환 계수를 생성하기 위해서 N-포인트 변환을 적용하는 단계;
    (d) Mi개의 계수의 합이 N/2 (
    Figure 112013047399268-pct00047
    )로 되도록 N/2개의 잔여 변환 계수를 Mi개의 계수로 이루어진 P개의 그룹으로 나누는 단계;
    (e) P개의 그룹 각각에 대하여, 각 그룹으로부터 (2*Mi)개의 부대역 샘플을 생성하기 위해서 (2*Mi)-포인트 역변환을 잔여 변환 계수에 적용하는 단계;
    (f) 각 부대역에서, 2*Mi개의 부대역 샘플을 2*Mi-포인트 윈도우 함수에 의해 승산하는 단계;
    (g) 각 부대역에서, 각 부대역에 대하여 Mi개의 새로운 샘플을 생성하기 위해서 Mi개의 이전 샘플과 중복시키고 대응하는 값을 가산하는 단계; 및
    (h) 소망의 시간/변환 해상도가 달성될 때까지 연속적으로 더 작은 변환 크기 N을 이용하여 Mi개의 새로운 샘플로 이루어진 하나 이상의 부대역에 대하여 상기 단계 (a)~(g)를 반복하는 단계를 포함하는 입력 신호 필터링 방법.
  42. 제41항에 있어서, 변환이 MDCT 변환인 입력 신호 필터링 방법.
  43. 제41항에 있어서, 단계 (a)~(g)가 Mi개의 부대역 전부에 대해서 반복되는 입력 신호 필터링 방법.
  44. 제41항에 있어서, 단계 (a)~(g)가 Mi개의 저주파수 부대역의 규정된 집합에 대해서만 반복되는 입력 신호 필터링 방법.
  45. 각각의 입력 프레임이 P개의 부대역 각각에서 Mi개의 시간 샘플을 포함하는, 입력 신호의 시간 샘플을 계층적으로 재구성하는 방법에 있어서,
    (a) 각 부대역(i)에서, 2*Mi개의 새로운 샘플을 생성하기 위해서 Mi개의 이전 샘플을 버퍼링하고 현재의 Mi개 샘플과 연결하는 단계;
    (b) 각 부대역(i)에서, 2*Mi개의 부대역 샘플을 2*Mi 포인트 윈도우 함수와 승산하는 단계;
    (c) 각 부대역(i)에 대한 Mi개의 변환 계수를 생성하기 위해서 (2*Mi)-포인트 변환을 윈도우된 부대역 샘플에 적용하는 단계;
    (d) 단일 그룹의 N/2개의 계수를 형성하기 위해서 각 부대역(i)에 대한 Mi개의 변환 계수를 연결하는 단계;
    (e) N개의 샘플을 생성하기 위해서 N-포인트 역변환을 연결된 계수에 적용하는 단계;
    (f) N개의 윈도우 샘플을 생성하기 위해서 N개 샘플의 각 프레임을 N-샘플 윈도우 함수와 승산하는 단계;
    (g) 주어진 부대역 레벨에서 N/2개의 새로운 출력 샘플을 생성하기 위해서 결과적인 윈도우 샘플을 중복 가산(overlap add)하는 단계; 및
    (h) 모든 부대역이 처리되고 N개의 원래 시간 샘플이 재구성될 때까지 상기 단계 (a)~(g)를 반복하는 단계를 포함하는 시간 샘플 재구성 방법.
KR1020077030321A 2005-06-17 2006-06-16 계층적 필터뱅크 및 다중 채널 조인트 코딩을 이용한 인코더 및 디코더 그리고 그 방법들과 시간 도메인 출력신호 및 입력신호의 시간 샘플을 재구성하는 방법, 그리고 입력신호를 필터링하는 방법 KR101325339B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US69155805P 2005-06-17 2005-06-17
US60/691,558 2005-06-17
US11/452,001 2006-06-12
US11/452,001 US7548853B2 (en) 2005-06-17 2006-06-12 Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
PCT/IB2006/003986 WO2007074401A2 (en) 2005-06-17 2006-06-16 Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding

Publications (2)

Publication Number Publication Date
KR20080025377A KR20080025377A (ko) 2008-03-20
KR101325339B1 true KR101325339B1 (ko) 2013-11-08

Family

ID=37883522

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077030321A KR101325339B1 (ko) 2005-06-17 2006-06-16 계층적 필터뱅크 및 다중 채널 조인트 코딩을 이용한 인코더 및 디코더 그리고 그 방법들과 시간 도메인 출력신호 및 입력신호의 시간 샘플을 재구성하는 방법, 그리고 입력신호를 필터링하는 방법

Country Status (15)

Country Link
US (1) US7548853B2 (ko)
EP (2) EP2479750B1 (ko)
JP (2) JP5164834B2 (ko)
KR (1) KR101325339B1 (ko)
CN (1) CN101199121B (ko)
AU (1) AU2006332046B2 (ko)
CA (2) CA2608030C (ko)
ES (1) ES2717606T3 (ko)
HK (2) HK1117655A1 (ko)
IL (1) IL187402A (ko)
NZ (3) NZ590418A (ko)
PL (2) PL1891740T3 (ko)
RU (1) RU2402160C2 (ko)
TR (3) TR200708666T1 (ko)
WO (1) WO2007074401A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016204579A1 (ko) * 2015-06-17 2016-12-22 삼성전자 주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
WO2016204581A1 (ko) * 2015-06-17 2016-12-22 삼성전자 주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333929B1 (en) 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
EP1571647A1 (en) * 2004-02-26 2005-09-07 Lg Electronics Inc. Apparatus and method for processing bell sound
KR20050087368A (ko) * 2004-02-26 2005-08-31 엘지전자 주식회사 무선 단말기의 벨소리 처리 장치
KR100636906B1 (ko) * 2004-03-22 2006-10-19 엘지전자 주식회사 미디 재생 장치 그 방법
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
JP4640020B2 (ja) * 2005-07-29 2011-03-02 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
CN100539437C (zh) * 2005-07-29 2009-09-09 上海杰得微电子有限公司 一种音频编解码器的实现方法
CN101283249B (zh) * 2005-10-05 2013-12-04 Lg电子株式会社 信号处理的方法和装置以及编码和解码方法及其装置
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
TWI297488B (en) * 2006-02-20 2008-06-01 Ite Tech Inc Method for middle/side stereo coding and audio encoder using the same
US20070270987A1 (en) * 2006-05-18 2007-11-22 Sharp Kabushiki Kaisha Signal processing method, signal processing apparatus and recording medium
EP1883067A1 (en) * 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
US20080059201A1 (en) * 2006-09-03 2008-03-06 Chih-Hsiang Hsiao Method and Related Device for Improving the Processing of MP3 Decoding and Encoding
US20080120114A1 (en) * 2006-11-20 2008-05-22 Nokia Corporation Method, Apparatus and Computer Program Product for Performing Stereo Adaptation for Audio Editing
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
KR101411901B1 (ko) * 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009007639A1 (fr) * 2007-07-03 2009-01-15 France Telecom Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
JP4372184B2 (ja) * 2007-09-20 2009-11-25 株式会社東芝 サンプルレート変換器
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
US20100250260A1 (en) * 2007-11-06 2010-09-30 Lasse Laaksonen Encoder
CN101896968A (zh) * 2007-11-06 2010-11-24 诺基亚公司 音频编码装置及其方法
WO2009059633A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
US8386271B2 (en) * 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
KR101756834B1 (ko) 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
US8290782B2 (en) 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
US8855440B2 (en) * 2008-08-04 2014-10-07 Saudi Arabian Oil Company Structure-independent analysis of 3-D seismic random noise
JP5340378B2 (ja) * 2009-02-26 2013-11-13 パナソニック株式会社 チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
US20110301946A1 (en) * 2009-02-27 2011-12-08 Panasonic Corporation Tone determination device and tone determination method
US8204718B2 (en) * 2009-12-29 2012-06-19 Mitsubishi Electric Research Laboratories, Inc. Method for reconstructing sparse streaming signals using greedy search
CN102918590B (zh) * 2010-03-31 2014-12-10 韩国电子通信研究院 编码方法和装置、以及解码方法和装置
KR101584480B1 (ko) 2010-04-13 2016-01-14 지이 비디오 컴프레션, 엘엘씨 평면 간 예측
CN106454371B (zh) 2010-04-13 2020-03-20 Ge视频压缩有限责任公司 解码器、数组重建方法、编码器、编码方法及存储介质
ES2549734T3 (es) 2010-04-13 2015-11-02 Ge Video Compression, Llc Codificación de vídeo que usa subdivisiones multi-árbol de imágenes
KR102166520B1 (ko) 2010-04-13 2020-10-16 지이 비디오 컴프레션, 엘엘씨 샘플 영역 병합
CN101848002B (zh) * 2010-06-18 2012-09-19 上海交通大学 Rs级联网格调制码的迭代译码装置及其译码方法
US9008811B2 (en) 2010-09-17 2015-04-14 Xiph.org Foundation Methods and systems for adaptive time-frequency resolution in digital data coding
JP5743137B2 (ja) * 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
WO2012122297A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
US9009036B2 (en) 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
US9075159B2 (en) * 2011-06-08 2015-07-07 Chevron U.S.A., Inc. System and method for seismic data inversion
RU2505921C2 (ru) * 2012-02-02 2014-01-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и устройство кодирования и декодирования аудиосигналов (варианты)
US9905236B2 (en) 2012-03-23 2018-02-27 Dolby Laboratories Licensing Corporation Enabling sampling rate diversity in a voice communication system
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
JPWO2014007097A1 (ja) 2012-07-02 2016-06-02 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム
BR112014004127A2 (pt) * 2012-07-02 2017-04-04 Sony Corp dispositivo e método de decodificação, programa, e, dispositivo e método de codificação
WO2014049192A1 (en) * 2012-09-26 2014-04-03 Nokia Corporation A method, an apparatus and a computer program for creating an audio composition signal
US9373337B2 (en) * 2012-11-20 2016-06-21 Dts, Inc. Reconstruction of a high-frequency range in low-bitrate audio coding using predictive pattern analysis
TWI557727B (zh) * 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
US8908796B1 (en) * 2013-05-15 2014-12-09 University Of South Florida Orthogonal frequency division multiplexing (OFDM) transmitter and receiver windowing for adjacent channel interference (ACI) suppression and rejection
US9691406B2 (en) * 2013-06-05 2017-06-27 Dolby Laboratories Licensing Corporation Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
CN105474313B (zh) 2013-06-21 2019-09-06 弗劳恩霍夫应用研究促进协会 时间缩放器、音频解码器、方法和计算机可读存储介质
KR101953613B1 (ko) 2013-06-21 2019-03-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
US9564136B2 (en) 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US9747922B2 (en) * 2014-09-19 2017-08-29 Hyundai Motor Company Sound signal processing method, and sound signal processing apparatus and vehicle equipped with the apparatus
EP3230980B1 (en) * 2014-12-09 2018-11-28 Dolby International AB Mdct-domain error concealment
CN105070292B (zh) * 2015-07-10 2018-11-16 珠海市杰理科技股份有限公司 音频文件数据重排序的方法和系统
CN107924683B (zh) * 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
US9990317B2 (en) * 2015-11-24 2018-06-05 Qualcomm Incorporated Full-mask partial-bit-field (FM-PBF) technique for latency sensitive masked-write
GB2547877B (en) * 2015-12-21 2019-08-14 Graham Craven Peter Lossless bandsplitting and bandjoining using allpass filters
EP3276620A1 (en) * 2016-07-29 2018-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis
US11468905B2 (en) * 2016-09-15 2022-10-11 Nippon Telegraph And Telephone Corporation Sample sequence converter, signal encoding apparatus, signal decoding apparatus, sample sequence converting method, signal encoding method, signal decoding method and program
MX2019005147A (es) 2016-11-08 2019-06-24 Fraunhofer Ges Forschung Aparato y metodo para codificar o decodificar una se?al multicanal usando una ganancia lateral y una ganancia residual.
EP3616197A4 (en) 2017-04-28 2021-01-27 DTS, Inc. AUDIO ENCODER WINDOW SIZES AND TIME-FREQUENCY TRANSFORMATIONS
CN109389986B (zh) 2017-08-10 2023-08-22 华为技术有限公司 时域立体声参数的编码方法和相关产品
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
CN110556117B (zh) * 2018-05-31 2022-04-22 华为技术有限公司 立体声信号的编码方法和装置
TWI681384B (zh) * 2018-08-01 2020-01-01 瑞昱半導體股份有限公司 音訊處理方法與音訊等化器
EP3644313A1 (en) * 2018-10-26 2020-04-29 Fraunhofer Gesellschaft zur Förderung der Angewand Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction
CN111341303B (zh) * 2018-12-19 2023-10-31 北京猎户星空科技有限公司 一种声学模型的训练方法及装置、语音识别方法及装置
KR20220065758A (ko) * 2019-09-20 2022-05-20 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 코딩 블록의 스케일링 프로세스
TWI825492B (zh) * 2020-10-13 2023-12-11 弗勞恩霍夫爾協會 對多個音頻對象進行編碼的設備和方法、使用兩個以上之相關音頻對象進行解碼的設備和方法、電腦程式及資料結構產品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000268510A (ja) 1999-03-19 2000-09-29 Victor Co Of Japan Ltd 符号化装置
JP2000268509A (ja) 1999-03-19 2000-09-29 Victor Co Of Japan Ltd 符号化装置
US20020176353A1 (en) 2001-05-03 2002-11-28 University Of Washington Scalable and perceptually ranked signal coding and decoding
WO2002103682A1 (en) 2001-06-15 2002-12-27 Sony Corporation Acoustic signal encoding method and apparatus, acoustic signal decoding method and apparatus, and recording medium

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4074069A (en) 1975-06-18 1978-02-14 Nippon Telegraph & Telephone Public Corporation Method and apparatus for judging voiced and unvoiced conditions of speech signal
US5222189A (en) 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
GB2258372B (en) 1991-08-02 1995-05-31 Sony Corp Apparatus for and methods of recording and/or reproducing digital data
US5903454A (en) * 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
US5347611A (en) 1992-01-17 1994-09-13 Telogy Networks Inc. Apparatus and method for transparent tone passing over narrowband digital channels
US5377302A (en) * 1992-09-01 1994-12-27 Monowave Corporation L.P. System for recognizing speech
US5623577A (en) 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5632003A (en) 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
US5451954A (en) 1993-08-04 1995-09-19 Dolby Laboratories Licensing Corporation Quantization noise suppression for encoder/decoder system
US5623003A (en) * 1994-03-29 1997-04-22 Kansai Paint Co., Ltd. Coating compositions containing polyester resin, epoxy resins and an anticorrosion pigment
US5646961A (en) * 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
GB9509831D0 (en) 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
US5987181A (en) 1995-10-12 1999-11-16 Sharp Kabushiki Kaisha Coding and decoding apparatus which transmits and receives tool information for constructing decoding scheme
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
EP0857392B1 (en) * 1995-10-25 2004-08-11 Sarnoff Corporation Overlapping block zerotree wavelet image coder
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5890106A (en) 1996-03-19 1999-03-30 Dolby Laboratories Licensing Corporation Analysis-/synthesis-filtering system with efficient oddly-stacked singleband filter bank using time-domain aliasing cancellation
FR2747225B1 (fr) * 1996-04-03 1998-04-30 France Telecom Systeme de codage et systeme de decodage d'un signal, notamment d'un signal audionumerique
US5845249A (en) * 1996-05-03 1998-12-01 Lsi Logic Corporation Microarchitecture of audio core for an MPEG-2 and AC-3 decoder
US5781144A (en) * 1996-07-03 1998-07-14 Litton Applied Technology Wide band video signal denoiser and method for denoising
US6092041A (en) 1996-08-22 2000-07-18 Motorola, Inc. System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
JP3622365B2 (ja) * 1996-09-26 2005-02-23 ヤマハ株式会社 音声符号化伝送方式
SG54383A1 (en) 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
ATE371298T1 (de) 1996-11-07 2007-09-15 Koninkl Philips Electronics Nv Übertragung eines bitstromsignals
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
KR100261254B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100266578B1 (ko) 1997-06-11 2000-09-15 구자홍 자동 음색보정 방법 및 장치
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6144937A (en) * 1997-07-23 2000-11-07 Texas Instruments Incorporated Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information
US6006179A (en) 1997-10-28 1999-12-21 America Online, Inc. Audio codec using adaptive sparse vector quantization with subband vector classification
US6091773A (en) 1997-11-12 2000-07-18 Sydorenko; Mark R. Data compression method and apparatus
US6081783A (en) * 1997-11-14 2000-06-27 Cirrus Logic, Inc. Dual processor digital audio decoder with shared memory data transfer and task partitioning for decompressing compressed audio data, and systems and methods using the same
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
JP3802219B2 (ja) 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
US6115689A (en) 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6029126A (en) 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
WO1999062189A2 (en) * 1998-05-27 1999-12-02 Microsoft Corporation System and method for masking quantization noise of audio signals
US6216107B1 (en) 1998-10-16 2001-04-10 Ericsson Inc. High-performance half-rate encoding apparatus and method for a TDM system
GB2351884B (en) * 1999-04-10 2002-07-31 Peter Strong Data transmission method
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
US6434519B1 (en) 1999-07-19 2002-08-13 Qualcomm Incorporated Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder
US6446037B1 (en) 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
JP4055336B2 (ja) 2000-07-05 2008-03-05 日本電気株式会社 音声符号化装置及びそれに用いる音声符号化方法
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US6868114B2 (en) * 2001-01-18 2005-03-15 The Titan Corporation Interference suppression in a spread spectrum communications system using non-linear frequency domain excision
SE0101175D0 (sv) * 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filterbanks
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US20060008000A1 (en) * 2002-10-16 2006-01-12 Koninikjkled Phillips Electronics N.V. Fully scalable 3-d overcomplete wavelet video coding using adaptive motion compensated temporal filtering
JP2006508385A (ja) * 2002-11-27 2006-03-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 正弦波オーディオ符号化
AU2003274526A1 (en) * 2002-11-27 2004-06-18 Koninklijke Philips Electronics N.V. Method for separating a sound frame into sinusoidal components and residual noise
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
KR100940531B1 (ko) * 2003-07-16 2010-02-10 삼성전자주식회사 광대역 음성 신호 압축 및 복원 장치와 그 방법
US20070153731A1 (en) * 2006-01-05 2007-07-05 Nadav Fine Varying size coefficients in a wireless local area network return channel

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000268510A (ja) 1999-03-19 2000-09-29 Victor Co Of Japan Ltd 符号化装置
JP2000268509A (ja) 1999-03-19 2000-09-29 Victor Co Of Japan Ltd 符号化装置
US20020176353A1 (en) 2001-05-03 2002-11-28 University Of Washington Scalable and perceptually ranked signal coding and decoding
WO2002103682A1 (en) 2001-06-15 2002-12-27 Sony Corporation Acoustic signal encoding method and apparatus, acoustic signal decoding method and apparatus, and recording medium

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016204579A1 (ko) * 2015-06-17 2016-12-22 삼성전자 주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
WO2016204581A1 (ko) * 2015-06-17 2016-12-22 삼성전자 주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
CN107771346A (zh) * 2015-06-17 2018-03-06 三星电子株式会社 实现低复杂度格式转换的内部声道处理方法和装置
US10490197B2 (en) 2015-06-17 2019-11-26 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
US10497379B2 (en) 2015-06-17 2019-12-03 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
US11404068B2 (en) 2015-06-17 2022-08-02 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
US11810583B2 (en) 2015-06-17 2023-11-07 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion

Also Published As

Publication number Publication date
RU2402160C2 (ru) 2010-10-20
JP2008547043A (ja) 2008-12-25
JP2012098759A (ja) 2012-05-24
US7548853B2 (en) 2009-06-16
NZ590418A (en) 2011-08-26
IL187402A0 (en) 2008-02-09
EP1891740B1 (en) 2019-01-09
PL1891740T3 (pl) 2019-07-31
WO2007074401A3 (en) 2007-11-29
WO2007074401A2 (en) 2007-07-05
PL2479750T3 (pl) 2014-08-29
TR200806842T1 (tr) 2008-11-21
EP2479750A1 (en) 2012-07-25
JP5291815B2 (ja) 2013-09-18
RU2008101778A (ru) 2009-07-27
CA2853987A1 (en) 2007-07-05
TR200806843T1 (tr) 2008-10-21
TR200708666T1 (tr) 2008-11-21
CN101199121B (zh) 2012-03-21
EP1891740A2 (en) 2008-02-27
CN101199121A (zh) 2008-06-11
US20070063877A1 (en) 2007-03-22
CA2608030A1 (en) 2007-07-05
CA2608030C (en) 2015-08-11
KR20080025377A (ko) 2008-03-20
NZ563337A (en) 2011-03-31
EP1891740A4 (en) 2011-09-14
CA2853987C (en) 2017-09-12
EP2479750B1 (en) 2014-03-12
IL187402A (en) 2011-07-31
AU2006332046B2 (en) 2011-08-18
JP5164834B2 (ja) 2013-03-21
HK1171859A1 (en) 2013-04-05
AU2006332046A1 (en) 2007-07-05
NZ593517A (en) 2011-11-25
HK1117655A1 (en) 2009-01-16
ES2717606T3 (es) 2019-06-24

Similar Documents

Publication Publication Date Title
KR101325339B1 (ko) 계층적 필터뱅크 및 다중 채널 조인트 코딩을 이용한 인코더 및 디코더 그리고 그 방법들과 시간 도메인 출력신호 및 입력신호의 시간 샘플을 재구성하는 방법, 그리고 입력신호를 필터링하는 방법
EP2308045B1 (en) Compression of audio scale-factors by two-dimensional transformation
US7333929B1 (en) Modular scalable compressed audio data stream
KR100561869B1 (ko) 무손실 오디오 부호화/복호화 방법 및 장치
KR101679083B1 (ko) 2개의 블록 변환으로의 중첩 변환의 분해
EP2372706B1 (en) Method and apparatus for encoding excitation patterns from which the masking levels for an audio signal encoding are determined
EP2993665A1 (en) Method and apparatus for coding or decoding subband configuration data for subband groups
AU2011205144B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
AU2011221401B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
KR20000056661A (ko) 디지털 오디오 데이터의 역방향 디코딩 방법
JP3361790B2 (ja) オーディオ信号符号化方法、オーディオ信号復号化方法およびオーディオ信号符号化/復号化装置と前記方法を実施するプログラムを記録した記録媒体
Argenti et al. Audio decoding with frequency and complexity scalability

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171018

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191018

Year of fee payment: 7