KR102205824B1 - 오디오 변환 코딩에서의 오버랩 비율의 신호 적응형 전환을 위한 인코더, 디코더, 및 방법 - Google Patents

오디오 변환 코딩에서의 오버랩 비율의 신호 적응형 전환을 위한 인코더, 디코더, 및 방법 Download PDF

Info

Publication number
KR102205824B1
KR102205824B1 KR1020187011220A KR20187011220A KR102205824B1 KR 102205824 B1 KR102205824 B1 KR 102205824B1 KR 1020187011220 A KR1020187011220 A KR 1020187011220A KR 20187011220 A KR20187011220 A KR 20187011220A KR 102205824 B1 KR102205824 B1 KR 102205824B1
Authority
KR
South Korea
Prior art keywords
audio samples
group
time domain
domain audio
samples
Prior art date
Application number
KR1020187011220A
Other languages
English (en)
Other versions
KR20180067552A (ko
Inventor
크리스티안 헴리히
베른트 에들러
토비아스 슈베글러
플로리안 슈
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20180067552A publication Critical patent/KR20180067552A/ko
Application granted granted Critical
Publication of KR102205824B1 publication Critical patent/KR102205824B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Discrete Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더가 제공된다. 디코더는 스펙트럼 도메인 오디오 샘플로부터 제1 그룹 및 시간 도메인 중간 오디오 샘플의 제2 그룹을 생성하기 위한 제1 디코딩 모듈(110)을 포함한다. 또한, 디코더는 시간 도메인 중간 오디오 샘플의 제1 그룹을 5% 초과 및 최대 50%의 오버랩으로 시간 도메인 중간 오디오 샘플의 제2 그룹과 오버랩 가산하는 오버랩 가산기(130)를 포함한다. 또한, 디코더는 스펙트럼 도메인 오디오 샘플로부터 제3 그룹 및 시간 도메인 중간 오디오 샘플의 제4 그룹을 생성하기 위한 제2 디코딩 모듈(120)을 포함한다. 또한, 디코더는 출력 인터페이스(140)를 포함한다. 오버랩 가산기(130)는 적어도 시간 도메인 중간 오디오 샘플의 제3 그룹을 60% 초과 및 100% 미만의 오버랩으로 시간 도메인 중간 오디오 샘플의 제4 그룹과 오버랩 가산하도록 구성된다. 또한, 오버랩 가산기(130)는 적어도 제2 그룹 및 시간 도메인 중간 오디오 샘플의 제3 그룹을 오버랩 가산하거나 또는 적어도 제4 그룹 및 시간 도메인 중간 오디오 샘플의 제1 그룹을 오버랩 가산하도록 구성된다.

Description

오디오 변환 코딩에서의 오버랩 비율의 신호 적응형 전환을 위한 인코더, 디코더, 및 방법
본 발명은 오디오 신호 인코딩, 프로세싱, 및 디코딩에 관한 것으로, 특히 오디오 변환 코딩에서 오버랩 비율의 신호 적응형 스펙트럼 전환을 위한 인코더, 디코더, 및 방법에 관한 것이다.
지난 20년 동안, MPEG-1 Layer 3(MP3) 및 AC-2(Dolby Digital) 코더의 개발 이후로, 지각 오디오 코딩은 Princen 등([1], [2] 참조)에 의해 소개된 수정된 이산 코사인 변환(modified discrete cosine transform, MDCT)에 전적으로 의존해 왔고, 파형 보존 스펙트럼 양자화에 있어서 변조되고 랩핑된 변환(modulated lapped transform, MLT)이라는 이름 하에 또한 조사해왔다. 이 변환의 역은 프레임 인덱스 i에 대해 길이 M의 스펙트럼
Figure 112018039506725-pct00001
으로 고려하여,
Figure 112018039506725-pct00002
(1)
와 같이 쓸 수 있으며,
Figure 112018039506725-pct00003
이고, N은 윈도우 길이이다.
Figure 112018039506725-pct00004
이기 때문에,
오버랩 비율은 50%이다. 최근 MPEG-2 고급 오디오 코딩(Advanced Audio Coding, ACC) 규격([4], [5] 참조)을 기반으로 하는 이 개념은 MDCT 도메인에서 노이즈 충전과 같은 파라미터 도구를 허용하도록 확장되었다. MPEG-H 3D 오디오 프레임워크([6], [7] 참조)는 예를 들어 세미 파라미터 변환 도메인 코딩, 예를 들어 일부 주파수 위의 제로로 된 스펙트럼 라인의 노이즈 충전 기능; 세미 스펙트럼 조인트 스테레오 코딩을 위한 스테레오 충전 기능([8], [9] 참조); 및 대역폭 확장을 위한 지능형 갭 충전(Intelligent Gap Filling, IGF) 기능([10] 참조)을 제공한다.
[9]에서, IGF와 스테레오 충전의 조합은 [8]에서 스펙트럼 밴드 대체(spectral band substitution, SBS)라는 제목을 붙였는데, 이는 간결하지 않은 채널 간 위상차를 가진 입력을 위한 변환 커널 전환을 보조하여 대부분의 신호에 대해 좋은 오디오 품질을 제공하는 것으로 나타났다. 그러나, 준 정적 고조파 세그먼트에서 주관적인 성능은 의사(pseudo) QMF 도메인에서 스펙트럼 대역 복제(spectral band replication, SBR) 및 "통합 스테레오" MPEG 서라운드를 사용하는 대안적인 높은 지연/복잡도 3D 오디오 구성보다 낮다. 이 거동에 대한 설명은 후자의 구성에서 사용되는 MDCT의 높은 주파수 해상도이다: 주어진 출력 샘플 레이트인 48kHz에서 M 크기 코어 변환은 24kHz 다운샘플링된 다운 믹스 및 잔여 신호에서 동작하여 프레임 길이를 두 배로 늘린다.
SBS 기반의 3D 오디오 코딩은 지연, 복잡도, 및 시간 해상도의 이점([8] 참조)으로 인해 적어도 단일 및 스테레오 포맷의 경우 변종을 나타내고, - 프레임 길이를 유지하면서 - 디자인을 향상시켜서 단일 악기 및 다른 음조 녹음에서도 QMF 기반 구성의 성능과 일치시킬 수 있는 것이 바람직하다. 준 고정 세그먼트에서 스펙트럼 효율을 높이기 위한 가능한 해결책은 Malvar가 제안한 역 랩핑된 변환(inverse lapped transform, ELT)이며, 역(합성) 버전은
Figure 112018039506725-pct00005
(
Figure 112018039506725-pct00006
)를 제외하고 (1)과 동일하다.
따라서, 공식 (1)은 역 ELT뿐만 아니라 역 MLT를 나타낸다. 유일한 차이점은 역 MLT의 경우에, n 은
Figure 112018039506725-pct00007
인 정의되며, 예를 들어
Figure 112018039506725-pct00008
, 역 ELT인 경우에, n은
Figure 112018039506725-pct00009
인 것으로 정의되며, 예를 들어,
Figure 112018039506725-pct00010
이다.
불행하게도, 아래에 보여지듯이, ELT의 오버랩 비율은 MDCT의 50% 대신에 적어도 75%이며, 종종 드럼 히트 또는 톤 온셋과 같은 전이(transient) 파형 부분의 가청 아티팩트를 초래한다. 더욱이, 상이한 길이의 ELT 사이 또는 ELT와 MLT 사이의 블록 길이 전환을 위한 실용적인 해결책은 그러한 전이 프레임에 대해 MDCT 코덱에 적용된 기술과 유사하게 제시되지 않았으며 이론적인 연구만이 발표되었다 (예를 들어, [13], [14], [15], [16], [17] 참조).
본 발명의 목적은 오디오 신호 인코딩, 프로세싱, 및 디코딩에 대한 향상된 개념을 제공하는 것이다. 본 발명의 목적은 청구항 1에 따른 디코더에 의해, 청구항 26에 따른 인코더에 의해, 청구항 52에 따른 시스템에 의해, 청구항 55에 따른 방법에 의해, 청구항 56에 따른 방법에 의해, 그리고 청구항 57항에 따른 컴퓨터 프로그램에 의해 해결된다.
복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더가 제공된다. 디코더는 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제1 그룹 및 제2 그룹을 생성하기 위한 제1 디코딩 모듈을 포함한다. 또한, 디코더는 시간 도메인 중간 오디오 샘플의 제1 그룹을 5% 초과 및 최대 50%의 오버랩으로 시간 도메인 중간 오디오 샘플의 제2 그룹과 오버랩 가산하는 오버랩 가산기를 포함한다. 또한, 디코더는 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제3 그룹 및 제4 그룹을 생성하기 위한 제2 디코딩 모듈을 포함한다. 또한, 디코더는 출력 인터페이스를 포함한다. 오버랩 가산기는 적어도, 시간 도메인 중간 오디오 샘플의 제3 그룹을 60% 초과 및 100% 미만의 오버랩으로 시간 도메인 중간 오디오 샘플의 제4 그룹과 오버랩 가산하도록 구성된다. 또한, 오버랩 가산기는 적어도 시간 도메인 중간 오디오 샘플의 제2 그룹 및 제3 그룹을 오버랩 가산하거나 또는 적어도 시간 도메인 중간 오디오 샘플의 제4 그룹 및 제1 그룹을 오버랩 가산하도록 구성된다.
특히, 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더가 제공된다. 디코더는 스펙트럼 도메인 오디오 샘플의 제1 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제1 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제1 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제2 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제2 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제2 그룹을 디코딩하기 위한 제1 디코딩 모듈을 포함한다.
또한 디코더는 오버랩 가산기를 포함하며, 오버랩 가산기는 정확히 2개 그룹의 시간 도메인 중간 오디오 샘플의 오버랩 가산을 수행하도록 구성되며, 상기 정확히 2개의 그룹은 시간 도메인 중간 오디오 샘플의 제1 그룹 및 제2 그룹이고, 오버랩 가산기는 상기 정확히 2개의 그룹을 5% 초과 및 최대 50%의 오버랩으로 오버랩 가산하도록 구성되고, 상기 정확히 2개의 그룹의 오버랩 가산은 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플을 생성하게 한다.
또한, 디코더는 스펙트럼 도메인 오디오 샘플의 제3 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제3 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제3 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제4 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제4 그룹을 디코딩하기 위한 제2 디코딩 모듈을 포함한다.
또한, 디코더는 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플, 오디오 신호의 제2 복수의 시간 도메인 오디오 출력 샘플, 및 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플을 출력하기 위한 출력 인터페이스를 포함한다.
오버랩 가산기는 적어도, 시간 도메인 중간 오디오 신호 샘플의 제3 그룹을 60% 초과 100% 미만의 오버랩으로 시간 도메인 중간 오디오 샘플의 제4 그룹과 오버랩 가산하는 것을 사용하여 제2 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성된다.
또한, 오버랩 가산기는 시간 도메인 중간 오디오 샘플의 제3 그룹과 적어도 시간 도메인 중간 오디오 샘플의 제2 그룹의 오버랩 가산을 사용하여 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성되고, 오버랩 가산기는 시간 도메인 중간 오디오 샘플의 제1 그룹과 적어도 시간 도메인 중간 오디오 샘플의 제4 그룹의 오버랩 가산을 사용하여 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성된다.
또한, 시간 도메인 오디오 샘플의 복수의 그룹으로부터 스펙트럼 도메인 오디오 샘플의 복수의 그룹을 생성함으로써 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하는 인코더가 제공된다.
인코더는 시간 도메인 오디오 샘플의 그룹 중 제1 그룹으로부터 스펙트럼 도메인 오디오 샘플의 그룹 중 제1 그룹을 생성하고, 시간 도메인 오디오 샘플의 그룹 중 제2 그룹으로부터 스펙트럼 도메인 오디오 샘플의 그룹 중 제2 그룹을 생성하기 위한 제1 인코딩 모듈을 포함하고, 시간 도메인 오디오 샘플의 제1 그룹 및 시간 도메인 오디오 샘플의 제2 그룹은 시간 도메인 오디오 샘플의 그룹들 내에서 시간 상으로 이웃하고, 시간 도메인 오디오 샘플의 제1 그룹은 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플의 5% 초과 및 최대 50%를 포함하고, 시간 도메인 오디오 샘플의 제2 그룹은 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플의 5% 초과 및 최대 50%를 포함한다.
또한, 인코더는 시간 도메인 오디오 샘플의 그룹 중 제3 그룹으로부터 스펙트럼 도메인 오디오 샘플의 제3 그룹을 생성하고, 시간 도메인 오디오 샘플의 그룹 중 제4 그룹으로부터 스펙트럼 도메인 오디오 샘플의 그룹 중 제4 그룹을 생성하기 위한 제2 인코딩 모듈을 포함하고, 시간 도메인 오디오 샘플의 제3 그룹은 시간 도메인 오디오 샘플의 제4 그룹의 오디오 샘플의 60% 초과 및 100% 미만을 포함하고, 시간 도메인 오디오 샘플의 제4 그룹은 시간 도메인 오디오 샘플의 제3 그룹의 오디오 샘플의 60% 초과 및 100% 미만을 포함한다.
또한, 인코더는 제1 스펙트럼 도메인 오디오 샘플, 제2 스펙트럼 도메인 오디오 샘플, 제3 스펙트럼 도메인 오디오 샘플, 및 제4 스펙트럼 도메인 오디오 샘플을 출력하기 위한 출력 모듈을 포함한다.
시간 도메인 오디오 샘플의 제3 그룹은 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플을 포함하거나, 시간 도메인 오디오 샘플의 제4 그룹은 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플을 포함한다.
또한, 시스템이 제공된다. 시스템은 전술한 실시예 중 하나에 따른 인코더 및 전술한 실시예 중 하나에 따른 디코더를 포함한다. 인코더는 복수의 스펙트럼 도메인 오디오 샘플을 생성함으로써 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하도록 구성된다. 또한, 디코더는 인코더로부터 복수의 스펙트럼 도메인 오디오 샘플을 수신하도록 구성된다. 또한, 디코더는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하도록 구성된다.
또한, 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하는 방법이 제공된다. 방법은:
- 스펙트럼 도메인 오디오 샘플의 제1 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제1 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제1 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제2 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제2 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제2 그룹을 디코딩하는 단계.
- 정확히 2개의 그룹의 시간 도메인 중간 오디오 샘플을 오버랩 가산하는 단계 - 상기 정확히 2개의 그룹은 시간 도메인 중간 오디오 샘플의 제1 그룹 및 제2 그룹이고, 상기 정확히 2개의 그룹은 5% 초과 및 최대 50%의 오버랩으로 오버랩 가산되고, 상기 정확히 2개의 그룹의 오버랩 가산은 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플을 생성하게 함 -.
- 스펙트럼 도메인 오디오 샘플의 제3 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제3 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제3 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제4 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제4 그룹을 디코딩하는 단계.
- 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플, 오디오 신호의 제2 복수의 시간 도메인 오디오 출력 샘플, 및 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플을 출력하는 단계.
- 적어도 시간 도메인 중간 오디오 신호 샘플의 제3 그룹을 60% 초과 및 100% 미만의 오버랩으로 시간 도메인 중간 오디오 샘플의 제4 그룹과 오버랩 가산하는 것을 사용하여 제2 복수의 시간 도메인 오디오 출력 샘플을 획득하는 단계. 및:
- 적어도 시간 도메인 중간 오디오 샘플의 제3 그룹과 시간 도메인 중간 오디오 샘플의 제2 그룹의 오버랩 가산을 사용하여 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하거나, 적어도 시간 도메인 중간 오디오 샘플의 제1 그룹과 시간 도메인 중간 오디오 샘플의 제4 그룹과의 오버랩 가산을 사용하여 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하는 단계를 포함한다.
또한, 시간 도메인 오디오 샘플의 복수의 그룹으로부터 스펙트럼 도메인 오디오 샘플의 복수의 그룹을 생성함으로써 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하는 방법이 제공된다. 인코더는:
- 시간 도메인 오디오 샘플의 그룹의 제1 그룹으로부터 스펙트럼 도메인 오디오 샘플의 그룹의 제1 그룹을 생성하고, 시간 도메인 오디오 샘플의 그룹의 제2 그룹으로부터 스펙트럼 도메인 오디오 샘플의 그룹의 제2 그룹을 생성하는 것 - 시간 도메인 오디오 샘플의 제1 그룹 및 시간 도메인 오디오 샘플의 제2 그룹은 시간 도메인 오디오 샘플의 그룹들 내에서 시간 상으로 이웃하고, 시간 도메인 오디오 샘플의 제1 그룹은 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플의 5% 초과 및 최대 50%를 포함하고, 시간 도메인 오디오 샘플의 제2 그룹은 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플의 5% 초과 및 최대 50%를 포함함 -.
- 시간 도메인 오디오 샘플의 그룹 중 제3 그룹으로부터 스펙트럼 도메인 오디오 샘플의 그룹의 제3 그룹을 생성하고, 시간 도메인 오디오 샘플의 그룹의 제4 그룹으로부터 스펙트럼 도메인 오디오 샘플의 그룹 중 제4 그룹을 생성하는 것 - 시간 도메인 오디오 샘플의 제3 그룹은 시간 도메인 오디오 샘플의 제4 그룹의 오디오 샘플의 60% 초과 및 100% 미만을 포함하고, 시간 도메인 오디오 샘플의 제4 그룹은 시간 도메인 오디오 샘플의 제3 그룹의 오디오 샘플의 60% 초과 및 100% 미만을 포함함 -.
- 제1 스펙트럼 도메인 오디오 샘플, 제2 스펙트럼 도메인 오디오 샘플, 제3 스펙트럼 도메인 오디오 샘플, 및 제4 스펙트럼 도메인 오디오 샘플을 출력하는 것을 포함한다.
시간 도메인 오디오 샘플의 제3 그룹은 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플을 포함하거나, 시간 도메인 오디오 샘플의 제4 그룹은 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플을 포함한다.
또한, 컴퓨터 프로그램이 제공되며, 컴퓨터 프로그램 각각은 컴퓨터 또는 신호 프로세서 상에서 실행되는 경우 전술한 방법 중 하나를 구현하도록 구성되어, 전술한 방법 각각은 컴퓨터 프로그램 중 하나에 의해 구현된다.
주파수 도메인 양자화를 위해 50%의 오버랩 비율을 갖는 수정된 이산 코사인 변환(Modified Discrete Cosine Transform, MDCT)를 적용하는 최신 지각 오디오 코더는 낮은 비트 레이트에서도 우수한 코딩 품질을 제공한다.
그러나, 실시예는 준 정적 고조파 입력에 대해서도 수용 가능한 저속 성능을 위해 비교적 긴 프레임이 요구되어 알고리즘 대기 시간이 증가되고 시간적 코딩 해상도가 감소한다는 사실에 기초한다.
일부 실시예는 랩핑된 변환 코딩에서의 오버랩 비율을 현대의 오디오 코덱에서 사용되는 종래의 50%를 초과하여 확장시킨다.
일부 실시예에 따르면, 75% 오버랩 비율을 갖는 확장된 랩핑된 변환(extended lapped transform, ELT)이 그러한 입력에 이용된다. 전이 세그먼트의 코딩을 위한 높은 시간 해상도를 유지하기 위해, ELT 정의는 완벽한 시간 도메인 앨리어싱 제거(time-domain aliasing cancelation, TDAC)를 가지고 프레임 길이의 증가가 없는 (준 정적인 경우) ELT와 (비 정적 또는 비 음조 영역인 경우) MDCT 사이의 프레임 와이즈(wise) 전환이 가능해지도록 수정된다.
일부 실시예는 ELT 개념의 창의적인 변형 및 ELT 공식의 창의적 변형을 제공하여, 50% 및 75% 오버랩 비율을 갖는 변환 사이의 전이를 완벽하게 재구성할 수 있게 한다. 실시예에서, 50의 오버랩 비율을 갖는 MDCT 코딩과 75%의 비율을 갖는 ELT 코딩 사이의 적절한 TDAC가 달성된다.
일부 실시예에서, 신규하고 창의적인 ELT 윈도우가 제공된다. 예를 들어, 일부 실시예에서, 프레이밍 아티팩트를 피하기 위해 향상된 사이드 로브 제거/로우 사이드 로브 레벨을 갖는 새로운 창의적인 ELT 윈도우 기능이 제공된다.
일부 실시예에 따르면, ELT 개념의 창의적인 변형 및 ELT 공식의 본 발명의 변형은 예를 들어 신규하고 창의적인 ELT 윈도우와 조합하여 사용될 수 있다.
일부 실시예는 전환된 비율 원리를 적용하는 신호 적응형 스펙트럼-시간 컨버터 코딩 방식을 제공한다. MPEG-H 3D 오디오 사양을 기반으로 하는 완전한 코딩 체계가 제공된다 (MPEG-H 3D 오디오 사양에 대한 자세한 내용은 [7] 참조).
실시예는 MDCT, MDST, 및 코사인 또는 사인 변조된 ELT 코딩 사이에 신호 적응형 스펙트럼 시간 컨버팅으로 전환하기 위한 인코더, 디코더, 시스템, 및 방법을 제공한다. 실시예는 높은 시간 해상도로 전이적 입력의 코딩을 실현한다.
바람직한 실시예가 종속항에 제공된다.
다음에서, 본 발명의 실시예가 도면을 참조하여보다 상세히 설명되며, 여기서:
도 1a는 일 실시예에 따른 디코더를 도시하고,
도 1b는 일 실시예에 따른 인코더를 도시하고,
도 1c는 일 실시예에 따른 시스템을 도시하고,
도 2a는 도 1은 짧은 그룹에서부터 긴 그룹으로의 전환이 수행되는 경우, 일 실시예에 따른 시간 도메인 오디오 샘플의 4개의 그룹의 오버랩을 도시하고,
도 2b는 짧은 그룹에서부터 긴 그룹으로의 전환이 수행되는 경우, 일 실시예에 따른 시간 도메인 오디오 샘플의 6개의 그룹의 오버랩을 도시하며,
도 3a는 도 1은 일 실시예에 따른, 긴 그룹에서 짧은 그룹으로의 전환이 수행되는 경우, 시간 도메인 오디오 샘플의 6개의 그룹의 오버랩을 도시하고,
도 3b는 도 1은 일 실시예에 따른, 긴 그룹에서 짧은 그룹으로의 전환이 수행되는 경우, 시간 도메인 오디오 샘플의 6개의 그룹의 오버랩을 도시하고,
도 4는 MLT에 대한 도 4a, ELT에 대한 도 4b, 및 ELT를 통한 MLT에 대한 도 4c의 랩핑된 변환에서 오버랩 가산(overlap-add, OLA) 중의 TDAC를 도시하고,
도 5는 도 1은 실시예에 따른 전이 변환을 갖는 MLT에서 ELT로의 전환을 도시하며,도 5a는 부정확한 완전하지 않은 재구성을 도시하고, 도 5b는 바람직한 완전 재구성을 도시하고, 도 5c는 바람직한 (변경된) ELT를 통한 MLT를 도시하고,
도 6 은 실시예에 따른 전이 변환을 갖는 ELT에서 MLT로의 전환을 도시하고,
도 7은 도 7a의 MLT, 도 7b의 ELT, 및 도 7c의 실시예에 따른 완전한 재구성 윈도우 디자인을 도시하고,
도 8은 실시예에 따른 4개의 입력 신호에 대한 결과적인 프레임 와이즈 ELT 및 MDCT 선택을 도시하고,
도 9는 실시예에 따른 95% 신뢰 구간을 갖는 청취 테스트 결과의 확대도를 도시하고,
도 10은 도 1은 일 실시예에 따른 복수의 분석 윈도우를 도시하고,
도 11은 일 실시예에 따른 복수의 합성 윈도우를 도시하고,
도 12는 일부 특정 실시예에 따른 랩핑된 변환을 갖는 기본 필터 뱅크를 도시하며, 도 12a는 MDCT/MDST를 도시하고, 도 12b는 ELT를 도시하고,
도 13은 일부 특정 실시예에 따른 고르게 적층된 필터 뱅크에서의 TDAC를 도시하며, 도 13a는 Princen-Bradley를 도시하고, 도 13b는 MELT-II를 도시하고,
도 14는 특정 실시예에 따른 MELT-IV 필터 뱅크에 대한 특정 TDAC 호환 커널 전환을 도시하며, 도 14a는 코사인 변조로부터 사인 변조로의 전이를 도시하고,도 14(b)는 사인으로부터 코사인 변조로의 전이를 도시하고,
도 15는 일시적인 전이 동안 대시에 의해 지시된 특별한 "정지-시작" 형상을 갖는 특정 실시예에 따른 향상되고 정확한 윈도윙을 도시하며, 도 15a는 75%에서 50%의 오버랩 비율로의 일시적인 전이를 도시하고, 도 15b는 50%에서 75% 오버랩 비율로의 일시적인 전이를 도시한다.
특정 실시예가 상세히 설명되기 전에, 랩핑된 변환 코딩의 원리가 설명된다.
ELT, MLT, 및 MDCT는 전술한 바와 같이 일반 랩핑된 변형 공식의 특정 구현으로 간주될 수 있으며, 공식 (1)은
Figure 112018039506725-pct00011
인 경우 역을 결정하기 위한 것이고,
Figure 112018039506725-pct00012
(2)
는 순반향(분석)의 경우에 대한 것이다.
공식 (2)에서, cos( ) 함수는 (1, 2)에서 sin( ) 함수를 사용하여 수정된 이산 사인 변환(modified discrete sine transform, MDST)과 같은 사인 변조된 형식을 획득하는 것을 강조하기 위해 플레이스홀더(placeholder) cs( )를 변조된 복합 랩핑된 변환(Modulated Complex Lapped Transform, MCLT)([18]과 [8], [9] 참조)에 적용했다.
따라서, cs( )는 sin( ) 또는 cos( )을 사용할 수 있음을 나타내는 플레이스홀더이다.
(순방향) ELT(ELT 분석 수행)에 대한 역 MLT(MLT의 합성 구현) 또는 공식 (2)에 대한 공식 (1) 대신에, MLT(예를 들어, MDCT 또는 MDST) 또는 ELT가 수행되는 경우, 랩핑된 변환 방정식으로서 복수의 다른 공식이 사용된다. 이러한 방정식의 예는 이제 공식 (2a)-(2j)로 표시된다.
모든 공식 (2a) - (2j) 및 아래의 공식 (4a) - (4h)에서,
Figure 112018039506725-pct00013
Figure 112018039506725-pct00014
이 적용되고,
Figure 112018039506725-pct00015
는 k에서의 주파수 샘플이고,
Figure 112018039506725-pct00016
은 n에서의 시간 샘플이다.
일반화된 랩핑된 변형 공식은 예를 들어 공식 (2a) 및 공식 (2b)에서와 같이 공식화될 수 있다:
순방향(분석) 일반화된 랩핑된 변환 정의:
Figure 112018039506725-pct00017
(2a)
역(합성) 일반화된 랩핑된 변환 정의:
Figure 112018039506725-pct00018
(2b)
50% 오버랩 비율을 갖는 랩핑된 변환은 예를 들어 공식 (2c) - (2j)와 같이 공식화될 수 있다:
MDCT-IV라고 불리는 순방향(분석), MDCT 타입 4,
Figure 112018039506725-pct00019
:
Figure 112018039506725-pct00020
(2c)
IMDCT-IV라고 불리는 역(합성), MDCT 타입 4,
Figure 112018039506725-pct00021
:
Figure 112018039506725-pct00022
(2d)
MDCT-II라고 불리는 순방향(분석) MDCT, 타입 2,
Figure 112018039506725-pct00023
:
Figure 112018039506725-pct00024
(2e)
IMDCT-II라고 불리는 역(합성), MDCT 타입 2,
Figure 112018039506725-pct00025
:
Figure 112018039506725-pct00026
(2f)
MDST-IV라고 불리는 불리는 순방향(분석) MDST, 타입 4,
Figure 112018039506725-pct00027
:
Figure 112018039506725-pct00028
(2g)
IMDST-IV라고 불리는 역(합성) MDST 타입 4,
Figure 112018039506725-pct00029
:
Figure 112018039506725-pct00030
(2h)
IMDST-II라고 불리는 순방향(분석), MDST 타입 2,
Figure 112018039506725-pct00031
:
Figure 112018039506725-pct00032
(2i)
IMDST-II라고 불리는 역(합성), MDST 타입 2,
Figure 112018039506725-pct00033
:
Figure 112018039506725-pct00034
(2j)
75% 오버랩 비율을 갖는 랩핑된 변환, 예를 들어 Malvar의 순방향 또는 역 확장되고 랩핑된 변환(ELT)는 예를 들어 N = L이고 n < L이긴 하나, 공식 (2c) 및 공식 (2d)와 동일하게 공식화될 수 있다.
각각 공식 (1) 및 공식 (2)의 분석 및 합성 변환에 종속된 후에 입력 신호 si (n)의 완벽한 재구성(PR)을 달성하기 위해, 적어도 스펙트럼 왜곡이 없는 경우에, (공식 1에서 a'로 표시됨) 양자화에 의해, L 사이즈 분석 입력
Figure 112018039506725-pct00035
뿐만 아니라 합성 출력
Figure 112018039506725-pct00036
을 가중하기 위해 윈도우
Figure 112018039506725-pct00037
이 사용된다.
Figure 112018039506725-pct00038
은 랩핑된 변환의 임계 샘플링 특성으로 인해 시간 도메인 앨리어싱(time domain aliasing, TDA)을 나타내기 때문에
Figure 112018039506725-pct00039
은 특정 디자인 제약 조건을 충족해야 한다 ([1], [2], [12] 참조). 고른
Figure 112018039506725-pct00040
인 ELT의 경우, 분석 및 합성을 위해 동일한 대칭적
Figure 112018039506725-pct00041
을 가정하면, 이는
Figure 112018039506725-pct00042
(3)
으로 주어진다.
MLT, MDCT 또는 MDST인 경우(
Figure 112018039506725-pct00043
, 이 3개의 항은 이후 상호 교환 가능하게 적용될 것이다), TDA는
Figure 112018039506725-pct00044
의 제1 시간 반을 오버랩 가산(overlap-and-add, OLA) 절차에 의해 이전 프레임
Figure 112018039506725-pct00045
의 제2 절반과 결합함으로써 상쇄된다. 결과적인 변환 간 오버랩 비율은
Figure 112018039506725-pct00046
이다.
Figure 112018039506725-pct00047
인 ELT의 경우에, OLA 단계는 제1 쿼터
Figure 112018039506725-pct00048
, 제2 쿼터
Figure 112018039506725-pct00049
, 제3 쿼터
Figure 112018039506725-pct00050
, 제4 쿼터
Figure 112018039506725-pct00051
를 결합해야 하므로 비율은
Figure 112018039506725-pct00052
으로 커진다.
도 4는 이 차이와 최악의 경우 프리 에코(pre-echo)(코딩 에러의 시간적 확산)를 보여준다. TDA와 완벽한 재건에 대한 보다 상세한 논의는 [15], [16], [17], [18], [19], 및 [20]에서 찾을 수 있다.
특히, 도 4는 MLT에 대한 도 4a, ELT에 대한 도 4b, 및 ELT를 통한 MLT에 대한 도 4c에서의 랩핑된 변환에서의 OLA 동안의 TDAC를 도시한다. 윈도우 아래의 라인의 길이는 최대 프리 에코를 나타낸다. ELT의 경우 최대 프리 에코가 MLT의 경우보다 길다는 것을 알 수 있다.
DCT-II에 기초한 고르게 적층된 선형 페이즈 ELT 또는 홀수 길이 ELT - 예를 들어 L = 3M - 가 또한 가능하고 ([21], [22] 참조), 또한 이하에 기술된 실시예는 또한 그러한 ELT에도 적용됨에 또한 유의해야 한다.
길이 4M ELT에 중점을 두면 (
Figure 112018039506725-pct00053
), 도 5a에 도시된 바와 같이, TDA 대칭성이 양립할 수 없기 때문에, MLT 코딩으로의 전환 및 MLT 코딩으로의 전환 중에 완벽한 재구성이 달성되지 않음을 관찰할 수 있다. 다시 말해, 인접한 짝수-홀수 조합 ([9], [19] 참조)의 필요성은 프레임 i-4와 i-3 사이에서 위반된다.
이제는 실시예가 상세히 설명된다.
도 1b는 시간 도메인 오디오 샘플의 복수의 그룹으로부터 스펙트럼 도메인 오디오 샘플의 복수의 그룹을 생성함으로써 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더를 도시한다.
인코더는 시간 도메인 오디오 샘플의 그룹의 제1 그룹으로부터 스펙트럼 도메인 오디오 샘플의 그룹의 제1 그룹을 생성하고, 시간 도메인 오디오 샘플의 그룹의 제2 그룹으로부터 스펙트럼 도메인 오디오 샘플의 그룹의 제2 그룹을 생성하기 위한 제1 인코딩 모듈(210)을 포함하고, 시간 도메인 오디오 샘플의 제1 그룹 및 시간 도메인 오디오 샘플의 제2 그룹은 시간 도메인 오디오 샘플의 그룹들 내에서 시간 상으로 이웃하고, 시간 도메인 오디오 샘플의 제1 그룹은 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플의 5% 초과 및 최대 50%를 포함하고, 시간 도메인 오디오 샘플의 제2 그룹은 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플의 5% 초과 및 최대 50%를 포함한다.
또한, 인코더는 시간 도메인 오디오 샘플의 그룹 중 제3 그룹으로부터 스펙트럼 도메인 오디오 샘플의 그룹의 제3 그룹을 생성하고, 시간 도메인 오디오 샘플의 그룹의 제4 그룹으로부터 스펙트럼 도메인 오디오 샘플의 그룹 중 제4 그룹을 생성하기 위한 제2 인코딩 모듈(220)을 포함하고, 시간 도메인 오디오 샘플의 제3 그룹은 시간 도메인 오디오 샘플의 제4 그룹의 오디오 샘플의 60% 초과 및 100% 미만을 포함하고, 시간 도메인 오디오 샘플의 제4 그룹은 시간 도메인 오디오 샘플의 제3 그룹의 오디오 샘플의 60% 초과 및 100% 미만을 포함한다.
또한, 인코더는 제1 스펙트럼 도메인 오디오 샘플, 제2 스펙트럼 도메인 오디오 샘플, 제3 스펙트럼 도메인 오디오 샘플, 및 제4 스펙트럼 도메인 오디오 샘플을 출력하기 위한 출력 모듈(230)을 포함한다.
시간 도메인 오디오 샘플의 제3 그룹은 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플을 포함하거나, 시간 도메인 오디오 샘플의 제4 그룹은 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플을 포함한다.
실시예는 특히, 시간 도메인 오디오 신호의 일부 부분에 대해서는, 더 높은 오버랩을 갖는 더 긴 변환 윈도우가 더 적합한 반면, 시간 도메인 오디오 신호의 부분의 다른 신호 그룹에 대해서는, 더 낮은 오버랩을 갖는 더 짧은 변환 윈도우가 더 적합하다는 것을 발견했다. 따라서, 서로 다른 변환 윈도우 사이의 전환은 런타임에 실현된다. 가청 아티팩트를 사용하지 않고 오디오 인코딩을 실현하기 위해, 윈도우 길이가 변경되더라도 이웃하는 변환 윈도우가 오버랩된다.
도 1b에서, 제1 인코딩 모듈(210)은 시간 도메인 오디오 샘플의 다른 그룹과 더 작은 오버랩을 갖는 시간 도메인 오디오 샘플의 더 작은 그룹을 인코딩하기 위한 것이다. 그러나, 제1 인코딩 모듈(210)에 대해서조차도, 적어도 일부 오버랩이 존재해야 하고, 5% 초과의 오버랩이 요구된다.
제2 인코딩 모듈(220)은 제1 인코딩 모듈(210)에 의해 프로세싱되는 그룹과 비교하여 더 큰 오버랩을 갖는 시간 도메인 오디오 샘플의 더 큰 그룹을 인코딩하기 위한 것이다. 최소 60% 를 초과하는 오버랩이 요구된다.
도 2a는 도 1은 짧은 그룹에서부터 긴 그룹으로의 전환이 수행되는 경우, 일 실시예에 따른 시간 도메인 오디오 샘플의 4개의 그룹의 오버랩을 도시한다.
특히, 시간 도메인 오디오 샘플의 제1 그룹(410), 시간 도메인 오디오 샘플의 제2 그룹(420), 시간 도메인 오디오 샘플의 제3 그룹(430), 및 시간 도메인 오디오 샘플의 제4 그룹(440)은 각각 대응하는 블록에 의해 개략적으로 도시된다. 파선은 오버랩 영역을 식별하는 데 도움이 된다.
알 수 바와 같이, 시간 도메인 오디오 샘플의 제1 그룹(410) 및 시간 도메인 오디오 샘플 제2 그룹(420)은 50% 오버랩을 갖는다. 따라서, 시간 도메인 오디오 샘플의 제1 그룹(410)은 시간 도메인 오디오 샘플의 제2 그룹(420)의 시간 도메인 오디오 샘플의 정확히 50%를 포함하고, 그 반대도 마찬가지이다.
또한, 알 수 있는 바와 같이, 시간 도메인 오디오 샘플의 제3 그룹(430) 및 시간 도메인 오디오 샘플의 제4 그룹(440)은 75% 오버랩을 갖는다. 따라서, 시간 도메인 오디오 샘플의 제3 그룹(430)은 시간 도메인 오디오 샘플의 제4 그룹(440)의 시간 도메인 오디오 샘플의 정확히 75%를 포함하고, 그 반대도 마찬가지이다.
또한, 알 수 있는 바와 같이, 시간 도메인 오디오 샘플의 제3 그룹(430)은 시간 도메인 오디오 샘플의 제2 그룹(420)의 오디오 샘플을 포함하며, 2개의 그룹 모두는 오버랩하는 범위를 갖는다.
도 2a의 실시예를 요약하면, 시간 도메인 오디오 샘플의 제1 그룹(410)은 시간 도메인 오디오 샘플의 제2 그룹(420)에 선행하고, 시간 도메인 오디오 샘플의 제2 그룹(420)은 시간상 시간 도메인 오디오 샘플의 제3 그룹(430)에 선행하고, 시간 도메인 오디오 샘플의 제3 그룹(430)은 시간상 시간 도메인 오디오 샘플의 제4 그룹(440)에 선행하고, 시간 도메인 오디오 샘플의 제3 그룹(430)은 시간 도메인 오디오 샘플의 제2 그룹(420)의 오디오 샘플을 포함한다. 도 2b의 실시예에 대해서도 마찬가지이다.
긴 그룹에서 짧은 그룹으로의 전환에 대한 예가 도 3a에 의해 제공된다.
도 3a는 도 1은 일 실시예에 따른, 긴 그룹에서 짧은 그룹으로의 전환이 수행되는 경우, 시간 도메인 오디오 샘플의 6개의 그룹의 오버랩을 도시한다.
특히, 다시 시간 도메인 오디오 샘플의 제1 그룹(411), 시간 도메인 오디오 샘플의 제2 그룹(421), 시간 도메인 오디오 샘플의 제3 그룹(431), 및 시간 도메인 오디오 샘플의 제4 그룹(441)은 각각 대응하는 블록에 의해 개략적으로 도시된다. 다시, 파선은 오버랩 영역을 식별하는 데 도움이 된다.
알 수 바와 같이, 시간 도메인 오디오 샘플의 제1 그룹(411) 및 시간 도메인 오디오 샘플 제2 그룹(421)은 50% 오버랩을 갖는다. 따라서, 시간 도메인 오디오 샘플의 제1 그룹(411)은 시간 도메인 오디오 샘플의 제2 그룹(421)의 시간 도메인 오디오 샘플의 정확히 50%를 포함하고, 그 반대도 마찬가지이다.
또한, 알 수 있는 바와 같이, 시간 도메인 오디오 샘플의 제3 그룹(431) 및 시간 도메인 오디오 샘플의 제4 그룹(441)은 75% 오버랩을 갖는다. 따라서, 시간 도메인 오디오 샘플의 제3 그룹(431)은 시간 도메인 오디오 샘플의 제4 그룹(441)의 시간 도메인 오디오 샘플의 정확히 75%를 포함하고, 그 반대도 마찬가지이다.
또한, 알 수 있는 바와 같이, 시간 도메인 오디오 샘플의 제4 그룹(441)은 시간 도메인 오디오 샘플의 제1 그룹(411)의 오디오 샘플을 포함하며, 2개의 그룹 모두는 오버랩하는 범위를 갖는다.
도 3a의 실시예를 요약하면, 시간 도메인 오디오 샘플의 제3 그룹(431)은 시간 도메인 오디오 샘플의 제4 그룹(441)에 선행하고, 시간 도메인 오디오 샘플의 제4 그룹(441)은 시간상 시간 도메인 오디오 샘플의 제1 그룹(411)에 선행하고, 시간 도메인 오디오 샘플의 제1 그룹(411)은 시간상 시간 도메인 오디오 샘플의 제2 그룹(421)에 선행하고, 시간 도메인 오디오 샘플의 제4 그룹(441)은 시간 도메인 오디오 샘플의 제1 그룹(411)의 오디오 샘플을 포함한다. 도 3b의 실시예에 대해서도 마찬가지이다.
일 실시예에 따르면, 시간 도메인 오디오 샘플의 제1 그룹(410, 411)은 예를 들어 시간 도메인 오디오 샘플의 제2 그룹(420, 421)의 오디오 샘플의 정확히 50%를 포함할 수 있고, 시간 도메인 오디오 샘플의 제2 그룹은 예를 들어 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플의 정확히 50%를 포함할 수 있다. 도 2a, 도 3a, 도 2b, 및 도 3b가 그러한 실시예를 실현한다.
시간 도메인 오디오 샘플의 제3 그룹(430, 431)은 예를 들어 시간 도메인 오디오 샘플의 제4 그룹(440, 441)의 오디오 샘플의 적어도 75% 및 100% 미만을 포함할 수 있고, 시간 도메인 오디오 샘플의 제4 그룹(440, 441)은 예를 들어 시간 도메인 오디오 샘플의 제3 그룹(430, 431)의 오디오 샘플의 적어도 75% 및 100% 미만을 포함할 수 있다. 도 2a, 도 3a, 도 2b, 및 도 3b가 또한 그러한 실시예를 실현한다.
일 실시예에서, 제1 인코딩 모듈(210)은 예를 들어 수정된 이산 코사인 변환 또는 수정된 이산 사인 변환을 수행하도록 구성될 수 있고, 제2 인코딩 모듈(220)은 예를 들어 확장되고 랩핑된 변환 또는 수정되고 확장되고 랩핑된 변환을 수행하도록 구성될 수 있다.
일 실시예에 따르면, 시간 도메인 오디오 샘플의 제3 그룹(430, 431)은 예를 들어 시간 도메인 오디오 샘플의 제4 그룹(440, 441)의 오디오 샘플의 정확히 75%를 포함할 수 있고, 시간 도메인 오디오 샘플의 제4 그룹(440, 441)은 예를 들어 시간 도메인 오디오 샘플의 제3 그룹(430, 431)의 오디오 샘플의 정확히 75%를 포함할 수 있다.
일 실시예에서, 시간 도메인 오디오 샘플의 제1 그룹의 시간 도메인 오디오 샘플의 제1 수는 예를 들어 시간 도메인 오디오 샘플의 제2 그룹의 시간 도메인 오디오 샘플의 제2 수와 동일할 수 있다. 시간 도메인 오디오 샘플의 시간 도메인 오디오 샘플의 제3 그룹의 제3 수는 예를 들어 시간 도메인 오디오 샘플의 시간 도메인 오디오 샘플의 제4 그룹의 제4 수와 동일할 수 있다. 제2 수는 예를 들어 제3 수를 2로 나눈 수와 동일할 수 있고, 제1 수는 예를 들어 제4 수를 2로 나눈 것과 동일할 수 있다.
예를 들어, 그러한 실시예의 특정 예는 제2 인코딩 모듈(220)에 의해 인코딩된 모든 그룹이 제1 인코딩 모듈(210)에 의해 인코딩된 모든 그룹의 샘플의 정확히 두 배를 갖는다는 것이다.
도 1b의 인코더의 일 실시 형태에 따르면, 제2 인코딩 모듈(220)은 시간 도메인 오디오 샘플의 제5 그룹으로부터 스펙트럼 도메인 오디오 샘플의 제5 그룹을 생성하도록 구성되고, 제2 인코딩 모듈(220)은 시간 도메인 오디오 샘플의 제6 그룹으로부터 스펙트럼 도메인 오디오 샘플의 제6 그룹을 생성하도록 구성된다. 시간 도메인 오디오 샘플의 제3 또는 제4 그룹은 시간 도메인 오디오 샘플의 제5 그룹의 오디오 샘플의 적어도 75% 및 100% 미만을 포함하고, 시간 도메인 오디오 샘플의 제5 그룹은 시간 도메인 오디오 샘플의 제3 또는 제4 그룹의 오디오 샘플의 적어도 75% 및 100% 미만을 포함하고, 시간 도메인 오디오 샘플의 제5 그룹은 시간 도메인 오디오 샘플의 제6 그룹의 오디오 샘플의 적어도 75% 및 100% 미만을 포함하고, 시간 도메인 오디오 샘플의 제6 그룹은 시간 도메인 오디오 샘플의 제5 그룹의 오디오 샘플의 적어도 75% 및 100% 미만을 포함한다. 출력 모듈(230)은 스펙트럼 도메인 오디오 샘플의 제5 그룹 및 스펙트럼 도메인 오디오 샘플의 제6 그룹을 더 출력하도록 구성된다.
도 2b는 도 1은 짧은 그룹에서부터 긴 그룹으로의 전환이 수행되는 경우, 일 실시예에 따른 시간 도메인 오디오 샘플의 6개의 그룹의 오버랩을 도시한다.
알 수 바와 같이, 시간 도메인 오디오 샘플의 제4 그룹(440) 및 시간 도메인 오디오 샘플 제5 그룹(450)은 75% 오버랩을 갖는다. 따라서, 시간 도메인 오디오 샘플의 제5 그룹(450)은 시간 도메인 오디오 샘플의 제4 그룹(440)의 시간 도메인 오디오 샘플의 정확히 75%를 포함하고, 그 반대도 마찬가지이다.
또한, 알 수 있는 바와 같이, 시간 도메인 오디오 샘플의 제5 그룹(450) 및 시간 도메인 오디오 샘플의 제6 그룹(460)은 75% 오버랩을 갖는다. 따라서, 시간 도메인 오디오 샘플의 제6 그룹(460)은 시간 도메인 오디오 샘플의 제5 그룹(450)의 시간 도메인 오디오 샘플의 정확히 75%를 포함하고, 그 반대도 마찬가지이다.
실시예에 따르면, 시간 도메인 오디오 샘플의 제1 그룹(410, 411) 및 시간 도메인 오디오 샘플(420, 421)의 제2 그룹은 시간상 이웃한다. 예를 들어, 도 2b에서, 시간 도메인 오디오 샘플의 6개의 그룹, 즉 410, 420, 430, 440, 450, 460이 도시된다. 이 6개의 그룹에 대해 시간상 순서가 정의될 수 있다.
예를 들어, 시간 도메인 오디오 샘플의 제1 그룹(410)의 제1 샘플은 시간 도메인 오디오 샘플의 제2 그룹(420)의 제1 샘플보다 더 일찍 (과거에서 더 많은) 시점과 관련된다.
시간 도메인 오디오 샘플의 제2 그룹(420)의 제1 샘플은 시간 도메인 오디오 샘플의 제3 그룹(430)의 제1 샘플과 동일한 시점과 관련된다. 그러나, 시간 도메인 오디오 샘플의 제2 그 (420)의 최종 샘플은 시간 도메인 오디오 샘플의 제3 그룹 430)의 최종 샘플보다 이른 시점과 관련된다.
시간 도메인 오디오 샘플의 제3 그룹(430)의 제1 샘플은 시간 도메인 오디오 샘플의 제4 그룹(440)의 제1 샘플보다 이른 시점과 관련된다.
시간 도메인 오디오 샘플의 제4 그룹(440)의 제1 샘플은 시간 도메인 오디오 샘플의 제5 그룹(450)의 제1 샘플보다 이른 시점과 관련된다.
시간 도메인 오디오 샘플의 제5 그룹(450)의 제1 샘플은 시간 도메인 오디오 샘플의 제6 그룹(460)의 제1 샘플보다 이른 시점과 관련된다.
도 2b에 대한 시간상 순서는 410, 420, 430, 440, 450, 460이다.
도 3b에 대한 동일한 추론을 적용하는 것은 도 3b에 대한 시간상 순서: 461, 451, 431, 441, 411, 421와 관련된다.
시간상 순서를 결정하는 이유는 다음과 같다:
시간 도메인 오디오 샘플의 그룹 A의 제1 샘플이 시간 도메인 오디오 샘플의 그룹 B의 제1 샘플보다 이른 시점과 관련되는 경우, 그룹 A는 시간 순서에서 그룹 B보다 더 일찍 나타난다.
시간 도메인 오디오 샘플의 그룹 A의 제1 샘플이 그룹 B의 제1 샘플과 동일한 시간 라인 상의 지점과 관련되는 경우, 시간 도메인 오디오 샘플의 그룹 A의 마지막 샘플이 그룹 B의 마지막 샘플보다 이른 시점과 관련된다면, 그룹 A는 그룹 B보다 시간 순서에서 더 일찍 나타난다.
시간 도메인 오디오 샘플의 그룹의 시간 순서에서 (즉각적인) 이웃인 경우 시간 도메인 오디오 샘플의 2개의 그룹이 시간상 이웃해 있다.
예를 들어, 도 2b에 대한 시간 순서: 410, 420, 430, 440, 450, 460을 고려한다. 여기서, 그룹(410 및 420)은 시간상 이웃하고, 그룹(420 및 430)은 시간상 이웃하고, 그룹(430 및 440)은 시간상 이웃하고, 그룹(440 및 450)은 시간상 이웃하고, 그룹(450 및 460)은 시간상 이웃하나, 다른 2개의 그룹의 쌍은 시간상 이웃하지 않는다.
예를 들어, 도 3b에 대한 시간상 순서: 461, 451, 431, 441, 411, 421를 고려한다. 여기서, 그룹(461 및 451)은 시간상 이웃하고, 그룹(451 및 431)은 시간상 이웃하고, 그룹(431 및 441)은 시간상 이웃하고, 그룹(441 및 411)은 시간상 이웃하고, 그룹(411 및 421)은 시간상 이웃하나, 다른 2개의 그룹의 쌍은 시간상 이웃하지 않는다.
도 3b와 관련하여, 도 3b는 도 1은 일 실시예에 따른, 긴 그룹에서 짧은 그룹으로의 전환이 수행되는 경우, 시간 도메인 오디오 샘플의 6개의 그룹의 오버랩을 도시한다.
알 수 바와 같이, 시간 도메인 오디오 샘플의 제3 그룹(431) 및 시간 도메인 오디오 샘플 제5 그룹(451)은 75% 오버랩을 갖는다. 따라서, 시간 도메인 오디오 샘플의 제5 그룹(451)은 시간 도메인 오디오 샘플의 제3 그룹(431)의 시간 도메인 오디오 샘플의 정확히 75%를 포함하고, 그 반대도 마찬가지이다.
또한, 알 수 있는 바와 같이, 시간 도메인 오디오 샘플의 제5 그룹(451) 및 시간 도메인 오디오 샘플의 제6 그룹(461)은 75% 오버랩을 갖는다. 따라서, 시간 도메인 오디오 샘플의 제6 그룹(461)은 시간 도메인 오디오 샘플의 제5 그룹(451)의 시간 도메인 오디오 샘플의 정확히 75%를 포함하고, 그 반대도 마찬가지이다.
실시예에서, 윈도우 함수는 제1 인코딩 모듈(210) 또는 제2 인코딩 모듈(220)에 의해 시간 도메인 오디오 샘플에 적용되어 가중된 시간 도메인 샘플을 획득할 수 있고, 그 후에, 제1 인코딩 모듈(210) 또는 제2 인코딩 모듈(220)은 가중된 시간 도메인 샘플로부터 스펙트럼 도메인 오디오 샘플을 생성할 수 있다.
일 실시예에서, 인코더는 시간 도메인 오디오 신호의 일부의 신호 특성에 따라 스펙트럼 도메인 오디오 샘플의 현재 그룹을 생성하기 위해 제1 인코딩 모듈(210) 또는 제2 인코딩 모듈(220)을 사용하도록 구성된다.
일 실시예에 따르면, 인코더는 신호 특성으로서, 복수의 시간 도메인 오디오 샘플의 현재 그룹이 비 정적 영역 및 비 음조 영역 중 적어도 하나를 포함하는지 여부를 결정하도록 구성된다. 인코더는 복수의 시간 도메인 오디오 샘플의 현재 그룹이 비 정적 영역 및 비 음조 영역 중 적어도 하나를 포함하면, 복수의 시간 도메인 오디오 샘플의 현재 그룹에 따라 스펙트럼 도메인 오디오 샘플의 현재 그룹을 생성하기 위해 제1 인코딩 모듈(210)을 사용하도록 구성된다. 또한, 인코더는 복수의 시간 도메인 오디오 샘플의 현재 그룹이 비 정적 영역 및 비 음조 영역 중 상기 적어도 하나를 포함하지 않으면, 복수의 시간 도메인 오디오 샘플의 현재 그룹에 따라 스펙트럼 도메인 오디오 샘플의 현재 그룹을 생성하기 위해 제2 인코딩 모듈(220)을 사용하도록 구성된다.
일 실시예에서, 출력 모듈(230)은 신호 특성에 따라 제1 비트 값 또는 제2 비트 값을 갖는 비트를 출력하도록 구성된다. 따라서, 비트는 디코더 측에서 사용되어 인코더가 인코딩을 위해 제1 인코딩 모듈(210) 또는 제2 인코딩 모듈(220)을 사용했는지 여부를 결정할 수 있다.
도 1a는 일 실시예에 따른 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더를 도시한다.
디코더는 스펙트럼 도메인 오디오 샘플의 제1 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제1 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제1 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제2 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제2 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제2 그룹을 디코딩하기 위한 제1 디코딩 모듈(110)을 포함한다.
또한 디코더는 오버랩 가산기(130)를 포함하며, 오버랩 가산기(130)는 정확히 2개 그룹의 시간 도메인 중간 오디오 샘플의 오버랩 가산을 수행하도록 구성되며, 상기 정확히 2개의 그룹은 시간 도메인 중간 오디오 샘플의 제1 그룹 및 제2 그룹이고, 오버랩 가산기(130)는 5% 초과 및 최대 50%의 오버랩을 갖는 상기 정확히 2개의 그룹을 오버랩 가산하도록 구성되고, 상기 정확히 2개의 그룹의 오버랩 가산은 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플을 생성하게 한다.
또한, 디코더는 스펙트럼 도메인 오디오 샘플의 제3 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제3 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제3 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제4 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제4 그룹을 디코딩하기 위한 제2 디코딩 모듈(120)을 포함한다.
또한, 디코더는 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플, 오디오 신호의 제2 복수의 시간 도메인 오디오 출력 샘플, 및 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플을 출력하기 위한 출력 인터페이스(140)를 포함한다.
오버랩 가산기(130)는 60% 초과 100% 미만의 오버랩을 갖는 적어도 시간 도메인 중간 오디오 신호 샘플의 제3 그룹을 시간 도메인 중간 오디오 샘플의 제4 그룹과 오버랩 가산하는 것을 사용하여 제2 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성된다.
또한, 오버랩 가산기(130)는 적어도 시간 도메인 중간 오디오 샘플의 제3 그룹과 시간 도메인 중간 오디오 샘플의 제2 그룹의 오버랩 가산을 사용하여 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성되거나, 오버랩 가산기(130)는 적어도 시간 도메인 중간 오디오 샘플의 제1 그룹과 시간 도메인 중간 오디오 샘플의 제4 그룹의 오버랩 가산을 사용하여 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성된다.
시간 도메인 오디오 샘플(410, 411, 420, 421, 430, 431, 440, 441, 450, 45,, 460, 및 461)의 그룹의 오버랩에 대해 도 2a, 도 2b, 도 2c, 및 도 2d를 참조하여 제공된 설명은 시간 도메인 중간 오디오 샘플의 그룹에 동일하게 적용된다.
실시예에서, 제1 오디오 출력 샘플은 제1 및 제2 시간 도메인 오디오 출력 샘플을 오버랩 가산하는 것에 기초하여 생성되고, 제2 오디오 출력 샘플은 제3 및 시간 도메인 오디오 출력 샘플의 제4 그룹을 오버랩 가산하는 것에 기초하여 생성된다.
도 2a 및 도 2b의 상황에 대응하는 디코더 실시예에서, 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플은 시간상 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플에 선행하고, 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플은 시간상 오디오 신호의 제2 복수의 시간 도메인 오디오 출력 샘플에 선행하고, 오버랩 가산기(130)는 적어도 시간 도메인 중간 오디오 샘플의 제3 그룹과 시간 도메인 중간 오디오 샘플의 제2 그룹의 오버랩 가산을 사용하여 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성된다.
도 3a 및 도 3b의 상황에 대응하는 디코더 실시예에서, 오디오 신호의 제2 복수의 시간 도메인 오디오 출력 샘플은 시간상 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플에 선행하고, 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플은 시간상 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플에 선행하고, 오버랩 가산기(130)는 적어도 시간 도메인 중간 오디오 샘플의 제3 그룹과 시간 도메인 중간 오디오 샘플의 제2 그룹의 오버랩 가산을 사용하여 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성된다.
또한, 제1 그룹 및 시간 도메인 중간 오디오 샘플의 제2 그룹은 5% 이상 및 최대 50% 오버랩되는 것으로 개략적으로 설명되었다. 대부분의 실시예에서, 제1 디코딩 모듈(110)은 동일한 수의 샘플을 갖는 시간 도메인 중간 오디오 샘플의 그룹을 생성한다, 즉 제1 디코딩 모듈(110)에 의해 사용되는 윈도우는 일반적으로 항상 동일한 크기를 갖는다. 그러면, 시간 도메인 중간 오디오 샘플의 제1 및 제2 그룹의 오버랩을 결정하기 위해, 오버랩 가산에서 시간 도메인 중간 오디오 샘플(예를 들어, 1024 샘플)의 제2 그룹의 샘플과 오버랩하는 제1 그룹의 중간 시간 도메인 오디오 샘플의 수는 오버랩 가산의 오버랩(1024 / 2048 = 50%)을 결정하기 위해 시간 도메인 중간 오디오 샘플의 제1 그룹의 총 샘플 수(예를 들어 2048 샘플)로 나뉜다. 그러나, 제1 디코딩 모듈(110)이 상이한 수의 샘플을 갖는 시간 도메인 중간 오디오 샘플의 그룹을 생성하는 특별한 실시예에서는, 시간 도메인 중간 오디오 샘플의 그룹 중 더 큰 것이 고려되고, 오버랩은 더 작은 그룹의 샘플(예를 들어, 768 샘플)을 큰 그룹의 전체 샘플 수(예를 들어, 2048 샘플)로 나눈 큰 그룹의 시간 도메인 중간 오디오 샘플 수로 정의된다 (오버랩: 768 / 2048 = 37.5%).
또한, 제3 그룹 및 시간 도메인 중간 오디오 샘플의 제4 그룹은 60% 이상 및 100% 미만으로 오버랩된다는 것이 개략적으로 설명되었다. 대부분의 실시예에서, 제2 디코딩 모듈(120)은 동일한 샘플 수를 갖는 시간 도메인 중간 오디오 샘플의 그룹을 생성한다, 다시 말해, 제2 디코딩 모듈(120)에 의해 사용된 윈도우는 일반적으로 항상 동일한 크기를 갖는다 (그러나 그룹/윈도우의 크기는 종종 제1 디코딩 모듈(110)에 의해 생성/사용되는 그룹/윈도우의 크기와 상이하다). 그러면, 시간 도메인 중간 오디오 샘플의 제3 및 제4 그룹의 오버랩을 결정하기 위해, 오버랩 가산에서 시간 도메인 중간 오디오 샘플(예를 들어, 3584 샘플)의 제4 그룹의 샘플과 오버랩하는 제3 그룹의 중간 시간 도메인 오디오 샘플의 수는 오버랩 가산의 오버랩(3584 / 4096 = 87.5%)을 결정하기 위해 시간 도메인 중간 오디오 샘플의 제1 그룹의 총 샘플 수(예를 들어 4096 샘플)로 나뉜다. 그러나, 제2 디코딩 모듈(120)이 상이한 수의 샘플을 갖는 시간 도메인 중간 오디오 샘플의 그룹을 생성하는 특별한 실시예에서는, 시간 도메인 중간 오디오 샘플의 그룹 중 더 큰 것이 고려되고, 오버랩은 더 작은 그룹의 샘플(예를 들어, 3072 샘플)을 큰 그룹의 전체 샘플 수(예를 들어, 4096 샘플)로 나눈 큰 그룹의 시간 도메인 중간 오디오 샘플 수로 정의된다 (오버랩: 3072 / 4096 = 75%).
오버랩 가산은 본 기술분야의 통상의 기술자에게 잘 공지되어 있다. 시간 도메인 오디오 샘플의 2개의 그룹을 오버랩하여 추가하는 것은 본 기술분야의 통상의 기술자에게 특히 잘 공지되어 있다.
3개 이상의 그룹의 오버랩 가산을 구현하는 하나의 방법은 예를 들어 중간 오버랩 가산 결과를 획득하기 위해 3개 이상의 그룹 중 2개를 오버랩 가산하고, 그 다음에 3개 이상의 그룹 중 제3 그룹을 중간 오버랩 가산 과에 오버랩 가산하고, 모든 그룹이 (갱신된) 중간 결과와 오버랩 가산될 때까지 마찬가지로 절차를 계속 진행하는 것일 수 있다.
또 다른 접근법은 처음에 3개 이상의 그룹 모두를 적절하게 오버랩하게 한 다음 오버랩 가산의 결과를 획득하기 위해 오버랩에 대응하는 그룹의 샘플을 가산하는 것이다.
일 실시예에 따르면, 오버랩 가산기(130)는 예를 들어 시간 도메인 중간 오디오 샘플의 제2 그룹과 정확히 50%의 오버랩을 갖는 시간 도메인 중간 오디오 샘플의 제1 그룹을 오버랩하도록 구성될 수 있다. 오버랩 가산기(130)는 예를 들어 적어도 시간 도메인 중간 오디오 샘플의 제3 그룹을 시간 도메인 중간 오디오 그룹의 제4 그룹과 적어도 75% 및 100% 미만의 오버랩으로 오버랩 가산하도록 구성될 수 있다.
일 실시예에서, 제1 디코딩 모듈(110)은 예를 들어 역 수정된 이산 코사인 변환 또는 역 수정된 이산 사인 변환을 수행하도록 구성될 수 있다. 제2 디코딩 모듈(120)은 역 확장되고 랩핑된 변환 또는 역 수정되고 확장되고 랩핑된 변환을 수행하도록 구성된다.
일 실시예에 따르면, 오버랩 가산기(130)는 예를 들어 시간 도메인 중간 오디오 샘플의 제4 그룹과 정확히 75%의 오버랩을 갖는 시간 도메인 중간 오디오 샘플의 제3 그룹을 오버랩하도록 구성될 수 있다.
일 실시예에서, 시간 도메인 중간 오디오 샘플의 제1 그룹의 시간 도메인 중간 오디오 샘플의 제1 수는 예를 들어 시간 도메인 중간 오디오 샘플의 제2 그룹의 시간 도메인 중간 오디오 샘플의 제2 수와 동일할 수 있다. 시간 도메인 오디오 샘플의 제3 그룹의 시간 도메인 오디오 샘플의 제3 수는 예를 들어 시간 도메인 오디오 샘플의 제4 그룹의 시간 도메인 오디오 샘플의 제4 수와 동일할 수 있다. 제2 수는 예를 들어 제3 수를 2로 나눈 수와 동일할 수 있고, 제1 수는 예를 들어 제4 수를 2로 나눈 것과 동일할 수 있다.
도 1a의 디코더의 실시예에 따르면, 제2 디코딩 모듈(120)은 예를 들어 스펙트럼 도메인 오디오 샘플의 제5 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제5 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제5 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제6 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제6 그룹을 생성함으로써 스펙트럼 도메인 오디오 샘플의 제6 그룹을 디코딩하도록 구성될 수 있다. 오버랩 가산기(130)는 제3 또는 시간 도메인 중간 오디오 샘플의 제4 그룹이 시간 도메인 중간 오디오 샘플의 제5 그룹과 적어도 75% 및 100% 미만으로 오버랩하고, 시간 도메인 중간 오디오 샘플의 제5 그룹이 시간 도메인 중간 오디오 샘플의 제6 그룹과 적어도 75% 및 100% 미만으로 오버랩하도록, 시간 도메인 중간 오디오 샘플의 제3 그룹과 시간 도메인 중간 오디오 샘플의 제4 그룹 및 시간 도메인 중간 오디오 샘플의 제5 그룹과 시간 도메인 중간 오디오 샘플의 제6 그룹을 오버랩 가산하여 제2 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성된다.
도 2b 및 도 3b의 시간 도메인 오디오 샘플(410, 411, 420, 421, 430, 431, 440, 441, 450, 451, 460 및 461)의 그룹에 대하여 위에서 제공된 설명들이 참조되며, 이 설명은 시간 도메인 중간 오디오 샘플 그룹에도 동일하게 적용된다.
일 실시예에서, 오버랩 가산기(130)는 시간 도메인 중간 오디오 샘플의 제2 그룹의 모든 시간 도메인 중간 오디오 샘플이 시간 도메인 중간 오디오 샘플의 제3 그룹의 시간 도메인 중간 오디오 샘플과 오버랩되도록, 시간 도메인 중간 오디오 샘플 그룹의 적어도 제2 그룹을 시간 도메인 중간 오디오 샘플의 제3 그룹과 오버랩 가산하도록 구성된다. 또는, 오버랩 가산기(130)는 시간 도메인 중간 오디오 샘플의 제1 그룹의 모든 시간 도메인 중간 오디오 샘플이 시간 도메인 중간 오디오 샘플의 제4 그룹과 오버랩되도록, 시간 도메인 중간 오디오 샘플의 적어도 제4 그룹을 시간 도메인 중간 오디오 샘플의 제1 그룹과 오버랩 가산하도록 구성된다.
도 1c는 일 실시예에 따른 시스템을 도시한다. 시스템은 전술한 실시예 중 하나에 따른 인코더(310) 및 전술한 실시예 중 하나에 따른 디코더(320)를 포함한다. 인코더(310)는 복수의 스펙트럼 도메인 오디오 샘플을 생성함으로써 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하도록 구성된다. 또한, 디코더(320)는 인코더로부터 복수의 스펙트럼 도메인 오디오 샘플을 수신하도록 구성된다. 또한, 디코더는 복수의 스펙트럼 도메인 오디오 샘플 디코딩하도록 구성된다.
시간 도메인 앨리어싱을 감소시키거나 피하기 위해, 도 1b의 인코더의 실시예와 관련하여, 제2 인코딩 모듈(220)은
Figure 112018039506725-pct00054
에 따라 스펙트럼 도메인 오디오 샘플의 제3 그룹 및 제4 그룹 중 적어도 하나를 생성하도록 구성되고,
cs( )는 cos( ) 또는 sin( )이고,
n은 시간 도메인 오디오 샘플의 제3 또는 시간 도메인 오디오 샘플의 제4 그룹 중 하나의 시간 인덱스를 나타내고,
k는 스펙트럼 도메인 오디오 샘플의 제1 또는 제2 또는 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹 중 하나의 스펙트럼 인덱스를 나타내고,
0.1=c≤=0.1, 또는 0.4=c≤=0.6, 또는 0.9=c≤=1.1이며,
Figure 112018039506725-pct00055
이고,
Figure 112018039506725-pct00056
이다.
M은 스펙트럼 도메인 오디오 샘플의 제1 또는 제2 또는 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹의 수를 나타내고,
Figure 112018039506725-pct00057
이고,
Figure 112018039506725-pct00058
이다.
일 실시예에서, 제1 인코딩 모듈(210)은
Figure 112018039506725-pct00059
에 따라 스펙트럼 도메인 오디오 샘플의 제1 그룹 및 제2 그룹 중 적어도 하나를 생성하도록 구성되고,
cs( )는 cos( ) 또는 sin( )이고,
n1은 는 시간 도메인 오디오 샘플의 제1 그룹 또는 시간 도메인 오디오 샘플의 제2 그룹 중 하나의 시간 인덱스를 나타내고,
Figure 112018039506725-pct00060
, 또는
Figure 112018039506725-pct00061
, 또는
Figure 112018039506725-pct00062
이고,
Figure 112018039506725-pct00063
이다.
c = 0, 또는 c = 0.5, 또는 c = 1인 실시예에 따르면,
Figure 112018039506725-pct00064
및 s = 3이다.
s = 3으로 설정하면 시간 도메인 앨리어싱을 최적으로 감소시킬 수 있으며, 한편 s ≠ 3 인
Figure 112018039506725-pct00065
를 설정하면 시간 도메인 앨리어싱 감소 정도가 어느 정도 달성되지만 일반적으로 s = 3만큼 감소하지는 않는다.
특정 실시예가 특히 잘 작동한다. 표 1 및 표 2를 참조한다:
표 1
Figure 112018039506725-pct00066
Figure 112018039506725-pct00067
표 1은 MLT에서 ELT 로의 전환을 보여준다. 각각의 라인에는, 4개의 후속 윈도우/시간 도메인 오디오 샘플의 대응하는 그룹에 대한 기능이 설명되어 있다. 첫 번째 2개의 열은 마지막 2개의 MLT 윈도우(마지막이지만 하나의 MLT 윈도우 및 마지막 MLT 윈도우)과 관련되며, 열 3과 열 4는 각각 첫 번째 및 두 번째 ELT 윈도우와 관련된다. 각각의 라인은 후속 윈도우에 대한 함수의 특히 좋은 조합을 나타낸다. MDCT-II, MDCT-IV, 및 MDST-IV 및 MECT-II, MEST-II, MECT-IV 및 MEST-IV에 대한 공식 및 대응하는 역 공식은 공식 (2a) - (2j) 및 공식 (4a) - (4h)와 관련하여 제시되어 있다. 예시된 조합은 역 함수를 갖는 역 변환에 대해 동등하게 잘 작동한다.
따라서, 일 실시예에서,
Figure 112018039506725-pct00068
이고, s = 3이고, cs( )는 cos( )이고, cs1은 cos( )이고, c = 0.5 및 c1 = 0.5이다.
다른 실시예에서,
Figure 112018039506725-pct00069
이고, s = 3, cs( )는 sin( )이고, cs1은 cos( )이고, c = 1 및 c1 = 0이다.
다른 실시예에서,
Figure 112018039506725-pct00070
이고, s = 3이고, cs( )는 sin( )이고, cs1은 sin( )이고, c = 0.5 및 c1 = 1이다.
다른 실시예에서,
Figure 112018039506725-pct00071
이고, s = 3이고, cs( )는 cos( )이고, cs1은 sin( )이고, c = 0 및 c1 = 1이다.
다른 실시예에서,
Figure 112018039506725-pct00072
이고, s = 3이고, cs( )는 sin( )이고, cs1은 sin( )이고, c = 0.5 및 c1 = 0.5이다.
다른 실시예에서,
Figure 112018039506725-pct00073
이고, s = 3이고, cs( )는 cos( )이고, cs1은 sin( )이고, c = 0 및 c1 = 0.5이다.
다른 실시예에서,
Figure 112018039506725-pct00074
이고, s = 3, cs( )는 cos( )이고, cs1은 cos( )이고, c = 0.5 및 c1 = 0이다.
다른 실시예에서,
Figure 112018039506725-pct00075
이고, s = 3, cs( )는 sin( )이고, cs1은 cos( )이고, c = 1 및 c1 = 0이다.
표 2
Figure 112018039506725-pct00076
표 2는 ELT에서 MLT로의 전환을 보여준다. 각각의 라인에는, (시간 도메인 오디오 샘플의 그룹에 대응하는) 4개의 후속 윈도우에 대한 기능이 설명되어 있다. 첫 번째 두 열은 마지막 두 개의 ELT 윈도우(마지막 하나의 ELT 윈도우 및 마지막 ELT 윈도우)와 관련되고, 열 3 및 열 4는 각각 첫 번째 및 두 번째 MLT 윈도우와 관련된다. 각각의 라인은 후속 윈도우에 대한 함수의 특히 좋은 조합을 나타낸다. MDCT-II, MDCT-IV, 및 MDST-IV 및 MECT-II, MEST-II, MECT-IV 및 MEST-IV에 대한 공식 및 대응하는 역 공식은 공식 (2a) - (2j) 및 공식 (4a) - (4h)와 관련하여 제시되어 있다. 예시된 조합은 역 함수를 갖는 역 변환에 대해 동등하게 잘 작동한다.일 실시예에서, 제1 인코딩 모듈(210)은
Figure 112018039506725-pct00077
에 따라, 또는
Figure 112018039506725-pct00078
에 따라, 또는
Figure 112018039506725-pct00079
에 따라, 또는
Figure 112018039506725-pct00080
에 따라 스펙트럼 도메인 오디오 샘플의 제3 그룹 및 제4 그룹 중 적어도 하나를 생성하도록 구성되고,
Figure 112018039506725-pct00081
은 스펙트럼 도메인 오디오 샘플의 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹 중 하나를 나타내고,
Figure 112018039506725-pct00082
은 시간 도메인 값을 나타낸다.
일 실시예에 따르면, 제2 인코딩 모듈(220)은
Figure 112018039506725-pct00083
에 따라 시간 도메인 오디오 샘플의 제3 그룹 또는 시간 도메인 오디오 샘플의 제4 그룹
Figure 112018039506725-pct00084
)에 가중치
Figure 112018039506725-pct00085
를 적용하여 시간 도메인 값
Figure 112018039506725-pct00086
을 생성하도록 구성된다.
일 실시예에서, 시간 도메인 오디오 샘플의 제2 그룹의 모든 시간 도메인 오디오 샘플은 시간 도메인 오디오 샘플의 제3 그룹의 시간 도메인 오디오 샘플과 오버랩되거나, 시간 도메인 오디오 샘플의 제1 그룹의 모든 시간 도메인 오디오 샘플은 시간 도메인 오디오 샘플의 제4 그룹과 오버랩된다.
유사하게, 도 1a의 디코더와 관련하여, 일 실시예에서, 제2 디코딩 모듈(120)은
Figure 112018039506725-pct00087
에 따라 시간 도메인 중간 오디오 샘플의 제3 그룹 및 시간 도메인 중간 오디오 샘플의 제4 그룹 중 적어도 하나를 생성하도록 구성되고, cs( )는 cos( ) 또는 sin( )이고, n은 시간 도메인 중간 오디오 샘플의 제3 또는 시간 도메인 중간 오디오 샘플의 제4 그룹 중 하나의 시간 인덱스를 나타내고, k는 스펙트럼 도메인 오디오 샘플의 제3 그룹 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹 중 하나의 스펙트럼 인덱스를 나타내고,
Figure 112018039506725-pct00088
, 또는
Figure 112018039506725-pct00089
, 또는
Figure 112018039506725-pct00090
이며,
Figure 112018039506725-pct00091
이고,
Figure 112018039506725-pct00092
이고,
M은 스펙트럼 도메인 오디오 샘플의 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹의 수를 나타내고,
Figure 112018039506725-pct00093
이고,
Figure 112018039506725-pct00094
이다.
일 실시예에서, 제1 디코딩 모듈 (110)은
Figure 112018039506725-pct00095
에 따라 시간 도메인 중간 오디오 샘플의 제1 그룹 및 시간 도메인 중간 오디오 샘플의 제2 그룹 중 적어도 하나를 생성하도록 구성되고,
cs( )는 cos( ) 또는 sin( )이고,
n은 시간 도메인 중간 오디오 샘플의 제3 또는 시간 도메인 중간 오디오 샘플의 제4 그룹 중 하나의 시간 인덱스를 나타내고,
k는 스펙트럼 도메인 오디오 샘플의 제1 또는 제2 또는 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹 중 하나의 스펙트럼 인덱스를 나타내고,
Figure 112018039506725-pct00096
, 또는
Figure 112018039506725-pct00097
, 또는
Figure 112018039506725-pct00098
이고,
Figure 112018039506725-pct00099
이고,
Figure 112018039506725-pct00100
이고,
M은 스펙트럼 도메인 오디오 샘플의 제1 또는 제2 또는 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹의 수를 나타내며,
Figure 112018039506725-pct00101
이고,
Figure 112018039506725-pct00102
이다.
일 실시예에서, 제1 디코딩 모듈 (110)은
Figure 112018039506725-pct00103
에 따라 시간 도메인 중간 오디오 샘플의 제1 그룹 및 시간 도메인 중간 오디오 샘플의 제2 그룹 중 적어도 하나를 생성하도록 구성되고,
cs1는 cos( ) 또는 sin( )이고,
n1은 시간 도메인 중간 오디오 샘플의 제1 또는 시간 도메인 중간 오디오 샘플의 제2 그룹 중 하나의 시간 인덱스를 나타내고,
Figure 112018039506725-pct00104
, 또는
Figure 112018039506725-pct00105
, 또는
Figure 112018039506725-pct00106
이고,
Figure 112018039506725-pct00107
이다.
c = 0, 또는 c = 0.5, 또는 c = 1인 실시예에 따르면,
Figure 112018039506725-pct00108
및 s = 3이다.
s = 3으로 설정하면 시간 도메인 앨리어싱을 최적으로 감소시킬 수 있으며, 한편 s ≠ 3 인
Figure 112018039506725-pct00109
를 설정하면 시간 도메인 앨리어싱 감소 정도가 어느 정도 달성되지만 일반적으로 s = 3만큼 감소하지는 않는다.
일 실시예에서, 제2 디코딩 모듈 (120)은
Figure 112018039506725-pct00110
에 따라, 또는
Figure 112018039506725-pct00111
에 따라, 또는
Figure 112018039506725-pct00112
에 따라, 또는
Figure 112018039506725-pct00113
에 따라 시간 도메인 중간 오디오 샘플의 제3 그룹 및 시간 도메인 중간 오디오 샘플의 제4 그룹 중 적어도 하나를 생성하도록 구성되고,
Figure 112018039506725-pct00114
은 스펙트럼 도메인 오디오 샘플의 제3 그룹 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹 중 하나를 나타내고,
Figure 112018039506725-pct00115
은 시간 도메인 값을 나타낸다.
일 실시예에 따르면, 제2 디코딩 모듈(120)은
Figure 112018039506725-pct00116
에 따라 시간 도메인 값
Figure 112018039506725-pct00117
에 가중치
Figure 112018039506725-pct00118
을 적용하여 시간 도메인 중간 오디오 샘플의 제3 그룹 또는 시간 도메인 중간 오디오 샘플의 제4 그룹 (
Figure 112018039506725-pct00119
을 생성하도록 구성된다.
도 1b의 인코더와 관련하여, 실시예에 따르면, welt는 제1 윈도우 함수이고, 여기서는 wtr이 제2 윈도우 함수이고, 제2 윈도우 함수 wtr의 일부분은
Figure 112018039506725-pct00120
에 따라 정의되고, M은 스펙트럼 도메인 오디오 샘플의 제1 또는 제2 또는 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹의 수를 나타내고,
k는
Figure 112018039506725-pct00121
인 수이고,
d는 실수이고,
Figure 112018039506725-pct00122
이거나,
Figure 112018039506725-pct00123
이다.
L은 시간 도메인 오디오 샘플의 제3 그룹 또는 제4 그룹의 샘플의 수를 나타낸다.
시간 도메인 오디오 샘플의 제3 그룹은 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플을 포함하고, 제2 인코딩 모듈(220)은 시간 도메인 오디오 샘플의 제4 그룹에 제1 윈도우 함수 welt를 적용하도록 구성되고, 제2 인코딩 모듈(220)은 시간 도메인 오디오 샘플의 제3 그룹에 제2 윈도우 함수 wtr를 적용하도록 구성된다. 또는, 시간 도메인 오디오 샘플의 제4 그룹은 시간 도메인 오디오 샘플의 오디오 샘플의 제1 그룹을 포함하고, 제2 인코딩 모듈(220)은 시간 도메인 오디오 샘플의 제3 그룹에 제1 윈도우 함수 welt를 적용하도록 구성되고, 제2 인코딩 모듈(220)은 시간 도메인 오디오 샘플의 제4 그룹에 제2 윈도우 함수 wtr를 적용하도록 구성된다.
일 실시예에 따르면, wtr1은 제3 윈도우 함수이고, 제3 윈도우 함수의 일부는
Figure 112018039506725-pct00124
에 따라 정의되고,
Figure 112018039506725-pct00125
이거나,
Figure 112018039506725-pct00126
이다.
N은 시간 도메인 오디오 샘플의 제1 그룹 또는 시간 도메인 오디오 샘플의 제2 그룹의 수를 나타낸다.
시간 도메인 오디오 샘플의 제3 그룹은 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플을 포함하고, 제2 인코딩 모듈(220)은 상기 시간 도메인 오디오 샘플의 제2 그룹에 제3 윈도우 함수 wtr1를 적용하도록 구성된다. 또는, 시간 도메인 오디오 샘플의 제4 그룹은 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플을 포함하고, 상기 제2 인코딩 모듈(220)은 시간 도메인 오디오 샘플의 제1 그룹에 제3 윈도우 함수 wtr1를 적용하도록 구성된다.
일 실시예에서, 제1 윈도우 함수 welt
Figure 112018039506725-pct00127
에 따라 정의되고,
여기서
Figure 112018039506725-pct00128
이고,
b0, b1, 및 b2는 실수이다.
Figure 112018039506725-pct00129
이고, K는 양의 정수이고, ck는 실수를 나타낸다.
일 실시예에 따르면, K = 3;
Figure 112018039506725-pct00130
Figure 112018039506725-pct00131
이다.
일 실시예에 따르면,
Figure 112018039506725-pct00132
이다.
특정 실시예에서,
Figure 112018039506725-pct00133
이다.
다른 실시예에 따르면 d = 1이다.
유사하게, 도 1a와 관련하여, 일 실시예에 따르면, welt는 제1 윈도우 함수이고, wtr이 제2 윈도우 함수이고, 제2 윈도우 함수의 일부는
Figure 112018039506725-pct00134
에 따라 정의되고,
M은 스펙트럼 도메인 오디오 샘플의 제1 또는 제2 또는 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹의 수를 나타내고, k는
Figure 112018039506725-pct00135
인 수이고, d는 실수이고,
Figure 112018039506725-pct00136
이거나,
Figure 112018039506725-pct00137
이다.
L은 제3 그룹 또는 시간 도메인 오디오 샘플의 제4 그룹의 샘플의 수를 나타낸다.
오버랩 가산기(130)는 시간 도메인 중간 오디오 샘플의 제3 그룹로 적어도 시간 도메인 중간 오디오 샘플의 제2 그룹을 오버랩하도록 구성되고, 제2 디코딩 모듈 (120)은 제1 윈도우 함수 welt에 따라 시간 도메인 중간 오디오 샘플의 제4 그룹을 생성하도록 구성되고, 제2 디코딩 모듈(120)은 제2 윈도우 함수 wtr에 따라 시간 도메인 중간 오디오 샘플의 제3 그룹을 생성하도록 구성된다. 또는, 오버랩 가산기(130)는 시간 도메인 중간 오디오 샘플의 제1 그룹과 적어도 시간 도메인 중간 오디오 샘플의 제4 그룹 오버랩 가산하도록 구성되고, 제2 디코딩 모듈(120)은 제1 윈도우 함수 welt에 따라 시간 도메인 중간 오디오 샘플의 제3 그룹을 생성하도록 구성되고, 제2 디코딩 모듈(120)은 제2 윈도우 함수 wtr에 따라 시간 도메인 중간 오디오 샘플의 제4 그룹을 생성하도록 구성된다.
일 실시예에 따르면, wtr1은 제3 윈도우 함수이고, 제3 윈도우 함수의 일부는
Figure 112018039506725-pct00138
에 따라 정의되고,
Figure 112018039506725-pct00139
이거나,
Figure 112018039506725-pct00140
이다.
N은 시간 도메인 오디오 샘플의 제1 그룹 또는 시간 도메인 오디오 샘플의 제2 그룹의 시간 도메인 오디오 샘플의 수를 나타낸다.
오버랩 가산기(130)는 적어도 시간 도메인 중간 오디오 샘플의 제2 그룹을 시간 도메인 중간 오디오 샘플의 제3 그룹과 오버랩하도록 구성되고, 제1 디코딩 모듈(110)은 제3 윈도우 함수 wtr1에 따라 시간 도메인 중간 오디오 샘플의 제2 그룹을 생성하도록 구성된다. 오버랩 가산기(130)는 적어도 시간 도메인 중간 오디오 샘플의 제4 그룹을 제1그룹의 시간 도메인 중간 오디오 샘플과 오버랩하도록 구성되고, 제1 디코딩 모듈(110)은 제3 윈도우 함수 wtr1에 따라 시간 도메인 중간 오디오 샘플의 제1 그룹을 생성하도록 구성된다.
일 실시예에서, 제1 윈도우 함수 welt
Figure 112018039506725-pct00141
에 따라 정의되고, 여기서
Figure 112018039506725-pct00142
이고, b0, b1, 및 b2는 실수이고,
Figure 112018039506725-pct00143
이고, K는 양의 정수이고, ck는 실수이다.
일 실시예에 따르면, K = 3;
Figure 112018039506725-pct00144
Figure 112018039506725-pct00145
이다.
일 실시예에서,
Figure 112018039506725-pct00146
이다.
일 실시예에 따르면,
Figure 112018039506725-pct00147
이다.
대안적인 실시예에서, d = 1이다.
도 1c의 시스템과 관련하여, 일 실시예에 따르면, 시스템의 디코더(320)는 전이 윈도우 함수
Figure 112018039506725-pct00148
를 이용하며,
Figure 112018039506725-pct00149
이고,
시스템의 인코더(310)는 전이 윈도우 함수
Figure 112018039506725-pct00150
를 이용하며,
Figure 112018039506725-pct00151
이다.
특정 실시예에 따르면, 시스템(320)의 디코더는 전이 윈도우 함수
Figure 112018039506725-pct00152
를 이용하며,
Figure 112018039506725-pct00153
이고,
시스템의 인코더(310)는 전이 윈도우 함수
Figure 112018039506725-pct00154
를 이용하며,
Figure 112018039506725-pct00155
이다.
일 실시예에 따르면, 도 1a의 디코더는 복수의 스펙트럼 도메인 오디오 샘플의 일부가 제1 디코딩 모듈(110)에 의해 또는 제2 디코딩 모듈(120)에 의해 디코딩되는지 여부를 나타내는 디코딩 정보를 수신하도록 구성된다. 디코더는 시간 도메인 중간 오디오 샘플의 제1 또는 제2 또는 제3 또는 제4 그룹을 획득하기 위해 디코딩 정보에 따라 제1 디코딩 모듈(110) 또는 제2 디코딩 모듈(120)을 사용함으로써 복수의 스펙트럼 도메인 오디오 샘플의 상기 부분을 디코딩하도록 구성된다.
일 실시예에서, 디코더는 제1 비트 및 제2 비트를 수신하도록 구성되고, 제1 비트와 제2 비트는 함께 제1 비트 값 조합을 가지거나, 제2 비트 값 조합은 제1 비트 값 조합과 상이하거나, 제3 비트 값 조합은 제1 및 제2 비트 값 조합과 상이하거나, 제4 비트 값 조합은 제1 및 제2 및 제3 비트 값 조합과 상이하다. 또한, 디코더는 제1 비트와 제2 비트가 함께 제1 비트 값 조합을 가지면, 제1 또는 시간 도메인 중간 오디오 샘플의 제2 그룹을 획득하기 위해 제1 디코딩 모듈(110)을 사용함으로써 Kaiser-Bessel 함수에 따라 복수의 스펙트럼 도메인 오디오 샘플의 일부를 디코딩하도록 구성된다. 또한, 디코더는 제1 비트와 제2 비트가 함께 제2 비트 값 조합을 가지면, 제1 또는 시간 도메인 중간 오디오 샘플의 제2 그룹을 획득하기 위해 제1 디코딩 모듈(110)을 사용함으로써 사인 함수 또는 코사인 함수에 따라 복수의 스펙트럼 도메인 오디오 샘플의 일부를 디코딩하도록 구성된다. 디코더는 제1 비트와 제2 비트가 함께 제3 비트 값 조합을 가지면, 제1 또는 시간 도메인 중간 오디오 샘플의 제2 그룹을 획득하기 위해 제1 디코딩 모듈(110)을 사용함으로써 복수의 스펙트럼 도메인 오디오 샘플의 일부를 디코딩하도록 구성된다. 또한, 디코더는 제1 비트와 제2 비트가 함께 제4 비트 값 조합을 가지면, 제3 또는 시간 도메인 중간 오디오 샘플의 제4 그룹을 획득하기 위해 제2 디코딩 모듈(120)을 사용함으로써 복수의 스펙트럼 도메인 오디오 샘플의 일부를 디코딩하도록 구성된다.
특정 실시예가 이제 상세히 설명된다.
실시예는 수정되고 확장되고 랩핑된 변환을 제공하며, 이는 다음에서 설명된다.
전이 3 부분 OLA 영역에서도 완전한 TDA 상쇄(TDAC)를 달성함으로써 도 5a의 완벽한 재구성 문제를 해결하기 위해, 하나의 변환 클래스는 예를 들어 도 5b 및 도 5c에서와 같이 TDA 대칭이 다른 것의 대칭을 보충하도록 재정의되어야 한다.
특히, 도 5는 전이 변환을 갖는 MLT에서 ELT로 전환을 도시하고, 도 5a는 부정확한 완전하지 않은 재구성을 도시하고, 도 5b는 바람직한 완전한 재구성을 도시하고, 도 5c는 바람직한 ELT를 통한 MLT를 도시한다.
또한, 유사하게, 도 6은 실시예에 따른 전이 변환을 갖는 ELT에서 MLT로의 전환을 도시한다.
기존 MDCT 및 MDST 구현에 대한 변경을 피하는 것이 바람직하므로, ELT에 중점을 둔다. 또한, 모든 변환에 대해 완벽한 재구성 전이 및 정상 상태 윈도우를 쉽게 획득하기 위해서는, 상응하는 분석 표현이 바람직하다.
먼저, 실시예에 따른 오버랩 비율의 적응형 스펙트럼-시간 컨버터에 대한 수정이 설명된다.
ELT에 MLT와의 바람직한 TDA 호환성을 부여하기 위해, 시간 위상 시프트는 그 기본 함수
Figure 112018039506725-pct00156
(4)
에서 변경되며, k, cs는 그에 따라 적응된
Figure 112018039506725-pct00157
를 사용하여 공식 (2) 및 역 ELT (1)에 대해 정의될 수 있다 (위에서와 마찬가지로 cs( )는 cos( ) 또는 sin( )일 수 있다).
전술한 바와 같이, 예를 들어 (예를 들어, 분석 공식 (2c), (2e), (2g), 및 (2i)의 경우에) N = L로 설정하여, 그리고 (예를 들어 합성 공식 (2d), (2f), (2h), 및 (2j)의 경우에)
Figure 112018039506725-pct00158
설정하여 공식 (2c) - (2j)를 수정함으로써, ELT 공식 및 역 ELT 공식이 획득된다.
이들 ELT 공식 및 역 ELT 공식에 공식 (4)의 개념을 적용하면, 새로운 본 발명의 수정되고 확장되고 랩핑된 변환(modified extended lapped transform, MELT) 실시예를 나타내는 공식 (4a) - (4h)가 된다. 공식 (4a) - (4h)의 특정 실시예는 75% 오버랩 비율을 갖는 랩핑된 변환을 실현한다:
순방향 코사인 변조된 MELT, 타입 4, 이제 MECT-IV라고 함:
Figure 112018039506725-pct00159
(4a)
역 코사인 변조된 MELT, 타입 4, 이제 IMECT-IV라고 함, n<L:
Figure 112018039506725-pct00160
(4b)
순방향 코사인 변조된 MELT, 타입 2, 이제 MECT-II라고 함:
Figure 112018039506725-pct00161
(4c)
역 코사인 변조된 MELT, 타입 2, 이제 IMECT-II라고 함, n<L:
Figure 112018039506725-pct00162
(4d)
순방향 사인 변조된 MELT, 타입 4, 이제 MEST-IV라고 함:
Figure 112018039506725-pct00163
(4e)
역 사인 변조된 MELT, 타입 4, 이제 IMEST-IV라고 함, n<L:
Figure 112018039506725-pct00164
(4f)
순방향 사인 변조된 MELT, 타입 2, 이제 MEST-II라고 함:
Figure 112018039506725-pct00165
(4g)
역 사인 변조된 MELT, 타입 2, 이제 IMEST-II라고 함, n<L:
Figure 112018039506725-pct00166
(4h)
일부 실시예는 MLT에서 ELT로 및 ELT에서 MLT 로의 전이를 위한 특정의 적절한 윈도우 디자인을 제공하며, 이는 하기에서 설명된다.
도 5에 나타내어진 바와 같이, 전이 MLT 및 ELT 윈도우의 4개의 쿼터는 각각의 정상 상태 가중치에 기초하며, 제1 쿼터 및 제4 쿼터는 제로로 설정되고 중요한 쿼터는
Figure 112018039506725-pct00167
(5)
으로 기술되고, 도 5에서와 같은 전환의 경우에는
Figure 112018039506725-pct00168
, 반전 ELT-MLT 전이의 경우에는
Figure 112018039506725-pct00169
이다. ELT 및 MLT 전이 가중치 양자 모두에 대한 중요한 쿼터(511, 512, 521, 522)(도 5에 도시됨) 및 중요한 쿼터(631, 632)(도 6에 도시됨)를 얻기 위해 공식 (5)를 사용하는 것은 정상 상태 함수의 선택만 남겨두고 전이 윈도우의 정의를 완성한다.
공식 (5)의 확장되고 랩핑된 변환에 대한 전이 윈도우의 완전한 정의는 예를 들어 50 내지 75%의 오버랩 비율로의 전이에 대해 공식 5a의 (M)ELT 윈도우로서 정의될 수 있다:
Figure 112018039506725-pct00170
(5a)
75%에서 50%의 오버랩 비율로의 전이에 대한 (M)ELT 윈도우의 경우, 정의는 방정식 (5a)의 정의가 되지만, wtr은 일시적으로 반전될 것이다.
방정식 (5a)에서, d는 예를 들어 상수, 예를 들어 실수일 수 있다.
방정식 (5) 및 방정식 (5a)에서, 예를 들어, welt(n)은 확장되고 랩핑된 변환을 위한 윈도우, 예를 들어 최신 기술의 확장되고 랩핑된 변환 윈도우를 나타낼 수 있다 (참고문헌 [11] <S. Malvar, "Modulated QMF Filter Banks with Perfect Reconstruction," Electronics Letters, vol. 26, no. 13, pp. 906-907, June 1990>에서의 공식 (16) - (19)에 의해 정의된 윈도우 패밀리 참조).
또는, 방정식 (5) 및 방정식 (5a)에서, welt(n)는 예를 들어 하기 공식 (8)에서 정의된 바와 같이 새로운 창의적인 확장되고 랩핑된 변환 윈도우일 수 있다.
방정식 (5) 및 방정식 (5a)에서, L은 예를 들어 ELT 윈도우의 크기를 나타내는 수이다. N은 MLT 윈도우의 크기를 나타내는 수이다. M은 수이다, 예를 들어
Figure 112018039506725-pct00171
이다.
공식 (5a)에서, n은
Figure 112018039506725-pct00172
범위의 수이다. k는 수이다.
공식 (5) 및 공식 (5a)에서, k는 범위
Figure 112018039506725-pct00173
로 정의된다.
다음에서, 실시예에 따른 정상 상태 완전 재구성 랩핑된 변환 윈도우가 도 7을 참조하여 설명된다.
도 7은 도 7a의 MLT, 도 7b의 ELT, 및 도 7c의 실시예에 따른 완전한 재구성 윈도우 디자인을 도시한다.
완벽한 재구성을 위해 소위 Princen-Bradley 조건을 시행하는 몇 가지 파워 보완(power-complementary, PC) MLT 윈도우가 문서화되어 있다. 도 7a는 MPEG 오디오 코덱([5], [7] 참조), MLT 사인 ([3], [11] 참조), 및 Kaiser-Bessel 유도(Kaiser-Bessel derived, KBD) 윈도우([23] 참조)에서 사용되는 윈도우의 형상 및 대응하는 오버샘플링된 이전 함수를 도시한다. 또한 [24]의 파워 보완 함수는 KBD 윈도우의 형상과 유사하지만 주목할 수 있듯이 낮은 첫 번째 (근접장) 사이드 로브 레벨을 나타낸다. 마지막으로, 듀얼 레이트 SBR의 경우에 사용된 두 배 프레임 길이의 사인 윈도우는 참조용으로 사용되며 더 긴 윈도우가 통과 대역폭과 정지 대역 레벨을 현저히 줄일 수 있음을 보여준다.
이상적으로, 공식 (3)의 완벽한 재구성 제한을 조건으로 하는 ELT 윈도우는 두 배 길이 사인 윈도우의 주파수 응답에 필적하는 주파수 응답을 나타내야 하나, 완벽한 재구성 제한으로 인해 메인 로브 폭은 사이드 로브 감쇠를 줄임으로써 최소화될 수 있음을 관찰할 수 있다. 예를 들어 p=1인 Malvar의 윈도우 [11]은 도 7b에서와 같이 모든 ELT 디자인의 가능한 가장 낮은 메인 로브 폭을 갖지만, 바람직하지 못한 높은 정지 대역 레벨을 갖는 것으로 판명되었다. 그것의 시간적 경계는 눈에 띄게 불연속적이며 (윈도우 확장을 넘어서는 샘플은 제로와 동일한 것으로 가정하기 때문에), 사이드 로브 감쇠는 단지 -6dB/옥타브 ([24] 참조)와 프레이밍 아티팩트를 발생시킨다. Temerinac과 Edler([16] 참조)는 도 7과 같은 ELT 윈도우를 획득하는 데 사용한 재귀적 디자인 접근법을 제시했다 (표 1의 "L = 4N"열에 -0.038411 값이 누락되어 있음을 유의한다). p = 0.14인 Malvar의 방정식에 가깝게 근사될 수 있는 이 윈도우는 더 많기는 하지만 여전히 약한 정지 대역 감쇠를 제공한다.
p = 1 인 경우, Malvar의 공식을 Hann 윈도우에 대한 표기법과 비슷한 표기법으로 수정할 수 있다는 것은 알 만한 가치가 있다:
Figure 112018039506725-pct00174
(6)
Figure 112018039506725-pct00175
은 윈도우의 시간 샘플을 표시하고,
Figure 112018039506725-pct00176
은 완벽한 재구성 제약을 시행하도록 선택된다 ([11], [12], [13], [14] 참조). 직관적으로, Blackman의 윈도우를 유도하는 데 사용할 수 있는([24] 참조), 사이드 로브 감쇠가 더 많은 함수
Figure 112018039506725-pct00177
(7)
-
Figure 112018039506725-pct00178
- 가 또한 적용 가능할 것으로 보인다. 불행하게도, b0의 값에 관계없이 그러한 윈도우 클래스로는 완벽한 재구성을 달성할 수 없다는 것을 알 수 있다.
그러나, 실시예에 따르면, 더 많은 항이 추가된다.
실시예에 따르면, welt(t)는
Figure 112018039506725-pct00179
(8)
로 제공되며, bk는 전술한 바와 같고,
Figure 112018039506725-pct00180
의 임의의 선택에 대한 최종 형상을 수정할 수 있으므로 완벽하게 재구성 할 수 있다. 특히,특히 낮은 정지 대역 레벨을 목표로 하고 완벽한 재구성 조건 외에도 아이소톤(isotone) 왼쪽 절반, 안티톤(antitone) 오른쪽 절반 윈도우 슬로프의 제한을 부과하여, 완벽한 재구성이 K = 3, b2 = 0.176758를 사용하여, 그리고 이들 값 b0 = 0.3303 및
Figure 112018039506725-pct00181
(9)
에 따라
Figure 112018039506725-pct00182
미만의 에로로 근사치가 계산될 수 있다. 도 7b에 도시된 이 ELT 윈도우 함수는 [11]과 [16]의 제안보다 경계에서 불연속성이 적기 때문에, 결과적으로 도 7a의 두 배 길이 사인 윈도우와 동일한 수준의 사이드 로브 제거를 허용한다. 동시에, 메인 로브는 MLT 사인 윈도우의 것보다 좁다. 흥미롭게도, 그것은 또한 형상이 후자의 윈도우와 닮았다.
도 7(c)는 식 (8)과 식 (9)를 사용하여 [24]의 파워 보완 디자인 및 공식(8)과 공식 (9)를 사용하는 welt에 기초한 MDCT/MDST 및 ELT 전이 윈도우의 스펙트럼 및 시간 형상, 및 비교를 위한 AAC의 두 배 길이 시작 윈도우를 도시한다.
실시예는 일반화된 배직교 ELT 전이 윈도윙을 사용한다.
방정식 (5)는 MLT로부터 ELT 코딩 또는 ELT에서 MLT 코딩으로의 전이에 대한 길이 4M 확장되고 랩핑된 변환(ELT) 윈도우의 중요한 쿼터가 결정될 수 있는 방법을 특정한다.
실시예에서, 방정식 (5)는 다음과 같이 상수 d(예로서, 식 (5a) 참조)와의 곱셈에 의해 조정된다:
Figure 112018039506725-pct00183
(10)
k = 0, 1, ..., M-1이고, t는 k 및 L 양자 모두를 사용하여 앞서 정의된 바와 같다. 이것은 전환 비율 전이 윈도윙과 관련하여 이른바 배직교 접근법을 허용하며, 분석 및 합성 변환을 위해 상이한 중요한 윈도우 쿼터가 사용될 수 있다. 좀더 구체적으로, TDAC와 완벽한 재구성을 달성하기 위해, wtr(t)는 분석(인코더) 측에서 d = d'를 사용할 수 있고, 합성(디코더) 측에서는 wtr(t)는 역, 즉 d = 1/d'을 적용할 수 있다. 특정 정상 상태 ELT 윈도우 welt, 바람직하게는 방정식 (8) 및 방정식 (9)를 통해 도출된 ELT 윈도우 welt가 주어지면, d'는 바람직하게는 다음의 두 가지 고려 사항 모두에 기초하여 결정된다.
바람직하게는, d'를 결정하기 위해, 방정식 (10)은 모든 비율 전환 전이 중에, 분석 윈도우의 최적의 스펙트럼 속성 및 디코딩 시의 최대 출력 감쇠를 생성하도록 선택된다.
분석 윈도윙의 최적의 스펙트럼 특성을 달성하기 위해, 일부 실시예는 특히 정적 고조파 오디오 신호의 스펙트럼 컴팩션(compaction)을 최대화하기 위해 분석 윈도우에서 메인 로브 폭의 가능한 최소량 및 사이드 로브 감쇠의 가능한 최대량을 달성한다. 정상 상태 welt 윈도우가 이미 이러한 목적으로 최적화되었다면, 이것은 4개의 윈도우 쿼터 사이의 경계에서 불연속성을 피함으로써 wtr에서 달성될 수 있음을 보여줄 수 있다. 보다 정확히는, (10)에서의 wtr(t)의 최대 값이 n = 0, 1, ..., L-1인 welt(n)의 최대 값과 동일하도록 d'를 택함으로써, 전이 윈도우 형상에서의 점프가 완전히 회피된다.
따라서, 일 실시예에서, d '는 상기 2개의 최대치 사이의 비율을 반영할 것이고, 이는 공식 (8) 및 공식 (9)의 경우에
Figure 112018039506725-pct00184
에 의해 근사치가 계산될 수 있다.
일 실시예에 따르면, 합성 윈도윙 시에 최대 출력 감쇠가 달성된다. 변환 빈의 양자화에 의해 도입된 오디오 코딩의 스펙트럼 도메인 왜곡을 가능한 한 많이 억제하기 위해, OLA 프로세싱 이전의 합성 윈도윙 프로세스 동안 가능한 한 많이 출력 파형을 감쇠시키는 것이 유용할 수 있다. 그러나, 완벽한 재구성/TDAC 요건으로 인해, 윈도우에 의한 강한 감쇠는 가능하지 않은데, 이 접근법은 보완 분석 윈도우가 효율성 측면에서 해를 끼칠 것이기 때문이다. 양호한 윈도우 특성과 수용 가능한 디코더 측 출력 감쇠 사이의 양호한 절충은
Figure 112018039506725-pct00185
를 다시 선택함으로써 얻어질 수 있다는 것을 알 수 있다.
다시 말해, wtr에 대한 두 최적화 방법 모두 d'와 동일한 값으로 유도되는 것이 바람직하다.
예를 들어, 공식 (2a) - (2j)의 최신 변환 또는 공식 (4a) - (4h)의 새로운 창의적인 변환과 같은 변환에 대한 예가 이미 제공되었다.
일 실시예에 따른 방정식 (10)의 전이 윈도우에 대한 예는 예를 들어 방정식 (5a)에 의해 제공된다.
도 10은 전술한 실시예에 따른 대응하는 분석 윈도우를 도시한다.
마찬가지로, 도 11은 전술한 실시예에 따른 대응하는 합성 윈도우를 도시한다.
이하, 입력 적응형 스펙트럼-시간 컨버터형 오버랩 비율 선택이 설명된다.
예를 들어 위에 제공된 윈도우를 사용하여 제공된 전환된 코딩 접근법은 변환 코덱으로 통합될 수 있다. 이것은 특히 음조 입력에 대한 주관적인 이점을 입증한다. 간략하게 하기 위해, 상위 수준의 측면만이 설명될 것이다.
디코더의 명세 및 합성 변환이 고려된다.
ELT의 추가적인 비트 시그널링 애플리케이션은 긴 변환(블록 전환 없음)이 인코더에 의해 이용된 채널 및/또는 프레임당 수신된다. MPEG 코딩의 경우, 윈도우 형상 비트는 이러한 목적을 위해 재사용될 수 있다 (예를 들어, "0"은 참조 [23] 또는 참조 [24]의 윈도우를 사용하는 MLT가 사용됨을 의미한다. 예를 들어 "1"은 실시예의 ELT 개념이 이용된다).
이 비트 및 현재 및 최종 프레임에 대한 윈도우 시퀀스(변환 길이 및 타입)에 기초하여, 디코더는 전술한 바와 같이 올바른 오버랩 비율 및 윈도우를 사용하여 역 랩핑된 변환을 추론하고 적용할 수 있다.
예를 들어, 여분의 비트는 인코더가 MLT와 ELT 사이에서 전환할 수 있는지 여부를 나타낼 수 있다. 여분의 비트가 인코더가 MLT와 ELT 사이에서 전환할 수 있음을 나타낸다면, 윈도우 패턴 비트는 MLT 또는 ELT가 현재 프레임에 대해 사용되는지 여부를 나타내기 위해 재사용된다.
이제 ELT 검출기 및 인코더의 해석 변환이 고려된다.
인코더와 디코더가 동기화되도록 채널별/프레임 MLT/ELT 선택을 적용하고 송신하는 인코더는 음성 코더에서 행해진 바와 같이([25] 참조), 입력의 선형 예측 코딩(LPC, 예를 들어 차수 16의 LPC) 잔여를 다음과 같이 계산함으로써 고정 고조파 프레임을 검출할 수 있다.
인코더는 예를 들어, 다음과 현재 프레임의 잔여 에너지 사이의 비율로서 시간 평탄도
Figure 112018039506725-pct00186
를 유도하고, 정상성(stationarity)은
Figure 112018039506725-pct00187
로 명시된다. 또한, 인코더는 예를 들어
Figure 112018039506725-pct00188
로 나타내어지는 높은 음조를 갖는, 현재 및 다음 프레임의 연결 잔여의 DFT 파워 스펙트럼으로부터 획득된 Wiener 엔트로피로 알려진 스펙트럼 평탄도
Figure 112018039506725-pct00189
를 도출한다.
이하에서, 일부 실시예에 따른 수정되고 확장되고 랩핑된 변환(MELT)의 추가 양태가 제공된다.
특히, 전환 가능한 MELT를 MPEG-H 3D 오디오 코어 코딩 시스템에 통합하는 바람직한 실시예의 구현 측면에 대한 상세한 설명이 제공된다.
먼저, 몇몇 실시예에 따른 디코더, 그 명세, 및 합성 변환이 설명된다.
예를 들어 use_melt_extension로 불리는 글로벌 1 비트 구문 요소가 단일 채널 요소(single-channel element, SCE), 채널 쌍 요소(channel-pair element, CPE) 및 선택적으로 저주파수 강화 요소(low-frequency enhancement element, LFE) 구문 명세의 스트림 구성에 도입되었다. 이는 use_melt_extension을 표준 텍스트의 mpegh3DACoreConfig ( ) 테이블에 배치하여 달성될 수 있다. 주어진 비트 스트림이 use_melt_extension = 0을 특징으로 하는 경우, 코어 디코더는 최신 기술에서 특정된 바와 같이 종래의 MPEG-H 방식으로 동작한다. 이는 50% 변환 오버랩 비율을 갖는 MDCT(또는 MDST, 프레임/채널에서 활성화된 커널 전환의 경우, [28] 참조, 특히 [28]의 이산 멀티 채널 코딩 툴 섹션 4의 끝부분 참조)만이 허용되고, window_sequence(오직 long, long start, eight short, long stop, stop-start) 및 window_shape(sine 또는 KBD)에 대한 새로운 제한 사항은 없음을 의미한다. ([28]에서, 적응형 스펙트럼-시간 컨버터 스펙트럼-시간 컨버터는 커널의 측면에서 상이한 대칭을 갖는 하나 이상의 변환 커널로 제1 그룹의 변환 커널의 변환 커널과 변환 커널의 측면에서 동일한 대칭을 갖는 하나 이상의 변환 커널을 포함하는 제2 그룹의 변환 커널 사이에서 전환한다).
그러나, 비트 스트림에서 use_melt_extension = 1인 경우, "only long"window_sequence를 갖는 프레임/채널에 대한 프레임당 1 비트의 window_shape 요소의 의미는 전술한 바와 같이 바람직하게 수정된다 (0 : α = 4 ([23] 참조)의 기존 KBD 윈도우 함수를 사용하는 MDCT/MDST, 1 : 본 명세서에서 제안된 welt 윈도우 함수를 갖는 MELT).
인코딩된 오디오 신호(4)를 디코딩하기 위한 디코더(2)의 개략적인 블록도가 도시된다. 디코더는 적응형 스펙트럼-시간 컨버터 스펙트럼-시간 컨버터(6) 및 오버랩 가산 프로세서(8)를 포함한다. 적응형 스펙트럼-시간 컨버터 스펙트럼-시간 컨버터는 예를 들어 주파수-시간 변환을 통해 스펙트럼 값(4')의 연속적인 블록을 시간 값(10)의 연속적인 블록으로 컨버팅한다. 또한, 적응형 스펙트럼-시간 컨버터(6)는 제어 정보(12)를 수신하고, 제어 정보(12)에 응답하여, 커널의 측면에서 상이한 대칭을 갖는 하나 이상의 변환 커널을 포함하는 제1 그룹의 변환 커널과 변환 커널의 측면에서 동일한 대칭을 갖는 하나 이상의 변환 커널을 포함하는 제2 그룹의 변환 커널들 사이에서 전환한다. 또한, 오버랩 가산 프로세서(8)는 연속적인 시간 값 블록(10)을 오버랩 및 가산하여, 디코딩된 오디오 신호일 수 있는 디코딩된 오디오 값(14)을 획득한다.
이 디자인에는 세 가지 이유가 있다. 첫째, 정상 상태의 MELT를 위한 하나의 바람직한 윈도우 함수가 있고, 종래 기술에서는 Kaiser-Bessel 함수로부터 유도된 ELT 윈도우가 존재하지 않기 때문에, "only long" 프레임/채널 및 활성화된 MELT에 대한 window_shape 비트는 쓸모 없는 것으로 간주될 수 있고, 따라서 (최신 기술에서 정의된 바와 같이 해석되는 경우) 그 값은 무시되어야 하기 때문에 불필요하다.
둘째, "only long"이 아닌 채널/프레임에서 MELT 코딩의 사용은 지원되지 않는다 - 예를 들어 MDCT/MDST 대신에 짧은 8개의 MELT의 시퀀스가 가능하기는 하나, "eight short"시퀀스의 목적이 최대의 시간적 코딩 해상도이기 때문에 지각적인 관점에서 생산성이 떨어진다 -.
셋째, 주어진 입력 신호 부분에서 사인 윈도우가 KBD 윈도우보다 더 나은 코딩 품질을 제공하는 "only long" 프레임/채널은 동일한 신호 부분에서 활성화되는 경우 제안된 ELT 디자인보다 훨씬 유리하다는 것이 발명자들에 의해 발견되었다. 다시 말해, "sine" window_shape을 갖는 MDCT/MDST는 "KBD" window_shape를 사용하여 MDCT/MDST 코딩을 능가하는 파형 세그먼트의 ELT 제안에 의해 주관적으로 일치되거나 심지어 능가한다. 따라서, window_sequence가 "only long"이고 use_melt_extension이 1인 경우 기존 window_shape 비트를 재사용하고 다시 지정함으로써, 리던던시가 완전히 회피되고 MELT에 대한 제안된 전환이 주어진 프레임/채널에서 사용되는지 여부를 시그널링하기 위해 프레임당 더 이상의 비트가 필요하지 않다.
use_melt_extension = 1인 비트 스트림의 경우, 다음과 같이 수행되는 역 변환 및 오버랩 가산(OLA) 프로세스를 제외하고, 주파수 도메인(frequency-domain, FD) MPEG-H 코어 디코딩이 통상적으로 수행된다.
window_sequence = "only long", 및 window_shape = 0 (KBD), 또는 window_sequence ≠ "only long", 또는 임의의 window_shape을 갖는 프레임/채널의 경우, 프레임 와이즈 역 변환, 합성 윈도윙, 및 OLA는 MPEG-H 3D 오디오 표준, 즉 ISO/IEC 23008-3:2015 하위 조항 5.5.3.5.1, 및 ISO/IEC 23003-3:2012, 하위 조항 7.9에 명시된 바와 같이 수행된다.
그러나, 전환 가능한 MELT의 윈도윙 레이턴시의 증가를 고려하기 위해, OLA 단계로부터 생성된 프레임별 파형 세그먼트의 출력은 하나의 프레임만큼 지연된다. 이것은 예를 들어 주어진 프레임이 스트림의 첫 번째 프레임인 경우, 제로 파형이 출력된다.
window_sequence = "only long" 및 window_shape = 1(이전: sine) 프레임/채널의 경우, 역 변환은 본 명세서에서 제안된 MELT에 대한 공식을 사용하여 수행되며, 이는
Figure 112018039506725-pct00190
Figure 112018039506725-pct00191
을 제외하고 ISO/IEC 하위 조항 7.9.3.1에서 주어진 방정식과 동일하다. 즉 cos( ) 함수 대신에 sin( ) 함수 그리고 k0 = 0(타입 II 코사인 변조인 경우) 또는 k0 = 1 (타입 II 사인인 변조인 경우)을 사용하는 커널 전환에 대한 수정은 또한 MELT (TDA 호환 시퀀싱이 가정됨)로 가능함에 유의한다. 그 다음에 합성 윈도윙이 섹션 2 및 섹션 3에서 설명된 바와 같이 적용되며, 전이 윈도우는 주어진 채널에 대한 현재 프레임 및 이전 프레임 양자 모두에 대해 window_shape 및 window_sequence 값을 사용하여 표 3에서 표로 만들어진 바와 같이 검출된다. 또한, 표 3은 허용된 모든 시퀀스/형상 전이 세트를 나타낸다.
역 MELT(또는 원래 ELT)는 기존의 MDCT 및 MDST 실현을 사용하여 구현될 수 있으며, 이는 고속 푸리에 변환(Fast Fourier Transformation, FFT)을 기반으로 한 빠른 DCT/DST 구현을 적용함에 또한 유의해야 한다. 보다 구체적으로, 사인 변조된 역 MELT는 모든 홀수 인덱스 스펙트럼 샘플(인덱싱이 제로에서 시작하는)을 반대로 하고, 역 MDCT-IV를 적용한 후, 결과적인 2N 출력 샘플을 음의 부호로 일시적으로 반복함으로써 완성될 수 있다.
마찬가지로, 코사인 변조된 역 MELT는 모든 짝수 인덱스 스펙트럼 샘플을 반대로 하고 역 MDST-IV를 실행한 다음 마지막으로 음수 부호를 사용하여 동일한 시간 반복을 반복함으로써 획득될 수 있다. 위의 모든 MELT 구성에 대한 순방향(분석) 변환뿐만 아니라 커널 전환의 경우에 사용되는 타입 II 코사인 또는 사인 변조된 역 MELT에 대해서도 유사한 구현이 가능하다. 따라서, 종래의 MDCT/MDST 알고리즘과 비교하여 MELT 프로세싱에 의해 야기되는 유일한 복잡성은 음의 시간 반복(역 케이스의 확장 또는 전방 케이스의 압축)의 필요성으로 인한 것이며, 이는 2N 입력 또는 출력 샘플의 -1로 스케일링된 단순한 복사/곱셈-가산 연산, MDCT/MDST에 대해서보다 샘플이 두 배 많은(2N 대신에 4N) 분석 또는 합성 윈도윙, 및 디코더에서의 OLA 중에 더 많은 가산을 나타낸다. 다시 말해, 변환의 O(n(logn + c)) 알고리즘 복잡성을 고려하면, MELT(또는 ELT)의 경우에 오직 상수 c만이 증가하고, 본 실시예에서 n = 1024 또는 768이므로, 약 2에서 3의 인자에 의한 c의 증가는 무시 가능한 것으로 간주될 수 있다 (즉, 전체 변환, 윈도윙 및 OLA/프레이밍 복잡성의 1/4에 불과하며 전체 3D 오디오 디코더의 복잡성의 일부에 지나지 않는다).
표 3은 MELT 전환 방식의 경우 지원되는 윈도우 시퀀스를 나타낸다. LONG 시퀀스는 MDCT/MDST를 의미하며 "KBD" 윈도우 형상은 ELT-LONG 시퀀스를 신호하는 데 "sine" 윈도우 구성을 갖는 LONG이 다시 사용되기 때문에 허용된다.
표 3
Figure 112018039506725-pct00192
√ = 허용됨; x = 허용되지 않음
tr<- tr = ELT로부터 전이; tr ->tr = ELT로 전이;
KBD = Kaiser-Bessel 유도
다음에서는, 수행된 코덱 통합에 대한 평가가 설명된다. 블라인드 주관적인 전환된 비율 제안의 평가는 신호 적응 디자인의 이점을 확인했다. 도 8 및 도 9가 참조된다.
도 8은 ELT의 스펙트럼 및 시간적 평탄도에 기초한 선택을 도시한다. 특히, 도 8은 4개의 입력 신호에 대한 결과적인 프레임 단위 ELT 및 MDCT 선택을 보여준다 (이 자료에는 MDST가 사용되지 않음). 정지된 음조의 통과가 안정적으로 검출된다. 아래 (분홍색) "sel" 라인은 MELT에 대해서는 값 "0"을, MLT에 대해서는 값 "-1"을 갖는다.
도 9는 95% 신뢰 구간으로 듣기 테스트 결과를 확대한 뷰를 도시한다. 3.5-kHz 앵커 점수는 명확성을 위해 생략되었다.
3D 오디오 코덱에 통합된 이 체계의 주관적인 테스트 결과와 디자인은 다음과 같이 논의된다:
MDCT만을 (또는 커널 전환 제안의 경우처럼 MDST만을, [9] 참조) 사용하는 기존의 방법과 비교하여 전환 MDCT-ELT 코딩 시스템의 주관적 성능을 평가하기 위해 MUSHRA(숨겨진 참조 및 앵커를 갖는 다중 자극) 원리에 따른 두 가지 시각 장애 청취 실험이 수행되었다. 이를 위해, 전환 비율 아키텍처는 [8], [8]에서 설명된 바와 같이 48kbit/s 스테레오에서 세미 파라메트릭 채널 쌍 코딩을 위한 대역폭 확장 및 스테레오 필링(stereo filling, SF)을 위해 IGF를 사용하여 MPEG-H 3D 오디오 코덱의 인코더 및 디코더 구현에 통합되었다. 팬이 없는 컴퓨터와 현대의 STAX 헤드폰을 사용하여 조용한 방에서 경험이 풍부한 12명의 청취자(39세 이하, 1명의 여성 포함)가 테스트를 수행했다.
처음 수행된 실험은 마지막 섹션에서 논의된 바와 같이, 음조에 대한 종래의 MDCT 코딩에 비해 ELT의 이점, 뿐만 아니라 전이 및 톤 온셋에 대해 ELT로부터 MDCT 코딩으로의 전환의 혜택을 수량화하기 위해 음조 기계 신호를 사용한 48-kbit/s 테스트이다. 과거의 MPEG 코덱 평가 [25] ,[27]에서 이미 사용된 4개의 음조 신호 테스트 신호 각각 - 아코디언, 백/피치 파이프, 및 하프시코드 - 의 경우에, 통합 ELS는 3D 스테레오 SBR 및 MPEG 서라운드 2-1-2 (따라서 프레임 길이를 두 배로 늘림)를 사용하는 3D 오디오 기준 조건과 함께 제공된다.
이 테스트의 결과는 자극당 95% 신뢰 구간과 함께 도 9a의 전반적인 평균 점수와 도 9b의 ELT 조건과 비교한 미분 평균 점수로 표시된다. 그들은 네 가지 항목 중 세 가지에 대해 정지 신호 통과 중에 ELT로 전환하여 SBS 기반 3D 오디오 코덱의 품질을 크게 향상시킬 수 있음을 보여준다. 또한, 비 고정 음조 온셋 및 전이 기간 동안 MDCT 코딩에 의존함으로써, 강한 프리 에코 아티팩트로 인한 지각 열화가 회피된다. 마지막으로, IGF와 SF를 사용한 3D Audio 구성의 주관적인 성능은 이러한 항목에 대한 더 긴 프레임 크기의 통합 스테레오 참조의 주관적인 성능에 더 가까워질 수 있다. sm01(백 파이프)을 제외한 모든 자극은 이제 좋은 품질을 나타낸다.
[9]의 주관적 평가의 결과가 phi7 항목(피치 파이프, ELT가 몇 프레임 이상에 적용되는 [9]의 유일한 신호)의 현재 데이터와 결합된 다양한 신호 타입을 사용하는 48kbit/s 가상 테스트인 두 번째 "가상" 청취 테스트가 구성되었다.
이 설정은 전환 가능한 ELT 체계로 향상된 SBS 기반 3D 오디오 코딩이 다양한 테스트 세트에서 QMF 기반 3D 오디오 구성을 능가할 수 있는지 여부를 보여준다.
도 9c는 이 테스트에서 신뢰 구간을 사용하여 자극당 평균 절대 점수와 전반적인 절대 평균 점수를 나타낸다. 실제로, phi7과 같은 신호의 ELT 유도 품질 이득 덕분에 SBS + ELT 구성의 평균 지각 성능이 통합 스테레오 참조의 평균 인식 성능보다 상당히 향상되었다. 후자가 필요한 추가 의사 QMF 뱅크보다 더 높은 알고리즘 레이턴시와 복잡성을 나타냄을 고려하면, 이 결과는 매우 만족스럽다.
전환된 ELT 접근법의 지각적 이점이 공식적인 주관 평가에 의해 확인되었으며 3D 오디오 프레임워크에 대한 품질 저하는 보이지 않으며 48kbit/s에서 모든 타입의 입력 신호에 대한 우수한 코딩 품질의 발명자의 장기적인 목표는 실제로 조금 더 많은 인코더 튜닝으로 달성될 수 있다.
일부 실시예는 수정되고 확장되고 랩핑된 변환(MELT)의 적응형 애플리케이션에 의한 준 정상 고조파 신호 통과에 대한 향상을 제공한다.
이러한 맥락에서, 도 12는 일부 특정 실시예에 따른 랩핑된 변환을 갖는 기본 필터 뱅크를 도시하며, 도 12a는 MDCT/MDST를 도시하고, 도 12b는 ELT를 도시한다.
ELT에 기초하여, 일부 실시예에서, MELT는 도 12b에 도시된 바와 같이 75%의 상호 변환 오버랩을 갖는 특이하게 적층된 필터 뱅크를 구성하여, 동일한 프레임 길이 M에서 도 12a에 도시된 바와 같이 50% 오버랩을 갖는 MDCT 또는 MDST 필터 뱅크보다 더 큰 주파수 선택성을 산출한다. 그러나, ELT와는 달리, MELT는 예를 들어 일부 실시예에서는 특수 일시적인 윈도우만을 MDCT로 및 MDCT로부터 사용하여 직진 전이를 허용한다. 특히, 일부 실시예는 예를 들어 각각의 프레임 와이즈 신호 적응형 오버랩 비율 전환 체계를 제공할 수 있다.
코사인 및 사인 변조된 MELT 코딩을 실현하는 특정 실시예가 이제 설명된다.
이미 위에서 설명된 바와 같이, 시간 신호 x가 주어지고 스펙트럼 X를 리턴하는 인덱스 i에 있는 프레임에 대한 순방향(분석) MDCT는 예를 들어
Figure 112018039506725-pct00193
(11a)
과 같이 작성될 수 있으며, 윈도우 길이 N = 2M이고, 0=k < M이다. 마찬가지로 순방향 MDST는 코사인 항
Figure 112018039506725-pct00194
(11b)
대신에 사인을 사용하여 정의될 수 있다.
실시예에서, 시간 길이 및 위상 오프셋을 변경함으로써, 이는 MELT
Figure 112018039506725-pct00195
(11c)
를 산출하며, 증가된 윈도우 길이 L = 4M, 및 코사인 변조를 산출한다. 당연히, 사인 변조된 대응부는 또한
Figure 112018039506725-pct00196
(11d)
와 같이 명시될 수 있다.
역(합성) MELT 변형은 예를 들어 공식 (11c)를 적용하는 코사인 뱅크의 경우
Figure 112018039506725-pct00197
(11e)
이고, 각각, 사인 뱅크의 경우,
Figure 112018039506725-pct00198
(11f)
이며, '는 스펙트럼 프로세싱을 지칭하고,
Figure 112018039506725-pct00199
이다.
공식 (11a), 공식 (11b) 및 공식 (11c), 공식 (11d), 공식 (11e) 및 공식 (11f)에서 사용 윈도우 길이는 예를 들어 다양할 수 있지만, 변환 길이 M이므로, 도 12에 도시된 변환간 스텝 크기는 동일하게 유지되어 오버랩 비율의 차이를 설명함에 유의해야 한다. 공식 (11c), 공식 (11d), 공식 (11e), 및 공식 (11f)의 코사인 및 사인 변조된 MELT 정의는 일부 실시예에서, 커널 전환을 실현하기 위해 더욱 향상될 수 있으며 따라서 75% 상호 변환 오버랩의 경우에도 IPD가 ± 90도인 신호를 효율적으로 코딩할 수 있다. 균일하게 적층된 Princen-Bradley 필터 뱅크에서 채택된 타입 II 전이 변환은 예를 들어, 타입 IV MDCT와 MDST 사이에서 전환하는 경우 시간 도메인 앨리어싱 제거(TDAC)를 위해 이용될 수 있다 (공식 (11a) 및 공식 (11b)). 구체적으로, 채널에서 MDCT-IV 코딩에서 MDST-IV 코딩으로 변경하는 동안 MDST-II가 필요하며 MDCT-IV 코딩으로 되돌릴 때 MDCT-II가 필요하다.
전술한 타입 IV 정의(공식 (11c), 공식 (11d), 공식 (11e), 및 공식 (11f) 참조) 외에, DCT-II를 사용하여 신속하게 구현할 수 있는 ELT 기반의 필터 뱅크가 또한 구성될 수 있으며, 이는 50% 이상의 상호 변환 오버랩을 가진 타입 II 필터 뱅크가 사실상 실현 가능하다는 것을 증명한다. TDAC 필터 뱅크 디자인을 따르는 대안이지만 동등한 접근법은 타입 II 코사인 변조 MELT 버전
Figure 112018039506725-pct00200
(11g)
Kronecker 델타 δ(0) = 1, 및 타입 II 사인 기반 MELT
Figure 112018039506725-pct00201
(11h)
Nyquist 계수의 스케일링을 위한
Figure 112018039506725-pct00202
의 교대 사용을 통해 고르게 적층된 시스템을 고안하는 것이다.
분석 측에서 공식 (11g) 및 공식 (11h), 그리고 각각 분석 측에서
Figure 112018039506725-pct00203
(11i)
Figure 112018039506725-pct00204
(11j)
은 도 13에서 도시된 바와 같이 TDAC를 초래한다.
특히, 도 13은 몇몇 특정 실시예에 따른 고르게 적층된 필터 뱅크에서의 TDAC를 도시하고, 도 13a는 Princen-Bradley를 도시하고, 도 13b는 MELT-II를 도시한다. TDAC는 인접한 변환 간의 짝수 또는 홀수 짝수 시간 도메인 앨리어싱 조합의 경우에 가능하다.
MELT 코딩과 커널 전환의 결합과 관련하여, 50% 오버랩을 위한 프로세스와 유사하게, 타입 IV 코사인 및 사인 변조된 MELT(공식 (11c), 공식 (11d), 공식 (11e), 및 공식 (11f) 참조) 사이를 전환할 때 식 (11g) 및 (11i) 또는 식 (11h) 및 (11j)의 일시적인 타입 II 인스턴스가 사용되는 경우, TDAC는 불가능함을 알 수 있다. 즉각적인 오버랩 비율에 관계없이 커널 전환을 허용할 때 코덱의 아키텍처 복잡성을 낮게 유지하는 것이 바람직하므로 다음과 같은 해결 방법이 제안된다. 코사인 변조된 MELT-IV(공식 (11c) 및 공식 (11e) 참조)로부터 사인 변조된 MELT-IV(공식 (11d) 및 공식 (11f) 참조)로 전환하기 위해, 분석 및 합성 측면 모두에서 오버랩 비율을 50%로 일시적으로 감소시키면서 결합된 일시적 MDST-II 프레임이 사용될 수 있다. 마찬가지로, 사인-코사인 기반 MELT 코딩으로 되돌릴 때 중간 MDCT-II를 사용할 수 있다. 도 14는 특정 실시예에 따른 MELT-IV 필터 뱅크에 대한 특정 TDAC 호환 커널 전환을 도시하고, 도 14a는 코사인 변조로부터 사인 변조로의 전이를 도시하고, 도 14b는 사인에서 코사인 변조로의 전이를 도시한다.
도 14에서 볼 수 있듯이, 각각의 타입 II 전이와 타입 IV MELT 이웃 간의 오버랩 길이는
Figure 112018039506725-pct00205
로 제한되기 때문에 두 경우 모두에서 전체 TDAC가 획득된다. 따라서, TDAC를 필요로 하는 코사인 및 사인 변조된 MELT-IV 사이에는 일시적 앨리어싱 바운드 오버랩이 없다. 적절한 윈도윙을 실현하기 위해, 일 실시예에서는, 도 15a에 도시된 바와 같이, 특별한 "정지-시작" 윈도우가 타입 II 변환에 적용될 것이다. 비대칭 일시적 가중에 기초한 그러한, 예를 들어 대칭적인 윈도우는 일부 실시예에 따라 이하에서보다 상세하게 설명된다.
특히, 도 15는 일시적 전이 동안 대시로 나타낸 특별한 "정지-시작" 형상을 갖는 특정 실시예에 따른 향상된 윈도윙을 도시하고, 도 15a는 75%에서 50%의 오버랩 비율로 의 일시적 전이를 도시하고, 도 15b는 50%에서 75%의 오버랩 비율로의 일시적인 전이를 도시한다.
다음에서는, 일부 실시예에 따른 MELT 프레임으로의 및 MELT 프레임으로의 전이가 설명된다.
일부 실시예에 따르면, 프레임 사이의 전환은 예를 들어 50%의 MELT와 75%의 오버랩 비율을 갖는 MDCT형 변환으로부터 구현될 수 있고, 그 역도 성립될 수 있다. 전환 동안 전체 TDAC를 유지하기 위해, 준 정상 신호 통과 동안에 인가된 정상 상태 가중치로부터 유도된 전용 비대칭 전이 윈도우가 이용될 수 있다. 이들 윈도우는 예를 들어 오버랩이 50에서 75%로 증가되면(프레임 i에 대해 도 15a에 도시된 굵은 선 모양) 제1 MELT 윈도우에 대해
Figure 112018039506725-pct00206
이고,
오버랩을 50%로 감소시키는 경우(동일한 프레임에 대해 도 15b의 굵은 선 모양) 제1 MDCT/MDST 윈도우에 대해
Figure 112018039506725-pct00207
(13)
이다.
Figure 112018039506725-pct00208
Figure 112018039506725-pct00209
에 대한 보완, 50% 오버랩으로 전환하는 경우 마지막 MELT 윈도우 및 75% 오버랩으로 다시 전환하는 동안의 마지막 MDCT/MDST 윈도우(도 15에서 프레임 i-2)는 각각 공식 (12) 및 공식 (13)의 시간 반정이다. k는 중요한 윈도우 파트(도 14 참조)에 사용되며, 위와 같이 지정되며,
Figure 112018039506725-pct00210
을 나타낸다.
Figure 112018039506725-pct00211
은 정상 상태의 MELT 및 MDCT/MDST에 대한 기본 윈도우 함수를 나타낸다. 전자의 경우, ELT에도 적용 가능하며 ([12] 참조), 블로킹 아티팩트를 방지하는 향상된 디자인이 위에서 제공되었다.
wtr(t) - t는 시간 도메인 샘플의 수 M을 스패닝함- 가 예를 들어 중요한 윈도우 쿼터, 예를 들어 분석(인코더) 또는 합성(디코더) 측에 적용되는 경우
Figure 112018039506725-pct00212
또는
Figure 112018039506725-pct00213
의 실수값 d에 의해 스케일링된 제곱근 항에 의해 특징지어지는 길이 M 세그먼트를 나타낸다고 하자. d를 사용하면, 분석 및 합성 변환을 위해 상이한 임계 윈도우 부분이 사용될 수 있는, 전환 비 전환 전이 윈도우와 관련하여 소위 쌍 직교 접근법이 허용된다. 좀 더 구체적으로 말하자면, TDAC 따라서 PR을 달성하기 위해,
Figure 112018039506725-pct00214
은 분석 (인코더) 측에서 d = d'를 사용할 수 있고, 합성(디코더) 측에서는
Figure 112018039506725-pct00215
은 역, 예를 들어
Figure 112018039506725-pct00216
을 적용할 수 있다. 특정 정상 상태 ELT 윈도우
Figure 112018039506725-pct00217
가 주어지면, 모든 비율 전환 전이 동안, 그것은 인코딩 동안 분석 윈도우의 최적의 스펙트럼 속성과 디코딩 동안 합성 윈도우에 의한 최대 출력 감쇠를 유도하도록 d'가 바람직하게 결정된다.
디코더 실시예에 따르면, welt는 제1 윈도우 함수이고, wmlt는 제2 윈도우 함수이고,
Figure 112018039506725-pct00218
은 제3 윈도우 함수이고, 제3 윈도우 함수는
Figure 112018039506725-pct00219
에 따라 정의되고, M은 제1 또는 제2 또는 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고, k는
Figure 112018039506725-pct00220
인 수이고, d는 실수이고, n은 정수이고, 오버랩 가산기(130)는 제3 윈도우 함수
Figure 112018039506725-pct00221
에 따라 시간 도메인 중간 오디오 샘플의 제1 및 제2 및 제3 및 제4 그룹 중 적어도 하나를 생성하도록 구성된다.
유사하게, 인코더 실시예에 따르면, welt는 제1 윈도우 함수이고, wmlt는 제2 윈도우 함수이고,
Figure 112018039506725-pct00222
은 제3 윈도우 함수이고, 제3 윈도우 함수는
Figure 112018039506725-pct00223
에 따라 정의되고, M은 제1 또는 제2 또는 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고, k는
Figure 112018039506725-pct00224
인 수이고, d는 실수이고, n은 정수이고, 제1 인코딩 모듈(210) 및 제2 인코딩 모듈(220) 중 적어도 하나는 제1 및 제2 및 제3 및 시간 도메인 오디오 샘플의 제4 그룹 중 적어도 하나에 제3 윈도우 함수
Figure 112018039506725-pct00225
를 적용하도록 구성된다.
다음에서, 일부 실시예에 따른 분석 윈도윙의 향상된 바람직하게는 최적의 스펙트럼 특성이 설명된다. 일부 실시예는 고정된 고조파 오디오 신호의 스펙트럼 압축을 증가시키기 위해, 분석 창에서 메인 로브 폭의 최소, 가능한 한 작은 양, 바람직하게는 가능한 한 가장 강력하고 바람직하게는 가능한 양 사이드 로브 감쇠를 달성하려고 시도한다.
일부 실시예에 있어서, 정상 상태
Figure 112018039506725-pct00226
윈도우가 이미 이 목적을 위해 구성되었기 때문에, 이는 윈도우 부분들간에 경계에서 불연속을 피하여
Figure 112018039506725-pct00227
및 (
Figure 112018039506725-pct00228
(그리고, 당연히 그들의 시간 역전)에서 달성될 수 있음을 나타낼 수 있다. 보다 정확히는,
Figure 112018039506725-pct00229
의 최대 값이
Figure 112018039506725-pct00230
의 최대 값(또는 예를 들어 그 최대 값에 가까운 값)과 동일하도록 하는 d'를 선택함으로써, 일시적 윈도우 형태의 점프가 완전히 회피된다. 따라서, d'는 두 최대 값 사이의 비율을 반영해야 하며, 이 경우에는
Figure 112018039506725-pct00231
으로 근사될 수 있다.
다음에서, 합성 윈도윙 시에 증가된 바람직하게는 최대의 출력 감쇠가 설명된다. 변환 빈의 양자화에 의해 야기되는 오디오 코딩에서 스펙트럼 도메인 왜곡을 더 양호하게 (가능한 한 많이) 억제하기 위해, 가능한 한 많이 OLA 프로세싱 이전에 합성 윈도윙 프로세스 동안 출력 파형을 감쇠시키는 것이 유용할 수 있다. 그러나, PR / TDAC 요건으로 인해 윈도우에 의한 강한 감쇠는 어려운데, 이 접근법은 효율성 측면에서 해로운 보완 분석 윈도우를 만들 것이기 때문이다. 일부 실시예에 따르면, 양호한 윈도우 특성과 수용 가능한 디코더 측 출력 감쇠 사이의 양호한 절충은
Figure 112018039506725-pct00232
을 선택함으로써 획득될 수 있다.
다시 말해,
Figure 112018039506725-pct00233
에 대한 두 최적화 방법 모두 d'에 대해 동일한 값을 유도하는 것이 바람직하다.
Figure 112018039506725-pct00234
을 사용하는 경우,
Figure 112018039506725-pct00235
Figure 112018039506725-pct00236
의 불연속성은 매우 미미하며 (도 9 참조) 적어도 합성 측면에서의 회피는 가청 향상을 가져올 것으로 기대되지 않는다. 도 15 (a)의 점선에 의해 특정된 실시예에 대해 도시되고 이후에 wss로 표시되는, 전술된 MELT 기반 커널 전환을 위한 특별한 일시적 "정지-시작" 윈도우는 공식 (12) 또는 공식 (13)의 중요 윈도우 부분으로부터 도출될 수 있다:
Figure 112018039506725-pct00237
(14)
다시 말해, wss는 양쪽 반쪽에 중요한 부분이 있는 대칭 윈도우로, 따라서 양쪽에 오버랩 비율 변환이 가능하다. wss는 다른 MELT 변형뿐만 아니라 MDCT 및 MDST에도 적용될 수 있음에 유의해야 한다 (길이 L 가중치의 외측 쿼터가 0으로 설정되었다고 가정). 실제로, 분석 측 윈도윙에 대한 그 사용법은 MDCT와 코사인 변조된 MELT IV 계수를 도 5c에 의해 표시된 바와 같이 부호 차이와 동일하게 만든다. 커널 전환을 촉진하는 것 외에도 wss를 사용하여 오버랩 비율 전환 체계를 보다 유연하게 만들 수 있다. 예를 들어, 도 15b에 도시된 일시적 전환 구성(50 내지 75% 오버랩)이 달성될 수 있다.
디코더 실시예에 따르면, welt는 제1 윈도우 함수이고, wss는 제2 윈도우 함수이고, 제2 윈도우 함수는
Figure 112018039506725-pct00238
에 따라 정의되고, M은 제1 또는 제2 또는 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고, k는
Figure 112018039506725-pct00239
인 수이고, d는 실수이고, n은 정수이고, 오버랩 가산기(130)는 제2 윈도우 함수 wss에 따라 시간 도메인 중간 오디오 샘플의 제1 및 제2 및 제3 및 제4 그룹 중 적어도 하나를 생성하도록 구성된다.
유사하게, 인코더 실시예에 따르면, welt는 제1 윈도우 함수이고, wss는 제2 윈도우 함수이고, 제2 윈도우 함수는
Figure 112018039506725-pct00240
에 따라 정의되고, M은 제1 또는 제2 또는 제3 또는 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고, k는
Figure 112018039506725-pct00241
인 수이고, d는 실수이고, n은 정수이고, 제1 인코딩 모듈(210) 및 제2 인코딩 모듈(220) 중 적어도 하나는 제1 및 제2 및 제3 및 시간 도메인 오디오 샘플의 제4 그룹 중 적어도 하나에 제2 윈도우 함수 wss를 적용하도록 구성된다.
몇몇 양태가 장치의 맥락에서 설명되었지만, 이들 양태가 또한 대응하는 방법의 설명을 나타내는 것이 명백하며, 여기서 블록 및 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 양상은 또한 대응하는 블록 또는 아이템 또는 대응하는 장치의 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 사용하여) 실행될 수 있다. 일부 실시예에서, 가장 중요한 방법 단계 중 하나 이상이 그러한 장치에 의해 실행될 수 있다.
특정 구현 요건에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로, 또는 적어도 부분적으로는 하드웨어로, 또는 적어도 부분적으로는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루 레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시예는 본원에 설명된 방법 중 하나가 수행되도록 프로그램 가능 컴퓨터 시스템과 협력할 수 있는 전자 판독 가능 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동될 때 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어 머신 판독 가능 캐리어에 저장될 수 있다.
다른 실시예는 기계 판독 가능 캐리어 상에 저장된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말해, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 구동될 때, 본원에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 다른 실시예는 그 위에 기록된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 통상적으로 타입 및/또는 비일시적이다.
따라서, 본 발명의 방법의 다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 데이터 통신 접속을 통해, 예를 들어, 인터넷을 통해 전송되도록 구성될 수 있다.
다른 실시예는 본원에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어, 컴퓨터 또는 프로그램 가능 논리 디바이스를 포함한다.
다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본원에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 본원에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
본원에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본원에 설명된 방법은 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
위에서 설명된 실시예는 본 발명의 원리를 예시하기 위한 것일 뿐이다. 본원에 설명된 구성 및 세부사항의 수정 및 변형은 본 기술분야의 통상의 기술자에게 명백할 것으로 이해된다. 따라서, 곧 있을 청구범위의 범위에 의해서만 제한되고 본원의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.
참고문헌
[1] J. P. Princen and A. B. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation," IEEE Trans. Acoustics, Speech, and Signal Processing, vol. 34, no. 5, pp. 1153-1161, Oct. 1986.
[2] J. P. Princen, A. W. Johnson, and A. B. Bradley, "Subband/transform coding using filter bank design based on time domain aliasing cancellation," in Proc. of IEEE ICASSP '87, Apr. 1987, vol. 12, pp. 2161-2164.
[3] H. S. Malvar, "Lapped Transforms for Efficient Transform/ Subband Coding," IEEE Trans. Acoustics, Speech, and Signal Proc., vol. 38, no. 6, pp. 969-978, June 1990.
[4] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, and Y. Oikawa, "ISO/IEC MPEG-2 Advanced Audio Coding," J. Audio Eng. Soc., vol. 45, no. 10, Oct. 1997.
[5] ISO/IEC MPEG-2 13818-3, "Information technology - Generic coding of moving pictures and associated audio information - Part 3: Audio," Apr. 1998.
[6] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, "MPEG-H Audio - The New Standard for Universal Spatial/3D Audio Coding," J. Audio Eng. Soc., vol. 62, no. 12, pp. 821-830, Dec. 2014.
[7] ISO/IEC MPEG-H 23008-3, "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio," Mar. 2015.
[8] C. R. Helmrich, A. Niedermeier, S. Bayer, and B. Edler, "Low-complexity semi-parametric joint-stereo audio transform coding," in Proc. of EUSIPCO '15, Sep. 2015.
[9] C. R. Helmrich and B. Edler, "Signal-adaptive transform kernel switching for stereo audio coding," in Proc. of IEEE WASPAA '15, New Paltz, Oct. 2015, pp. 1-5.
[10] C. R. Helmrich, A. Niedermeier, S. Disch, and F. Ghido, "Spectral envelope reconstruction via IGF for audio transform coding," in Proc. of IEEE ICASSP '15, Apr. 2015, pp. 389-393.
[11] H. S. Malvar, "Modulated QMF Filter Banks with Perfect Reconstruction," Electronics Letters, vol. 26, no. 13, pp. 906-907, June 1990.
[12] H. S. Malvar, "Extended Lapped Transforms: Properties, Applications, and Fast Algorithms," IEEE Trans. Signal Proc., vol. 40, no. 11, pp. 2703-2714, Nov. 1992.
[13] R. L. de Queiroz and K. R. Rao, "Adaptive extended lapped transforms," in Proc. of IEEE ICASSP '93, Apr. 1993, vol. 3, pp. 217-220.
[14] R. L. de Queiroz and K. R. Rao, "Time-Varying Lapped Transforms and Wavelet Packets," IEEE Trans. Signal Proc., vol. 41, no. 12, pp. 3293-3305, Dec. 1993.
[15] M. Temerinac and B. Edler, "LINC: A Common Theory of Transform and Subband Coding," IEEE Trans. Communications, vol. 41, no. 2, pp. 266-274, Feb. 1993.
[16] M. Temerinac and B. Edler, "Overlapping Block Transform: Window Design, Fast Algorithm, and an Image Coding Experiment," IEEE Trans. Communic., vol. 43, no. 9, pp. 2417-2425, Sep. 1995.
[17] G. D. T. Schuller and T. Karp, "Modulated Filter Banks with Arbitrary System Delay: Efficient Implementations and the Time-Varying Case," IEEE Trans. Signal Proc., vol. 48, no. 3, pp. 737-748, Mar. 2000.
[18] H. S. Malvar, "A modulated complex lapped transform and its applications to audio processing," in Proc. of IEEE ICASSP '99, Mar. 1999, vol. 3, pp. 1421-1424.
[19] B. Edler,
Figure 112018039506725-pct00242
quivalenz von Transformation und Teilbandzerlegung (Subband Decomposition) in der Quellencodierung, Ph.D. thesis, Univ. Hannover, Germany, 1995.
[20] S. Shlien, "The Modulated Lapped Transform, Its Time-Varying Forms, and Its Applications to Audio Coding Standards," IEEE Trans. Speech and Audio Proc., vol. 5, no. 4, pp. 359-366, July 1997.
[21] M. Padmanabhan and K. Martin, "Some further results on modulated/extended lapped transforms," in Proc. of IEEE ICASSP '92, Mar. 1992, vol. 4, pp. 265-268.
[22] K. M. A. Hameed and E. Elias, "Extended lapped transforms with linear phase basis functions and perfect reconstruction," in Proc. of IEEE ICECS '05, Dec. 2005.
[23] L. D. Fielder, M. Bosi, G. Davidson, M. Davis, C. Todd, and S. Vernon, "AC-2 and AC-3: Low-Complexity Transform-Based Audio Coding," AES collected papers on Digital Audio Bit-Rate Reduction, pp. 54-72, 1996.
[24] C. R. Helmrich, "On the Use of Sums of Sines in the Design of Signal Windows," in Proc. of DAFx-10, Graz, Sep. 2010, online at http://dafx10.iem.at/proceedings/.
[25] M. Neuendorf, M. Multrus, N. Rettelbach, G. Fuchs, J. Robilliard, J. Lecomte, S. Wilde, S. Bayer, S. Disch, C. R. Helmrich, R. Lefebvre, P. Gournay, B. Bessette, J. Lapierre, K. Kj
Figure 112018039506725-pct00243
rling, H. Purnhagen, L. Villemoes, W. Oomen, E. Schuijers, K. Kikuiri, T. Chinen, T. Norimatsu, K. S. Chong, E. Oh, M. Kim, S. Quackenbush, and B. Grill, "The ISO/MPEG Unified Speech and Audio Coding Standard - Consistent High Quality for all Content Types and at all Bit Rates," J. Audio Eng. Soc., vol. 61, no. 12, pp. 956-977, Dec. 2013.
[26] ITU, Radiocommunication Sector, "Recommendation BS.1534-2: Method for the subjective assessment of intermediate quality level of audio systems," June 2014.
[27] K. Brandenburg and M. Bosi, "Overview of MPEG-Audio: Current and Future Standards for Low Bit-Rate Audio Coding," in Proc. of AES 99th Convention, New York, Oct. 1995, no. 4130.
[28] ISO/IEC SC29/WG11, N15399, "Text of ISO/IEC 23008-3:201x/PDAM 3, MPEG-H 3D Audio phase 2," July 2015.

Claims (57)

  1. 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더에 있어서,
    스펙트럼 도메인 오디오 샘플의 제1 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제1 그룹을 생성함으로써 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제2 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제2 그룹을 생성함으로써 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹을 디코딩하기 위한 제1 디코딩 모듈(110);
    오버랩 가산기(130) - 상기 오버랩 가산기(130)는 시간 도메인 중간 오디오 샘플의 정확히 2개의 그룹의 오버랩 가산을 수행하도록 구성되고, 상기 정확히 2개의 그룹은 상기 시간 도메인 중간 오디오 샘플의 제1 그룹 및 상기 시간 도메인 중간 오디오 샘플의 제2 그룹이고, 상기 오버랩 가산기(130)는 상기 정확히 2개의 그룹을 5% 초과 및 최대 50%의 오버랩으로 오버랩 가산하도록 구성되고, 상기 정확히 2개의 그룹의 오버랩 가산은 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플을 생성하게 함 -;
    스펙트럼 도메인 오디오 샘플의 제3 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제3 그룹의 그룹을 생성함으로써 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제4 그룹을 생성함으로써 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹을 디코딩하기 위한 제2 디코딩 모듈(120); 및
    상기 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플, 상기 오디오 신호의 제2 복수의 시간 도메인 오디오 출력 샘플, 및 상기 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플을 출력하기 위한 출력 인터페이스(140);를 포함하고,
    상기 오버랩 가산기(130)는 적어도 상기 시간 도메인 중간 오디오 샘플의 제3 그룹을 60% 초과 및 100% 미만의 오버랩으로 상기 시간 도메인 중간 오디오 샘플의 제4 그룹과 오버랩 가산하는 것을 사용하여 상기 제2 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성되고,
    상기 오버랩 가산기(130)는 적어도 상기 시간 도메인 중간 오디오 샘플의 제2 그룹을 상기 시간 도메인 중간 오디오 샘플의 제3 그룹과 오버랩 가산하는 것을 사용하여 상기 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성되거나, 상기 오버랩 가산기(130)는 적어도 상기 시간 도메인 중간 오디오 샘플의 제4 그룹을 상기 시간 도메인 중간 오디오 샘플의 제1 그룹과 오버랩 가산하는 것을 사용하여 상기 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  2. 제1항에 있어서,
    상기 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플은 시간상 상기 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플에 선행하고, 상기 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플은 시간상 상기 오디오 신호의 제2 복수의 시간 도메인 오디오 출력 샘플에 선행하고, 상기 오버랩 가산기(130)는 적어도 상기 시간 도메인 중간 오디오 샘플의 제2 그룹을 상기 시간 도메인 중간 오디오 샘플의 제3 그룹과 오버랩 가산하는 것을 사용하여 상기 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성되거나,
    상기 오디오 신호의 제2 복수의 시간 도메인 오디오 출력 샘플은 시간상 상기 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플에 선행하고, 상기 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플은 시간상 상기 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플에 선행하고, 상기 오버랩 가산기(130)는 적어도 상기 시간 도메인 중간 오디오 샘플의 제2 그룹을 상기 시간 도메인 중간 오디오 샘플의 제3 그룹과 오버랩 가산하는 것을 사용하여 상기 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  3. 제1항에 있어서,
    상기 5% 초과 및 최대 50%의 오버랩을 정확히 50%의 오버랩으로 하고,
    상기 60% 초과 및 100% 미만의 오버랩을 적어도 75% 이상 및 100% 미만의 오버랩으로 하는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  4. 제3항에 있어서,
    상기 제1 디코딩 모듈(110)은 역 이산 코사인 변환(inverse Modified Discrete Cosine Transform) 또는 역 수정된 이산 사인 변환(inverse Modified Discrete Sine Transform)을 수행하도록 구성되고,
    상기 제2 디코딩 모듈(120)은 역 확장되고 랩핑된 변환(inverse Extended Lapped Transform) 또는 역 수정되고 확장되고 랩핑된 변환(inverse Modified Extended Lapped Transform)을 수행하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  5. 제3항에 있어서,
    상기 적어도 75% 이상 및 100% 미만의 오버랩을 정확히 75%의 오버랩으로 하는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  6. 제1항에 있어서,
    상기 시간 도메인 중간 오디오 샘플의 제1 그룹의 시간 도메인 중간 오디오 샘플의 제1 수는 상기 시간 도메인 중간 오디오 샘플의 제2 그룹의 시간 도메인 중간 오디오 샘플의 제2 수와 동일하고,
    상기 시간 도메인 중간 오디오 샘플의 제3 그룹의 시간 도메인 중간 오디오 샘플의 제3 수는 상기 시간 도메인 중간 오디오 샘플의 제4 그룹의 시간 도메인 중간 오디오 샘플의 제4 수와 동일하고,
    상기 제2 수는 상기 제3 수를 2로 나눈 것과 동일하고, 상기 제1 수는 상기 제4 수를 2로 나눈 것과 동일한 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  7. 제1항에 있어서,
    상기 제2 디코딩 모듈(120)은 스펙트럼 도메인 오디오 샘플의 제5 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제5 그룹을 생성함으로써 상기 스펙트럼 도메인 오디오 샘플의 제5 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제6 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제6 그룹을 생성함으로써 상기 스펙트럼 도메인 오디오 샘플의 제6 그룹을 디코딩하도록 구성되고,
    상기 오버랩 가산기(130)는 상기 시간 도메인 중간 오디오 샘플의 제3 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제4 그룹이 상기 시간 도메인 중간 오디오 샘플의 제5 그룹과 적어도 75% 및 100% 미만으로 오버랩하고, 상기 시간 도메인 중간 오디오 샘플의 제5 그룹이 상기 시간 도메인 중간 오디오 샘플의 제6 그룹과 적어도 75% 및 100% 미만으로 오버랩하도록, 상기 시간 도메인 중간 오디오 샘플의 제3 그룹과 상기 시간 도메인 중간 오디오 샘플의 제4 그룹 및 상기 시간 도메인 중간 오디오 샘플의 제5 그룹과 상기 시간 도메인 중간 오디오 샘플의 제6 그룹을 오버랩 가산함으로써 상기 제2 복수의 시간 도메인 오디오 출력 샘플을 획득하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  8. 제1항에 있어서,
    상기 제2 디코딩 모듈(120)은
    cs(a(n + b)(k + c))
    에 따라 상기 시간 도메인 중간 오디오 샘플의 제3 그룹 및 상기 시간 도메인 중간 오디오 샘플의 제4 그룹 중 적어도 하나를 생성하도록 구성되고,
    cs( )는 cos( ) 또는 sin( )이고,
    n은 상기 시간 도메인 중간 오디오 샘플의 제3 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제4 그룹의 시간 도메인 중간 오디오 샘플 중 하나의 시간 인덱스를 나타내고,
    k는 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플 중 하나의 스펙트럼 인덱스를 나타내고,
    -0.1≤c≤0.1, 또는 0.4≤c≤0.6, 또는 0.9≤c≤1.1이고,
    Figure 112018039556416-pct00244
    이고,
    Figure 112018039556416-pct00245
    이고,
    M은 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고,
    Figure 112018039556416-pct00246
    이고,
    Figure 112018039556416-pct00247
    인 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  9. 제1항에 있어서,
    상기 제1 디코딩 모듈(110)은
    Figure 112018039556416-pct00248

    에 따라 상기 시간 도메인 중간 오디오 샘플의 제1 그룹 및 상기 시간 도메인 중간 오디오 샘플의 제2 그룹 중 적어도 하나를 생성하도록 구성되고,
    cs1( )는 cos( ) 또는 sin( )이고,
    n1은 상기 시간 도메인 중간 오디오 샘플의 제1 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제2 그룹의 시간 도메인 중간 오디오 샘플 중 하나의 시간 인덱스를 나타내고,
    -0.1≤c1≤0.1, 또는 0.4≤c1≤0.6, 또는 0.9≤c1≤1.1이고,
    Figure 112018039556416-pct00249
    인 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  10. 제8항에 있어서,
    c = 0, 또는 c = 0.5, 또는 c = 1이고,
    q = π이고,
    s = 3인 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  11. 제9항에 있어서,
    q = π, s = 3, cs( )는 cos( ), 및 cs1( )은 cos( ), 및 c = 0.5, 및 c1 = 0.5이거나,
    q = π, s = 3, cs( )는 sin( ), 및 cs1( )은 cos( ), 및 c = 1, 및 c1 = 0이거나,
    q = π, s = 3, cs( )는 sin( ), 및 cs1( )은 sin( ), 및 c = 0.5, 및 c1 = 1이거나,
    q = π, s = 3, cs( )는 cos( ), 및 cs1( )은 sin( ), 및 c = 0, 및 c1 = 1이거나,
    q = π, s = 3, cs( )는 sin( ), 및 cs1( )은 sin( ), 및 c = 0.5, 및 c1 = 0.5이거나,
    q = π, s = 3, cs( )는 cos( ), 및 cs1( )은 sin( ), 및 c = 1, 및 c1 = 0.5이거나,
    q = π, s = 3, cs( )는 cos( ), 및 cs1( )은 cos( ), 및 c = 0.5, 및 c1 = 0이거나,
    q = π, s = 3, cs( )는 sin( ), 및 cs1( )은 cos( ), 및 c = 1, 및 c1 = 0인 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  12. 제10항에 있어서,
    상기 제2 디코딩 모듈(120)은
    Figure 112018039506725-pct00250
    에 따라, 또는
    Figure 112018039506725-pct00251
    에 따라, 또는
    Figure 112018039506725-pct00252
    에 따라, 또는
    Figure 112018039506725-pct00253
    에 따라
    상기 시간 도메인 중간 오디오 샘플의 제3 그룹 및 상기 시간 도메인 중간 오디오 샘플의 제4 그룹 중 적어도 하나를 생성하도록 구성되고,
    Figure 112018039506725-pct00254
    은 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플 중 하나를 나타내고,
    Figure 112018039506725-pct00255
    은 시간 도메인 값을 나타내는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  13. 제8항에 있어서,
    상기 제2 디코딩 모듈(120)은
    Figure 112018039556416-pct00256

    에 따라 상기 시간 도메인 값
    Figure 112018039556416-pct00257
    에 가중치 w(n)을 적용하여 상기 시간 도메인 중간 오디오 샘플의 제3 그룹 및 상기 시간 도메인 중간 오디오 샘플의 제4 그룹의 시간 도메인 중간 오디오 샘플
    Figure 112018039556416-pct00258
    을 생성하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  14. 제1항에 있어서,
    상기 오버랩 가산기(130)는 상기 시간 도메인 중간 오디오 샘플의 제2 그룹의 모든 시간 도메인 중간 오디오 샘플이 상기 시간 도메인 중간 오디오 샘플의 제3 그룹의 시간 도메인 중간 오디오 샘플과 오버랩하도록, 적어도 상기 시간 도메인 중간 오디오 샘플의 제2 그룹을 상기 시간 도메인 중간 오디오 샘플의 제3 그룹과 오버랩 가산하도록 구성되거나,
    상기 오버랩 가산기(130)는 상기 시간 도메인 중간 오디오 샘플의 제1 그룹의 모든 시간 도메인 중간 오디오 샘플이 상기 시간 도메인 중간 오디오 샘플의 제4 그룹과 오버랩하도록, 적어도 상기 시간 도메인 중간 오디오 샘플의 제4 그룹을 상기 시간 도메인 중간 오디오 샘플의 제1 그룹과 오버랩 가산하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  15. 제1항에 있어서,
    welt는 제1 윈도우 함수이고,
    wtr은 제2 윈도우 함수이고, 상기 제2 윈도우 함수의 일부분은
    Figure 112018039556416-pct00259

    에 따라 정의되고,
    M은 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고,
    k는
    Figure 112018039556416-pct00260
    인 수이고,
    d는 실수이고,
    Figure 112018039556416-pct00261
    , 또는
    Figure 112018039556416-pct00262
    이고,
    L은 상기 시간 도메인 중간 오디오 샘플의 제3 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제4 그룹의 시간 도메인 중간 오디오 샘플의 수를 나타내고,
    상기 오버랩 가산기(130)는 적어도 상기 시간 도메인 중간 오디오 샘플의 제2 그룹을 상기 시간 도메인 중간 오디오 샘플의 제3 그룹과 오버랩 가산하도록 구성되고, 상기 제2 디코딩 모듈(120)은 상기 제1 윈도우 함수 welt에 따라 상기 시간 도메인 중간 오디오 샘플의 제4 그룹을 생성하도록 구성되고, 상기 제2 디코딩 모듈(120)은 상기 제2 윈도우 함수 wtr에 따라 상기 시간 도메인 중간 오디오 샘플의 제3 그룹을 생성하도록 구성되거나,
    상기 오버랩 가산기(130)는 적어도 상기 시간 도메인 중간 오디오 샘플의 제4 그룹을 상기 시간 도메인 중간 오디오 샘플의 제1 그룹과 오버랩 가산하도록 구성되고, 상기 제2 디코딩 모듈(120)은 상기 제1 윈도우 함수 welt에 따라 상기 시간 도메인 중간 오디오 샘플의 제3 그룹을 생성하도록 구성되고, 상기 제2 디코딩 모듈(120)은 상기 제2 윈도우 함수 wtr에 따라 상기 시간 도메인 중간 오디오 샘플의 제4 그룹을 생성하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  16. 제15항에 있어서,
    wtr1은 제3 윈도우 함수이고, 상기 제3 윈도우 함수의 일부분은
    Figure 112018039506725-pct00263

    에 따라 정의되고,
    Figure 112018039506725-pct00264
    , 또는
    Figure 112018039506725-pct00265
    이고,
    N은 상기 시간 도메인 중간 오디오 샘플의 제1 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제2 그룹의 시간 도메인 중간 오디오 샘플의 수를 나타내고,
    상기 오버랩 가산기(130)는 적어도 상기 시간 도메인 중간 오디오 샘플의 제2 그룹을 상기 시간 도메인 중간 오디오 샘플의 제3 그룹과 오버랩 가산하도록 구성되고, 상기 제1 디코딩 모듈(110)은 상기 제3 윈도우 함수 wtr1에 따라 상기 시간 도메인 중간 오디오 샘플의 제2 그룹을 생성하도록 구성되거나,
    상기 오버랩 가산기(130)는 적어도 상기 시간 도메인 중간 오디오 샘플의 제4 그룹을 상기 시간 도메인 중간 오디오 샘플의 제1 그룹과 오버랩 가산하도록 구성되고, 상기 제1 디코딩 모듈(110)은 상기 제3 윈도우 함수 wtr1에 따라 상기 시간 도메인 중간 오디오 샘플의 제1 그룹을 생성하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  17. 제15항에 있어서,
    상기 제1 윈도우 함수 welt
    Figure 112018039556416-pct00266

    에 따라 정의되고,
    Figure 112018039556416-pct00267
    이고,
    b0, b1, 및 b2는 실수이고,
    0≤t<L이고,
    K는 양의 정수이고,
    ck는 실수를 나타내는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  18. 제17항에 있어서,
    K = 3이고,
    0.3≤b0≤0.4이고,
    -0.6≤b1≤-0.4이고,
    0.01≤b2≤0.2이고,
    0.001≤c1≤0.03이고,
    0.000001≤c2≤0.0005이고,
    0.000001≤c3≤0.00002인 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  19. 제1항에 있어서,
    welt는 제1 윈도우 함수이고,
    wmlt는 제2 윈도우 함수이고,
    Figure 112018039556416-pct00268
    은 제3 윈도우 함수이고, 상기 제3 윈도우 함수는
    Figure 112018039556416-pct00269

    에 따라 정의되고,
    M은 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고,
    k는
    Figure 112018039556416-pct00270
    인 수이고,
    d는 실수이고,
    n은 정수이고,
    상기 오버랩 가산기(130)는 상기 제3 윈도우 함수
    Figure 112018039556416-pct00271
    에 따라 상기 시간 도메인 중간 오디오 샘플의 제1 그룹, 상기 시간 도메인 중간 오디오 샘플의 제2 그룹, 상기 시간 도메인 중간 오디오 샘플의 제3 그룹, 및 상기 시간 도메인 중간 오디오 샘플의 제4 그룹 중 적어도 하나를 생성하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  20. 제1항에 있어서,
    welt는 제1 윈도우 함수이고,
    wss는 제2 윈도우 함수이고, 상기 제2 윈도우 함수는
    Figure 112018039556416-pct00272

    에 따라 정의되고,
    M은 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고,
    k는
    Figure 112018039556416-pct00273
    인 수이고,
    d는 실수이고,
    n은 정수이고,
    상기 오버랩 가산기(130)는 상기 제2 윈도우 함수 wss에 따라 상기 시간 도메인 중간 오디오 샘플의 제1 그룹, 상기 시간 도메인 중간 오디오 샘플의 제2 그룹, 상기 시간 도메인 중간 오디오 샘플의 제3 그룹, 및 상기 시간 도메인 중간 오디오 샘플의 제4 그룹 중 적어도 하나를 생성하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  21. 제15항에 있어서,
    0.8≤d≤1.25인 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  22. 제21항에 있어서,
    Figure 112018039506725-pct00274
    인 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  23. 제15항에 있어서,
    d = 1인 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  24. 제1항에 있어서,
    상기 디코더는 상기 복수의 스펙트럼 도메인 오디오 샘플의 일부분이 상기 제1 디코딩 모듈(110)에 의해 또는 상기 제2 디코딩 모듈(120)에 의해 디코딩되는지 여부를 나타내는 디코딩 정보를 수신하도록 구성되고,
    상기 디코더는 상기 시간 도메인 중간 오디오 샘플의 제1 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제2 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제3 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제4 그룹을 획득하기 위해 상기 디코딩 정보에 따라 상기 제1 디코딩 모듈(110) 또는 상기 제2 디코딩 모듈(120) 중 어느 하나를 이용함으로써 상기 복수의 스펙트럼 도메인 오디오 샘플의 상기 일부분을 디코딩하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  25. 제1항에 있어서,
    상기 디코더는 제1 비트 및 제2 비트를 수신하도록 구성되고, 상기 제1 비트 및 상기 제2 비트는 제1 비트 값 조합, 또는 상기 제1 비트 값 조합과는 상이한 제2 비트 값 조합, 또는 상기 제1 비트 값 조합 및 상기 제2 비트 값 조합과는 상이한 제3 비트 값 조합, 또는 상기 제1 비트 값 조합 및 상기 제2 비트 값 조합 및 상기 제3 비트 값 조합과는 상이한 제4 비트 값 조합을 함께 가지고,
    상기 디코더는 상기 제1 비트와 상기 제2 비트가 상기 제1 비트 값 조합을 함께 가지면, 상기 시간 도메인 중간 오디오 샘플의 제1 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제2 그룹을 획득하기 위해 상기 제1 디코딩 모듈(110)을 이용하여 Kaiser-Bessel 함수에 따라 상기 복수의 스펙트럼 도메인 오디오 샘플의 일부분을 디코딩하도록 구성되고,
    상기 디코더는 상기 제1 비트와 상기 제2 비트가 상기 제2 비트 값 조합을 함께 가지면, 상기 시간 도메인 중간 오디오 샘플의 제1 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제2 그룹을 획득하기 위해 상기 제1 디코딩 모듈(110)을 이용하여 사인 함수 또는 코사인 함수에 따라 상기 복수의 스펙트럼 도메인 오디오 샘플의 일부분을 디코딩하도록 구성되고,
    상기 디코더는 상기 제1 비트와 상기 제2 비트가 상기 제3 비트 값 조합을 함께 가지면, 상기 시간 도메인 중간 오디오 샘플의 제1 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제2 그룹을 획득하기 위해 상기 제1 디코딩 모듈(110)을 이용하여 상기 복수의 스펙트럼 도메인 오디오 샘플의 일부분을 디코딩하도록 구성되고,
    상기 디코더는 상기 제1 비트와 상기 제2 비트가 상기 제4 비트 값 조합을 함께 가지면, 상기 시간 도메인 중간 오디오 샘플의 제3 그룹 또는 상기 시간 도메인 중간 오디오 샘플의 제4 그룹을 획득하기 위해 상기 제2 디코딩 모듈(120)을 이용하여 상기 복수의 스펙트럼 도메인 오디오 샘플의 상기 일부분을 디코딩하도록 구성되는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하기 위한 디코더.
  26. 시간 도메인 오디오 샘플의 복수의 그룹으로부터 스펙트럼 도메인 오디오 샘플의 복수의 그룹을 생성함으로써 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더에 있어서,
    상기 시간 도메인 오디오 샘플의 그룹 중 제1 그룹으로부터 상기 스펙트럼 도메인 오디오 샘플의 그룹 중 제1 그룹을 생성하고, 상기 시간 도메인 오디오 샘플의 그룹 중 제2 그룹으로부터 상기 스펙트럼 도메인 오디오 샘플의 그룹 중 제2 그룹을 생성하기 위한 제1 인코딩 모듈(210) - 상기 시간 도메인 오디오 샘플의 제1 그룹 및 상기 시간 도메인 오디오 샘플의 제2 그룹은 상기 시간 도메인 오디오 샘플의 그룹들 내에서 시간상 이웃하고, 상기 시간 도메인 오디오 샘플의 제1 그룹은 상기 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플의 5% 초과 및 최대 50%를 포함하고, 상기 시간 도메인 오디오 샘플의 제2 그룹은 상기 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플의 5% 초과 및 최대 50%를 포함함 -;
    상기 시간 도메인 오디오 샘플의 그룹 중 제3 그룹으로부터 상기 스펙트럼 도메인 오디오 샘플의 그룹 중 제3 그룹을 생성하고, 상기 시간 도메인 오디오 샘플의 그룹 중 제4 그룹으로부터 상기 스펙트럼 도메인 오디오 샘플의 그룹 중 제4 그룹을 생성하기 위한 제2 인코딩 모듈(220) - 상기 시간 도메인 오디오 샘플의 제3 그룹은 상기 시간 도메인 오디오 샘플의 제4 그룹의 오디오 샘플의 60% 초과 및 100% 미만을 포함하고, 상기 시간 도메인 오디오 샘플의 제4 그룹은 상기 시간 도메인 오디오 샘플의 제3 그룹의 오디오 샘플의 60% 초과 및 100% 미만을 포함함 -; 및
    상기 스펙트럼 도메인 오디오 샘플의 제1 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹, 및 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹을 출력하기 위한 출력 모듈(230);을 포함하고,
    상기 시간 도메인 오디오 샘플의 제3 그룹은 상기 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플을 포함하거나, 상기 시간 도메인 오디오 샘플의 제4 그룹은 상기 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플을 포함하는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  27. 제26항에 있어서,
    상기 시간 도메인 오디오 샘플의 제1 그룹은 시간상 상기 시간 도메인 오디오 샘플의 제2 그룹에 선행하고, 상기 시간 도메인 오디오 샘플의 제2 그룹은 시간상 상기 시간 도메인 오디오 샘플의 제3 그룹에 선행하고, 상기 시간 도메인 오디오 샘플의 제3 그룹은 시간상 상기 시간 도메인 오디오 샘플의 제4 그룹에 선행하고, 상기 시간 도메인 오디오 샘플의 제3 그룹은 상기 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플을 포함하거나,
    상기 시간 도메인 오디오 샘플의 제3 그룹은 시간상 상기 시간 도메인 오디오 샘플의 제4 그룹에 선행하고, 상기 시간 도메인 오디오 샘플의 제4 그룹은 시간상 상기 시간 도메인 오디오 샘플의 제1 그룹에 선행하고, 상기 시간 도메인 오디오 샘플의 제1 그룹은 시간상 상기 시간 도메인 오디오 샘플의 제2 그룹에 선행하고, 상기 시간 도메인 오디오 샘플의 제4 그룹은 상기 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플을 포함하는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  28. 제26항에 있어서,
    상기 시간 도메인 오디오 샘플의 제1 그룹은 상기 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플의, 상기 5% 초과 및 최대 50%에서, 정확히 50%를 포함하고,
    상기 시간 도메인 오디오 샘플의 제2 그룹은 상기 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플의, 상기 5% 초과 및 최대 50%에서, 정확히 50%를 포함하고,
    상기 시간 도메인 오디오 샘플의 제3 그룹은 상기 시간 도메인 오디오 샘플의 제4 그룹의 오디오 샘플의, 상기 60% 초과 및 100% 미만에서, 적어도 75% 이상 및 100% 미만을 포함하고,
    상기 시간 도메인 오디오 샘플의 제4 그룹은 상기 시간 도메인 오디오 샘플의 제3 그룹의 오디오 샘플의, 상기 60% 초과 및 100% 미만에서, 적어도 75% 이상 및 100% 미만을 포함하는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  29. 제28항에 있어서,
    상기 제1 인코딩 모듈(210)은 수정된 이산 코사인 변환 또는 수정된 이산 사인 변환을 수행하도록 구성되고,
    상기 제2 인코딩 모듈(220)은 확장되고 랩핑된 변환 또는 수정되고 확장되고 랩핑된 변환을 수행하도록 구성되는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  30. 제28항에 있어서,
    상기 시간 도메인 오디오 샘플의 제3 그룹은 상기 시간 도메인 오디오 샘플의 제4 그룹의 오디오 샘플의, 상기 적어도 75% 이상 및 100% 미만에서, 정확히 75%를 포함하고, 상기 시간 도메인 오디오 샘플의 제4 그룹은 상기 시간 도메인 오디오 샘플의 제3 그룹의 오디오 샘플의, 상기 적어도 75% 이상 및 100% 미만에서, 정확히 75%를 포함하는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  31. 제26항에 있어서,
    상기 시간 도메인 오디오 샘플의 제1 그룹의 시간 도메인 오디오 샘플의 제1 수는 상기 시간 도메인 오디오 샘플의 제2 그룹의 시간 도메인 오디오 샘플의 제2 수와 동일하고,
    상기 시간 도메인 오디오 샘플의 제3 그룹의 시간 도메인 오디오 샘플의 제3 수는 상기 시간 도메인 오디오 샘플의 제4 그룹의 시간 도메인 오디오 샘플의 제4 수와 동일하고,
    상기 제2 수는 상기 제3 수를 2로 나눈 것과 동일하고, 상기 제1 수는 상기 제4 수를 2로 나눈 것과 동일한 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  32. 제26항에 있어서,
    상기 제2 인코딩 모듈(220)은 상기 시간 도메인 오디오 샘플의 그룹 중 제5 그룹으로부터 상기 스펙트럼 도메인 오디오 샘플의 그룹 중 제5 그룹을 생성하도록 구성되고, 상기 제2 인코딩 모듈(220)은 상기 시간 도메인 오디오 샘플의 그룹 중 제6 그룹으로부터 상기 스펙트럼 도메인 오디오 샘플의 그룹 중 제6 그룹을 생성하도록 구성되고,
    상기 시간 도메인 오디오 샘플의 제3 그룹 또는 상기 시간 도메인 오디오 샘플의 제4 그룹은 상기 시간 도메인 오디오 샘플의 제5 그룹의 오디오 샘플의 적어도 75% 및 100% 미만을 포함하고, 상기 시간 도메인 오디오 샘플의 제5 그룹은 상기 시간 도메인 오디오 샘플의 제3 그룹 또는 상기 시간 도메인 오디오 샘플의 제4 그룹의 오디오 샘플의 적어도 75% 및 100% 미만을 포함하고, 상기 시간 도메인 오디오 샘플의 제5 그룹은 상기 시간 도메인 오디오 샘플의 제6 그룹의 오디오 샘플의 적어도 75% 및 100% 미만을 포함하고, 상기 시간 도메인 오디오 샘플의 제6 그룹은 상기 시간 도메인 오디오 샘플의 제5 그룹의 오디오 샘플의 적어도 75% 및 100% 미만을 포함하고,
    상기 출력 모듈(230)은 상기 스펙트럼 도메인 오디오 샘플의 제5 그룹 및 상기 스펙트럼 도메인 오디오 샘플의 제6 그룹을 더 출력하도록 구성되는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  33. 제26항에 있어서,
    상기 인코더는 상기 시간 도메인 오디오 신호의 일부분의 신호 특성에 따라 스펙트럼 도메인 오디오 샘플의 현재 그룹을 생성하기 위해 상기 제1 인코딩 모듈(210) 또는 상기 제2 인코딩 모듈(220)을 이용하도록 구성되는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  34. 제33항에 있어서,
    상기 인코더는 상기 신호 특성으로서, 상기 복수의 시간 도메인 오디오 샘플의 현재 그룹이 비 정적 영역 및 비 음조 영역 중 적어도 하나를 포함하는지 여부를 결정하도록 구성되고,
    상기 인코더는 상기 복수의 시간 도메인 오디오 샘플의 현재 그룹이 상기 비 정적 영역 및 상기 비 음조 영역 중 적어도 하나를 포함하면, 상기 복수의 시간 도메인 오디오 샘플의 현재 그룹에 따라 상기 스펙트럼 도메인 오디오 샘플의 현재 그룹을 생성하기 위해 상기 제1 인코딩 모듈(210)을 이용하도록 구성되고,
    상기 인코더는 상기 복수의 시간 도메인 오디오 샘플의 현재 그룹이 상기 비 정적 영역 및 상기 비 음조 영역 중 적어도 하나를 포함하지 않으면, 상기 복수의 시간 도메인 오디오 샘플의 현재 그룹에 따라 상기 스펙트럼 도메인 오디오 샘플의 현재 그룹을 생성하기 위해 상기 제2 인코딩 모듈(220)을 이용하도록 구성되는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  35. 제33항에 있어서,
    상기 출력 모듈(230)은 상기 신호 특성에 따라 제1 비트 값 또는 제2 비트 값을 갖는 비트를 출력하도록 구성되는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  36. 제26항에 있어서,
    상기 제2 인코딩 모듈(220)은
    cs(a(n + b)(k + c))
    에 따라 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹 중 적어도 하나를 생성하도록 구성되고,
    cs( )는 cos( ) 또는 sin( )이고,
    n은 상기 시간 도메인 오디오 샘플의 제3 그룹 또는 상기 시간 도메인 오디오 샘플의 제4 그룹의 시간 도메인 오디오 샘플 중 하나의 시간 인덱스를 나타내고,
    k는 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹 또는 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹 또는 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 하나의 스펙트럼 인덱스를 나타내고,
    -0.1≤c≤0.1, 또는 0.4≤c≤0.6, 또는 0.9≤c≤1.1이고,
    Figure 112020049866469-pct00275
    이고,
    Figure 112020049866469-pct00276
    이고,
    M은 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고,
    Figure 112020049866469-pct00277
    이고,
    Figure 112020049866469-pct00278
    인 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  37. 제26항에 있어서,
    상기 제1 인코딩 모듈(210)은
    Figure 112018039556416-pct00279

    에 따라 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹 및 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹 중 적어도 하나를 생성하도록 구성되고,
    cs1( )는 cos( ) 또는 sin( )이고,
    n1은 상기 시간 도메인 오디오 샘플의 제3 그룹 또는 상기 시간 도메인 오디오 샘플의 제4 그룹의 시간 도메인 오디오 샘플 중 하나의 시간 인덱스를 나타내고,
    -0.1≤c1≤0.1, 또는 0.4≤c1≤0.6, 또는 0.9≤c1≤1.1이고,
    Figure 112018039556416-pct00280
    인 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  38. 제36항에 있어서,
    c = 0, 또는 c = 0.5, 또는 c = 1이고,
    q = π이고,
    s = 3인 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  39. 제37항에 있어서,
    q = π, s = 3, cs( )는 cos( ), 및 cs1( )은 cos( ), 및 c = 0.5, 및 c1 = 0.5이거나,
    q = π, s = 3, cs( )는 sin( ), 및 cs1( )은 cos( ), 및 c = 1, 및 c1 = 0이거나,
    q = π, s = 3, cs( )는 sin( ), 및 cs1( )은 sin( ), 및 c = 0.5, 및 c1 = 1이거나,
    q = π, s = 3, cs( )는 cos( ), 및 cs1( )은 sin( ), 및 c = 0, 및 c1 = 1이거나,
    q = π, s = 3, cs( )는 sin( ), 및 cs1( )은 sin( ), 및 c = 0.5, 및 c1 = 0.5이거나,
    q = π, s = 3, cs( )는 cos( ), 및 cs1( )은 sin( ), 및 c = 1, 및 c1 = 0.5이거나,
    q = π, s = 3, cs( )는 cos( ), 및 cs1( )은 cos( ), 및 c = 0.5, 및 c1 = 0이거나,
    q = π, s = 3, cs( )는 sin( ), 및 cs1( )은 cos( ), 및 c = 1, 및 c1 = 0인 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  40. 제38항에 있어서,
    상기 제2 인코딩 모듈(220)은
    Figure 112020049866469-pct00281
    에 따라, 또는
    Figure 112020049866469-pct00282
    에 따라, 또는
    Figure 112020049866469-pct00283
    에 따라, 또는
    Figure 112020049866469-pct00284
    에 따라
    상기 스펙트럼 도메인 오디오 샘플의 제3 그룹 및 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹 중 적어도 하나를 생성하도록 구성되고,
    Figure 112020049866469-pct00285
    은 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플 중 하나를 나타내고,
    Figure 112020049866469-pct00286
    은 시간 도메인 값을 나타내는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  41. 제36항에 있어서,
    상기 제2 인코딩 모듈(220)은
    Figure 112020049866469-pct00287

    에 따라 상기 시간 도메인 오디오 샘플의 제3 그룹 또는 상기 시간 도메인 오디오 샘플의 제4 그룹의 시간 도메인 오디오 샘플
    Figure 112020049866469-pct00288
    에 가중치 w(n)을 적용하여 상기 시간 도메인 값
    Figure 112020049866469-pct00289
    을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  42. 제26항에 있어서,
    상기 시간 도메인 오디오 샘플의 제2 그룹의 모든 시간 도메인 오디오 샘플은 상기 시간 도메인 오디오 샘플의 제3 그룹의 시간 도메인 오디오 샘플과 오버랩하거나,
    상기 시간 도메인 오디오 샘플의 제1 그룹의 모든 시간 도메인 오디오 샘플은 상기 시간 도메인 오디오 샘플의 제4 그룹과 오버랩하는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  43. 제26항에 있어서,
    welt는 제1 윈도우 함수이고,
    wtr은 제2 윈도우 함수이고, 상기 제2 윈도우 함수의 일부분은
    Figure 112018039556416-pct00290

    에 따라 정의되고,
    M은 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고,
    k는
    Figure 112018039556416-pct00291
    인 수이고,
    d는 실수이고,
    Figure 112018039556416-pct00292
    , 또는
    Figure 112018039556416-pct00293
    이고,
    L은 상기 시간 도메인 오디오 샘플의 제3 그룹 또는 상기 시간 도메인 오디오 샘플의 제4 그룹의 시간 도메인 오디오 샘플의 수를 나타내고,
    상기 시간 도메인 오디오 샘플의 제3 그룹은 상기 시간 도메인 오디오 샘플의 오디오 샘플의 제2 그룹의 오디오 샘플을 포함하고, 상기 제2 인코딩 모듈(220)은 상기 시간 도메인 오디오 샘플의 제4 그룹에 상기 제1 윈도우 함수 welt를 적용하도록 구성되고, 상기 제2 인코딩 모듈(220)은 상기 시간 도메인 오디오 샘플의 제3 그룹에 상기 제2 윈도우 함수wtr을 적용하도록 구성되거나,
    상기 시간 도메인 오디오 샘플의 제4 그룹은 상기 시간 도메인 오디오 샘플의 오디오 샘플의 제1 그룹의 오디오 샘플을 포함하고, 상기 제2 인코딩 모듈(220)은 상기 시간 도메인 오디오 샘플의 제3 그룹에 상기 제1 윈도우 함수 welt를 적용하도록 구성되고, 상기 제2 인코딩 모듈(220)은 상기 시간 도메인 오디오 샘플의 제4 그룹에 상기 제2 윈도우 함수wtr을 적용하도록 구성되는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  44. 제43항에 있어서,
    wtr1은 제3 윈도우 함수이고, 상기 제3 윈도우 함수의 일부분은
    Figure 112018039506725-pct00294

    에 따라 정의되고,
    Figure 112018039506725-pct00295
    , 또는
    Figure 112018039506725-pct00296
    이고,
    N은 상기 시간 도메인 오디오 샘플의 제1 그룹 또는 상기 시간 도메인 오디오 샘플의 제2 그룹의 시간 도메인 오디오 샘플의 수를 나타내고,
    상기 시간 도메인 오디오 샘플의 제3 그룹은 상기 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플을 포함하고, 상기 제2 인코딩 모듈(220)은 상기 시간 도메인 오디오 샘플의 제2 그룹에 상기 제3 윈도우 함수 wtr1를 적용하도록 구성되거나,
    상기 시간 도메인 오디오 샘플의 제4 그룹은 상기 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플을 포함하고, 상기 제2 인코딩 모듈(220)은 상기 시간 도메인 오디오 샘플의 제1 그룹에 상기 제3 윈도우 함수 wtr1를 적용하도록 구성되는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  45. 제43항에 있어서,
    상기 제1 윈도우 함수 welt
    Figure 112018039556416-pct00297

    에 따라 정의되고,
    Figure 112018039556416-pct00298
    이고,
    b0, b1, 및 b2는 실수이고,
    0≤t<L이고,
    K는 양의 정수이고,
    ck는 실수를 나타내는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  46. 제45항에 있어서,
    K = 3이고,
    0.3≤b0≤0.4이고,
    -0.6≤b1≤-0.4이고,
    0.01≤b2≤0.2이고,
    0.001≤c1≤0.03이고,
    0.000001≤c2≤0.0005이고,
    0.000001≤c3≤0.00002인 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  47. 제26항에 있어서,
    welt는 제1 윈도우 함수이고,
    wmlt는 제2 윈도우 함수이고,
    Figure 112018039556416-pct00299
    은 제3 윈도우 함수이고, 상기 제3 윈도우 함수는
    Figure 112018039556416-pct00300

    에 따라 정의되고,
    M은 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고,
    k는
    Figure 112018039556416-pct00301
    인 수이고,
    d는 실수이고,
    n은 정수이고,
    상기 제1 인코딩 모듈(210) 및 상기 제2 인코딩 모듈(220) 중 적어도 하나는 상기 시간 도메인 오디오 샘플의 제1 그룹, 상기 시간 도메인 오디오 샘플의 제2 그룹, 상기 시간 도메인 오디오 샘플의 제3 그룹, 및 상기 시간 도메인 오디오 샘플의 제4 그룹 중 적어도 하나에 제3 윈도우 함수
    Figure 112018039556416-pct00302
    를 적용하도록 구성되는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  48. 제26항에 있어서,
    welt는 제1 윈도우 함수이고,
    wss는 제2 윈도우 함수이고, 상기 제2 윈도우 함수는
    Figure 112018039556416-pct00303

    에 따라 정의되고,
    M은 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹, 또는 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플의 수를 나타내고,
    k는
    Figure 112018039556416-pct00304
    인 수이고,
    d는 실수이고,
    n은 정수이고,
    상기 제1 인코딩 모듈(210) 및 상기 제2 인코딩 모듈(220) 중 적어도 하나는 상기 시간 도메인 오디오 샘플의 제1 그룹, 상기 시간 도메인 오디오 샘플의 제2 그룹, 상기 시간 도메인 오디오 샘플의 제3 그룹, 및 상기 시간 도메인 오디오 샘플의 제4 그룹 중 적어도 하나에 상기 제2 윈도우 함수 wss를 적용하도록 구성되는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  49. 제43항에 있어서,
    0.8≤d≤1.25인 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  50. 제49항에 있어서,
    Figure 112018039506725-pct00305
    인 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  51. 제43항에 있어서,
    d = 1인 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하기 위한 인코더.
  52. 시스템에 있어서,
    제26항에 따른 인코더(310), 및
    제1항에 따른 디코더(320)를 포함하고,
    제26항에 따른 상기 인코더(310)는 복수의 스펙트럼 도메인 오디오 샘플을 생성함으로써 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하도록 구성되고,
    제1항에 따른 상기 디코더(320)는 상기 인코더로부터 복수의 스펙트럼 도메인 오디오 샘플을 수신하도록 구성되고,
    제1항에 따른 상기 디코더(320)는 상기 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하도록 구성되는 것을 특징으로 하는 시스템.
  53. 제52항에 있어서,
    제26항에 따른 상기 인코더(310)는 제49항에 따른 인코더이고,
    제1항에 따른 상기 디코더(320)는 제21항에 따른 디코더인 것을 특징으로 하는 시스템.
  54. 제53항에 있어서,
    제49항에 따른 상기 인코더(310)는 제50항에 따른 인코더이고,
    제21항에 따른 상기 디코더(320)는 제22항에 따른 디코더인 것을 특징으로 하는 시스템.
  55. 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하는 방법으로서,
    스펙트럼 도메인 오디오 샘플의 제1 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제1 그룹을 생성함으로써 상기 스펙트럼 도메인 오디오 샘플의 제1 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제2 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제2 그룹을 생성함으로써 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹을 디코딩하는 단계;
    시간 도메인 중간 오디오 샘플의 정확히 2개의 그룹을 오버랩 가산하는 단계 - 상기 정확히 2개의 그룹은 상기 시간 도메인 중간 오디오 샘플의 제1 그룹 및 상기 시간 도메인 중간 오디오 샘플의 제2 그룹이고, 상기 정확히 2개의 그룹은 5% 초과 및 최대 50% 오버랩으로 오버랩 가산되고, 상기 정확히 2개의 그룹의 오버랩 가산은 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플을 생성하게 함 -;
    스펙트럼 도메인 오디오 샘플의 제3 그룹의 상기 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제3 그룹을 생성함으로써 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹을 디코딩하고, 스펙트럼 도메인 오디오 샘플의 제4 그룹의 스펙트럼 도메인 오디오 샘플로부터 시간 도메인 중간 오디오 샘플의 제4 그룹을 생성함으로써 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹을 디코딩하는 단계;
    상기 오디오 신호의 제1 복수의 시간 도메인 오디오 출력 샘플, 상기 오디오 신호의 제2 복수의 시간 도메인 오디오 출력 샘플, 및 상기 오디오 신호의 제3 복수의 시간 도메인 오디오 출력 샘플을 출력하는 단계;
    적어도 상기 시간 도메인 중간 오디오 샘플의 제3 그룹을 60% 초과 및 100% 미만의 오버랩으로 상기 시간 도메인 중간 오디오 샘플의 제4 그룹과 오버랩 가산하는 것을 사용하여 상기 제2 복수의 시간 도메인 오디오 출력 샘플을 획득하는 단계; 및
    적어도 상기 시간 도메인 중간 오디오 샘플의 제2 그룹을 상기 시간 도메인 중간 오디오 샘플의 제3 그룹과 오버랩 가산하는 것을 사용하여 상기 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하거나, 적어도 상기 시간 도메인 중간 오디오 샘플의 제4 그룹을 상기 시간 도메인 중간 오디오 샘플의 제1 그룹과 오버랩 가산하는 것을 사용하여 상기 제3 복수의 시간 도메인 오디오 출력 샘플을 획득하는 단계;를 포함하는 것을 특징으로 하는 복수의 스펙트럼 도메인 오디오 샘플을 디코딩하는 방법.
  56. 시간 도메인 오디오 샘플의 복수의 그룹으로부터 스펙트럼 도메인 오디오 샘플의 복수의 그룹을 생성함으로써 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하는 방법으로서,
    인코더는
    상기 시간 도메인 오디오 샘플의 그룹 중 제1 그룹으로부터 상기 스펙트럼 도메인 오디오 샘플의 그룹 중 제1 그룹을 생성하고, 상기 시간 도메인 오디오 샘플의 그룹 중 제2 그룹으로부터 상기 스펙트럼 도메인 오디오 샘플의 그룹 중 제2 그룹을 생성하는 것 - 상기 시간 도메인 오디오 샘플의 제1 그룹 및 상기 시간 도메인 오디오 샘플의 제2 그룹은 상기 시간 도메인 오디오 샘플의 그룹들 내에서 시간상 이웃하고, 상기 시간 도메인 오디오 샘플의 제1 그룹은 상기 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플의 5% 초과 및 최대 50%를 포함하고, 상기 시간 도메인 오디오 샘플의 제2 그룹은 상기 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플의 5% 초과 및 최대 50%를 포함함 -;
    상기 시간 도메인 오디오 샘플의 그룹 중 제3 그룹으로부터 상기 스펙트럼 도메인 오디오 샘플의 그룹 중 제3 그룹을 생성하고, 상기 시간 도메인 오디오 샘플의 그룹 중 제4 그룹으로부터 상기 스펙트럼 도메인 오디오 샘플의 그룹 중 제4 그룹을 생성하는 것 - 상기 시간 도메인 오디오 샘플의 제3 그룹은 상기 시간 도메인 오디오 샘플의 제4 그룹의 오디오 샘플의 60% 초과 및 100% 미만을 포함하고, 상기 시간 도메인 오디오 샘플의 제4 그룹은 상기 시간 도메인 오디오 샘플의 제3 그룹의 오디오 샘플의 60% 초과 및 100% 미만을 포함함 -; 및
    상기 스펙트럼 도메인 오디오 샘플의 제1 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제2 그룹, 상기 스펙트럼 도메인 오디오 샘플의 제3 그룹, 및 상기 스펙트럼 도메인 오디오 샘플의 제4 그룹을 출력하는 것;을 포함하고,
    상기 시간 도메인 오디오 샘플의 제3 그룹은 상기 시간 도메인 오디오 샘플의 제2 그룹의 오디오 샘플을 포함하고, 상기 시간 도메인 오디오 샘플의 제4 그룹은 상기 시간 도메인 오디오 샘플의 제1 그룹의 오디오 샘플을 포함하는 것을 특징으로 하는 오디오 신호의 복수의 시간 도메인 오디오 샘플을 인코딩하는 방법.
  57. 컴퓨터 또는 신호 프로세서 상에서 실행될 때 제55항 또는 제56항의 방법을 구현하기 위한 컴퓨터 프로그램을 포함하는 비-일시적 컴퓨터-판독가능 디지털 저장 매체.
KR1020187011220A 2015-09-25 2016-09-23 오디오 변환 코딩에서의 오버랩 비율의 신호 적응형 전환을 위한 인코더, 디코더, 및 방법 KR102205824B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EPPCT/EP2015/072186 2015-09-25
EPPCT/EP2015/072186 2015-09-25
EPPCT/EP2015/080334 2015-12-17
PCT/EP2015/080334 WO2017050398A1 (en) 2015-09-25 2015-12-17 Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
PCT/EP2016/072739 WO2017050993A1 (en) 2015-09-25 2016-09-23 Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding

Publications (2)

Publication Number Publication Date
KR20180067552A KR20180067552A (ko) 2018-06-20
KR102205824B1 true KR102205824B1 (ko) 2021-01-21

Family

ID=54850315

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187011220A KR102205824B1 (ko) 2015-09-25 2016-09-23 오디오 변환 코딩에서의 오버랩 비율의 신호 적응형 전환을 위한 인코더, 디코더, 및 방법

Country Status (10)

Country Link
US (1) US10770084B2 (ko)
EP (1) EP3353782B1 (ko)
JP (1) JP6654236B2 (ko)
KR (1) KR102205824B1 (ko)
CN (1) CN108463850B (ko)
BR (1) BR112018005901B1 (ko)
CA (1) CA2998776C (ko)
ES (1) ES2922975T3 (ko)
RU (1) RU2710929C2 (ko)
WO (2) WO2017050398A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI681384B (zh) * 2018-08-01 2020-01-01 瑞昱半導體股份有限公司 音訊處理方法與音訊等化器
TWI718625B (zh) * 2019-08-16 2021-02-11 瑞昱半導體股份有限公司 應用於離散及逆離散正弦餘弦變換的運算電路

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076754A1 (en) * 2007-01-05 2010-03-25 France Telecom Low-delay transform coding using weighting windows
US20130090929A1 (en) 2010-06-14 2013-04-11 Tomokazu Ishikawa Hybrid audio encoder and hybrid audio decoder
US20140058737A1 (en) * 2011-10-28 2014-02-27 Panasonic Corporation Hybrid sound signal decoder, hybrid sound signal encoder, sound signal decoding method, and sound signal encoding method

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US7136418B2 (en) * 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
EP1989706B1 (fr) 2006-02-14 2011-10-26 France Telecom Dispositif de ponderation perceptuelle en codage/decodage audio
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
EP3288027B1 (en) 2006-10-25 2021-04-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating complex-valued audio subband values
JP5171842B2 (ja) * 2006-12-12 2013-03-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 時間領域データストリームを表している符号化および復号化のための符号器、復号器およびその方法
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
CN102498515B (zh) * 2009-09-17 2014-06-18 延世大学工业学术合作社 处理音频信号的方法和设备
CA2777073C (en) * 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
US20110087494A1 (en) * 2009-10-09 2011-04-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
WO2011048117A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
PL2491553T3 (pl) * 2009-10-20 2017-05-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder audio, dekoder audio, sposób kodowania informacji audio, sposób dekodowania informacji audio i program komputerowy wykorzystujący iteracyjne zmniejszania rozmiaru przedziału
CN103366751B (zh) * 2012-03-28 2015-10-14 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
EP2682941A1 (de) * 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
US9305559B2 (en) * 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
CA2899013C (en) * 2013-01-29 2017-11-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm
RU2625560C2 (ru) * 2013-02-20 2017-07-14 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ кодирования или декодирования аудиосигнала с использованием перекрытия, зависящего от местоположения перехода
GB2515089A (en) * 2013-06-14 2014-12-17 Nokia Corp Audio Processing
WO2015122752A1 (ko) * 2014-02-17 2015-08-20 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
CA2985019C (en) * 2016-02-17 2022-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076754A1 (en) * 2007-01-05 2010-03-25 France Telecom Low-delay transform coding using weighting windows
US20130090929A1 (en) 2010-06-14 2013-04-11 Tomokazu Ishikawa Hybrid audio encoder and hybrid audio decoder
US20140058737A1 (en) * 2011-10-28 2014-02-27 Panasonic Corporation Hybrid sound signal decoder, hybrid sound signal encoder, sound signal decoding method, and sound signal encoding method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Draft International Standard ISO/IEC DIS 23008-3. ISO/IEC JTC 1/SC 29/WG 11. 2014.07.25.
EVS Codec Detailed Algorithmic Description (3GPP TS 26.445 version 12.1.0 Release 12). ETSI TS 126 445 V12.1.0. 2015.03.

Also Published As

Publication number Publication date
US10770084B2 (en) 2020-09-08
CN108463850A (zh) 2018-08-28
WO2017050993A1 (en) 2017-03-30
CN108463850B (zh) 2023-04-04
JP2018532153A (ja) 2018-11-01
RU2018115190A (ru) 2019-10-25
KR20180067552A (ko) 2018-06-20
BR112018005901B1 (pt) 2023-10-03
CA2998776C (en) 2021-07-20
RU2710929C2 (ru) 2020-01-14
JP6654236B2 (ja) 2020-02-26
BR112018005901A2 (pt) 2018-10-16
WO2017050398A1 (en) 2017-03-30
RU2018115190A3 (ko) 2019-10-25
US20190103120A1 (en) 2019-04-04
CA2998776A1 (en) 2017-03-30
EP3353782B1 (en) 2022-05-11
ES2922975T3 (es) 2022-09-22
EP3353782A1 (en) 2018-08-01

Similar Documents

Publication Publication Date Title
US11854559B2 (en) Decoder for decoding an encoded audio signal and encoder for encoding an audio signal
US20220139406A1 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
RU2625560C2 (ru) Устройство и способ кодирования или декодирования аудиосигнала с использованием перекрытия, зависящего от местоположения перехода
JP6911080B2 (ja) 変換長切替えをサポートする周波数ドメインオーディオ符号化
KR102205824B1 (ko) 오디오 변환 코딩에서의 오버랩 비율의 신호 적응형 전환을 위한 인코더, 디코더, 및 방법
KR20220018557A (ko) 스테레오 코딩 방법 및 디바이스, 및 스테레오 디코딩 방법 및 디바이스
JP2022505789A (ja) サブバンド併合および時間領域エイリアシング低減を使用した適応的な非均一時間/周波数タイリングによる知覚音声符号化

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right