KR102467707B1 - Qmf 기반 처리 데이터의 시간 정렬 - Google Patents

Qmf 기반 처리 데이터의 시간 정렬 Download PDF

Info

Publication number
KR102467707B1
KR102467707B1 KR1020217037448A KR20217037448A KR102467707B1 KR 102467707 B1 KR102467707 B1 KR 102467707B1 KR 1020217037448 A KR1020217037448 A KR 1020217037448A KR 20217037448 A KR20217037448 A KR 20217037448A KR 102467707 B1 KR102467707 B1 KR 102467707B1
Authority
KR
South Korea
Prior art keywords
metadata
waveform
delay
audio
unit
Prior art date
Application number
KR1020217037448A
Other languages
English (en)
Other versions
KR20210143331A (ko
Inventor
크리스토퍼 크조어링
하이코 푸른하겐
옌스 포프
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Priority to KR1020227039556A priority Critical patent/KR20220156112A/ko
Publication of KR20210143331A publication Critical patent/KR20210143331A/ko
Application granted granted Critical
Publication of KR102467707B1 publication Critical patent/KR102467707B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Abstract

본 문서는 스펙트럼 대역 복제(SBR) 메타데이터와 같은, 관련 메타데이터와 오디오 인코더의 인코딩된 데이터의 시간 정렬에 관한 것이다. 수신된 데이터 스트림의 액세스 단위(110)로부터 오디오 신호(237)의 재구성된 프레임을 결정하도록 구성된 오디오 디코더(100, 300)가 설명된다. 액세스 단위(110)는 파형 데이터(111)와 메타데이터(112)를 포함하며, 여기서 파형 데이터(111)와 메타데이터(112)는 오디오 신호(127)의 동일한 재구성된 프레임과 관련된다. 오디오 디코더(100, 300)는 파형 데이터(111)로부터 복수의 파형 부대역 신호(123)를 생성하도록 구성된 파형 처리 경로(101, 102, 103, 104, 105), 및 메타데이터(111)로부터 디코딩된 메타데이터(128)를 생성하도록 구성된 메타데이터 처리 경로(108, 109)를 포함한다.

Description

QMF 기반 처리 데이터의 시간 정렬{TIME-ALIGNMENT OF QMF BASED PROCESSING DATA}
<관련 출원들의 상호 참조>
이 출원은 2013년 9월 12일에 출원된 미국 특허 가출원 제61/877,194호 및 2013년 11월 27일에 출원된 미국 특허 가출원 제61/909,593호에 대한 우선권의 이익을 주장하며, 상기 출원들 각각은 그 전체가 본 명세서에 참고로 포함된다.
<발명의 기술분야>
본 문서는 스펙트럼 대역 복제(spectral band replication)(SBR), 특히 고효율(High Efficiency)(HE) 고급 오디오 코딩(Advanced Audio Coding)(AAC), 메타데이터와 같은, 관련 메타데이터와 오디오 인코더의 인코딩된 데이터의 시간 정렬에 관한 것이다.
오디오 코딩의 맥락에서 기술적 문제는, 예컨대, 생방송과 같은 실시간 응용을 가능하게 하기 위하여 저지연을 나타내는 오디오 인코딩 및 디코딩 시스템들을 제공하는 것이다. 더욱이, 다른 비트스트림들과 접합(splice)될 수 있는 인코딩된 비트스트림들을 교환하는 오디오 인코딩 및 디코딩 시스템들을 제공하는 것이 바람직하다. 추가로, 시스템들의 비용 효율적인 구현을 가능하게 하기 위해 계산 효율적인 오디오 인코딩 및 디코딩 시스템들이 제공되어야 한다. 본 문서는 효율적인 방식으로 접합될 수 있는 인코딩된 비트스트림들을 제공하는 한편, 이와 동시에 대기 시간을 생방송을 위해 적절한 레벨로 유지하는 기술적 문제를 다룬다. 본 문서는 적당한 코딩 지연으로 비트스트림들의 접합을 가능하게 함으로써, 생방송과 같은 응용들을 가능하게 하는 오디오 인코딩 및 디코딩 시스템을 설명하며, 여기서 방송된 비트스트림은 복수의 소스 비트스트림으로부터 생성될 수 있다.
일 양태에 따르면 수신된 데이터 스트림의 액세스 단위로부터 오디오 신호의 재구성된 프레임을 결정하도록 구성된 오디오 디코더가 설명된다. 전형적으로, 데이터 스트림은 오디오 신호의 재구성된 프레임들의 각각의 시퀀스를 결정하기 위한 액세스 단위의 시퀀스를 포함한다. 오디오 신호의 프레임은 전형적으로 오디오 신호의 미리 결정된 수 N개의 시간 영역 샘플을 포함한다(N은 1보다 크다). 따라서 액세스 단위들의 시퀀스는 오디오 신호의 프레임들의 시퀀스를 각각 묘사할 수 있다.
액세스 단위는 파형 데이터와 메타데이터를 포함하며, 여기서 파형 데이터와 메타데이터는 오디오 신호의 동일한 재구성된 프레임과 관련된다. 즉, 오디오 신호의 재구성된 프레임을 결정하기 위한 파형 데이터와 메타데이터가 동일한 액세스 단위 안에 포함된다. 액세스 단위들의 시퀀스 중의 액세스 단위들은 각각 오디오 신호의 재구성된 프레임들의 시퀀스 중의 각각의 재구성된 프레임을 생성하기 위한 파형 데이터와 메타데이터를 포함할 수 있다. 특히, 특정 프레임의 액세스 단위는 그 특정 프레임에 대한 재구성된 프레임을 결정하는 데 필요한 데이터(예컨대, 모든 데이터)를 포함할 수 있다.
일례로, 특정 프레임의 액세스 단위는 (그 액세스 단위의 파형 데이터 안에 포함된) 그 특정 프레임의 저대역 신호에 기초하여 그리고 디코딩된 메타데이터에 기초하여 그 특정 프레임의 고대역 신호를 생성하기 위해 고주파 재구성(high frequency reconstruction)(HFR) 스킴을 수행하는 데 필요한 데이터(예컨대, 모든 데이터)를 포함할 수 있다.
대안으로 또는 추가로, 특정 프레임의 액세스 단위는 특정 프레임의 다이내믹 레인지의 확장(expansion)을 수행하는 데 필요한 데이터(예컨대, 모든 데이터)를 포함할 수 있다. 특히, 특정 프레임의 저대역 신호의 확장 또는 신장(expanding)이 디코딩된 메타데이터에 기초하여 수행될 수 있다. 이를 위해, 디코딩된 메타데이터는 하나 이상의 신장 파라미터를 포함할 수 있다. 이 하나 이상의 신장 파라미터는 다음에 언급한 것들 중 하나 이상을 나타낼 수 있다: 압축/확장이 특정 프레임에 적용되어야 하는지 여부; 압축/확장이 다중-채널 오디오 신호의 모든 채널들에 대해 균일한 방식으로 적용되어야 하는지 여부(즉, 다중-채널 오디오 신호의 모든 채널들에 대해 동일한 신장 이득(들)이 적용되어야 하는지 여부 또는 다중-채널 오디오 신호의 상이한 채널들에 대해 상이한 신장 이득(들)이 적용되어야 하는지 여부); 및/또는 신장 이득의 시간 해상도.
이전 또는 후속 액세스 단위와 독립적으로, 오디오 신호의 대응하는 재구성된 프레임을 생성하는 데 필요한 데이터를 각각 포함하는 액세스 단위들을 가진 액세스 단위들의 시퀀스의 제공은 접합 응용에 유익한데, 그 이유는 그것이 접합 지점(예컨대, 접합 지점 바로 다음)에서 오디오 신호의 재구성된 프레임의 지각 품질에 영향을 주지 않고, 2개의 인접한 액세스 단위 사이에 데이터 스트림이 접합되는 것을 가능하게 하기 때문이다.
일례로, 오디오 신호의 재구성된 프레임은 저대역 신호와 고대역 신호를 포함하고, 여기서 파형 데이터는 저대역 신호를 나타내고, 메타데이터는 고대역 신호의 스펙트럼 포락선(spectral envelope)을 나타낸다. 저대역 신호는 비교적 저주파 범위(예컨대, 미리 결정된 크로스오버 주파수보다 작은 주파수들을 포함함)를 커버하는 오디오 신호의 성분에 대응할 수 있다. 고대역 신호는 비교적 고주파 범위(예컨대, 미리 결정된 크로스오버 주파수보다 높은 주파수들을 포함함)를 커버하는 오디오 신호의 성분에 대응할 수 있다. 저대역 신호와 고대역 신호는 저대역 신호에 의해 그리고 고대역 신호에 의해 커버되는 주파수 범위에 관하여 상보적일 수 있다. 오디오 디코더는 메타데이터와 파형 데이터를 이용하여 고대역 신호의 스펙트럼 대역 복제(SBR)와 같은 고주파 재구성(HFR)을 수행하도록 구성될 수 있다. 따라서, 메타데이터는 고대역 신호의 스펙트럼 포락선을 나타내는 HFR 또는 SBR 메타데이터를 포함할 수 있다.
오디오 디코더는 파형 데이터로부터 복수의 파형 부대역 신호를 생성하도록 구성된 파형 처리 경로를 포함할 수 있다. 복수의 파형 부대역 신호는 부대역 영역에서(예컨대, QMF 영역에서)의 시간 영역 파형 신호의 표현에 대응할 수 있다. 시간 영역 파형 신호는 위에 언급한 저대역 신호에 대응할 수 있고, 복수의 파형 부대역 신호는 복수의 저대역 부대역 신호에 대응할 수 있다. 더욱이, 오디오 디코더는 메타데이터로부터 디코딩된 메타데이터를 생성하도록 구성된 메타데이터 처리 경로를 포함할 수 있다.
추가로, 오디오 디코더는 복수의 파형 부대역 신호로부터 그리고 디코딩된 메타데이터로부터 오디오 신호의 재구성된 프레임을 생성하도록 구성된 메타데이터 적용 및 합성 유닛을 포함할 수 있다. 특히, 메타데이터 적용 및 합성 유닛은 복수의 파형 부대역 신호로부터(즉, 그 경우, 복수의 저대역 부대역 신호로부터) 그리고 디코딩된 메타데이터로부터 복수의 (예컨대, 스케일링된) 고대역 부대역 신호를 생성하기 위해 HFR 및/또는 SBR 스킴을 수행하도록 구성될 수 있다. 그 후 복수의 (예컨대, 스케일링된) 고대역 부대역 신호에 기초하여 그리고 복수의 저대역 신호에 기초하여 오디오 신호의 재구성된 프레임이 결정될 수 있다.
대안으로 또는 추가로, 오디오 디코더는 디코딩된 메타데이터 중 적어도 일부를 이용하여, 특히 디코딩된 메타데이터 안에 포함된 하나 이상의 신장 파라미터를 이용하여 복수의 파형 부대역 신호의 확장을 수행하도록 구성된 또는 복수의 파형 부대역 신호를 신장하도록 구성된 신장 유닛을 포함할 수 있다. 이를 위해, 신장 유닛은 복수의 파형 부대역 신호에 하나 이상의 신장 이득을 적용하도록 구성될 수 있다. 신장 유닛은 복수의 파형 부대역 신호에 기초하여, 하나 이상의 미리 결정된 압축/신장 규칙 또는 함수에 기초하여 그리고/또는 하나 이상의 신장 파라미터에 기초하여 하나 이상의 신장 이득을 결정하도록 구성될 수 있다.
파형 처리 경로 및/또는 메타데이터 처리 경로는 복수의 파형 부대역 신호와 디코딩된 메타데이터를 시간 정렬시키도록 구성된 적어도 하나의 지연 유닛을 포함할 수 있다. 특히, 적어도 하나의 지연 유닛은 복수의 파형 부대역 신호와 디코딩된 메타데이터를 정렬시키고, 그리고/또는 파형 처리 경로의 전체 지연이 메타데이터 처리 경로의 전체 지연에 대응하도록, 파형 처리 경로에 그리고/또는 메타데이터 처리 경로에 적어도 하나의 지연을 삽입하도록 구성될 수 있다. 대안으로 또는 추가로, 적어도 하나의 지연 유닛은 복수의 파형 부대역 신호와 디코딩된 메타데이터가 메타데이터 적용 및 합성 유닛에 의해 수행되는 처리를 위해 적시에 메타데이터 적용 및 합성 유닛에 제공되도록 복수의 파형 부대역 신호와 디코딩된 메타데이터를 시간 정렬시키도록 구성될 수 있다. 특히, 복수의 파형 부대역 신호와 디코딩된 메타데이터가 메타데이터 적용 및 합성 유닛에 제공될 수 있어, 메타데이터 적용 및 합성 유닛이 복수의 파형 부대역 신호에 대한 그리고/또는 디코딩된 메타데이터에 대한 처리(예컨대, HFR 또는 SBR 처리)를 수행하기에 앞서 복수의 파형 부대역 신호 및/또는 디코딩된 메타데이터를 버퍼링할 필요가 없다.
즉, 오디오 디코더는 디코딩된 메타데이터를 그리고/또는 복수의 파형 부대역 신호를, HFR 스킴을 수행하도록 구성될 수 있는, 메타데이터 적용 및 합성 유닛에 제공하는 것을 지연시키도록 구성될 수 있어, 디코딩된 메타데이터 및/또는 복수의 파형 부대역 신호가 처리를 위해 필요할 때 제공된다. 삽입된 지연은 오디오 코덱(오디오 디코더 및 대응하는 오디오 인코더를 포함함)의 전체 지연을 감소시키도록(예컨대, 최소화하도록) 선택될 수 있는 한편, 이와 동시에 액세스 단위들의 시퀀스를 포함하는 비트스트림의 접합을 가능하게 한다. 따라서, 오디오 디코더는, 오디오 코덱의 전체 지연에 대한 영향을 최소로 하여, 오디오 신호의 특정한 재구성된 프레임을 결정하기 위해 파형 데이터와 메타데이터를 포함하는, 시간 정렬된 액세스 단위들을 처리하도록 구성될 수 있다. 더욱이, 오디오 디코더는 메타데이터를 다시 샘플링할 필요 없이 시간 정렬된 액세스 단위들을 처리하도록 구성될 수 있다. 이렇게 함으로써, 오디오 디코더는 계산 효율적인 방식으로 그리고 오디오 품질을 저하시키지 않고 오디오 신호의 특정한 재구성된 프레임을 결정하도록 구성된다. 그러므로, 오디오 디코더는 계산 효율적인 방식으로 접합 응용을 가능하게 하는 한편, 높은 오디오 품질과 낮은 전체 지연을 유지하도록 구성될 수 있다.
더욱이, 복수의 파형 부대역 신호와 디코딩된 메타데이터를 시간 정렬시키도록 구성된 적어도 하나의 지연 유닛의 사용은 (복수의 파형 부대역 신호의 그리고 디코딩된 메타데이터의 처리가 전형적으로 수행되는) 부대역 영역에서 복수의 파형 부대역 신호의 그리고 디코딩된 메타데이터의 정확하고 일치하는 정렬을 보장할 수 있다.
메타데이터 처리 경로는 디코딩된 메타데이터를 오디오 신호의 재구성된 프레임의 프레임 길이 N의 0보다 큰 정수 배수만큼 지연시키도록 구성된 메타데이터 지연 유닛을 포함할 수 있다. 메타데이터 지연 유닛에 의해 도입되는 추가 지연을 메타데이터 지연이라고 부를 수 있다. 프레임 길이 N은 오디오 신호의 재구성된 프레임 안에 포함된 시간 영역 샘플들의 수 N에 대응할 수 있다. 정수 배수는 메타데이터 지연 유닛에 의해 도입되는 지연이 (예컨대, 파형 처리 경로에 도입되는 추가 파형 지연은 고려하지 않고) 파형 처리 경로의 처리에 의해 도입되는 지연보다 크도록 하는 것일 수 있다. 메타데이터 지연은 오디오 신호의 재구성된 프레임의 프레임 길이 N에 의존할 수 있다. 이것은 파형 처리 경로 내의 처리에 의해 야기되는 지연이 프레임 길이 N에 의존한다는 사실에 기인할 수 있다. 특히, 정수 배수는 960보다 큰 프레임 길이 N에 대해 1일 수 있고 그리고/또는 정수 배수는 960 이하의 프레임 길이 N에 대해 2일 수 있다.
전술한 바와 같이, 메타데이터 적용 및 합성 유닛은 부대역 영역에서(예컨대, QMF 영역에서)의 디코딩된 메타데이터와 복수의 파형 부대역 신호를 처리하도록 구성될 수 있다. 더욱이, 디코딩된 메타데이터는 부대역 영역에서의 메타데이터를 나타낼 수 있다(예컨대, 고대역 신호의 스펙트럼 포락선을 묘사하는 스펙트럼 계수들을 나타낼 수 있다). 추가로, 메타데이터 지연 유닛은 디코딩된 메타데이터를 지연시키도록 구성될 수 있다. 프레임 길이 N의 0보다 큰 정수 배수들인 메타데이터 지연들의 사용은 유익할 수 있는데, 그 이유는 이것이 부대역 영역에서의 복수의 파형 부대역 신호의 그리고 디코딩된 메타데이터의 일치하는 정렬을 보장하기 때문이다(예컨대, 메타데이터 적용 및 합성 유닛 내의 처리를 위해). 특히, 이것은 메타데이터를 다시 샘플링할 필요 없이, 디코딩된 메타데이터가 파형 신호의 올바른 프레임에(즉, 복수의 파형 부대역 신호의 올바른 프레임에) 적용될 수 있는 것을 보장한다.
파형 처리 경로는 파형 처리 경로의 전체 지연이 오디오 신호의 재구성된 프레임의 프레임 길이 N의 0보다 큰 정수 배수에 대응하도록 복수의 파형 부대역 신호를 지연시키도록 구성된 파형 지연 유닛을 포함할 수 있다. 파형 지연 유닛에 의해 도입되는 추가 지연을 파형 지연이라고 부를 수 있다. 파형 처리 경로의 정수 배수는 메타데이터 처리 경로의 정수 배수에 대응할 수 있다.
파형 지연 유닛 및/또는 메타데이터 지연 유닛은 복수의 파형 부대역 신호 및/또는 디코딩된 메타데이터를 파형 지연에 대응하는 양의 시간 동안 그리고/또는 메타데이터 지연에 대응하는 양의 시간 동안 저장하도록 구성되는 버퍼들로서 구현될 수 있다. 파형 지연 유닛은 메타데이터 적용 및 합성 유닛의 상류측에 파형 처리 경로 내의 임의의 위치에 배치될 수 있다. 따라서, 파형 지연 유닛은 파형 데이터 및/또는 복수의 파형 부대역 신호(및/또는 파형 처리 경로 내의 임의의 중간 데이터 또는 신호)를 지연시키도록 구성될 수 있다. 일례로, 파형 지연 유닛은 파형 처리 경로를 따라 분산될 수 있고, 여기서 분산된 지연 유닛들은 각각 총 파형 지연의 분수를 제공한다. 파형 지연 유닛의 분산은 파형 지연 유닛의 비용 효율적인 구현에 유익할 수 있다. 파형 지연 유닛과 유사한 방식으로, 메타데이터 지연 유닛은 메타데이터 적용 및 합성 유닛의 상류측에 메타데이터 처리 경로 내의 임의의 위치에 배치될 수 있다. 더욱이, 파형 지연 유닛은 메타데이터 처리 경로를 따라 분산될 수도 있다.
파형 처리 경로는 파형 신호를 나타내는 복수의 주파수 계수를 제공하기 위해 파형 데이터를 디코딩하여 역양자화하도록 구성된 디코딩 및 역양자화 유닛을 포함할 수 있다. 따라서, 파형 데이터는 복수의 주파수 계수를 포함할 수 있거나 나타낼 수 있고, 이는 오디오 신호의 재구성된 프레임의 파형 신호의 생성을 가능하게 한다. 더욱이, 파형 처리 경로는 복수의 주파수 계수로부터 파형 신호를 생성하도록 구성된 파형 합성 유닛을 포함할 수 있다. 파형 합성 유닛은 주파수 영역에서 시간 영역으로의 변환을 수행하도록 구성될 수 있다. 특히, 파형 합성 유닛은 역 변형 이산 코사인 변환(modified discrete cosine transform)(MDCT)을 수행하도록 구성될 수 있다. 파형 합성 유닛 또는 파형 합성 유닛의 처리는 오디오 신호의 재구성된 프레임의 프레임 길이 N에 의존하는 지연을 도입할 수 있다. 특히, 파형 합성 유닛에 의해 도입되는 지연은 프레임 길이 N의 절반에 대응할 수 있다.
파형 데이터로부터 파형 신호를 재구성한 후에, 파형 신호는 디코딩된 메타데이터와 함께 처리될 수 있다. 일례로, 파형 신호는 디코딩된 메타데이터를 이용하여, 고대역 신호를 결정하기 위해 HFR 또는 SBR 스킴의 맥락에서 이용될 수 있다. 이를 위해, 파형 처리 경로는 파형 신호로부터 복수의 파형 부대역 신호를 생성하도록 구성된 분석 유닛을 포함할 수 있다. 분석 유닛은, 예컨대, 직교 미러 필터(quadrature mirror filter)(QMF) 뱅크를 적용하는 것에 의해 시간 영역에서 부대역 영역으로의 변환을 수행하도록 구성될 수 있다. 전형적으로, 파형 합성 유닛에 의해 수행되는 변환의 주파수 해상도는 분석 유닛에 의해 수행되는 변환의 주파수 해상도보다 높다(예컨대, 적어도 5배 또는 10배). 이것은 "주파수 영역(frequency domain)" 및 "부대역 영역(subband domain)"이라는 용어들에 의해 표현될 수 있으며, 여기서 주파수 영역은 부대역 영역보다 높은 주파수 해상도와 관련될 수 있다. 분석 유닛은 오디오 신호의 재구성된 프레임의 프레임 길이 N과 관계없는 고정된 지연을 도입할 수도 있다. 분석 유닛에 의해 도입되는 고정된 지연은 분석 유닛에 의해 사용되는 필터 뱅크의 필터들의 길이에 의존할 수 있다. 예로서, 분석 유닛에 의해 도입되는 고정된 지연은 오디오 신호의 320개 샘플에 대응할 수 있다.
파형 처리 경로의 전체 지연은 메타데이터와 파형 데이터 사이의 미리 결정된 예견(lookahead)에 추가로 의존할 수 있다. 이러한 예견은 오디오 신호의 인접한 재구성된 프레임들 사이의 연속성을 증가시키기 위해 유익할 수 있다. 미리 결정된 예견 및/또는 관련된 예견 지연은 오디오 샘플의 192개 또는 384개 샘플에 대응할 수 있다. 예견 지연은 고대역 신호의 스펙트럼 포락선을 나타내는 HFR 또는 SBR 메타데이터의 결정의 맥락에서 예견일 수 있다. 특히, 예견은 대응하는 오디오 인코더가, 오디오 신호의 바로 후속 프레임으로부터의 미리 결정된 수의 샘플들에 기초하여, 오디오 신호의 특정 프레임의 HFR 또는 SBR 메타데이터를 결정하는 것을 가능하게 할 수 있다. 이것은 특정 프레임이 음향 과도 신호(acoustic transient)를 포함하는 경우에 유익할 수 있다. 예견 지연은 파형 처리 경로 안에 포함되는 예견 지연 유닛에 의해 적용될 수 있다.
따라서, 파형 처리 경로의 전체 지연, 즉 파형 지연은 파형 처리 경로 내에서 수행되는 상이한 처리에 의존할 수 있다. 더욱이, 파형 지연은 메타데이터 처리 경로에서 도입되는 메타데이터 지연에 의존할 수도 있다. 파형 지연은 오디오 신호의 샘플의 임의의 배수에 대응할 수 있다. 이러한 이유로, 파형 신호를 지연시키도록 구성되는 파형 지연 유닛을 이용하는 것이 유익할 수 있으며, 여기서 파형 신호는 시간 영역에서 표현된다. 즉, 파형 신호에 대해 파형 지연을 적용하는 것이 유익할 수 있다. 이렇게 함으로써, 오디오 신호의 샘플의 임의의 배수에 대응하는, 파형 지연의 정확하고 일치하는 적용이 보장될 수 있다.
예시적인 디코더는, 부대역 영역에서 표현될 수 있는 메타데이터에 대해 메타데이터 지연을 적용하도록 구성되는 메타데이터 지연 유닛, 및 시간 영역에서 표현되는 파형 신호에 대해 파형 지연을 적용하도록 구성되는 파형 지연 유닛을 포함할 수 있다. 메타데이터 지연 유닛은 프레임 길이 N의 정수 배수에 대응하는 메타데이터 지연을 적용할 수 있고, 파형 지연 유닛은 오디오 신호의 샘플의 정수 배수에 대응하는 파형 지연을 적용할 수 있다. 결과적으로, 메타데이터 적용 및 합성 유닛 내에서의 처리를 위한 복수의 파형 부대역 신호들의 그리고 디코딩된 메타데이터의 정확하고 일치하는 정렬이 보장될 수 있다. 복수의 파형 부대역 신호들의 그리고 디코딩된 메타데이터의 처리는 부대역 영역에서 일어날 수 있다. 복수의 파형 부대역 신호들의 그리고 디코딩된 메타데이터의 정렬은 디코딩된 메타데이터를 다시 샘플링하지 않고 달성될 수 있어, 정렬을 위한 계산 효율적인 품질 보존 수단을 제공한다.
전술한 바와 같이, 오디오 디코더는 HFR 또는 SBR 스킴을 수행하도록 구성될 수 있다. 메타데이터 적용 및 합성 유닛은 복수의 저대역 부대역 신호를 이용하여 그리고 디코딩된 메타데이터를 이용하여 (SBR과 같은) 고주파 재구성을 수행하도록 구성되는 메타데이터 적용 유닛을 포함할 수 있다. 특히, 메타데이터 적용 유닛은 복수의 저대역 부대역 신호 중 하나 이상을 전치(transpose)하여 복수의 고대역 부대역 신호를 생성하도록 구성될 수 있다. 더욱이, 메타데이터 적용 유닛은 복수의 고대역 부대역 신호에 디코딩된 메타데이터를 적용하여 복수의 스케일링된 고대역 부대역 신호를 제공하도록 구성될 수 있다. 복수의 스케일링된 고대역 부대역 신호는 오디오 신호의 재구성된 프레임의 고대역 신호를 나타낼 수 있다. 오디오 신호의 재구성된 프레임을 생성하기 위해, 메타데이터 적용 및 합성 유닛은 복수의 저대역 부대역 신호로부터 그리고 복수의 스케일링된 고대역 부대역 신호로부터 오디오 신호의 재구성된 프레임을 생성하도록 구성된 합성 유닛을 더 포함할 수 있다. 합성 유닛은, 예컨대, 역 QMF 뱅크를 적용하는 것에 의해, 분석 유닛에 의해 수행되는 변환에 관하여 역변환을 수행하도록 구성될 수 있다. 합성 유닛의 필터 뱅크 내에 포함되는 필터들의 수는 분석 유닛의 필터 뱅크 내에 포함되는 필터들의 수보다 많을 수 있다(예컨대, 복수의 스케일링된 고대역 부대역 신호로 인한 연장된 주파수 범위를 설명하기 위하여).
전술한 바와 같이, 오디오 디코더는 신장 유닛을 포함할 수 있다. 신장 유닛은 복수의 파형 부대역 신호의 다이내믹 레인지를 변경하도록(예컨대, 증가시키도록) 구성될 수 있다. 신장 유닛은 메타데이터 적용 및 합성 유닛의 상류측에 위치할 수 있다. 특히, 복수의 신장된 파형 부대역 신호는 HFR 또는 SBR 스킴을 수행하기 위해 이용될 수 있다. 즉, HFR 또는 SBR 스킴을 수행하기 위해 이용되는 복수의 저대역 부대역 신호는 신장 유닛의 출력에서의 복수의 신장된 파형 부대역 신호에 대응할 수 있다.
신장 유닛은 바람직하게는 예견 지연 유닛의 하류측에 위치한다. 특히, 신장 유닛은 예견 지연 유닛과 메타데이터 적용 및 합성 유닛의 사이에 위치할 수 있다. 예견 지연 유닛의 하류측에 신장 유닛을 위치시키는 것에 의해, 즉, 복수의 파형 부대역 신호를 신장하기에 앞서 파형 데이터에 예견 지연을 적용하는 것에 의해, 메타데이터 내에 포함되는 하나 이상의 신장 파라미터가 올바른 파형 데이터에 적용되는 것이 보장된다. 즉, 예견 지연에 의해 이미 지연된 파형 데이터에 대해 확장을 수행하는 것은 메타데이터로부터의 하나 이상의 신장 파라미터가 파형 데이터와 동시 발생하는 것을 보장한다.
따라서, 디코딩된 메타데이터는 하나 이상의 신장 파라미터를 포함할 수 있고, 오디오 디코더는, 하나 이상의 신장 파라미터를 이용하여, 복수의 파형 부대역 신호에 기초하여 복수의 신장된 파형 부대역 신호를 생성하도록 구성된 신장 유닛을 포함할 수 있다. 특히, 신장 유닛은 미리 결정된 압축 함수의 역을 이용하여 복수의 신장된 파형 부대역 신호를 생성하도록 구성될 수 있다. 하나 이상의 신장 파라미터는 미리 결정된 압축 함수의 역을 나타낼 수 있다. 오디오 신호의 재구성된 프레임은 복수의 신장된 파형 부대역 신호로부터 결정될 수 있다.
전술한 바와 같이, 오디오 디코더는 미리 결정된 예견에 따라 복수의 파형 부대역 신호를 지연시켜, 복수의 지연된 파형 부대역 신호를 생성하도록 구성된 예견 지연 유닛을 포함할 수 있다. 신장 유닛은 복수의 지연된 파형 부대역 신호를 신장하는 것에 의해 복수의 신장된 파형 부대역 신호를 생성하도록 구성될 수 있다. 즉, 신장 유닛은 예견 지연 유닛의 하류측에 위치할 수 있다. 이것은 하나 이상의 신장 파라미터와, 이 하나 이상의 신장 파라미터가 적용될 수 있는, 복수의 파형 부대역 신호 사이의 동시 발생을 보장한다.
메타데이터 적용 및 합성 유닛은 복수의 파형 부대역 신호의 시간 부분에 대해 디코딩된 메타데이터를 이용하여(특히 SBR/HFR 관련 메타데이터를 이용하여) 오디오 신호의 재구성된 프레임을 생성하도록 구성될 수 있다. 시간 부분은 복수의 파형 부대역 신호의 다수의 타임 슬롯에 대응할 수 있다. 시간 부분의 시간 길이는 가변적일 수 있는데, 즉, 디코딩된 메타데이터가 적용되는 복수의 파형 부대역 신호의 시간 부분의 시간 길이는 프레임마다 달라질 수 있다. 또 다르게 말해서, 디코딩된 메타데이터에 대한 프레이밍은 달라질 수 있다. 시간 부분의 시간 길이의 변화는 미리 결정된 한계들로 제한될 수 있다. 미리 결정된 한계들은 프레임 길이에서 예견 지연을 뺀 것에 그리고 프레임 길이에 예견 지연을 더한 것에 각각 대응할 수 있다. 상이한 시간 길이들의 시간 부분들에 대한 디코딩된 파형 데이터(또는 그의 부분들)의 적용은 과도 오디오 신호들의 처리를 위해 유익할 수 있다.
신장 유닛은 복수의 파형 부대역 신호의 동일한 시간 부분에 대해 하나 이상의 신장 파라미터를 이용하여 복수의 신장된 파형 부대역 신호를 생성하도록 구성될 수 있다. 즉, 하나 이상의 신장 파라미터의 프레이밍은 메타데이터 적용 및 합성 유닛에 의해 이용되는 디코딩된 메타데이터에 대한 프레이밍(예컨대, SBR/HFR 메타데이터에 대한 프레이밍)과 동일할 수 있다. 이렇게 함으로서, SBR 스킴의 그리고 압신 스킴(companding scheme)의 일관성이 보장될 수 있고 코딩 시스템의 지각 품질이 향상될 수 있다.
추가 양태에 따르면, 오디오 신호의 프레임을 데이터 스트림의 액세스 단위로 인코딩하도록 구성된 오디오 인코더가 설명된다. 오디오 인코더는 오디오 디코더에 의해 수행되는 처리 작업들에 관하여 대응하는 처리 작업들을 수행하도록 구성될 수 있다. 특히, 오디오 인코더는 오디오 신호의 프레임으로부터 파형 데이터 및 메타데이터를 결정하고 이 파형 데이터 및 메타데이터를 액세스 단위에 삽입하도록 구성될 수 있다. 파형 데이터 및 메타데이터는 오디오 신호의 프레임의 재구성된 프레임을 나타낼 수 있다. 즉, 파형 데이터 및 메타데이터는 대응하는 오디오 디코더가 오디오 신호의 원본 프레임의 재구성된 버전을 결정하는 것을 가능하게 할 수 있다. 오디오 신호의 프레임은 저대역 신호와 고대역 신호를 포함할 수 있다. 파형 데이터는 저대역 신호를 나타낼 수 있고 메타데이터는 고대역 신호의 스펙트럼 포락선을 나타낼 수 있다.
오디오 인코더는 (예컨대, 고급 오디오 코더(Advanced Audio Coder, AAC)와 같은 오디오 코어 디코더를 이용하여) 오디오 신호의 프레임으로부터, 예컨대, 저대역 신호로부터 파형 데이터를 생성하도록 구성된 파형 처리 경로를 포함할 수 있다. 더욱이, 오디오 인코더는 오디오 신호의 프레임으로부터, 예컨대, 고대역 신호로부터 그리고 저대역 신호로부터 메타데이터를 생성하도록 구성된 메타데이터 처리 경로를 포함한다. 예로서, 오디오 인코더는 고효율(HE) AAC를 수행하도록 구성될 수 있고, 대응하는 오디오 디코더는 HE AAC에 따라 수신된 데이터 스트림을 디코딩하도록 구성될 수 있다.
파형 처리 경로 및/또는 메타데이터 처리 경로는 오디오 신호의 프레임에 대한 액세스 단위가 오디오 신호의 동일한 프레임에 대한 파형 데이터와 메타데이터를 포함하도록 파형 데이터와 메타데이터를 시간 정렬시키도록 구성된 적어도 하나의 지연 유닛을 포함할 수 있다. 적어도 하나의 지연 유닛은 파형 처리 경로의 전체 지연이 메타데이터 처리 경로의 전체 지연에 대응하도록 파형 데이터와 메타데이터를 시간 정렬시키도록 구성될 수 있다. 특히, 적어도 하나의 지연 유닛은, 파형 처리 경로의 전체 지연이 메타데이터 처리 경로의 전체 지연에 대응하도록, 파형 처리 경로에 추가 지연을 삽입하도록 구성된 파형 지연 유닛일 수 있다. 대안으로 또는 추가로, 적어도 하나의 지연 유닛은 파형 데이터로부터 그리고 메타데이터로부터 단일 액세스 단위를 생성하기 위해 적시에 오디오 인코더의 액세스 단위 생성 유닛에 파형 데이터와 메타데이터가 제공되도록 파형 데이터와 메타데이터를 시간 정렬시키도록 구성될 수 있다. 특히, 파형 데이터와 메타데이터는 파형 데이터 및/또는 메타데이터를 버퍼링하기 위한 버퍼의 필요 없이 단일 액세스 단위가 생성될 수 있도록 제공될 수 있다.
오디오 인코더는 오디오 신호의 프레임으로부터 복수의 부대역 신호를 생성하도록 구성된 분석 유닛을 포함할 수 있고, 여기서 복수의 부대역 신호는 저대역 신호를 나타내는 복수의 저대역 신호를 포함할 수 있다. 오디오 인코더는 압축 함수를 이용하여 복수의 저대역 신호를 압축하여, 복수의 압축된 저대역 신호를 제공하도록 구성된 압축 유닛을 포함할 수 있다. 파형 데이터는 복수의 압축된 저대역 신호를 나타낼 수 있고 메타데이터는 압축 유닛에 의해 이용되는 압축 함수를 나타낼 수 있다. 고대역 신호의 스펙트럼 포락선을 나타내는 메타데이터는 압축 함수를 나타내는 메타데이터와 동일한 오디오 신호의 부분에 적용 가능할 수 있다. 즉, 고대역 신호의 스펙트럼 포락선을 나타내는 메타데이터는 압축 함수를 나타내는 메타데이터와 동시 발생할 수 있다.
추가 양태에 따르면, 오디오 신호의 프레임들의 시퀀스 각각에 대한 액세스 단위들의 시퀀스를 포함하는 데이터 스트림이 설명된다. 액세스 단위들의 시퀀스로부터의 액세스 단위는 파형 데이터와 메타데이터를 포함한다. 파형 데이터와 메타데이터는 오디오 신호의 프레임들의 시퀀스의 동일한 특정 프레임과 관련될 수 있다. 파형 데이터와 메타데이터는 특정 프레임의 재구성된 프레임을 나타낼 수 있다. 일례로, 오디오 신호의 특정 프레임은 저대역 신호와 고대역 신호를 포함하고, 여기서 파형 데이터는 저대역 신호를 나타내고 메타데이터는 고대역 신호의 스펙트럼 포락선을 나타낸다. 메타데이터는 오디오 디코더가 HFR 스킴을 이용하여, 저대역 신호로부터 고대역 신호를 생성하는 것을 가능하게 할 수 있다. 대안으로 또는 추가로, 메타데이터는 저대역 신호에 적용되는 압축 함수를 나타낼 수 있다. 그러므로, 메타데이터는 오디오 디코더가 (압축 함수의 역을 이용하여) 수신된 저대역 신호의 다이내믹 레인지의 확장을 수행하는 것을 가능하게 할 수 있다.
추가 양태에 따르면, 수신된 데이터 스트림의 액세스 단위로부터 오디오 신호의 재구성된 프레임을 결정하는 방법이 설명된다. 액세스 단위는 파형 데이터와 메타데이터를 포함하고, 여기서 파형 데이터와 메타데이터는 오디오 신호의 동일한 재구성된 프레임과 관련된다. 일례로, 오디오 신호의 재구성된 프레임은 저대역 신호와 고대역 신호를 포함하고, 여기서 파형 데이터는 (예컨대, 저대역 신호를 묘사하는 주파수 계수들의) 저대역 신호를 나타내고 메타데이터는 (예컨대, 고대역 신호의 복수의 스케일 팩터 대역에 대한 스케일 팩터들의) 고대역 신호의 스펙트럼 포락선을 나타낸다. 이 방법은 파형 데이터로부터 복수의 파형 부대역 신호를 생성하고 메타데이터로부터 디코딩된 메타데이터를 생성하는 단계를 포함한다. 더욱이, 이 방법은 본 문서에 설명된 바와 같이, 복수의 파형 부대역 신호와 디코딩된 메타데이터를 시간 정렬시키는 단계를 포함한다. 추가로, 이 방법은 시간 정렬된 복수의 파형 부대역 신호와 디코딩된 메타데이터로부터 오디오 신호의 재구성된 프레임을 생성하는 단계를 포함한다.
다른 양태에 따르면, 오디오 신호의 프레임을 데이터 스트림의 액세스 단위로 인코딩하는 방법이 설명된다. 오디오 신호의 프레임은 액세스 단위가 파형 데이터와 메타데이터를 포함하도록 인코딩된다. 파형 데이터와 메타데이터는 오디오 신호의 프레임의 재구성된 프레임을 나타낸다. 일례로, 오디오 신호의 프레임은 저대역 신호와 고대역 신호를 포함하고, 프레임은 파형 데이터가 저대역 신호를 나타내도록 그리고 메타데이터가 고대역 신호의 스펙트럼 포락선을 나타내도록 인코딩된다. 이 방법은 오디오 신호의 프레임으로부터, 예컨대, 저대역 신호로부터 파형 데이터를 생성하고 오디오 신호의 프레임으로부터, 예컨대, 고대역 신호로부터 그리고 저대역 신호로부터 (예컨대, HFR 스킴에 따라) 메타데이터를 생성하는 단계를 포함한다. 추가로, 이 방법은 오디오 신호의 프레임에 대한 액세스 단위가 오디오 신호의 동일한 프레임에 대한 파형 데이터 및 메타데이터를 포함하도록 파형 데이터와 메타데이터를 시간 정렬시키는 단계를 포함한다.
추가 양태에 따르면, 소프트웨어 프로그램이 설명된다. 소프트웨어 프로그램은 프로세서에서의 실행을 위해 그리고 프로세서에서 수행될 때 본 문서에 기술된 방법 단계들을 수행하기 위해 적응될 수 있다.
다른 양태에 따르면, 저장 매체(예컨대, 비일시적 저장 매체)가 설명된다. 이 저장 매체는 프로세서에서의 실행을 위해 그리고 프로세서에서 수행될 때 본 문서에 기술된 방법 단계들을 수행하기 위해 적응된 소프트웨어 프로그램을 포함할 수 있다.
추가 양태에 따르면, 컴퓨터 프로그램 제품이 설명된다. 이 컴퓨터 프로그램은 컴퓨터에서 실행될 때 본 문서에 기술된 방법 단계들을 수행하기 위한 실행 가능 명령어들을 포함할 수 있다.
본 특허 출원에 기술된 그의 바람직한 실시예들을 포함하는 방법들 및 시스템들은 독립형으로 또는 이 문서에 개시된 다른 방법들 및 시스템들과 결합하여 이용될 수 있다는 점에 유의해야 한다. 더욱이, 본 특허 출원에 기술된 방법들 및 시스템들의 모든 양태들은 임의로 조합될 수 있다. 특히, 청구항들의 특징들은 임의의 방식으로 서로 조합될 수 있다.
본 발명은 첨부 도면들을 참조하여 예시적인 방식으로 아래에 설명된다.
도 1은 예시의 오디오 디코더의 블록도를 보여준다;
도 2a는 다른 예시의 오디오 디코더의 블록도를 보여준다;
도 2b는 예시의 오디오 인코더의 블록도를 보여준다;
도 3a는 오디오 확장을 수행하도록 구성되는 예시의 오디오 디코더의 블록도를 보여준다;
도 3b는 오디오 압축을 수행하도록 구성되는 예시의 오디오 인코더의 블록도를 보여준다;
도 4는 오디오 신호의 프레임들의 시퀀스의 예시의 프레이밍을 보여준다.
전술한 바와 같이, 본 문서는 메타데이터 정렬에 관한 것이다. 하기에서는 MPEG HE(고효율) AAC(고급 오디오 코딩) 스킴의 맥락에서 메타데이터의 정렬이 기술된다. 그러나, 본 문서에서 설명되는 메타데이터 정렬의 원리들은 다른 오디오 인코딩/디코딩 시스템들에도 적용될 수 있다는 점에 유의해야 한다. 특히, 본 문서에서 설명되는 메타데이터 정렬 스킴들은, HFR(고주파 재구성) 및/또는 SBR(스펙트럼 대역폭 복제)을 이용하고 HFR/SBR 메타데이터를 오디오 인코더로부터 대응하는 오디오 디코더로 송신하는 오디오 인코딩/디코딩 시스템들에 적용될 수 있다. 더욱이, 본 문서에서 설명되는 메타데이터 정렬 스킴들은 부대역(특히 QMF) 영역에서의 응용들을 이용하는 오디오 인코딩/디코딩 시스템들에 적용될 수 있다. 그러한 응용의 한 예는 SBR이다. 다른 예들은 A-결합, 후처리 등이다. 하기에서는, SBR 메타데이터의 정렬의 맥락에서 메타데이터 정렬 스킴들이 설명된다. 그러나, 이 메타데이터 정렬 스킴들은 다른 유형의 메타데이터, 특히 부대역 영역 내의 다른 유형의 메타데이터에도 적용될 수 있다는 점에 유의해야 한다.
MPEG HE-AAC 데이터 스트림은 (A-SPX 메타데이터라고도 부르는) SBR 메타데이터를 포함한다. (데이터 스트림의 AU(액세스 단위)라고도 부르는) 데이터 스트림의 특정한 인코딩된 프레임에서의 SBR 메타데이터는 전형적으로 과거의 파형(W) 데이터와 관련된다. 즉, 데이터 스트림의 AU 안에 포함되는 SBR 메타데이터와 파형 데이터는 전형적으로 원본 오디오 신호의 동일한 프레임에 대응하지 않는다. 이것은 파형 데이터의 디코딩 후에, 파형 데이터가 신호 지연을 도입하는 여러 처리 단계들(예를 들어 IMDCT(inverse Modified Discrete Cosine Transform) 및 QMF(Quadrature Mirror Filter) 분석)에 제시된다는 사실에 기인한다. 파형 데이터에 SBR 메타데이터가 적용되는 지점에서, SBR 메타데이터는 처리된 파형 데이터와 동시 발생한다. 따라서, 오디오 디코더에서의 SBR 처리를 위해 SBR 메타데이터가 요구될 때, SBR 메타데이터가 오디오 디코더에 도달하도록, SBR 메타데이터와 파형 데이터는 MPEG HE-AAC 데이터 스트림에 삽입된다. 이러한 형태의 메타데이터 전달을 "적시(Just-In-Time)"(JIT) 메타데이터 전달이라고 할 수 있는데, 그 이유는 SBR 메타데이터가 오디오 디코더의 처리 체인 또는 신호 내에 직접 적용될 수 있도록 SBR 메타데이터가 데이터 스트림에 삽입되기 때문이다.
JIT 메타데이터 전달은 전체 코딩 지연을 줄이기 위하여 그리고 오디오 디코더에서의 메모리 요건들을 줄이기 위하여, 종래의 인코드-송신-디코드 처리 체인에 유익할 수 있다. 그러나, 송신 경로를 따르는 데이터 스트림의 접합은 파형 데이터와 대응하는 SBR 메타데이터 사이의 불일치로 이어질 수 있다. 이러한 불일치는 접합 지점에서 가청 아티팩트들(audible artifacts)로 이어질 수 있는데, 그 이유는 오디오 디코더에서의 스펙트럼 대역 복제를 위해 잘못된 SBR 메타데이터가 이용되기 때문이다.
상기 내용을 고려하여, 데이터 스트림들의 접합을 가능하게 하면서, 이와 동시에 낮은 전체 코딩 지연을 유지하는 오디오 인코딩/디코딩 시스템을 제공하는 것이 바람직하다.
도 1은 위에 언급한 기술적 문제를 다루는 예시의 오디오 디코더(100)의 블록도를 보여준다. 특히, 도 1의 오디오 디코더(100)는 오디오 신호의 특정 세그먼트(예컨대, 프레임)의 파형 데이터(111)를 포함하는 그리고 오디오 신호의 특정 세그먼트의 대응하는 메타데이터(112)를 포함하는 AU들(110)을 가진 데이터 스트림들의 디코딩을 가능하게 한다. 시간 정렬된 파형 데이터(111) 및 대응하는 메타데이터(112)를 가진 AU들(110)을 포함하는 데이터 스트림들을 디코딩하는 오디오 디코더들(100)을 제공하는 것에 의해, 데이터 스트림의 일치하는 접합이 가능하게 된다. 특히, 파형 데이터(111)와 메타데이터(112)의 대응하는 쌍들이 유지되는 방식으로 데이터 스트림이 접합될 수 있는 것이 보장된다.
오디오 디코더(100)는 파형 데이터(111)의 처리 체인 내에 지연 유닛(105)을 포함한다. 지연 유닛(105)은 오디오 디코더(100) 내에서 MDCT 합성 유닛(102)의 후에 또는 하류측에 그리고 QMF 합성 유닛(107)의 전에 또는 상류측에 배치될 수 있다. 특히, 지연 유닛(105)은 디코딩된 메타데이터(128)를 처리된 파형 데이터에 적용하도록 구성되는 메타데이터 적용 유닛(106)(예컨대, SBR 유닛(106))의 전에 또는 상류측에 배치될 수 있다. (파형 지연 유닛(105)이라고도 부르는) 지연 유닛(105)은 (파형 지연이라고 부르는) 지연을 처리된 파형 데이터에 적용하도록 구성된다. 파형 지연은 바람직하게는 파형 처리 체인 또는 파형 처리 경로(예컨대, MDCT 합성 유닛(102)으로부터 메타데이터 적용 유닛(106)에서의 메타데이터의 적용까지)의 전체 처리 지연이 합하여 정확히 하나의 프레임이(또는 그것의 정수 배수가) 되도록 선택된다. 그렇게 함으로써, 파라미터 제어 데이터가 하나의 프레임(또는 그의 배수)만큼 지연될 수 있고 AU(110) 내의 정렬이 달성된다.
도 1은 예시의 오디오 디코더(100)의 구성요소들을 보여준다. AU(110)로부터 취해진 파형 데이터(111)는 파형 디코딩 및 역양자화 유닛(101) 내에서 디코딩되고 역양자화되어 (주파수 영역에서) 복수의 주파수 계수(121)를 제공한다. 이 복수의 주파수 계수(121)는 저대역 합성 유닛(102)(예컨대, MDCT 합성 유닛) 내에서 적용된 주파수 영역에서 시간 영역으로의 변환(예컨대, 역 MDCT(Modified Discrete Cosine Transform))을 이용하여 (시간 영역) 저대역 신호(122)로 합성된다. 그 후, 저대역 신호(122)는 분석 유닛(103)을 이용하여 복수의 저대역 부대역 신호(123)로 변환된다. 분석 유닛(103)은 저대역 신호(122)에 QMF(quadrature mirror filter) 뱅크를 적용하여 복수의 저대역 부대역 신호(123)를 제공하도록 구성될 수 있다. 메타데이터(112)는 전형적으로 복수의 저대역 부대역 신호(123)에(또는 그것의 전치된 버전들에) 적용된다.
AU(110)로부터의 메타데이터(112)는 메타데이터 디코딩 및 역양자화 유닛(108) 내에서 디코딩되고 역양자화되어 디코딩된 메타데이터(128)를 제공한다. 더욱이, 오디오 디코더(100)는 (메타데이터 지연이라고 부르는) 지연을 디코딩된 메타데이터(128)에 적용하도록 구성되는 (메타데이터 지연 유닛(109)이라고 부르는) 추가 지연 유닛(109)을 포함할 수 있다. 메타데이터 지연은 프레임 길이 N의 정수 배수에 대응할 수 있다(예컨대, D1 = N이고, 여기서 D1은 메타데이터 지연이다). 따라서, 메타데이터 처리 체인의 전체 지연은 D1에 대응한다(예컨대, D1 = N).
처리된 파형 데이터(즉, 지연된 복수의 저대역 부대역 신호(123))와 처리된 메타데이터(즉, 지연된 디코딩된 메타데이터(128))가 메타데이터 적용 유닛(106)에 동시에 도착하는 것을 보장하기 위하여, 파형 처리 체인(또는 경로)의 전체 지연은 메타데이터 처리 체인(또는 경로)의 전체 지연에(즉, D1에) 대응해야 한다. 파형 처리 체인 내에서, 저대역 합성 유닛(102)은 전형적으로 N/2의(즉, 프레임 길이의 절반의) 지연을 삽입한다. 분석 유닛(103)은 전형적으로 (예컨대, 320개 샘플의) 고정된 지연을 삽입한다. 더욱이, 예견(즉, 메타데이터와 파형 데이터 사이의 고정된 오프셋)이 고려될 필요가 있을 수 있다. MPEG HE-AAC의 경우에 SBR 예견은 (예견 유닛(104)에 의해 표현되는) 384개 샘플에 대응할 수 있다. 예견 유닛(104)(예견 지연 유닛(104)이라고도 부를 수 있음)은 고정된 SBR 예견 지연만큼 파형 데이터(111)를 지연(예컨대, 복수의 저대역 부대역 신호(123)를 지연)시키도록 구성될 수 있다. 예견 지연은 대응하는 오디오 인코더가 오디오 신호의 후속 프레임에 기초하여 SBR 메타데이터를 결정하는 것을 가능하게 한다.
파형 처리 체인의 전체 지연에 대응하는 메타데이터 처리 체인의 전체 지연을 제공하기 위하여, 파형 지연 D2는 다음과 같이 되는 것이어야 한다:
D1 = 320 + 384 + D2 + N/2,
즉, D2 = N/2 - 320 - 384(D1 = N의 경우)
표 1은 복수의 상이한 프레임 길이 N에 대한 파형 지연들 D2를 보여준다. HE-AAC의 상이한 프레임 길이들 N에 대한 최대 파형 지연 D2는 2177개 샘플의 전체 최대 디코더 대기 시간과 함께 928개 샘플이라는 것을 알 수 있다. 즉, 단일 AU(110) 내의 파형 데이터(111) 및 대응하는 메타데이터(112)의 정렬은 최대 928개 샘플의 추가 PCM 지연을 야기한다. 프레임 사이즈 N=1920/1536의 블록에 대해, 메타데이터는 1개 프레임만큼 지연되고, 프레임 사이즈 N=960/768/512/384에 대해 메타데이터는 2개 프레임만큼 지연된다. 이것은 오디오 디코더(100)에서의 플레이 아웃 지연은 블록 사이즈 N에 따라 증가되고, 전체 코딩 지연은 1개 또는 2개 전체 프레임만큼 증가된다는 것을 의미한다. 대응하는 오디오 인코더에서의 최대 PCM 지연은 1664개 샘플이다(오디오 디코더(100)의 고유 대기 시간에 대응함).
Figure 112021132230480-pat00001
따라서, 본 문서에서는 대응하는 파형 데이터(111)와 함께 단일 AU(110)로 정렬되는 신호 정렬된 메타데이터(signal-aligned-metadata)(112)(SAM)를 이용하는 것에 의해, JIT 메타데이터의 문제점을 해결하는 것이 제안된다. 특히, 모든 인코딩된 프레임(또는 AU)이 나중 처리 단계에서, 예컨대, 메타데이터가 기본적인 파형 데이터에 적용되는 처리 단계에서 이용되는 (예컨대, A-SPX) 메타데이터를 반송하도록 오디오 디코더(100)에 그리고/또는 대응하는 오디오 인코더에 하나 이상의 추가 지연 유닛을 도입하는 것이 제안된다.
원칙적으로, 프레임 길이 N의 분수에 대응하는 메타데이터 지연 D1을 적용하는 것이 고려될 수 있다는 점에 유의해야 한다. 이렇게 함으로써, 전체 코딩 지연은 가능한 대로 감소될 수 있다. 그러나, 예컨대, 도 1에 도시된 바와 같이, 메타데이터 지연 D1은 QMF 영역에서(즉, 부대역 영역에서) 적용된다. 이를 고려하여 그리고 메타데이터(112)는 전형적으로 프레임마다 한 번만 정의된다는 사실을 고려하여, 즉, 메타데이터(112)는 전형적으로 프레임마다 하나의 전용 파라미터 세트를 포함한다는 사실을 고려하여, 프레임 길이 N의 분수에 대응하는 메타데이터 지연 D1의 삽입은 파형 데이터(111)에 관한 동기화 문제들로 이어질 수 있다. 다른 한편으로는, 파형 지연 D2가 (도 1에 도시된 바와 같이) 시간 영역에서 적용되고, 여기서 프레임의 분수에 대응하는 지연들이 정확한 방식으로 구현될 수 있다(예컨대, 파형 지연 D2에 대응하는 샘플들의 수만큼 시간 영역 신호를 지연시키는 것에 의해). 그러므로, 메타데이터(112)를 프레임의 정수 배수만큼 지연시키고(여기서 프레임은 메타데이터(112)가 정의되는 최저 시간 해상도에 대응한다) 파형 데이터(111)를 임의의 값들을 나타낼 수 있는 파형 지연 D2만큼 지연시키는 것이 유익하다. 프레임 길이 N의 정수 배수에 대응하는 메타데이터 지연 D1이 부대역 영역에서 정확한 방식으로 구현될 수 있고, 샘플의 임의의 배수에 대응하는 파형 지연 D2가 시간 영역에서 정확한 방식으로 구현될 수 있다. 그 결과, 메타데이터 지연 D1과 파형 지연 D2의 조합은 메타데이터(112)와 파형 데이터(111)의 정확한 동기화를 가능하게 한다.
프레임 길이 N의 분수에 대응하는 메타데이터 지연 D1의 적용은 메타데이터 지연 D1에 따라 메타데이터(112)를 다시 샘플링하는 것에 의해 구현될 수 있다. 그러나, 메타데이터(112)를 다시 샘플링하는 것은 전형적으로 상당한 계산 비용을 수반한다. 더욱이, 메타데이터(112)를 다시 샘플링하는 것은 메타데이터(112)의 왜곡으로 이어질 수 있어, 오디오 신호의 재구성된 프레임의 품질에 영향을 미칠 수 있다. 이를 고려하여, 계산 효율을 고려하여 그리고 오디오 품질을 고려하여, 메타데이터 지연 D1을 프레임 길이 N의 정수 배수들로 제한하는 것이 유익하다.
도 1은 또한 지연된 메타데이터(128)와 지연된 복수의 저대역 부대역 신호(123)의 추가 처리를 보여준다. 메타데이터 적용 유닛(106)은 복수의 저대역 부대역 신호(123)에 기초하여 그리고 메타데이터(128)에 기초하여 복수의 (예컨대, 스케일링된) 고대역 부대역 신호(126)를 생성하도록 구성된다. 이를 위해, 메타데이터 적용 유닛(106)은 복수의 저대역 부대역 신호(123) 중 하나 이상을 전치하여 복수의 고대역 부대역 신호를 생성하도록 구성될 수 있다. 전치는 복수의 저대역 부대역 신호(123) 중 하나 이상의 카피업(copy-up) 프로세스를 포함할 수 있다. 더욱이, 메타데이터 적용 유닛(106)은 복수의 고대역 부대역 신호에 메타데이터(128)(예컨대, 메타데이터(128) 안에 포함되는 스케일 팩터들)를 적용하여 복수의 스케일링된 고대역 부대역 신호(126)를 생성하도록 구성될 수 있다. 복수의 스케일링된 고대역 부대역 신호(126)는 전형적으로 스케일 팩터들을 이용하여 스케일링되고, 따라서 복수의 스케일링된 고대역 부대역 신호(126)의 스펙트럼 포락선은 (복수의 저대역 부대역 신호(123)에 기초하여 그리고 복수의 스케일링된 고대역 부대역 신호(126)로부터 생성되는 오디오 신호(127)의 재구성된 프레임에 대응하는) 오디오 신호의 원본 프레임의 고대역 신호의 스펙트럼 포락선을 모방한다.
더욱이, 오디오 디코더(100)는 복수의 저대역 부대역 신호(123)로부터 그리고 복수의 스케일링된 고대역 부대역 신호(126)로부터 (예컨대, 역 QMF 뱅크를 이용하여) 오디오 신호(127)의 재구성된 프레임을 생성하도록 구성된 합성 유닛(107)을 포함한다.
도 2a는 다른 예시의 오디오 디코더(100)의 블록도를 보여준다. 도 2a의 오디오 디코더(100)는 도 1의 오디오 디코더(100)와 동일한 구성요소들을 포함한다. 더욱이, 다중-채널 오디오 처리를 위한 예시의 구성요소들(210)이 예시되어 있다. 도 2a의 예에서, 파형 지연 유닛(105)은 역 MDCT 유닛(102)의 바로 뒤에 위치한다는 것을 알 수 있다. 오디오 신호(127)의 재구성된 프레임의 결정은 다중-채널 오디오 신호의(예컨대, 5.1 또는 7.1 다중-채널 오디오 신호의) 각 채널마다 수행될 수 있다.
도 2b는 도 2a의 오디오 디코더(100)에 대응하는 예시의 오디오 인코더(250)의 블록도를 보여준다. 오디오 인코더(250)는 대응하는 파형 데이터(111)와 메타데이터(112)의 쌍들을 반송하는 AU들(110)을 포함하는 데이터 스트림을 생성하도록 구성된다. 오디오 인코더(250)는 메타데이터를 결정하기 위한 메타데이터 처리 체인(256, 257, 258, 259, 260)을 포함한다. 메타데이터 처리 체인은 메타데이터를 대응하는 파형 데이터와 정렬시키기 위한 메타데이터 지연 유닛(256)을 포함할 수 있다. 예시된 예에서, 오디오 인코더(250)의 메타데이터 지연 유닛(256)은 어떤 추가 지연도 도입하지 않는다(메타데이터 처리 체인에 의해 도입되는 지연은 파형 처리 체인에 의해 도입되는 지연보다 크기 때문에).
더욱이, 오디오 인코더(250)는 오디오 인코더(250)의 입력에서의 원본 오디오 신호로부터 파형 데이터를 결정하도록 구성된 파형 처리 체인(251, 252, 253, 254, 255)을 포함한다. 파형 처리 체인은 파형 데이터를 대응하는 메타데이터와 정렬시키기 위해, 파형 처리 체인에 추가 지연을 도입하도록 구성된 파형 지연 유닛(252)을 포함한다. 파형 지연 유닛(252)에 의해 도입되는 지연은 (파형 지연 유닛(252)에 의해 삽입된 파형 지연을 포함한) 메타데이터 처리 체인의 전체 지연이 파형 처리 체인의 전체 지연에 대응하도록 하는 것일 수 있다. 프레임 길이 N=2048의 경우, 파형 지연 유닛(252)의 지연은 2048-320=1728개 샘플일 수 있다.
도 3a는 신장 유닛(301)을 포함하는 오디오 디코더(300)의 발췌 부분을 보여준다. 도 3a의 오디오 디코더(300)는 도 1 및/또는 도 2a의 오디오 디코더(100)에 대응할 수 있고 액세스 단위(110)의 디코딩된 메타데이터(128)로부터 얻어진 하나 이상의 신장 파라미터(310)를 이용하여, 복수의 저대역 신호(123)로부터 복수의 신장된 저대역 신호를 결정하도록 구성되는 신장 유닛(301)을 더 포함한다. 전형적으로, 하나 이상의 신장 파라미터(310)는 액세스 단위(110) 안에 포함되는 SBR(예컨대, A-SPX) 메타데이터와 결합된다. 즉, 하나 이상의 신장 파라미터(310)는 전형적으로 SBR 메타데이터와 동일한 오디오 신호의 발췌 또는 부분에 적용될 수 있다.
전술한 바와 같이, 액세스 단위(110)의 메타데이터(112)는 전형적으로 오디오 신호의 프레임의 파형 데이터(111)와 관련되고, 여기서 프레임은 미리 결정된 수 N개의 샘플을 포함한다. SBR 메타데이터는 전형적으로 (복수의 파형 부대역 신호라고도 부르는) 복수의 저대역 신호에 기초하여 결정되며, 여기서 복수의 저대역 신호는 QMF 분석을 이용하여 결정될 수 있다. QMF 분석은 오디오 신호의 프레임의 시간 주파수 표현을 산출한다. 특히, 오디오 신호의 프레임의 N개 샘플은, 각각이 N/Q개 타임 슬롯 또는 슬롯을 포함하는, Q(예컨대 Q=64)개 저대역 신호로 표현될 수 있다. N=2048개 샘플을 갖는 프레임에 대해 그리고 Q=64에 대해, 각각의 저대역 신호는 N/Q=32개 슬롯을 포함한다.
특정 프레임 내의 과도 신호의 경우에, 바로 후속하는 프레임의 샘플들에 기초하여 SBR 메타데이터를 결정하는 것이 유익할 수 있다. 이 특징을 SBR 예견이라고 부른다. 특히, SBR 메타데이터는 후속 프레임으로부터의 미리 결정된 수의 슬롯에 기초하여 결정될 수 있다. 예로서, 후속 프레임의 6개까지의 슬롯이 고려될 수 있다(즉, Q*6=384개 샘플).
SBR 또는 HFR 스킴에 대한 상이한 프레이밍들(400, 430)을 이용하여, 오디오 신호의 프레임들(401, 402, 403)의 시퀀스를 보여주는 도 4에 SBR 예견의 사용이 예시되어 있다. 프레이밍(400)의 경우에, SBR/HFR 스킴은 SBR 예견에 의해 제공된 유연성을 이용하지 않는다. 그럼에도 불구하고, SBR 예견의 이용을 가능하게 하기 위해 고정된 오프셋, 즉, 고정된 SBR 예견 지연(480)이 이용된다. 예시된 예에서, 고정된 오프셋은 6개 타임 슬롯에 대응한다. 이 고정된 오프셋(480)의 결과로서, 특정 프레임(402)의 특정 액세스 단위(110)의 메타데이터(112)는 특정 액세스 단위(110)에 선행하는(그리고 바로 선행하는 프레임(401)과 관련되는) 액세스 단위(110) 안에 포함되는 파형 데이터(111)의 타임 슬롯들에 부분적으로 적용될 수 있다. 이것은 SBR 메타데이터(411, 412, 413)와 프레임들(401, 402, 403) 사이의 오프셋에 의해 예시되어 있다. 그러므로, 액세스 단위(110) 안에 포함되는 SBR 메타데이터(411, 412, 413)는 SBR 예견 지연(480)만큼 오프셋되어 있는 파형 데이터(111)에 적용 가능할 수 있다. SBR 메타데이터(411, 412, 413)는 파형 데이터(111)에 적용되어 재구성된 프레임들(421, 422, 423)을 제공한다.
프레이밍(430)은 SBR 예견을 이용한다. 예컨대, 프레임(401) 내의 과도 신호의 발생 때문에, SBR 메타데이터(431)는 파형 데이터(111)의 32개 초과의 타임 슬롯에 적용될 수 있다는 것을 알 수 있다. 다른 한편으로는, 후속 SBR 메타데이터(432)는 파형 데이터(111)의 32개 미만의 타임 슬롯에 적용될 수 있다. SBR 메타데이터(433)는 다시 32개 타임 슬롯에 적용될 수 있다. 그러므로, SBR 예견은 SBR 메타데이터의 시간 해상도에 관하여 유연성을 가능하게 한다. SBR 예견의 이용에도 불구하고 그리고 SBR 메타데이터(431, 432, 433)의 적용 가능성에도 불구하고, 재구성된 프레임들(421, 422, 423)은 프레임들(401, 402, 403)에 관하여 고정된 오프셋(480)을 이용하여 생성된다는 점에 유의해야 한다.
오디오 인코더는 오디오 신호의 동일한 발췌 또는 부분을 이용하여 SBR 메타데이터 및 하나 이상의 신장 파라미터를 결정하도록 구성될 수 있다. 그러므로, SBR 메타데이터가 SBR 예견을 이용하여 결정되면, 하나 이상의 신장 파라미터가 결정될 수 있고 동일한 SBR 예견에 대해 적용 가능할 수 있다. 특히, 하나 이상의 신장 파라미터는 대응하는 SBR 메타데이터(431, 432, 433)와 동일한 수의 타임 슬롯에 대해 적용 가능할 수 있다.
신장 유닛(301)은 복수의 저대역 신호(123)에 하나 이상의 신장 이득을 적용하도록 구성될 수 있고, 여기서 하나 이상의 신장 이득은 전형적으로 하나 이상의 신장 파라미터(310)에 의존한다. 특히, 하나 이상의 신장 파라미터(310)는 하나 이상의 신장 이득을 결정하는 데 이용되는 하나 이상의 압축/신장 규칙에 영향을 미칠 수 있다. 즉, 하나 이상의 신장 파라미터(310)는 대응하는 오디오 인코더의 압축 유닛에 의해 이용된 압축 함수를 나타낼 수 있다. 하나 이상의 신장 파라미터(310)는 오디오 디코더가 이 압축 함수의 역을 결정하는 것을 가능하게 할 수 있다.
하나 이상의 신장 파라미터(310)는 대응하는 오디오 인코더가 복수의 저대역 신호를 압축했는지 여부를 나타내는 제1 신장 파라미터를 포함할 수 있다. 어떤 압축도 적용되지 않았다면, 오디오 디코더에 의해 어떤 확장도 적용되지 않을 것이다. 따라서, 제1 신장 파라미터는 압신 특징을 온 또는 오프 시키는 데 이용될 수 있다.
대안으로 또는 추가로, 하나 이상의 신장 파라미터(310)는 동일한 하나 이상의 확장 이득이 다중-채널 오디오 신호의 모든 채널들에 적용되어야 하는지 여부를 나타내는 제2 신장 파라미터를 포함할 수 있다. 따라서, 제2 신장 파라미터는 압신 특징의 채널마다의 또는 다중-채널마다의 적용 사이에 스위칭할 수 있다.
대안으로 또는 추가로, 하나 이상의 신장 파라미터(310)는 프레임의 모든 타임 슬롯에 대해 동일한 하나 이상의 신장 이득을 적용할지 여부를 나타내는 제3 신장 파라미터를 포함할 수 있다. 따라서, 제3 신장 파라미터는 압신 특징의 시간 해상도를 제어하는 데 이용될 수 있다.
하나 이상의 신장 파라미터(310)를 이용하여, 신장 유닛(301)은 대응하는 오디오 인코더에서 적용된 압축 함수의 역을 적용하는 것에 의해, 복수의 신장된 저대역 신호를 결정할 수 있다. 대응하는 오디오 인코더에서 적용된 압축 함수는 하나 이상의 신장 파라미터(310)를 이용하여 오디오 디코더(300)에 시그널링된다.
신장 유닛(301)은 예견 지연 유닛(104)의 하류측에 위치할 수 있다. 이는 하나 이상의 신장 파라미터(310)가 복수의 저대역 신호(123)의 올바른 부분에 적용되는 것을 보장한다. 특히, 이는 하나 이상의 신장 파라미터(310)가 (SBR 적용 유닛(106) 내에서) SBR 파라미터들과 동일한 복수의 저대역 신호(123)의 부분에 적용되는 것을 보장한다. 따라서, 신장은 SBR 스킴과 동일한 시간 프레이밍(400, 430)에서 동작하는 것이 보장된다. SBR 예견 때문에, 프레이밍(400, 430)은 가변적인 수의 타임 슬롯을 포함할 수 있고, 결과로, 신장은 (도 4의 맥락에서 기술한 바와 같이) 가변적인 수의 타임 슬롯에서 동작할 수 있다. 신장 유닛(301)을 예견 지연 유닛(104)의 하류측에 배치하는 것에 의해, 올바른 프레이밍(400, 430)이 하나 이상의 신장 파라미터에 적용되는 것이 보장된다. 이 결과로서, 접합 지점 이후에도, 고품질 오디오 신호가 보장될 수 있다.
도 3b는 압축 유닛(351)을 포함하는 오디오 인코더(350)의 발췌 부분을 보여준다. 오디오 인코더(350)는 도 2b의 오디오 인코더(250)의 구성요소들을 포함할 수 있다. 압축 유닛(351)은 압축 함수를 이용하여, 복수의 저대역 신호를 압축하도록(예컨대, 그것의 다이내믹 레인지를 감소시키도록) 구성될 수 있다. 더욱이, 압축 유닛(351)은 압축 유닛(351)에 의해 이용된 압축 함수를 나타내는 하나 이상의 신장 파라미터(310)를 결정하여, 오디오 디코더(300)의 대응하는 신장 유닛(301)이 압축 함수의 역을 적용하는 것을 가능하게 하도록 구성될 수 있다.
복수의 저대역 신호의 압축은 SBR 예견(258)의 하류측에서 수행될 수 있다. 더욱이, 오디오 인코더(350)는 하나 이상의 신장 파라미터(310)와 동일한 오디오 신호의 부분에 대해 SBR 메타데이터가 결정되는 것을 보장하도록 구성되는 SBR 프레이밍 유닛(353)을 포함할 수 있다. 즉, SBR 프레이밍 유닛(353)은 SBR 스킴이 압신 스킴과 동일한 프레이밍(400, 430)에서 동작하는 것을 보장할 수 있다. SBR 스킴이 (예컨대, 과도 신호들의 경우에) 연장된 프레임들에서 동작할 수 있다는 사실을 고려하여, 압신 스킴도 (추가 타임 슬롯들을 포함하는) 연장된 프레임들에서 동작할 수 있다.
본 문서에서는, 오디오 신호를 오디오 신호의 세그먼트들의 시퀀스와 관련된 메타데이터와 파형 데이터를 각각 포함하는 시간 정렬된 AU들의 시퀀스로 인코딩하는 것을 가능하게 하는 오디오 인코더 및 대응하는 오디오 디코더가 설명되었다. 시간 정렬된 AU들의 이용은 접합 지점들에서 감소된 아티팩트들로 데이터 스트림들의 접합을 가능하게 한다. 더욱이, 오디오 인코더 및 오디오 디코더는 접합 가능 데이터 스트림들이 계산 효율적인 방식으로 처리되도록 그리고 전체 코딩 지연이 낮게 유지되도록 설계된다.
본 문서에서 설명된 방법들 및 시스템들은 소프트웨어, 펌웨어 및/또는 하드웨어로 구현될 수 있다. 어떤 구성요소들은, 예컨대, 디지털 신호 프로세서 또는 마이크로프로세서에서 실행되는 소프트웨어로 구현될 수 있다. 다른 구성요소들은, 예컨대, 하드웨어로 그리고/또는 특수 용도의 집적 회로로 구현될 수 있다. 설명된 방법들 및 시스템들에서 접하는 신호들은 랜덤 액세스 메모리 또는 광 저장 매체와 같은 매체에 저장될 수 있다. 그것들은 라디오 네트워크, 위성 네트워크, 무선 네트워크 또는 유선 네트워크, 예컨대, 인터넷과 같은 네트워크들을 통해 전송될 수 있다. 본 문서에서 설명된 방법들 및 시스템들을 이용하는 전형적인 디바이스들은 오디오 신호들을 저장 및/또는 렌더링하는 데 이용되는 휴대용 전자 디바이스들 또는 다른 소비자 장비이다.

Claims (9)

  1. 오디오 신호를 디코딩하기 위한 오디오 디코더 장치로서,
    파형 처리 경로를 처리하기 위한 프로세서 - 상기 프로세서는 상기 오디오 신호의 액세스 유닛으로부터 획득된 파형 데이터로부터 적어도 하나의 파형 신호를 생성하도록 구성되고, 상기 액세스 유닛은 상기 파형 데이터 및 메타데이터를 포함하고, 상기 파형 데이터 및 상기 메타데이터는 상기 오디오 신호의 동일한 재구성된 프레임과 관련됨 -;
    상기 액세스 유닛으로부터 획득된 상기 메타데이터로부터, 디코딩된 메타데이터를 생성하도록 구성되는 메타데이터 처리 경로를 처리하기 위한 메타데이터 프로세서 - 상기 메타데이터 처리 경로는 상기 디코딩된 메타데이터를 지연만큼 지연시키도록 구성되는 메타데이터 지연 유닛을 포함하고, 상기 지연은 0보다 큰 값을 갖고, 상기 지연의 값은 제1 정수이고, 상기 제1 정수에 제2 정수를 곱한 값은 프레임 길이와 동일함 -; 및
    상기 적어도 하나의 파형 신호로부터 그리고 상기 디코딩된 메타데이터로부터 상기 오디오 신호의 재구성된 프레임을 생성하도록 구성되는 메타데이터 적용 및 합성 유닛
    을 포함하고, 상기 파형 처리 경로 또는 상기 메타데이터 처리 경로 중 적어도 하나는 상기 적어도 하나의 파형 신호와 상기 디코딩된 메타데이터를 시간 정렬시키도록 구성되는 적어도 하나의 지연 유닛을 포함하는,
    오디오 신호를 디코딩하기 위한 오디오 디코더 장치.
  2. 삭제
  3. 제1항에 있어서, 상기 프레임 길이는 1536 또는 1920인, 오디오 신호를 디코딩하기 위한 오디오 디코더 장치.
  4. 제1항에 있어서, 상기 파형 처리 경로의 전체 지연이 메타데이터 처리 경로의 전체 지연에 대응하도록, 상기 적어도 하나의 파형 신호와 상기 디코딩된 메타데이터가 시간 정렬되는, 오디오 신호를 디코딩하기 위한 오디오 디코더 장치.
  5. 디코더의 하나 이상의 프로세서들에 의해 수행되는 오디오 신호를 디코딩하는 방법으로서,
    파형 처리 경로를 이용하여, 상기 오디오 신호의 액세스 유닛으로부터 획득된 파형 데이터로부터 적어도 하나의 파형 신호를 생성하는 단계 - 상기 액세스 유닛은 상기 파형 데이터 및 메타데이터를 포함하고, 상기 파형 데이터 및 상기 메타데이터는 상기 오디오 신호의 동일한 재구성된 프레임과 관련됨 - ;
    메타데이터 처리 경로를 이용하여, 상기 액세스 유닛으로부터 획득된 상기 메타데이터로부터 디코딩된 데이터를 생성하는 단계 - 상기 메타데이터 처리 경로는 상기 디코딩된 메타데이터를 지연만큼 지연시키도록 구성되는 메타데이터 지연 유닛을 포함하고, 상기 지연은 0보다 큰 값을 갖고, 상기 지연의 값은 제1 정수이고, 상기 제1 정수에 제2 정수를 곱한 값은 프레임 길이와 동일함 -; 및
    메타데이터 적용 및 합성 유닛을 이용하여, 상기 적어도 하나의 파형 신호로부터 그리고 상기 디코딩된 메타데이터로부터 상기 오디오 신호의 재구성된 프레임을 생성하는 단계
    를 포함하고, 상기 파형 처리 경로 또는 상기 메타데이터 처리 경로 중 적어도 하나는 상기 적어도 하나의 파형 신호와 상기 디코딩된 메타데이터를 시간 정렬시키도록 구성되는 적어도 하나의 지연 유닛을 포함하는, 오디오 신호를 디코딩하는 방법.
  6. 삭제
  7. 제5항에 있어서, 상기 프레임 길이는 1536 또는 1920인, 오디오 신호를 디코딩하는 방법.
  8. 제5항에 있어서, 상기 파형 처리 경로의 전체 지연이 메타데이터 처리 경로의 전체 지연에 대응하도록, 상기 적어도 하나의 파형 신호와 상기 디코딩된 메타데이터가 시간 정렬되는, 오디오 신호를 디코딩하는 방법.
  9. 프로세서 상에서 실행되고 상기 프로세서 상에서 실행될 때 제5항의 방법을 수행하도록 구성되는 명령어들을 저장하는 비일시적 저장 매체.
KR1020217037448A 2013-09-12 2014-09-08 Qmf 기반 처리 데이터의 시간 정렬 KR102467707B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020227039556A KR20220156112A (ko) 2013-09-12 2014-09-08 Qmf 기반 처리 데이터의 시간 정렬

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201361877194P 2013-09-12 2013-09-12
US61/877,194 2013-09-12
US201361909593P 2013-11-27 2013-11-27
US61/909,593 2013-11-27
PCT/EP2014/069039 WO2015036348A1 (en) 2013-09-12 2014-09-08 Time- alignment of qmf based processing data
KR1020167009282A KR102329309B1 (ko) 2013-09-12 2014-09-08 Qmf 기반 처리 데이터의 시간 정렬

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167009282A Division KR102329309B1 (ko) 2013-09-12 2014-09-08 Qmf 기반 처리 데이터의 시간 정렬

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020227039556A Division KR20220156112A (ko) 2013-09-12 2014-09-08 Qmf 기반 처리 데이터의 시간 정렬

Publications (2)

Publication Number Publication Date
KR20210143331A KR20210143331A (ko) 2021-11-26
KR102467707B1 true KR102467707B1 (ko) 2022-11-17

Family

ID=51492341

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020217037448A KR102467707B1 (ko) 2013-09-12 2014-09-08 Qmf 기반 처리 데이터의 시간 정렬
KR1020227039556A KR20220156112A (ko) 2013-09-12 2014-09-08 Qmf 기반 처리 데이터의 시간 정렬
KR1020167009282A KR102329309B1 (ko) 2013-09-12 2014-09-08 Qmf 기반 처리 데이터의 시간 정렬

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020227039556A KR20220156112A (ko) 2013-09-12 2014-09-08 Qmf 기반 처리 데이터의 시간 정렬
KR1020167009282A KR102329309B1 (ko) 2013-09-12 2014-09-08 Qmf 기반 처리 데이터의 시간 정렬

Country Status (8)

Country Link
US (3) US10510355B2 (ko)
EP (4) EP3044790B1 (ko)
JP (4) JP6531103B2 (ko)
KR (3) KR102467707B1 (ko)
CN (3) CN105637584B (ko)
HK (1) HK1225503A1 (ko)
RU (1) RU2665281C2 (ko)
WO (1) WO2015036348A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102467707B1 (ko) * 2013-09-12 2022-11-17 돌비 인터네셔널 에이비 Qmf 기반 처리 데이터의 시간 정렬
WO2016091893A1 (en) * 2014-12-09 2016-06-16 Dolby International Ab Mdct-domain error concealment
TWI807562B (zh) 2017-03-23 2023-07-01 瑞典商都比國際公司 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合
EP3704863B1 (en) * 2017-11-02 2022-01-26 Bose Corporation Low latency audio distribution
MA52530A (fr) * 2018-04-25 2021-03-03 Dolby Int Ab Intégration de techniques de reconstruction audio haute fréquence

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5023913A (en) * 1988-05-27 1991-06-11 Matsushita Electric Industrial Co., Ltd. Apparatus for changing a sound field
WO1994010816A1 (en) * 1992-10-29 1994-05-11 Wisconsin Alumni Research Foundation Methods and apparatus for producing directional sound
TW439383B (en) * 1996-06-06 2001-06-07 Sanyo Electric Co Audio recoder
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6243476B1 (en) * 1997-06-18 2001-06-05 Massachusetts Institute Of Technology Method and apparatus for producing binaural audio for a moving listener
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
EP1241663A1 (en) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Method and device for determining the quality of speech signal
EP1341160A1 (en) * 2002-03-01 2003-09-03 Deutsche Thomson-Brandt Gmbh Method and apparatus for encoding and for decoding a digital information signal
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
EP2665294A2 (en) * 2003-03-04 2013-11-20 Core Wireless Licensing S.a.r.l. Support of a multichannel audio extension
US7333575B2 (en) * 2003-03-06 2008-02-19 Nokia Corporation Method and apparatus for receiving a CDMA signal
KR101169596B1 (ko) 2003-04-17 2012-07-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
WO2005112001A1 (ja) 2004-05-19 2005-11-24 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、およびこれらの方法
JP2007108219A (ja) * 2005-10-11 2007-04-26 Matsushita Electric Ind Co Ltd 音声復号装置
US7653533B2 (en) 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
EP1903559A1 (en) 2006-09-20 2008-03-26 Deutsche Thomson-Brandt Gmbh Method and device for transcoding audio signals
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
PL2109098T3 (pl) 2006-10-25 2021-03-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób do generowania próbek audio w dziedzinie czasu
KR101291193B1 (ko) * 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
RU2406166C2 (ru) * 2007-02-14 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
ES2383365T3 (es) * 2007-03-02 2012-06-20 Telefonaktiebolaget Lm Ericsson (Publ) Post-filtro no causal
CN101325537B (zh) * 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
JP5203077B2 (ja) * 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
WO2010086461A1 (en) * 2009-01-28 2010-08-05 Dolby International Ab Improved harmonic transposition
CN101989429B (zh) * 2009-07-31 2012-02-01 华为技术有限公司 转码方法、装置、设备以及系统
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
MX2012006823A (es) 2009-12-16 2012-07-23 Dolby Int Ab Mezcla descendente de parametros de corriente de bits sbr.
CN102741921B (zh) * 2010-01-19 2014-08-27 杜比国际公司 改进的基于子带块的谐波换位
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
EP4120246A1 (en) 2010-04-09 2023-01-18 Dolby International AB Stereo coding using either a prediction mode or a non-prediction mode
MY194835A (en) 2010-04-13 2022-12-19 Fraunhofer Ges Forschung Audio or Video Encoder, Audio or Video Decoder and Related Methods for Processing Multi-Channel Audio of Video Signals Using a Variable Prediction Direction
CN102473417B (zh) * 2010-06-09 2015-04-08 松下电器(美国)知识产权公司 频带扩展方法、频带扩展装置、集成电路及音频解码装置
US8489391B2 (en) 2010-08-05 2013-07-16 Stmicroelectronics Asia Pacific Pte., Ltd. Scalable hybrid auto coder for transient detection in advanced audio coding with spectral band replication
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN102610231B (zh) 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
EP2676268B1 (en) * 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
MX2013010537A (es) 2011-03-18 2014-03-21 Koninkl Philips Nv Codificador y decodificador de audio con funcionalidad de configuracion.
EP2702589B1 (en) 2011-04-28 2017-04-05 Dolby International AB Efficient content classification and loudness estimation
KR101572034B1 (ko) 2011-05-19 2015-11-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 파라메트릭 오디오 코딩 방식들의 포렌식 검출
JP6037156B2 (ja) * 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
CN103035248B (zh) * 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
EP2849180B1 (en) * 2012-05-11 2020-01-01 Panasonic Corporation Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
KR102243688B1 (ko) * 2013-04-05 2021-04-27 돌비 인터네셔널 에이비 인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더
KR102467707B1 (ko) * 2013-09-12 2022-11-17 돌비 인터네셔널 에이비 Qmf 기반 처리 데이터의 시간 정렬
US9640185B2 (en) * 2013-12-12 2017-05-02 Motorola Solutions, Inc. Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder

Also Published As

Publication number Publication date
RU2018129969A3 (ko) 2021-11-09
US20210158827A1 (en) 2021-05-27
EP3291233B1 (en) 2019-10-16
CN111312279B (zh) 2024-02-06
KR20160053999A (ko) 2016-05-13
JP2022173257A (ja) 2022-11-18
RU2018129969A (ru) 2019-03-15
CN105637584B (zh) 2020-03-03
JP2016535315A (ja) 2016-11-10
US10510355B2 (en) 2019-12-17
WO2015036348A1 (en) 2015-03-19
RU2016113716A (ru) 2017-10-17
JP7139402B2 (ja) 2022-09-20
EP3044790A1 (en) 2016-07-20
HK1225503A1 (zh) 2017-09-08
EP3975179A1 (en) 2022-03-30
US20180025739A1 (en) 2018-01-25
JP6531103B2 (ja) 2019-06-12
US10811023B2 (en) 2020-10-20
EP3582220B1 (en) 2021-10-20
EP3044790B1 (en) 2018-10-03
US20160225382A1 (en) 2016-08-04
KR102329309B1 (ko) 2021-11-19
JP2019152876A (ja) 2019-09-12
RU2665281C2 (ru) 2018-08-28
JP6805293B2 (ja) 2020-12-23
CN111292757A (zh) 2020-06-16
CN111312279A (zh) 2020-06-19
KR20220156112A (ko) 2022-11-24
EP3582220A1 (en) 2019-12-18
CN105637584A (zh) 2016-06-01
EP3291233A1 (en) 2018-03-07
JP2021047437A (ja) 2021-03-25
KR20210143331A (ko) 2021-11-26

Similar Documents

Publication Publication Date Title
JP7139402B2 (ja) Qmfベースの処理データの時間整列
CA2918256C (en) Noise filling in multichannel audio coding
KR102083768B1 (ko) 오디오 신호의 고주파 재구성을 위한 하모닉 트랜스포저의 하위호환형 통합
TW202006706A (zh) 具有減少後處理延遲之高頻重建技術之整合
US8762158B2 (en) Decoding method and decoding apparatus therefor
RU2772778C2 (ru) Временное согласование данных обработки на основе квадратурного зеркального фильтра
CN112189231A (zh) 高频音频重建技术的集成
BR122020017854B1 (pt) Decodificador e codificador de áudio para alinhamento no tempo de dados de processamento baseados em qmf
BR112016005167B1 (pt) Decodificador de áudio, codificador de áudio e método para alinhamento no tempo de dados de processamento baseados em qmf

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right