KR101942913B1 - 메타데이터 구동된 동적 범위 제어 - Google Patents

메타데이터 구동된 동적 범위 제어 Download PDF

Info

Publication number
KR101942913B1
KR101942913B1 KR1020177020847A KR20177020847A KR101942913B1 KR 101942913 B1 KR101942913 B1 KR 101942913B1 KR 1020177020847 A KR1020177020847 A KR 1020177020847A KR 20177020847 A KR20177020847 A KR 20177020847A KR 101942913 B1 KR101942913 B1 KR 101942913B1
Authority
KR
South Korea
Prior art keywords
drc
gain
values
drc gain
bitstream
Prior art date
Application number
KR1020177020847A
Other languages
English (en)
Other versions
KR20170090512A (ko
Inventor
프랭크 엠. 바움가르트
Original Assignee
애플 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 애플 인크. filed Critical 애플 인크.
Publication of KR20170090512A publication Critical patent/KR20170090512A/ko
Application granted granted Critical
Publication of KR101942913B1 publication Critical patent/KR101942913B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

동적 범위 제어/압축(DRC) 이득 값들을 인코딩하고 사운드 프로그램 컨텐츠의 조각에 적용하기 위한 시스템이 기술된다. 특히, 컨텐츠의 조각에 대한 DRC 이득 곡선을 나타내는 DRC 이득 값들의 세트는 컨텐츠의 조각의 프레임에 상응하는 프레임들로 분할될 수 있다. 필드들의 세트는 컨텐츠의 조각을 나타내는 오디오 신호와 포함될 수 있다. 추가적인 필드들은 선형 또는 스플라인 보간법을 이용한 DRC 이득 값들을 나타낼 수 있다. 추가적인 필드들은 1) 각 DRC 프레임에 대한 초기 이득 값, 2) DRC 곡선 내의 특정 포인트들에서의 기울기 값들의 세트, 3) 연이은 기울기 값들의 각각의 쌍에 대한 시간 델타 값들의 세트, 및/또는 4) 기울기 값들의 포인트들 사이의 DRC 이득 곡선 내의 DRC 이득 값들의 변화를 나타내는 하나 이상의 이득 델타 값들을 포함할 수 있다.

Description

메타데이터 구동된 동적 범위 제어{METADATA DRIVEN DYNAMIC RANGE CONTROL}
관련 출원
본 출원은 더 이른 출원일을 갖는 2013년 3월 29일 출원된 미국 가출원 제61/806,628호; 2013년 7월 24일 출원된 미국 가출원 61/857,966호; 및 2013년 10월 16일 출원된 미국 가출원 제61/891,687호의 우선권을 주장한다.
본 발명의 실시예는 일반적으로 인코딩 및 동적 범위 제어/압축(DRC)을 오디오 신호에 적용하기 위한 시스템 및 방법에 관한 것이다. 또한, 본 명세서에 기술된 시스템 및 방법은 MPEG-H(3D 오디오)에서의 개발 하의 새로운 코덱들의 DRC 요구사항을 고려한다. 다른 실시예들 또한 기술되었다.
동적 범위 제어/압축(DRC)은 (1) 오디오 신호 내의 소프트 부분을 더 시끄럽게 만들고; (2) 오디오 신호 내의 시끄러운 부분을 더 소프트하게 만들거나; 또는 (3) 소프트 부분을 시끄럽게 만들고 시끄러운 부분을 소프트하게 만들어 소정의 정도만큼 오디오 신호의 동적 범위를 감소시킨다. 감소된 동적 범위는 오디오 재생 시스템에 있어서 작은 동적 범위만을 재생할 수 있는 동시에 낮은 왜곡을 유지하고, 방해하는 소리를 갖는 청취 환경을 포함하는 몇몇 상황들 및 청취자가 다른 사람들의 집중을 방해하길 원치 않는 상황들에서 바람직할 수 있다.
그러나, DRC는 오늘날의 오디오 코덱에 있어서 중요한 특성이며, 몇몇 최근 오디오 코덱들은 DRC을 지원하지 않는다. 예를 들어, DRC는 무빙 픽처 전문가 그룹(MPEG)에 의한 통합된 스피치 및 오디오 코딩(USAC) 표준에 존재하지 않는다. 개선된 오디오 코딩(AAC)은 DRC 툴을 포함하지만, 이러한 DRC 툴은 제한된 시간 해상도 및 에일리어싱(aliasing) 왜곡을 포함하는 단점을 갖는다.
동적 범위 제어/압축(DRC) 이득 값들을 인코딩하고 사운드 프로그램 컨텐츠의 조각에 적용하기 위한 시스템 및 방법이 기술되었다. 일 실시예에서, 사운드 프로그램 컨텐츠의 조각에 대한 DRC 이득 곡선을 나타내는 DRC 이득 값들의 세트가 사운드 프로그램 컨텐츠의 조각의 프레임들에 상응하는 프레임들로 분할될 수 있다. 추가적인 필드 또는 필드들의 세트가 사운드 프로그램 컨텐츠의 조각을 나타내는 오디오 신호에 포함될 수 있다. 추가적인 필드들은 선형 또는 스플라인(spline) 보간법을 이용한 DRC 이득 값들을 나타낼 수 있다. 일 실시예에서, 추가적인 필드들은 1) 각 DRC 프레임에 대한 초기 이득 값, 2) DRC 커브 내의 특정 포인트들에서의 기울기 값들의 세트, 3) 기울기 값들의 각 연속적인 쌍에 대한 시간 델타 값들의 세트, 및 4) 기울기 값들에 상응하는 포인트들 사이의 DRC 이득 곡선 내의 DRC 이득 값들의 변화들을 나타내는 하나 이상의 이득 델타 값들을 포함할 수 있다. 기술된 바와 같이, 본 명세서의 시스템 및 방법은 사운드 프로그램 컨텐츠의 조각에 대해 DRC 이득 값들을 인코딩 및 적용하기 위한 효율적인 기술을 제공한다.
전술된 개요는 본 발명의 모든 양태들의 완전한 리스트를 포함하지 않는다. 본 발명이 위에서 요약된 다양한 양태들의 모든 적합한 조합들로부터 실시될 수 있는 모든 시스템들 및 방법들뿐 아니라, 아래의 상세한 설명에서 개시되고 본 명세서와 함께 출원되는 청구범위에서 특별히 지적된 모든 시스템들 및 방법들을 포함하는 것으로 고려된다. 이러한 조합들은 위의 개요에서 구체적으로 개시되지 않은 특정한 장점들을 갖는다.
본 발명의 실시예들은 첨부된 도면들에서 제한적인 방식이 아닌 예시적인 방식으로 도시되었으며, 도면들에서 동일한 참조번호는 유사한 요소들을 나타낸다. 본 개시내용에서 본 발명의 "일" 또는 "하나의" 실시예를 지칭하는 것이 반드시 동일한 실시예를 지칭하는 것은 아니며, 적어도 하나의 실시예를 의미하는 것임이 인지되어야만 한다.
도 1은 일 실시예에 따른 오디오 디코더에 이어지는 압축 후 프로세싱의 블록도.
도 2는 일 실시예에 따른 동적 범위 제어/압축(DRC) 이득 표현을 도시한 도면.
도 3은 일 실시예에 따른 인코더 DRC 특징들을 도시한 도면.
도 4는 일 실시예에 따라 송신기에서 생성된 DRC 메타데이터의 예시적인 세트를 도시한 도면.
도 5는 일 실시예에 따른 예시적인 타입의 보간법을 도시한 도면.
도 6은 일 실시예에 따른 두 지연 모드를 도시한 도면.
도 7은 일 실시예에 따른 링크위츠-릴레이 크로스오버 필터(Linkwitz-Riley crossover filter)의 토폴로지를 도시한 도면.
도 8은 일 실시예에 따라 64 하위 대역들을 갖는 필터 뱅크를 활용하는 4-대역 DRC에 대한 가중 계수의 예를 도시한 도면.
도 9는 일 실시예에 따라 소정의 상응하는 디코더 윈도우 형태들에 대해 사용되는 동적 범위 제어/압축(DRC) 윈도우 형태들을 도시한 도면.
도 10은 일 실시예에 따라 윈도우의 분리된 작은 블록들에 적용된 DRC 이득 값들을 도시한 도면.
도 11은 일 실시예에 따른 오디오 신호에 걸쳐 적용되는 DRC 이득 값들을 도시한 도면.
이제 첨부된 도면들을 참조하여 본 발명의 몇몇 실시예들이 기술된다. 실시예들에서 기술된 부분들의 형태, 상대적인 위치 및 다른 양태들이 명백하게 정의되지 않을 때마다, 본 발명의 범주는 단지 설명을 위해서 의도된 도시된 부분들에 대해서만 제한되지 않는다. 또한, 다수의 세부사항들이 개진되었지만, 본 발명의 일부 실시예들이 이러한 세부사항들 없이 실시될 수 있다는 것이 이해되어야 한다. 다른 예시들에서, 잘 알려진 회로, 구조 및 기술이 본 설명에 대한 이해를 불필요하게 불명확하게 하지 않도록 상세하게 도시되지 않았다.
동적 범위 제어/압축(DRC) 메타데이터를 비트스트림/포맷으로 통합하는 메타데이터 시스템들은 청취자 측에서(즉, 재생시에) DRC 이득 값들을 결정하는 시스템들에 대해 몇몇 장점들을 제공한다. 이러한 장점들은 (1) 오디오 신호의 재생시의 더 낮은 복잡도; (2) DRC의 복잡도가 더 복잡한 DRC 절차들이 구현되는 것을 가능하게 하는 재생 중에 덜 문제가 된다; 그리고 (3) 청취자 측에서 오디오 재생 디바이스가 DRC를 적용할지 여부를 결정할 수 있다는 것을 포함한다. DRC 메타데이터 시스템을 이용하는 것이 몇몇 장점들을 제공하지만, ATSC(Advanced Television Systems Commitee) 및 MPEG(Moving Picture Experts Group's)에 의해 제공되는 것과 같은 통상적인 DRC 메타데이터 시스템 또한 몇몇 단점들을 제공한다.
(예를 들어, ATSC 및 MPEG 표준들에 의해 정의된) 통상적인 DRC 메타데이터 시스템들이 표 1에 도시된 바와 같은 가벼운 압축 및 무거운 압축을 지원한다. 대부분의 경우에서, DRC 이득 값 업데이트의 속도는 프레임당 1이다. 48 ㎑의 샘플 속도에서, 이것은 21과 43ms 사이의 업데이트 간격과 동등하다. 가벼운 압축 모드 내의 AC-3은 대략 48 ㎑의 5ms에서 6배 더 따른 속도를 가진다. 또한, 이러한 통상적인 DRC 메타데이터 시스템들 내의 DRC 이득 값들이 더 낮은 오디오 샘플 속도에 대해 더 낮은 속도에서 업데이트된다.
[표 1]
Figure 112017071568122-pat00001
실질적인 DRC 튜닝은 이득 변화들이 현재 표준으로 획득될 수 있는 것보다 소정의 오디오 신호들에 대해 훨씬 더 빨라야만 한다는 것을 제안한다.
MPEG-AAC 및 ATSC와 같은 현재 DRC 표준 및 시스템을 갖는 다른 문제가 역 MDCT 필더 뱅크가 적용되기 전에 주파수 도메인에서 DRC 이득이 적용된다는 사실로부터 발생한다. MDCT 필터 뱅크는 시간 도메인 에일리어싱 상쇄에 기초한 변형이다. 에일리어싱 상쇄는 서로 다른 이득 값들이 연이은 오버랩핑 블록들에 적용된다면 획득될 수 없다. 이득 변화는 사전-에코와 같은 청취가능한 왜곡을 발생시킬 수 있다. 이것은 캐스터네츠(castanet) 녹음에 대해 쉽게 도시될 수 있다.
일 실시예에서, MDCT 아티팩트가 오디오 신호가 디코더에 의해 재구성된 후에 시간 도메인 내에 DRC 이득이 적용된다면 방지될 수 있다. 주파수 도메인 내에서 이득은 길거나 짧은 블록마다 최대 한번 변조될 수 있다. 반면에, 본 명세서에 기술된 시간 도메인 접근법은 원하는 더 높은 시간 해상도를 지원한다.
시간 도메인 접근법은 현재 (MPEG 가벼운 압축에 의해 이용가능한) 다중 대역 DRC를 지원하지 않지만, 본 명세서에 논의된 실시예들이 다중 대역 DRC를 지원하도록 개선될 수 있다. 제안된 방안은 보간법 및 DRC 이득들의 적용으로 인한 디코더 복잡도를 미세하게 증가시킬 수 있다. 그러나, 이러한 단점들은 불필요한 왜곡이 높은 비트레이트에서 나타날 수 있고 고품질 재생 시스템으로 재생될 수 있는 컨텐츠를 특히 방지할 수 있다는 것을 고려하면 무관하다.
DRC
개요
DRC 툴은 HE-AAC 디코더의 QMF 필터 뱅크의 하위 대역들과 같은 시간 도메인 또는 하위 대역 도메인 오디오 신호에 적용될 수 있는 통합된 DRC 이득 인코딩에 기초한다. 아래의 설명은 시간 도메인 적용을 먼저 커버한다. 하위 대역 도메인 적용에 있어서 오직 시간 도메인 접근법에 대한 수정만이 기술되었다.
시간 도메인 적용
이 섹션은 도 1에 도시된 바와 같이 디코딩 후에 동적 압축 툴이 시간 도메인 오디오 신호에 적용되는 방식을 기술한다. 도 1은 오디오 디코더에 이은 압축 후 프로세싱의 블록도를 도시한다. 일 실시예에서, DRC 툴의 디코더 부분은 압축 이득 샘플들 및 보간법에 대한 파라미터들을 효율적으로 나타내는 메타데이터에 의해 구동된다. 일부 실시예들에서, 이득 샘플들은 적어도 1ms 업데이트 간격까지 떨어진 이득 변화를 정확하게 나타내기 위해서 필요한만큼 최대한 빠르게 업데이트될 수 있다. 만약 이득이 사실상 일정하다면, 이것은 DRC 프레임당 단일 이득 샘플을 이용하기에만 충분할 수 있다. 비트레이트를 최소화하기 위해서, 인코더는 디코딩 후 오디오 신호 내의 재구성된 DRC 이득의 충분한 정확도를 보장하기에 충분한 DRC 이득 샘플들을 선택할 수 있다. 실제로, 이것은 더 큰 이득 변화가 존재할 때 더 작은 업데이트 간격을 의미할 수 있다.
인코더가 오직 드문드문 샘플링된 이득 값들을 제공하기 때문에, 디코더는 샘플들 사이의 스무드 이득 전이를 획득하기 위해 보간법을 적용할 수 있다. 보간된 이득의 샘플 속도는 오디오 샘플 속도이다. 사용된 보간 기술은 스플라인에 기초할 수 있다. 두 연속적인 이득 샘플들 사이의 하나의 세그먼트의 보간된 값들은 세그먼트의 양 단부들에서의 두 이득 샘플들 및 그들의 기울기(도함수)로부터 파생된다. 그러므로, 하나의 세그먼트로부터 다음 세그먼트로 전이할 때, 전이점에서 두 세그먼트들이 동일한 기울기를 가지기 때문에 제1 도함수가 연속적이다.
도 2는 수량화된 DRC 이득 샘플들에 기초한 보간법을 도시한다. 상위 커브 A는 오디오 샘플 속도와 같은 높은 샘플 속도에서의 DRC 출력 이득을 나타낸다. DRC 이득 및 기술기의 샘플들(즉, 원형 및 화살표)이 균일한 시간 격자에 기초하여 드문드문 획득된다. 하위 그래프 B는 DRC 디코더 툴로 전송되는 수량화된 기울기 및 수량화된 이득 샘플 좌표들(시간 및 값)을 나타낸다. 디코더 툴은 이것이 점선에 의해 도시된 바와 같이 오디오 신호에 적용되기 이전에 이득 곡선을 보간한다.
일 실시예에서, 이득 곡선을 샘플링하기 위한 가장 작은 가능한 시간 간격은 0.5 내지 1.0ms의 고전된 값이며 가장 큰 가능한 시간 간격은 DRC 프레임당 1 이득 샘플이다.
전술된 스플라인 모드에 더하여, "단순한" 모드가 타이밍 및 기울기 파라미터들 없이 DRC 프레임마다 오직 하나의 DRC 이득 값을 전송하도록 사용될 수 있다. 이러한 모드는 사실상 일정한 DRC 이득을 갖는 프레임들에 가장 적합하며 가장 낮은 수의 비트를 소비한다.
오디오 코덱과 협력하여 DRC 툴을 적용하기 위해서, 아래의 파라미터들이 DRC 프레임 크기 및 시간 해상도를 조정하도록 제공되며 그에 따라 코덱 및 DRC 프로세싱이 복잡도 및 지연의 측면에서 가장 효율적으로 수행될 수 있다. 파라미터들은:
Figure 112017071568122-pat00002
오디오 샘플 간격 단위의 DRC 프레임 크기
Figure 112017071568122-pat00003
오디오 샘플 간격 단위의 delta_t_min
Figure 112017071568122-pat00004
지연 모드
이러한 파라미터들은 디폴트 값을 가지지만, 코텍 명세는 디폴트를 겹쳐쓰기할 수 있다.
DRC 특징의 변조
DRC 툴은 몇몇 수단들에 의해 디코딩된 DRC 이득의 변조를 지원한다:
Figure 112017071568122-pat00005
부스트 인자
Figure 112017071568122-pat00006
압축 인자
Figure 112017071568122-pat00007
커스텀 DRC 특징
부스트 인자는 증폭을 감소시키기 위해 dB로 양의 이득 값들에 적용된 0 내지 1의 값이다. 압축 인자는 감쇠를 감소시키기 위해 음의 이득 값들에 적용된 0 내지 1의 값이다.
인코더 DRC를 포함하는 DRC 구성은 아래에서 "샘플 서술(Sample description)"로 지칭될 수 있다. 예를 들어, 처음 6개의 정적 DRC 특징들이 도 3에 도시된다. 개념적으로, 이러한 정적 압축기 특징은, 만약 특징이 명백하게 DRC 알고리즘으로부터 이용가능하지 않다면 1 ㎑ 사인곡선을 이용하여 측정될 수 있다. 사인곡선의 레벨은 피크가 풀 스케일에 있을 때 -3 dBFS로 정의된다. 도 3에 도시된 특징들은 전혀 압축이 되지 않은 정도까지 다양한 압축 정도를 가진다. 가장 단순한 경우에서, 특징이 원하는 압축 효과에 따라 선택된다. 예를 들어 다운믹스에 대해 과부하가 제어되어야만 할 때, 선택적으로 오직 정적 압축 효과를 갖지 않을 수 있는 인코더 내에 제한자(limiter)만이 적용될 수 있다. 그러므로, 제한자가 적용되지만 DRC는 적용되지 않는다면 일정 0 dB 이득을 갖는 특징이 유용할 수 있다. 일반적으로, 비트스트림 내에서 전달되는 DRC 이득은 동적 압축 또는 제한 또는 둘 모두의 결과일 수 있다.
송신기에서의 DRC 메타데이터 생성에 대한 예가 도 4에 도시된다. DRC는 드래프트 ISO/IEC 14496-12에 따른 샘플 서술에 기초해 구성된다. 오디오 신호는 이것이 DRC에 진입하기 전에 -31 LKFS로 정규화된 음량일 수 있다. DRC 메타데이터는 오디오 비트스트림과 함께 전송될 수 있다.
수신기는 샘플 서술에서 전달되는 송신기의 DRC 특징에 기초한 그리고 커스텀 표적 DRC 특징에 기초한 정적 DRC 특징을 변조할 수 있다. 수신된 DRC 이득 값(gainQuant)으로 시작하여, 수신기는 역 송신기 DRC 특징을 적용할 수 있고 그 다음 표 2에 도시된 바와 같은 새로운 표적 DRC 특징을 적용할 수 있다:
[표 2]
Figure 112017071568122-pat00008
송신기 특징들 1 내지 6의 역이 표 3 및 표 4에 따라 컴퓨팅될 수 있다. 이득이 항상 0 dB이기 때문에 특징 2는 유용한 역을 갖지 않는다는 것을 인지해야 한다.
[표 3]
Figure 112017071568122-pat00009
[표 4]
Figure 112017071568122-pat00010
디코더 DRC 표적 특징들은 표준화된 것으로 간주되지 않는다. 이들은 맞춤화된 압축 특징들을 획득하기 위해 구현자에 의해 선택적으로 정의될 수 있다. 아래의 섹션들은 이득 맵핑이 적용되는 방식을 더욱 자세하게 설명한다.
샘플 서술은 총 11개의 인코더 DRC 특징들을 포함할 수 있다. 현존하는 시스템들과의 호환가능성을 위해 샘플 서술은 전술되고 도 3에 도시된 처음 6개의 특징들에 더하여, 표 5에 도시된 바와 같이 ATSC 시스템에서 이용가능할 수 있는 5개의 특징들을 더 포함한다.
[표 5]
Figure 112017071568122-pat00011
스플라인 세그먼트들
디코더 내의 DRC 이득의 보간법이 이득 샘플들의 쌍들에 기초한다. 각 쌍이 이득 좌표들(시간 및 dB 단위 값) 및 기울기 정보를 가진다. 디코더는 도 5에 도시된 바와 같이 세 가지 이용가능한 타입의 보간법들 중 하나를 선택할 것이다. 대부분의 경우들에서, 도 5의 스플라인 세그먼트 A에 의해 도시된 큐빅 보간법이 선택된다. 그러나, 소정의 조건 하에서, 도 5 내의 스플라인 세그먼트 B 및 C에 의해 도시된 바와 같은 선형 및 정사각형 보간을 결합한 혼성 보간법이 대신 적용된다. 혼성 보간법에 있어서, (도 5의 스플라인 세그먼트 B 및 C 내의 사각형들로서 도시된) 두 개의 이득 좌표들 사이에 노드가 삽입된다. 이러한 노드의 일 측 상에서, 선형 보간법이 적용되고 사각형 보간법이 다른 측 상에 적용된다. 이러한 방법은 아래에서 완전히 명시된다.
프레이밍 (Framing)
DRC 이득 정보는 DRC 프레임들 내에서 조직화된다. 각 DRC 프레임은 DRC 프레임의 기간 동안 DRC 이득을 생성하도록 DRC 데이터를 포함한다. DRC 프레임 기간은 주어진 오디오 아이템에 대해 일정하며 이것은 다수의 오디오 샘플 간격이다. DRC 프레임들은 겹쳐지지 않는다. 실제로, 적합할 때마다, DRC 프레임 크기가 지연 및 복잡도를 최소화하기 위한 코덱의 프레임 크기와 동일하도록 추천된다. 이것은 디폴트 설정일 수 있다.
시간 해상도
DRC 툴은 DRC 이득의 희소성 표현(sparse representation)을 생성하기 위한 균일한 시간 격자를 사용한다. 이러한 격자의 간격은 가장 높은 이용가능한 시간 해상도 delta_t_min를 정의한다. delta _t_min의 단위는 오디오 샘플 속도에서의 일 샘플 간격이다. 복잡도를 이유로, delta_t_min는 [0.5…1.0] ms사이의 상응하는 지속시간을 갖는 정수 배의 오디오 샘플 간격으로 선택된다. 바람직하게는, delta_t_min가 정수 2의 제곱이며, 그에 따라 샘플 속도가 오디오와 DRC 사이에서 효율적으로 변환될 수 있다. 디폴트 값들이 아래의 식에 기초해 컴퓨팅된다:
Figure 112017071568122-pat00012
이때
Figure 112017071568122-pat00013
(1)
위의 식에서, 오디오 샘플 속도
Figure 112017071568122-pat00014
는 ㎐ 단위이고, 지수M은 음이 아닌 정수이다.
디코더 내의 미리보기
DRC 툴 디코더는 하나 또는 두 개의 지연 모드에서 동작될 수 있다. 저-지연 모드는 디코딩된 DRC 이득을 즉시 적용하는 반면 디폴트 모드는 하나의 DRC 프레임의 지연에 DRC 이득을 적용한다. 디폴트 모드는 현재 DRC 프레임의 임의의 위치로부터 다음 DRC 프레임의 임의의 위치까지의 이득 샘플 보간법을 지원한다. 저-지연 모드는 DRC 프레임의 단부에 이득 값 샘플이 위치되는 것을 요구한다.
도 6은 저 지연 A및 디폴트 지연 B의 두 지연 모드들을 도시한다. 상위 다이어그램 A 는 프레임의 단부에서 각 DRC 프레임이 스플라인 노드를 가지며, 그에 따라 해당 프레임에 대한 전체 DRC 이득 곡선이 보간법에 의해서 즉시 생성될 수 있음을 나타낸다. 하위 다이어그램 B는, 프레임 n-1 (원에 의해 나타내어짐)에 대한 보간법이 프레임 n (사각형에 의해 나타내어짐)의 제1 노드가 수신된 후에만 완료될수 있기 때문에 보간된 이득 곡선에 하나의 DRC 프레임의 지연이 적용됨을 나타낸다.
공통적인 지각 코덱에 있어서 디폴트 지연 모드 B는 추가적인 디코더 지연을 요구하지 않을 것이다. 지연은 이미 오버랩 추가 동작으로 인해 요구되었다.
저-지연 모드는 오버랩 추가로 인한 지연과 같은 내재하는 지연을 갖지 않는 디코더에 적합할 수 있다. 예를 들어, 이것은 일부 무손실 코덱들에 대한 경우이다.
디코딩
이득 좌표 및 기울기의 디코딩 프로세스는 아래의 태스크들의 시퀀스로 구성된다:
Figure 112017071568122-pat00015
DRC 구성 정보 수집
Figure 112017071568122-pat00016
DRC 비트스트림 분석
Figure 112017071568122-pat00017
허프만 디코딩을 포함하는 코드 테이블을 적용하여 수량화된 값을 디코딩
Figure 112017071568122-pat00018
차등 인코딩 취소
DRC 구성 정보는 샘플 서술의 부분일 수 있다. DRC 구성 정보는 디코딩을 위해 관련된 아래의 파라미터들을 포함할 수 있다:
Figure 112017071568122-pat00019
이득 시퀀스들의 수: nDrcGainSequences
Figure 112017071568122-pat00020
각 채널로의 이득 시퀀스 할당 동일한 시퀀스를 이용한 채널들은 채널 그룹들로 지칭된다. 그룹들의 총 수는 nDrcChannelGroups이다.
Figure 112017071568122-pat00021
그룹 내의 DRC 대역의 수는: nDrcBands이다
이러한 파라미터들이 주어졌을 때, DRC 비트스트림이 표 20 및 표 21에 따라 분석될 수 있다. 아래에서, 의사 코드가 명확성을 위해 하나의 이득 시퀀스로 제한된다. 일반적인 경우에 있어서, 외부 루프가 표 6 및 표 9 내의 각 이득 시퀀스를 프로세싱하도록 추가될 수 있다.
코딩된 값들은 표 22 및 표 25를 적용함으로써 디코딩된다. 이러한 동작은 표 6에서 의사-함수들 decode_initial_gain(), decode_delta_gain(), decode_time_delta(), 및 decode_slope()에 의해 표현된다. 그 다음 차등적으로 인코딩된 값들이 도 6에 따라 절대 값들로 변환된다. 디코딩된 결과는 이득 값 gDRC[g][b][k], 시간 값 tDRC[g][b][k], 및 기울기 값 sDRC[g][b][k]에 의해 표현되며 이때 g는 채널 그룹 인덱스이고, b는 대역 인덱스이며,k는 스플라인 노드 인덱스이다. 시간 값은 delta_t_min의 단위인 DRC 프레임의 시작에 대한 정수이다. DRC 프레임의 시작과 동일한 위치에 있는 오디오 샘플은 tDRC=0의 시간 값을 가진다.
[표 6]
Figure 112017071568122-pat00022
이득 변조 및 보간법
"DRC 특징의 변조"라는 제목 하에 전술된 바와 같이, DRC 툴 디코더 내에 DRC 특징들을 적응시키기 위한 몇몇 방식들이 존재한다. 이러한 조정은 dB 도메인 내의 디코딩된 이득 샘플들에 적용된다.
함수 toLinear()가 dB 단위인 로그 값으로부터의 선형 이득 샘플을 생성하기 위한 모든 필요한 단계들을 포함하도록 표 7에 도입된다(표 7 참조). 이러한 함수는 인코더 내에서 사용된 것과 상이한 압축 특징을 획득하기 위한 목적으로 DRC 이득 값의 변조를 지원하는 선택적인 맵핑 함수 mapGain()를 포함한다(표 2 참조). 맵핑은 인덱스 characteristicIndex에 의해 제어되며 이것이 0보다 크면 커스텀 디코더 DRC 특징들 중 하나를 선택할 것이다. 그렇지 않으면, 인코더 특징은 대체되지 않을 것이다. 변조된 특징은 샘플 서술 내에서 전달되는 인코더 압축 특징에 기초하여 생성될 수 있다. 또한, 압축 및 부스트 인자가 음의 이득 및 양의 이득을 각각 스케일하도록 지원된다. 범위 [0,1] 내의 값들이 사용자에 의해 공급되지 않는 한, 이러한 인자들은 1.0의 값을 가진다. 마지막으로, 음량 정규화 이득이 적용된다.
이득이 오디오 신호에 적용될 수 있기 전에, 오디오 신호는 선형 도메인으로 변환되어야만 하고 이득 샘플들 사이의 이득 값들이 보간되어야만 한다. 더 낮은 복잡도를 획득하기 위해서, 선형 변환으로의 dB가 보간법 이전에 수행될 수 있다. 그러므로, 보간 프로세스가 선형 도메인 내에서 전체적으로 수행된다. 이득 변조 및 선형 도메인으로의 변환 모두가 표 7의 의사 코드를 이용하여 수행된다. 입력 변수들은 dB 도메인 내의 이득 샘플 및 기울기이다. 출력은 선형 도메인 내의 이득 샘플 및 기울기로 구성된다. 음량 정규화를 위해서, dB 단위인 음량 정규화 이득 값 (loudnessNormalizationGainsDb)이 음량 제어 툴 또는 다른 수단에 의해서 디코더에 공급될 수 있다. 만약 공급되지 않는다면, 0.0의 디폴트 값이 사용된다. 일 실시예에서, 정규화 이득이 dBFS 단위인 표적 음량과 컨텐츠 음량 사이의 차로서 계산된다. 표적 음량은 원하는 출력 음량 레벨이다. 컨텐츠 음량은 2013년 10월 스위스 제네바에서 개최된 106회 MPEG 미팅 ISO/MPEG, "14496-12 PDAM 3 - Enhanced Audio (File Format)"에서 정의된 바와 같은 프로그램 음량 또는 앵커 음량과 동일하다. 만약 프로그램 음량 및 앵커 음량 모두가 공급되지 않는다면, 디폴트 값이 컨텐츠 음량에 대해 사용될 수 있다.
[표 7]
Figure 112017071568122-pat00023
이득 보간법은 표 8 내의 의사 코드에 의해 구현된다. 입력 변수들은:
Figure 112017071568122-pat00024
표적 샘플 속도 간격 tGainStep
의 단위인 두 이득 샘플들 사이의 시간차
Figure 112017071568122-pat00025
dB 단위인 연속적인 이득 샘플들 gain0gain1의 쌍
Figure 112017071568122-pat00026
dB 도메인 내의 상응하는 기울기 가파름 값 slope0slope1의 쌍.
이러한 함수는 변수로부터 선형 도메인으로 변환하기 위해 toLinear()를 사용한다. 그 결과는 이득 샘플들의 쌍 사이에 위치된 표적 샘플 속도에서의 이득 값들의 스무드 시퀀스이다. 표적 샘플 속도는 압축된 오디오 신호의 샘플 속도이다.
[표 8]
Figure 112017071568122-pat00027
Figure 112017071568122-pat00028
Figure 112017071568122-pat00029
압축 적용
각 스플라인 세그먼트의 보간된 이득 값들이 전체 DRC 프레임에 대해 완전한 이득 벡터 gain[g][b][t]를 생성하도록 연쇄된다. 마지막으로, 이득 벡터가 표 9에 도시된 바와 같이 적용된다. 함수 channelInDrcGroup()는 만약 현재 채널 c가 샘플 서술 내에 명시된 바와 같은 현재 DRC 채널 그룹에 속한다면 참(TRUE)을 반환한다. 스플라인 세그먼트들의 스케줄링이 표 9에 표시된 바와 같이 지연 모드에 의존한다는 것에 주목해야 한다(위에서 "디코더 내의 미리보기"로 라벨링된 섹션을 참조).
[표 9]
Figure 112017071568122-pat00030
Figure 112017071568122-pat00031
표 9는 아래의 가정에 기초한다:
Figure 112017071568122-pat00032
splineSegment는 하나의 스플라인 세그먼트의 이득 값들을 포함하는 벡터이다.
Figure 112017071568122-pat00033
duration은 오디오 샘플 간격의 단위로 스플라인 세그먼트의 지속기간을 기술하는 정수이다.
Figure 112017071568122-pat00034
nNodes는 현재 DRC 프레임 내의 이득 값들의 수이다.
Figure 112017071568122-pat00035
drcFrameSize는 DRC 프레임 내의 오디오 샘플 간격들의 수이다.
Figure 112017071568122-pat00036
만약 delayMode == DELAY_MODE_DEFAULT: gDRCprev[g][b][0]=0.0, sDRCprev[g][b][0]=0.0; tDRCprev[g][b][0]=drcFrameSize; nNodesPrev[g][b]=1이면 이어지는 변수들을 초기화한다.
다중 대역 DRC 필터 뱅크
DRC 이득이 시간 도메인에 적용되고 다중 대역 DRC가 사용될 때, 시간 도메인 오디오 신호가 DRC 이득이 대역들에 적용되기 전에 하위 대역들로 나뉘어져야 한다. 필터 구성 파라미터들은 MPEG 파일 포맷으로 정의된 DRCInstructions()에 의해 전달될 수 있다. MPEG 파일 포맷은 대역들의 수에 대한 비트스트림 문법(syntax) 및 대역들 사이의 크로스오버 주파수 인덱스들을 제공할 수 있다.
시간 도메인 오디오 신호는 도 7에 도시된 토폴로지를 갖는 링크위츠-릴레이(LR) 필터에 의해 명시된 수의 대역들로 나뉘어진다. 2, 3 및 4 대역들에 대한 링크위츠-릴레이 크로스오버 필터들의 토폴로지가 도 7에 도시된다. 도 7에 도시된 바와 같이, 대역 인덱스 b는 대역의 주파수와 함께 증가한다. 크로스오버 주파수 f C,b 는 인덱스 b와 함께 증가한다(즉, f C,b +1 > f C,b ). 전대역 통과(all-pass) 필터의 괄호 내의 크로스오버 주파수는 부합하는 단계 응답을 갖는 상응하는 LR 저역 통과(low-pass) 필터를 명시한다. 만약 2개보다 많은 대역들이 존재하면, 전대역 통과 필터가 서로 다른 출력들의 지연을 보상하도록 추가되며, 그에 따라 이들은 모두 동상이다(in phase). 저역 통과 및 고역 통과(high-pass) 필터들이 2차 섹션(바이쿼드(biquad))로서 구현된다.
도 7에 도시된 바와 같이, 각 링크위츠-릴레이(LR) 크로스오버 필터가 편평 주파수 응답을 발생시키는 보완 저역 통과 및 고역 통과 필터들의 쌍으로 구성된다. 각 LR 저역 통과 필터는 두 개의 동일한 버터워스(Butterworth; BW) 저역 통과 필터들의 캐스케이트에 의해 생성된다. 유사하게 각 LR 고역 통과 필터는 BW 저역 통과 필터와 동일한 차수 및 컷오프 주파수를 갖는 두 동일한 BW 고역 통과 필터들의 캐스케이드이다.
각 BW 필터 및 각 전대역 필터는 아래의 전송 함수를 이용하여 2차 섹션으로서 구현된다.
Figure 112017071568122-pat00037
(2)
표 26의 크로스오버 주파수 인덱스들에 기초하여, 디코더는 정규화된 크로스오버 주파수들
Figure 112017071568122-pat00038
또는 필터 계수 파라미터들 γ 및 δ을 검색할 수 있다. 그 다음 필터 계수들이 BW 필터들에 대해서 표 10을 이용하여 그리고 전대역 통과 필터에 대해서 표 11을 이용하여 컴퓨팅된다. ㎐ 단위의 크로스오버 주파수
Figure 112017071568122-pat00039
가 다음에 의해 컴퓨팅된다:
Figure 112017071568122-pat00040
(3)
듀얼-속도 HE-AAC와 같은 멀티-속도 디코더 구성의 경우에서,
Figure 112017071568122-pat00041
는 최종 출력 신호의 샘플 속도이다.
[표 10]
Figure 112017071568122-pat00042
도 7의 전대역 통과 필터는 (도 7의 매칭 그레이 레벨 및 매칭
Figure 112017071568122-pat00043
을 갖는) LR 저역 통과 필터들 중 하나와 동일한 단계 응답을 생성하도록 사용되어 전체 대역들의 신호가 필터 뱅크의 출력에서 동상이다. 전대역 통과 계수들이 표 11에 도시된 바와 같이 상응하는 BW 저역 통과 필터의 계수들로부터 파생된다.
[표 11]
Figure 112017071568122-pat00044
DRC 이득이 개별 대역들에 적용된 후에, 최종 오디오 신호가 모든 대역들을 추가함으로써 컴퓨팅된다.
디코더의 하위 대역 도메인에 인가된 DRC
시간 도메인 내의 DRC 이득의 적용이 AAC에 대해 의무적이지만, 다른 MPEG 코덱들은 하위 대역 도메인 DRC를 사용한다. 하위 대역 도메인 DRC의 컨셉은 디코더의 현존하는 하위 대역 신호들이 DRC 이득 적용을 겪는다는 것을 의미한다. 따라서, 다중 대역 DRC에 대해 시간 도메인 대역 스플리팅(splitting)을 추가하는 것이 필요하지 않으며 주파수 도메인 내의 렌더링 및/또는 다운믹싱 이전에 DRC 이득을 적용하는 것이 가능하다. 표 12는 DRC 이득이 적용되는 도메인 및 코덱들의 비-배타적인 리스트를 포함한다. 도메인은 디코더 구성에 의존할 수 있으며 비트스트림에 의존하지 않는다. 예를 들어, 만약 MPEG-서라운드가 플레인 AAC 디코더로 디코딩되었다면, DRC 이득이 시간 도메인에 적용된다. 또한, 하위 대역 도메인이 코어 코덱의 MDCT 도메인이 아닐 수 있다. 대신, 하위 대역 도메인은 일반적으로 QMF 도메인이다.
[표 12]
Figure 112017071568122-pat00045
다중 대역 압축을 달성하기 위해, 압축기 대역이 디코더 하위 대역의 그룹에 맵핑된다. 추가적인 필터링을 수행할 필요가 없다. DRC 크로스오버 주파수가 이용가능한 가장 가까운 디코더 하위 대역 크로스오버 주파수로 맵핑된다. 하위 대역 s에 대한 정규화된 하위 대역 크로스오버 주파수
Figure 112017071568122-pat00046
가 주어졌을 때,
Figure 112017071568122-pat00047
의 맵핑된 크로스오버 주파수는 다음과 같다:
Figure 112017071568122-pat00048
:
Figure 112017071568122-pat00049
(4)
DRC 이득이 전술된 바와 같이 디코딩될 수 있다. DRC 이득은 표 8 및 표 9에서 기술된 것과 동일한 기술을 이용하여 보간될 수 있지만, 보간 결과의 샘플링 속도가 하위 대역 신호들의 샘플 속도와 일치하기 위해 낮춰진다. 이것은 인자 L에 의해 또는 표적으로서 하위 대역 샘플 속도를 이용하여 직접 보간함으로써 보간된 시간 도메인 DRC 이득을 하위 샘플링함으로써 달성될 수 있다.
DRC 대역들 사이의 날카로운 분광 전이(spectral transition)를 방지하기 위해, 이웃하는 DRC 대역들의 이득들 사이의 "크로스 페이드(cross-fade)"가 존재할 수 있다. 이러한 동작은 오버랩핑으로 불린다. 오버랩핑은 각 하위 대역에 대한 가중 계수 w에 의해 제어된다. 가중 계수 w는 표 14에 따라 컴퓨팅될 수 있고 현재 대역의 DRC 이득 및 다음 대역의 DRC 이득의 기여도를 결정한다. 도 8은 64 하위 대역들을 갖는 필터 뱅크를 활용하는 4-대역 DRC에 대한 가중 계수의 예를 도시한다. 도 8의 대역 에지는 파선에 의해 표시되고, 대역 중심이 실선에 의해 표시되며, 가중값은 점선에 의해 표시된다.
오버랩 후에, 각 압축기 대역의 DRC 이득들이 압축기 대역에 상응하는 각 하위 대역 그룹에 적용된다. 필터 뱅크 지연을 고려하기 위한 작은 시간 지연 D이 오디오 신호와의 적절한 시간 정렬을 달성하도록 DRC 이득에 추가된다. 다운-샘플링 및 지연 동작들이 표 13의 의사 코드의 제1 부분에 의해 표현될 수 있다. 두 파라미터들의 값이 아래의 코덱-특정 값들로서 논의된다. 표 13 내의 의사 코드의 변수 및 함수의 의미가 표 15에서 설명된다. 이러한 설명은 모든 하위 대역 내에서의 샘플 속도가 동일하다고 가정한다. 만약 그렇지 않다면, 다운-샘플링 인자 L이 서로 다른 하위 대역 샘플 속도들에 대해 조정될 수 있다.
[표 13]
Figure 112017071568122-pat00050
[표 14]
Figure 112017071568122-pat00051
[표 15]
Figure 112017071568122-pat00052
레거시 스트리밍 시나리오들에 대한 DRC 구성
DRC 구성 정보는 MPEG 파일 포맷 문법에 의해 전달될 수 있다. 그러나, 만약 ADTS와 같은 레거시 스트리밍 포맷이 MPEG 파일 포맷을 지원하지 않는 MPEG 오디오 스트림을 운반하도록 사용된다면, 구성 정보는 오디오 스트림 내에 내장될 수 있다. 이것은 파일 포맷의 AudioSampleEntry() 문법(또는 이것의 압축된 버전)을 uni_drc_info() 문법에 추가함으로써 달성될 수 있다. 샘플 입력 정보가 프레임 속도보다 낮은 속도에서만 요구되기 때문에, 이러한 정보가 이용가능할 때를 나타내는 프레즌스 플래그(presence flag)가 사용될 수 있다. 확장된 문법이 표 16에 주어진다.
[표 16]
Figure 112017071568122-pat00053
이러한 경우에 있어서, DRC 정보가 디코더에 의해 샘플 입력이 수신된 후에만 디코딩될 수 있다. 샘플 입력 정보의 반복률이 디코딩 지연을 결정한다.
우선순위(Precedence)
만약 비트스트림이 제안된 DRC 메타데이터 및 다른 DRC 메타데이터를 포함한다면 이러한 MPEG 가벼운 또는 무거운 압축, 제안된 메타데이터는 디코더가 다른 DRC 메타데이터를 적용하도록 지시하지 않는 한 우선순위를 취할 것이다.
디코더 특정 정보
개선된 오디오 코딩( AAC )
AAC에 대한 DRC 메타데이터 확장
AAC에 대해서 필 엘리먼트(Fill Element) 내의 제안된 DRC 메타데이터를 운반하도록 새로운 ID를 갖는 새로운 확장 페이로드가 사용될 수 있다. ID는 4 비트 코드를 이용하여 인코딩되고 현재는 오직 7이 정의된다. 이러한 DRC 정보를 새로운 확장 페이로드에 내장하는 것은 새로운 페이로드를 스킵할 현존하는 디코더와의 백워드 호환가능성을 보장한다. 제안된 새로운 extension_type이 표 17에 주어진다. 이것은 표 20에서 주어진 바와 같이 uni_drc_info() 를 포함한다.
[표 17]
Figure 112017071568122-pat00054
AAC에 대한 지연 모드
AAC는 디폴트 지연 모드를 사용한다.
DRC 프레임 크기 및 AAC에 대한 시간 해상도
DRC 프레임 크기는 디폴트 크기를 갖는다(즉, AAC 프레임 크기와 동일한 지속시간을 가진다).
오디오 속도에서 샘플들의 수 내의 delta_t_min의 값이 위에서 "시간 해상도"로 라벨링된 섹션에서 명시된 바와 같이 계산된다. 특정 값들이 아래의 식과 표 18에 기초하여 편의를 위해 여기에 제공된다:
Figure 112017071568122-pat00055
(5)
적용가능한 지수 M이 다음을 만족하는 오디오 샘플 속도 범위를 검색함으로써 발견될 수 있다:
Figure 112017071568122-pat00056
(6)
[표 18]
Figure 112017071568122-pat00057
코덱 프레임 크기
Figure 112017071568122-pat00058
가 주어졌을 때, delta_t_min의 속도에서 DRC 샘플의 단위인 DRC 프레임 크기는 다음과 같다:
Figure 112017071568122-pat00059
(7)
MPEG-D USAC
DRC 메타데이터 확장
USAC에서 새로운 확장 페이로드는 확장 페이로드 요소 UsacExtElement 내에 운반될 수 있다. 이러한 목적을 위해 새로운 확장 요소 타입이 표 19에 따라 정의된다. 디폴트 코덱 의존 DRC 설정을 적용한다.
[표 19]
Figure 112017071568122-pat00060
MPEG-4 HE- AAC , HE- AACv2 , MPEG-D 서라운드 , MPEG-D SAOC
DRC 메타데이터 확장
DRC 메타데이터는 전술된 바와 같이 AAC 코어 스트림을 이용하여 운반될 수 있다.
MPEG-4 HE-AAC, HE-AACv2, MPEG-D 서라운드, 및 MPEG-D SAOC는 AAC-LC 및 이러한 코어 디코더의 상단 상의 하나 이상의 추가 층과 같은 코어 디코더로 구성된다. 추가적인 층들이 코어에 비교하여 오디오 채널들의 수 또는 오디오 대역폭을 개선한다. 이러한 디코더에 있어서, 합성 필터 뱅크 직전에 그러나 렌더링/믹싱 단계보다 늦지 않게 가장 높은 층의 하위 대역들에 DRC 이득이 적용되어야만 한다.
하위 대역들 내의 DRC 이득 적용
QMF 도메인 내의 DRC 이득 적용에 있어서, 시간 도메인 DRC가 D 시간 도메인 샘플 간격만큼 지연될 수 있으며 L 인자만큼 다운샘플링될 수 있다. DL의 값들이 단일 레이트 대 듀얼 레이트 HE-AAC와 같은 구성에 의존한다. DRC 이득과 오디오 신호 사이의 적절한 시간 정렬이 모든 구성에 대해서 달성되어야만 한다.
비트스트림 문법
DRC 비트스트림은 표 20 및 표 21에 정의된다. 전형적으로 DRC 비트스트림 time_domain_drc_info()이 호스트 코덱의 확장 페이로드 필드 내에 운반된다.
[표 20]
Figure 112017071568122-pat00061
[표 21]
Figure 112017071568122-pat00062
[표 22]
Figure 112017071568122-pat00063
[표 23]
Figure 112017071568122-pat00064
[표 24]
Figure 112017071568122-pat00065
[표 25]
Figure 112017071568122-pat00066
[표 26]
Figure 112017071568122-pat00067
선형 보간법 DRC 인코딩
스플라인 보간법을 이용하는 것에 기초한 이득 값들의 인코딩 및 디코딩에 대해 전술되었지만, 일부 실시예들에서 이득 값들이 선형 보간법을 이용하여 인코딩되고 적용될 수 있다. 예를 들어, 일 실시예에서, DRC 값들이 전술된 바와 같이 스플라인 노드를 이용하여 사운드 프로그램 컨텐츠의 조각에 대해 인코딩될 수 있다. 이러한 실시예에서, 각각의 스플라인 노드들 사이의 기울기 값이 비트스트림으로부터 생략될 수 있다. 대신, 선형 보간법이 스플라인 보간법 대신 스플라인 노드들 사이에서 수행될 수 있다. 이러한 방식으로, DRC 이득 값들의 인코딩이 기울기 값들의 생성을 방지함으로써 단순화될 수 있다.
윈도우 -기반 오버랩-추가 DRC 이득 보간법
일 실시예에서, 윈도우-기반 오버랩-추가 이득 보간법이 DRC 이득 값들을 디코딩하도록 사용될 수 있다. 이러한 방법에서, 이득 값들이 전술된 것과 유사한 방식으로 인코딩되고 수신된다. 그러나, 각 이득 값은 디코딩 동안 윈도우에 대해 곱하는 수로서 사용된다(예를 들어, 윈도우 계수의 벡터). 보간된 이득 곡선이 그 후에 오버랩-추가 방법을 이용함으로써 획득될 수 있다. 예를 들어, 윈도우에 대해 보간된 DRC 이득 곡선이 윈도우에 의해 곱해진 이득 값의 곱일 수 있다. 윈도우를 이용하는 하나의 이유는 하위 대역들 내에 이득 값들을 적용하는 표준화된 디코더로부터의 결과인 이득 곡선에 비교하여 동일한 이득 곡선이 생성될 수 있다는 것이다. 또한, 윈도우-기반 오버랩-추가 이득 보간법은 에일리어싱 왜곡을 생성하지 않는다. 이러한 윈도우-기반 오버랩-추가 이득 보간법의 더욱 깊이있는 설명이 예시적인 방식으로 아래에 기술되었다.
도 9는 소정의 상응하는 디코더 윈도우 형태(파선)에 대해 사용될 DRC 윈도우 형태(실선)를 도시한다. 구석구석, 도 9는 예시적인 긴 윈도우, 긴 것으로부터 짧은 것으로의 전이 윈도우, 짧은 윈도우, 및 짧은 것으로부터 긴 것으로의 전이 윈도우를 도시한다. DRC 윈도우는 디코더 합성 윈도우의 제곱에 의해 컴퓨팅될 수 있다. DRC 윈도우는 상응하는 디코더 합성 윈도우와 동일한 타이밍이 적용될 수 있다.
아래의 식은 AAC 프레임 크기 N:을 갖는 긴(long) AAC 합성 윈도우로부터 DRC 윈도우가 컴퓨팅되는 방식을 나타낸다:
Figure 112017071568122-pat00068
에 대하여
Figure 112017071568122-pat00069
(8)
짧은 윈도우 및 전이 윈도우가 유사한 방식으로 컴퓨팅될 수 있다. 식 (9)는 비트스트림으로부터 파생된 DRC 이득 값들에 의해 가중된 후속하는 DRC 윈도우의 오버랩-추가 프로세스를 나타낸다. 시간 및 프레임 인덱스들이 각각 nk로 표시된다. 시간 인덱스 0이 현재 합성 윈도우의 시작(현재 프레임의 제1 출력 샘플)에 위치된다.
Figure 112017071568122-pat00070
에 대하여
Figure 112017071568122-pat00071
(9)
DRC 이득이 그 다음 아래의 식 (10)에 따라 디코더 출력 신호
Figure 112017071568122-pat00072
에 적용되어 최종 압축된 오디오 출력
Figure 112017071568122-pat00073
을 생성할 수 있다. DRC 이득은 MDCT 도메인 내에 적용되지 않는다.
Figure 112017071568122-pat00074
에 대하여
Figure 112017071568122-pat00075
(10)
MPEG에서 가벼운 압축을 이용할 때, 다중 대역 DRC 메타데이터는 개별적인 또는 그룹화된 짧은 블록들에 독립적인 DRC 이득 값들을 적용하도록 사용될 수 있다. "다중 대역"이라는 라벨에 대조되게, 각 DRC 이득은 짧은 블록의 전체 MDCT 스펙트럼에 적용되도록 인코딩될 수 있다. 그러므로 각 DRC 이득이 단일 대역 DRC로서 동작한다. 만약 그렇다면, DRC 동작은 전술된 것과 유사하게 시간 도메인에서 대신 수행될 수 있다.
예를 들어, 만약 5 DRC 이득 값들이 도 10의 상단 그래프에 도시된 것과 같이 8개의 짧은 블록들에 대해 주어지면, 상응하는 DRC 윈도우들이 실선과 같이 도시된다. 아래 그래프는
Figure 112017071568122-pat00076
에 대해 동일한 형태 및 상응하는 DRC 이득 값들
Figure 112017071568122-pat00077
를 갖는 8개의 짧은 DRC 윈도우들의 사용을 나타낸다. DRC 윈도우들은
Figure 112017071568122-pat00078
의 파라미터를 갖는 식 (8)을 이용하여 짧은 윈도우 형태로부터 파생될 수 있다. 식 (9) 및 (10)에는
Figure 112017071568122-pat00079
를 대신하여 파라미터
Figure 112017071568122-pat00080
가 상응하게 적용된다.
일반적으로, 비트스트림 문법은 개별적인 프레임들에 대해 단일 대역 또는 다중 대역 DRC의 독립적인 선택을 허용한다. 전술된 시간 도메인 DRC 구현을 이용하여, 디코더는 트루 다중 대역 DRC 이득 정보("트루 다중 대역"은 서로 다른 하위 대역들에 대해 동일하지 않은 DRC 이득 값들이 존재하는 것을 의미한다)가 존재할 때마다 MDCT 도메인 DRC 프로세싱으로 전환할 것이다.
이러한 제안은 단일 대역 DRC들에 대한 백워드 호환가능한 방식으로 에일리어싱 왜곡을 방지하는 수정된 MPEG-AAC DRC 구현을 포함한다. MPEG-AAC DRC에 대해 기술되었지만, 다른 실시예들에서 주파수 도메인 DRC 이득 값들을 포함하는 임의의 타입의 비트스트림 오디오가 사용될 수 있다.
전술된 실시예에서, 디코더는 시간 도메인 내에 DRC를 적용하도록 수정된다. 다른 실시예에서, 추가적인 필드가 시간 도메인 내의 오디오 신호에 DRC 이득 값 적용의 변화가능성을 증가시키도록 비트스트림에 추가될 수 있다. DRC 이득 값들에 대한 새로운 필드가 비트스트림 문법 내의 다양한 위치들에서 정의될 수 있다. MPEG 표준에 있어서, 하나의 옵션은 표 27에 도시된 것과 같은 필 엘리먼트에서 운반되는 추가적인 확장 페이로드의 정의이다. 이러한 실시예에서, 프로그램 컨텐츠의 오디오 채널들이 DRC 그룹들로 그룹화될 수 있으며, 이때 각 그룹이 DRC 정보의 독립적인 세트를 가지고, 즉 분리된 독립적인 DRC가 각 채널들의 그룹에 적용된다. 오디오 채널은 오직 하나의 DRC 그룹에 속할 수 있거나 속하지 않을 수 있다. 그루핑 정보는 트랙이 시작할 때 한번 발생하는 샘플 서술에 추가될 수 있다. 이러한 실시예에서, DRC 그룹들의 수가 nDrcChannelGroups로 지칭된다.
[표 27]
Figure 112017071568122-pat00081
실질적인 구현의 시간-변화하는 이득을 관찰할 때, 이득이 때때로 매우 느리게 변화할 수 있는 반면, 오디오 신호가 어택을 나타낼 때 극적인 변화를 나타낼 수 있다는 것이 관찰될 수 있다. DRC 이득 값들을 인코딩하기 위해 필요한 비트레이트는 각각 소위 drcGainInfoBlock에 대해 개별적으로 선택가능한 시간 해상도를 지원함으로써 감소된다. 오디오 프레임은 표 28에 도시된 바와 같이 이러한 정보 블록들로 8개까지 균일하게 분할되며, 각 블록들은 16개까지의 이득 값을 포함할 수 있다.
이득 값들의 더 넓은 시간 해상도와 연관된 비트레이트 증가는 이득 변화들의 엔트로피 코딩을 이용한 적응성 방안을 사용함으로써 추가로 완화된다. DRC 이득 값들은 표 27에서 정의된 문법을 이용하여 각 오디오 프레임에서 전송될 수 있다.
[표 28]
Figure 112017071568122-pat00082
입력 drcGainCodingMode는 표 29에서 주어진 것과 같은 정보 블록에 대한 이득 값들의 수를 결정한다. 랜덤 브레이크-인(break-in)을 지원하도록 프레임당 적어도 하나의 이득 값이 존재할 수 있다. 제1 이득 값은 표 30에 따라 인코딩된다. 남아있는 이득 값들이 (선택된 drcGainCodingMode에 의존하여) 표 31 또는 표 32를 이용하여 차등적으로 인코딩된다.
[표 29]
Figure 112017071568122-pat00083
[표 30]
Figure 112017071568122-pat00084
[표 31]
Figure 112017071568122-pat00085
[표 32]
Figure 112017071568122-pat00086
[표 33]
Figure 112017071568122-pat00087
차이 값들의 불균일 해상도는 이득 변화에서의 편차가 덜 청취가능하면 이득 변화가 더 크다는 관찰과 같은 음향심리학에 의해 동기화된다. 역으로, 만약 이득이 거의 일정하면(그리고 오디오 인벨롭도 그러하면) 이득 변화에서의 편차가 더욱 청취가능하다. 비대칭 범위가 오디오 신호에서의 서든 어택에 대해 빠르게 작용하는 DRC 이득 감소에 적용된다. 이득 증가는 일반적으로 더 늦다.
전형적인 오디오 디코더는 후속하는 블록들의 50% 오버랩을 갖는 오버랩-추가 방법을 이용하여 오디오 신호를 재구성한다. 각 블록들은 각 단부에서 테이퍼링-오프하는 윈도우에 의해 가중된다. 예를 들어, MPEG-AAC의 전형적인 프레임 크기는 1024 샘플이다. 각각의 새로운 프레임에 대해, 디코더는 2048개의 샘플을 재구성하며, 이들 중 처음 1024개는 이전 블록의 마지막 1024 샘플들에 추가되고 그 결과가 디코더 출력이다. 프레임 k와 함께 오는 정보 블록들이 재구성된 블록의 두 번째 절반 동안 균일하게 스케줄링된다. 각 정보 블록 내의 이득 값들이 정보 블록의 지속기간에 걸쳐 균일하게 분배된다. 이러한 방안은 보간법 뿐만 아니라 디코딩이 시작하고 종료할 때 모든 필요한 DRC 이득 값들이 이용가능할 것을 보장한다.
예시가 도 11에 도시되며, 비트스트림의 프레임 n이 합성 윈도우의 두 번째 절반에 대한 DRC 이득을 포함한다. 프레임 n은 각각 1, 8, 2 및 4 DRC 이득 값들을 갖는 4 정보 블록들을 구비한다. DRC 이득 값들의 타이밍은 각 정보 블록 내의 이득 값들의 균일한 분배에 기초하여 컴퓨팅된다. 후속하여, 선형 보간법은 각 시간 도메인 오디오 샘플에 대한 이득 값들을 생성하도록 사용된다.
[표 34]
Figure 112017071568122-pat00088
이득 값 타이밍의 계산이 표 34에 주어진다. 결과적인 tGain[g][k]는 현재 출력 프레임의 제1 샘플에서 0.0으로 시작하는 샘플 간격의 단위인 샘플 위치를 나타낸다. 프레임 크기는 샘플에서
Figure 112017071568122-pat00089
로 표기된다. 이득 값들 및 그들의 타이밍이 주어졌을 때, 현재 출력 프레임의 모든 샘플들에 대한 완만한 이득 곡선이 표 35에 도시된 바와 같이 선형 이득 값들의 선형 보간법에 의해 구성될 수 있다. gDRCprev는 이전 프레임의 마지막 DRC 이득 값이다. 이러한 실시예에서, 다음 프레임의 제1 이득 값이 출력에 대한 프레임의 이득 값들을 보간하기 위해 필요하다. 오버랩-추가 프로세스로 인해, 이러한 이득 값이 비트스트림 내에서 여분의 선행 판독 없이 이용가능하다. 함수 toLinear()는 dB 단위인 로그 값으로부터 선형 이득 값을 생성하도록 모든 필요한 단계들을 포함하기 위해 도입된다.
[표 35]
Figure 112017071568122-pat00090
마지막으로, 보간된 DRC 이득이 표 36에서 도시된 바와 같이 적용된다.
[표 36]
Figure 112017071568122-pat00091
전술된 이러한 실시예는 MPEG-오디오와 같은 오디오 표준에 대해 향상된 DRC 메타데이터 인코딩 및 프로세싱을 포함한다. 에일리어싱 왜곡 발생 및 DRC 메타데이터의 불충분한 시간 해상도와 같은 현재 표준의 단점이 해소되었다.
전술된 바와 같이, 다수의 기술들이 사운드 프로그램 컨텐츠의 조각에 대해 DRC 이득 값들을 인코딩 및 적용하기 위해 사용될 수 있다. 일부 실시예들에서, 시간 도메인 내의 오디오 신호에 주파수 도메인 동적 범위 제어(DRC) 이득 값들을 적용하기 위한 방법은: 인코딩된 오디오 신호 및 주파수 도메인 DRC 이득 값들을 포함하는 비트스트림을 수신하는 단계; 재생 디바이스 내의 디코더에 의해 시간 도메인 내의 디코딩된 오디오 신호를 생산하도록 인코딩된 오디오 신호를 디코딩하는 단계; 디코더에 의해서, 시간 도메인 내의 디코딩된 오디오 신호에 주파수 DRC 이득 값들을 적용하기 위해 DRC 윈도우 가중값을 결정하는 단계; 주파수 도메인 DRC 이득 값들 및 DRC 윈도우 가중값에 기초하여 시간 도메인 DRC 이득 값들을 결정하는 단계; 및 시간 도메인 내의 디코딩된 오디오 신호의 상응하는 프레임에 대해 시간 도메인 DRC 이득 값들을 적용하는 단계를 포함한다.
일 실시예에서, DRC 윈도우 가중값은 디코더의 합성 윈도우에 기초하여 결정된다. 일 실시예에서, DRC 윈도우 가중값은 디코더의 합성 윈도우와 동일한 타이밍을 갖는 디코더 합성 윈도우의 제곱으로서 컴퓨팅된다. 일 실시예에서, DRC 윈도우 가중값은 디코더의 합성 윈도우 및 인코더의 윈도우의 곱에 기초하여 결정된다. 일 실시예에서, 디코딩된 오디오 신호의 현재 프레임에 대한 시간 도메인 DRC 이득 값들이 적용된 상응하는 DRC 윈도우 가중값을 갖는 현재 프레임에 대한 주파수 도메인 DRC 이득 값들 및 적용된 상응하는 DRC 윈도우 가중값을 갖는 이전 프레임에 대한 주파수 도메인 DRC 이득 값들에 기초하여 결정된다. 일 실시예에서, 시간 도메인 내의 DRC 오디오 신호를 생산하도록 시간 도메인 DRC 이득 값들을 적용하는 것은 디코딩된 오디오 신호의 상응하는 시간 분할과 시간 도메인 DRC 이득 값들의 곱에 기초한다. 일 실시예에서, 하나 이상의 시간 도메인 DRC 이득 값이 디코딩된 오디오 신호에 대한 전체 DRC 윈도우에 적용된다. 일 실시예에서, 인코딩된 오디오 신호는 무빙 픽처 전문가 그룹-개선된 오디오 코딩(MPEG-AAC) DRC 오디오 신호이다. 일 실시예에서, 인코딩된 오디오 신호는 개선된 텔레비전 시스템 위원회(ATSC) DRC 오디오 신호이다.
다른 실시예에서, 사운드 프로그램 컨텐츠의 조각을 나타내는 비트스트림 내의 동적 범위 제어(DRC) 이득 값들을 인코딩하는 방법은: DRC 그룹들의 세트로부터 단일 DRC 그룹으로 사운드 프로그램 컨텐츠의 각 오디오 채널을 그루핑하는 단계; 및 DRC 이득 메타데이터를 각 DRC 그룹에 대한 비트스트림에 삽입하는 단계를 포함하며, 각 DRC 그룹에 대한 DRC 이득 메타데이터가 DRC 그룹 내의 각 프레임에 상응하는 DRC 이득 값들을 변하기 쉽게 적용하도록 사용된다. 일 실시예에서, 각 DRC 그룹에 대한 DRC 이득 메타데이터는: 초기 DRC 이득 값에 대해 선택된 코딩 모드를 나타내는 제1 데이터 값; 초기 DRC 이득 값을 나타내는 제2 데이터 값; 및 DRC 그룹의 각 프레임에 대한 DRC 이득 값들을 생성하도록 초기 DRC 이득 값에 적용되는 차이를 나타내는 제3 데이터 값을 포함한다. 일 실시예에서, 제1 데이터 값은 초기 DRC 이득 값에 기초한 DRC 그룹의 각 프레임에 적용하기 위한 이득 값들의 수를 나타낸다. 일 실시예에서, 제1 데이터 값에 의해 표현된 선택된 코딩 모드는 코딩 모드들의 사전정의된 세트로부터 선택된다. 일 실시예에서, DRC 이득 값들은 보간법을 이용하여 적용된다. 일 실시예에서, 보간법은 선형 도메인 내의 선형 보간법이다. 일 실시예에서, 다중 채널들이 단일 DRC 그룹으로 할당된다. 일 실시예에서, 불균일한 시간 해상도가 비트스트림의 비트레이트를 최소화하도록 인코더 DRC에 의해 생성된 이득의 변화에 기초하여 DRC 이득 값들의 업데이트의 속도에 대해 사용된다. 일 실시예에서, 초기 이득 값을 나타내는 제1 데이터 값은 비트스트림의 비트레이트를 최소화하도록 음향심리학에 기초한 불균일한 양자화 스케일을 이용하여 인코딩된다. 일 실시에에서, 초기 이득 값을 나타내는 제1 데이터 값은 비트스트림의 비트레이트를 최소화하도록 가변 길이 코드를 이용하여 인코딩된다. 일 실시예에서, DRC 그룹의 각 프레임에 대한 초기 DRC 이득 값에 적용되는 차이를 나타내는 제3 데이터 값은 비트스트림의 비트레이트를 최소화하도록 인코딩된다. 일 실시예에서, 초기 DRC 이득 값에 적용되는 차이를 나타내는 제3 데이터 값은 비트스트림의 비트레이트를 최소화하도록 인코딩된 가변 길이 코드이다.
전술된 바와 같이, 본 발명의 실시예는 전술된 동작들의 일부를 수행하기 위한 하나 이상의 데이터 프로세싱 구성요소들(일반적으로 여기에서 "프로세서" 또는 "컴퓨터 시스템"으로 지칭됨)을 프로그래밍하는 명령어들이 저장된 하나 이상의 고체 상태 메모리 디바이스와 같은 기계-판독가능한 매체일 수 있다. 다른 실시예들에서, 이러한 동작들의 일부는 하드와이어드 로직을 포함하는 특정한 하드웨어 구성요소들에 의해 수행될 수 있다. 대안적으로 이러한 동작들은 프로그래밍된 데이터 프로세싱 구성요소들 및 고정된 하드와이어드 회로 구성요소의 임의의 조합에 의해 수행될 수 있다.
소정의 실시예들이 기술되었고 첨부된 도면에 도시되었지만, 이러한 실시예들은 광범위한 발명을 제한하지 않고 단지 예시적인 것이며, 다양한 다른 수정들이 당업자에게 발생할 수 있기 때문에 본 발명이 도시되고 기술된 특정한 구성 및 배치로 한정되지 않는다는 점이 이해될 것이다. 따라서 이러한 설명은 제한적인 것이 아닌 예시적인 것으로 간주된다.

Claims (21)

  1. 사운드 프로그램 콘텐츠의 조각에 동적 범위 제어(DRC) 이득 값들을 적용하는 방법으로서,
    전자 오디오 재생 디바이스에 의해, DRC 구성 정보를 수집하는 단계 - 상기 DRC 구성 정보는 전체 오디오 대역에 대한 비트스트림 내의 DRC 채널 그룹들의 개수 및 상기 비트스트림 내의 독립적인 DRC 이득 시퀀스들의 개수를 표시함 -;
    각각의 DRC 이득 프레임에 대한 DRC 이득 값들을 나타내는 수량화된 데이터 값들을 회수하기 위해 상기 비트스트림을 분석하는 단계;
    상기 비트스트림의 비트레이트를 감소시키기 위해 인코딩을 거친 DRC 이득 데이터를 생성하기 위해 코드 테이블들을 사용하여 상기 수량화된 데이터 값들을 디코딩하는 단계;
    상기 사운드 프로그램 콘텐츠의 조각의 대응되는 오디오 프레임들에 적용되기 위한 DRC 이득 값들을 생성하도록, 상기 인코딩을 취소하기 위해 상기 DRC 이득 데이터를 디코딩하는 단계; 및
    각각의 오디오 프레임의 상기 전체 오디오 대역에 상기 DRC 이득 값들을 적용하는 단계를 포함하고,
    상기 DRC 이득 데이터를 디코딩하는 단계는,
    상기 비트스트림으로부터 하나 이상의 시간 델타 값들을 추출하는 단계 - 상기 시간 델타 값들은 DRC 이득 값들의 쌍들 사이의 시간 분리를 표시함 -; 및
    상기 비트스트림으로부터 하나 이상의 이득 델타 값들을 추출하는 단계 - 상기 이득 델타 값들은 DRC 이득 값들의 쌍들 사이의 DRC 이득 값 차이들을 표시함 -;
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 DRC 구성 정보는 상기 비트스트림의 헤더로부터 수집되는, 방법.
  3. 제1항에 있어서,
    각각의 DRC 채널 그룹 내의 각각의 DRC 이득 프레임에 대한 상기 비트스트림으로부터 코딩 모드 데이터 값을 추출하는 단계를 더 포함하고, 상기 코딩 모드 데이터 값은 각각의 대응되는 DRC 이득 프레임 내의 상기 DRC 이득 값들의 인코딩 모드를 나타내는, 방법.
  4. 제3항에 있어서,
    각각의 DRC 이득 프레임에 대한 상기 비트스트림으로부터 초기 이득 값을 추출하는 단계를 더 포함하고, 상기 초기 이득 값은 대응되는 오디오 프레임의 제1 세그먼트에 이득을 적용하기 위해 사용되는, 방법.
  5. 제1항에 있어서,
    각각의 DRC 이득 프레임에 대한 상기 비트스트림으로부터 초기 이득 값을 추출하는 단계를 더 포함하고, 상기 초기 이득 값은 대응되는 오디오 프레임의 제1 세그먼트에 이득을 적용하기 위해 사용되고,
    상기 DRC 이득 데이터를 디코딩하는 단계는,
    대응되는 DRC 이득 프레임에 대한 상기 초기 이득 값에 기초하여 오디오 프레임의 상기 제1 세그먼트에 대한 DRC 이득 값을을 생성하는 단계; 및
    상기 제1 세그먼트에 대해 생성된 상기 DRC 이득 값, 타임 델타 값들, 및 상기 제1 세그먼트 및 제2 세그먼트와 관련된 이득 델타 값들에 기초한 보간법(interpolation)을 사용하여 상기 오디오 프레임의 상기 제2 세그먼트에 대한 DRC 이득 값을 생성하는 단계를 포함하는, 방법.
  6. 제5항에 있어서,
    상기 보간법은 선형 보간법 또는 윈도우-기반 오버랩-추가 보간법인, 방법.
  7. 제1항에 있어서,
    상기 DRC 이득 데이터를 디코딩하는 단계는:
    각각의 DRC 이득 프레임에 대한 상기 비트스트림으로부터 기울기 값들을 추출하는 단계를 포함하고, 상기 기울기 값들은 상기 DRC 이득 값들을 나타내는 DRC 이득 곡선의 샘플링된 포인트들에 대응하는, 방법.
  8. 제7항에 있어서,
    상기 DRC 이득 데이터를 디코딩하는 단계는:
    대응되는 DRC 이득 프레임에 대한 초기 이득 값에 기초하여 오디오 프레임의 제1 세그먼트에 대한 DRC 이득 값을 생성하는 단계; 및
    상기 제1 세그먼트에 대해 생성된 상기 DRC 이득 값, 기울기 값, 타임 델타 값들, 및 상기 제1 세그먼트 및 제2 세그먼트에 관련된 이득 델타 값들에 기초한 보간법을 사용하여 상기 오디오 프레임의 상기 제2 세그먼트에 대한 DRC 이득 값들을 생성하는 단계를 포함하는, 방법.
  9. 제8항에 있어서,
    상기 보간법은 스플라인(spline) 보간법인, 방법.
  10. 제조품으로서,
    명령어들을 저장하는 비-일시적 기계-판독가능한 매체 - 상기 명령어들은 비트스트림 내의 DRC 채널 그룹들의 개수 및 상기 비트스트림 내의 독립적인 DRC 이득 시퀀스들의 개수를 표시하는 동적 범위 제어(DRC) 구성 정보를 수집하도록 프로세서를 프로그래밍하고, 상기 비트스트림은 사운드 프로그램 컨텐츠의 조각을 포함하고, 상기 DRC 구성 정보는 전체 오디오 대역을 지칭함 -; 및
    각각의 DRC 이득 프레임들에 대한 DRC 이득 값들을 나타내는 수량화된 데이터 값들을 회수하기 위해 상기 비트스트림을 분석하고, 상기 비트스트림의 비트레이트를 감소시키기 위해 인코딩을 거친 DRC 이득 데이터를 생성하기 위해 코드 테이블들을 사용하여 상기 수량화된 데이터 값들을 디코딩하고, 상기 비트스트림으로부터 하나 이상의 시간 델타 값들을 추출하고 - 각각의 상기 시간 델타 값들은 DRC 이득 값들의 쌍 사이의 시간 분리를 표시함 - 상기 비트스트림으로부터 하나 이상의 이득 델타 값들을 추출함으로써 - 각각의 상기 이득 델타 값들은 DRC 이득 값들의 쌍 사이의 이득 값 차이를 표시함 - DRC 이득 값들을 생성하도록, 상기 인코딩을 취소하기 위해 상기 DRC 이득 데이터를 디코딩하고, 상기 사운드 프로그램 컨텐츠의 조각의 대응되는 오디오 프레임들에 상기 DRC 이득 값들을 적용하기 위한 프로그래밍된 프로세서 - 상기 DRC 이득 값들은 각각의 오디오 프레임의 상기 전체 오디오 대역에 적용됨 -
    를 포함하는, 제조품.
  11. 제10항에 있어서,
    상기 기계-판독가능한 매체는 상기 비트스트림의 헤더로부터 상기 DRC 구성 정보를 수집하도록 상기 프로세서를 프로그래밍하는 명령어들을 가지는, 제조품.
  12. 제10항에 있어서,
    상기 기계-판독가능한 매체는 각각의 DRC 채널 그룹 내의 각각의 DRC 이득 프레임에 대하여, 상기 비트스트림으로부터 코딩 모드 데이터 값을 추출하도록 상기 프로세서를 프로그래밍하는 추가로 저장된 명령어들을 포함하고, 상기 코딩 모드 데이터 값은 각각의 대응되는 DRC 이득 프레임 내의 상기 DRC 이득 값들의 인코딩 모드를 나타내는, 제조품.
  13. 제12항에 있어서,
    상기 기계-판독가능한 매체는 각각의 DRC 이득 프레임에 대한 상기 비트스트림으로부터 초기 이득 값을 추출하고, 상기 추출된 초기 이득 값을 사용하여 대응되는 오디오 프레임의 제1 세그먼트에 이득을 적용하도록 상기 프로세서를 프로그래밍하는 추가 명령어들을 저장하는, 제조품.
  14. 제13항에 있어서,
    상기 기계-판독가능한 매체는, 각각의 DRC 이득 프레임에 대하여, 상기 비트스트림으로부터 기울기 값들을 추출하도록 상기 프로세서를 프로그래밍하는 추가 명령어들을 저장하고, 상기 기울기 값들은 상기 DRC 이득 값들을 나타내는 DRC 이득 곡선의 샘플링된 포인트들에 대응하는, 제조품.
  15. 제조품으로서,
    명령어들을 저장하는 비-일시적 기계-판독가능한 매체 - 상기 명령어들은 비트스트림 내의 DRC 채널 그룹들의 개수 및 상기 비트스트림 내의 독립적인 DRC 이득 시퀀스들의 개수를 표시하는 동적 범위 제어(DRC) 구성 정보를 수집하도록 프로세서를 프로그래밍하고, 상기 비트스트림은 사운드 프로그램 컨텐츠의 조각을 포함하고, 상기 DRC 구성 정보는 전체 오디오 대역을 지칭함 -; 및
    각각의 DRC 이득 프레임들에 대한 DRC 이득 값들을 나타내는 수량화된 데이터 값들을 회수하기 위해 상기 비트스트림을 분석하고, DRC 이득 데이터를 생성하기 위해 코드 테이블들을 사용하여 상기 수량화된 데이터 값들을 디코딩하고,
    DRC 이득 값들을 생성하도록 i) 상기 비트스트림으로부터 하나 이상의 시간 델타 값들을 추출하고 - 각각의 상기 시간 델타 값들은 DRC 이득 값들의 쌍들 사이의 시간 분리를 표시함 - ii) 상기 비트스트림으로부터 하나 이상의 이득 델타 값들을 추출함으로써 - 상기 이득 델타 값들은 DRC 이득 값들의 쌍들 사이의 DRC 이득 값 차이들을 표시함 - 상기 DRC 이득 데이터를 디코딩하고,
    상기 사운드 프로그램 컨텐츠의 조각의 대응되는 오디오 프레임들에 상기 DRC 이득 값들을 적용하기 위한 프로그래밍된 프로세서 - 상기 DRC 이득 값들은 각각의 오디오 프레임의 상기 전체 오디오 대역에 적용됨 -
    를 포함하는, 제조품.
  16. 제15항에 있어서,
    상기 기계-판독가능한 매체는 각각의 DRC 채널 그룹 내의 각각의 DRC 이득 프레임에 대하여, 상기 비트스트림으로부터 코딩 모드 데이터 값을 추출하도록 상기 프로세서를 프로그래밍하는 추가로 저장된 명령어들을 포함하고, 상기 코딩 모드 데이터 값은 각각의 대응되는 DRC 이득 프레임 내의 상기 DRC 이득 값들의 인코딩 모드를 나타내는, 제조품.
  17. 제15항에 있어서,
    상기 기계-판독가능한 매체는 각각의 DRC 이득 프레임에 대한 상기 비트스트림으로부터 초기 이득 값을 추출하고, 상기 추출된 초기 이득 값을 사용하여 대응되는 오디오 프레임의 제1 세그먼트에 이득을 적용하도록 상기 프로세서를 프로그래밍하는 추가 명령어들을 저장하는, 제조품.
  18. 제17항에 있어서,
    상기 기계-판독가능한 매체는 상기 비트스트림으로부터 하나 이상의 시간 델타 값들을 추출하고 - 각각의 상기 시간 델타 값들은 DRC 이득 값들의 쌍들 사이의 시간 분리를 표시함 -, 상기 비트스트림으로부터 하나 이상의 이득 델타 값들을 추출하도록 - 상기 이득 델타 값들은 DRC 이득 값들의 쌍들 사이의 DRC 이득 값 차이들을 표시함 - 상기 프로세서를 프로그래밍하는 명령어들을 저장하는, 제조품.
  19. 제18항에 있어서,
    상기 기계-판독가능한 매체는
    대응되는 DRC 이득 프레임에 대한 상기 초기 이득 값에 기초하여, 오디오 프레임의 상기 제1 세그먼트에 대한 DRC 이득 값을 생성하고,
    상기 제1 세그먼트에 대해 생성된 상기 DRC 이득 값, 타임 델타 값들 및 제1 및 제2 세그먼트와 관련된 이득 델타 값들에 기초한 보간법을 사용하여 상기 오디오 프레임의 제2 세그먼트에 대한 DRC 이득 값들을 생성하도록 상기 프로세서를 프로그래밍하는 추가 명령어를 포함하는, 제조품.
  20. 제19항에 있어서,
    상기 기계-판독가능한 매체에 저장된 상기 명령어들은 상기 오디오 프레임의 상기 제2 세그먼트에 대한 상기 DRC 이득 값들을 생성할 때 선형 보간법을 수행하도록 상기 프로세서를 프로그래밍하는, 제조품.
  21. 제15항에 있어서,
    상기 기계-판독가능한 매체는, 각각의 DRC 이득 프레임에 대하여, 상기 비트스트림으로부터 기울기 값들을 추출하도록 상기 프로세서를 프로그래밍하는 추가 명령어들을 저장하고, 상기 기울기 값들은 상기 DRC 이득 값들을 나타내는 DRC 이득 곡선의 샘플링된 포인트들에 대응하는, 제조품.
KR1020177020847A 2013-03-29 2014-03-27 메타데이터 구동된 동적 범위 제어 KR101942913B1 (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201361806628P 2013-03-29 2013-03-29
US61/806,628 2013-03-29
US201361857966P 2013-07-24 2013-07-24
US61/857,966 2013-07-24
US201361891687P 2013-10-16 2013-10-16
US61/891,687 2013-10-16
US14/226,596 US9607624B2 (en) 2013-03-29 2014-03-26 Metadata driven dynamic range control
US14/226,596 2014-03-26
PCT/US2014/032079 WO2014160895A1 (en) 2013-03-29 2014-03-27 Metadata driven dynamic range control

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020157026766A Division KR101763313B1 (ko) 2013-03-29 2014-03-27 메타데이터 구동된 동적 범위 제어

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020197002097A Division KR102077308B1 (ko) 2013-03-29 2014-03-27 메타데이터 구동된 동적 범위 제어

Publications (2)

Publication Number Publication Date
KR20170090512A KR20170090512A (ko) 2017-08-07
KR101942913B1 true KR101942913B1 (ko) 2019-01-28

Family

ID=51621702

Family Applications (4)

Application Number Title Priority Date Filing Date
KR1020177020847A KR101942913B1 (ko) 2013-03-29 2014-03-27 메타데이터 구동된 동적 범위 제어
KR1020207003807A KR102163613B1 (ko) 2013-03-29 2014-03-27 메타데이터 구동된 동적 범위 제어
KR1020197002097A KR102077308B1 (ko) 2013-03-29 2014-03-27 메타데이터 구동된 동적 범위 제어
KR1020157026766A KR101763313B1 (ko) 2013-03-29 2014-03-27 메타데이터 구동된 동적 범위 제어

Family Applications After (3)

Application Number Title Priority Date Filing Date
KR1020207003807A KR102163613B1 (ko) 2013-03-29 2014-03-27 메타데이터 구동된 동적 범위 제어
KR1020197002097A KR102077308B1 (ko) 2013-03-29 2014-03-27 메타데이터 구동된 동적 범위 제어
KR1020157026766A KR101763313B1 (ko) 2013-03-29 2014-03-27 메타데이터 구동된 동적 범위 제어

Country Status (9)

Country Link
US (3) US9607624B2 (ko)
EP (2) EP3364412B1 (ko)
KR (4) KR101942913B1 (ko)
CN (3) CN109473114B (ko)
AU (1) AU2014241174B2 (ko)
ES (1) ES2687044T3 (ko)
HK (2) HK1215488A1 (ko)
TW (1) TWI562131B (ko)
WO (1) WO2014160895A1 (ko)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI447709B (zh) 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US9729115B2 (en) 2012-04-27 2017-08-08 Sonos, Inc. Intelligently increasing the sound level of player
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN112185400A (zh) 2012-05-18 2021-01-05 杜比实验室特许公司 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统
US9008330B2 (en) 2012-09-28 2015-04-14 Sonos, Inc. Crossover frequency adjustments for audio speakers
EP2901449B1 (en) 2013-01-21 2018-01-03 Dolby Laboratories Licensing Corporation Audio encoder and decoder with program loudness and boundary metadata
BR112015017064B1 (pt) 2013-01-21 2022-03-22 Dolby Laboratories Licensing Corporation Método, meio legível em computador e aparelho para otimizar o nível de intensidade do som e a faixa dinâmica através de dispositivos de reprodução diferentes
CN110379434B (zh) 2013-02-21 2023-07-04 杜比国际公司 用于参数化多声道编码的方法
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9607624B2 (en) 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
CN110083714B (zh) * 2013-04-05 2024-02-13 杜比实验室特许公司 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9858932B2 (en) * 2013-07-08 2018-01-02 Dolby Laboratories Licensing Corporation Processing of time-varying metadata for lossless resampling
WO2015038522A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
EP3044876B1 (en) 2013-09-12 2019-04-10 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
US9226073B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9226087B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
CN111326165B (zh) * 2014-03-25 2023-12-12 弗朗霍夫应用科学研究促进协会 音频编码器装置、音频解码器装置、及其操作方法
CN110808723A (zh) 2014-05-26 2020-02-18 杜比实验室特许公司 音频信号响度控制
CN113257275A (zh) 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
EP4060661B1 (en) 2014-10-10 2024-04-24 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
CN105629157B (zh) * 2014-12-01 2018-10-26 中国航空工业集团公司第六三一研究所 高速数字采集中数据可信度的判别方法
CN113242448B (zh) 2015-06-02 2023-07-14 索尼公司 发送装置和方法、媒体处理装置和方法以及接收装置
KR102668642B1 (ko) * 2015-06-17 2024-05-24 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US10341770B2 (en) * 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
US10210874B2 (en) * 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding
US10924078B2 (en) 2017-03-31 2021-02-16 Dolby International Ab Inversion of dynamic range control
CN107180642B (zh) * 2017-07-20 2020-12-18 北京华捷艾米科技有限公司 音频信号校正方法、装置及设备
KR102441950B1 (ko) 2017-08-11 2022-09-08 삼성전자 주식회사 오디오 신호의 크기에 기반하여 오디오 신호를 증폭하는 방법 및 이를 구현한 전자 장치
US10911013B2 (en) 2018-07-05 2021-02-02 Comcast Cable Communications, Llc Dynamic audio normalization process
EP3827429A4 (en) * 2018-07-25 2022-04-20 Dolby Laboratories Licensing Corporation COMPRESSOR TARGET CURVE TO AVOID AMPLIFICATION NOISE
KR102106707B1 (ko) * 2018-09-18 2020-05-04 전자부품연구원 오디오 음량 컨트롤 방법 및 장치
CN110223244B (zh) * 2019-05-13 2021-08-27 浙江大华技术股份有限公司 一种图像处理的方法、装置、电子设备和存储介质
KR20220047816A (ko) * 2019-08-15 2022-04-19 돌비 레버러토리즈 라이쎈싱 코오포레이션 수정된 비트스트림들의 생성 및 처리를 위한 방법들 및 디바이스들
US11967330B2 (en) 2019-08-15 2024-04-23 Dolby International Ab Methods and devices for generation and processing of modified audio bitstreams
CN114125658B (zh) * 2020-08-25 2023-12-19 上海艾为电子技术股份有限公司 动态范围控制电路、音频处理芯片及其音频处理方法
US11907611B2 (en) * 2020-11-10 2024-02-20 Apple Inc. Deferred loudness adjustment for dynamic range control
US11716520B2 (en) * 2021-06-25 2023-08-01 Netflix, Inc. Systems and methods for providing optimized time scales and accurate presentation time stamps
WO2023198862A1 (en) * 2022-04-13 2023-10-19 Dolby International Ab Time-domain gain modeling in the qmf domain
CN117153191B (zh) * 2023-11-01 2023-12-29 中瑞科技术有限公司 一种基于远程通信的对讲机音频采集控制方法及系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6782366B1 (en) 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
CN1485849A (zh) * 2002-09-23 2004-03-31 上海乐金广电电子有限公司 数字音频编码器及解码方法
KR100732659B1 (ko) * 2003-05-01 2007-06-27 노키아 코포레이션 가변 비트 레이트 광대역 스피치 음성 코딩시의 이득양자화를 위한 방법 및 장치
US7398207B2 (en) 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
CN1930914B (zh) * 2004-03-04 2012-06-27 艾格瑞系统有限公司 对多声道音频信号进行编码和合成的方法和装置
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
WO2006132857A2 (en) * 2005-06-03 2006-12-14 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
TWI409803B (zh) * 2005-06-30 2013-09-21 Lg Electronics Inc 音頻訊號之編碼及解碼方法及其裝置
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
US7949419B2 (en) * 2006-11-30 2011-05-24 Broadcom Corporation Method and system for controlling gain during multipath multi-rate audio processing
DE102007018484B4 (de) * 2007-03-20 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
EP2229007B1 (en) 2009-03-08 2013-12-25 LG Electronics Inc. An apparatus for processing an audio signal and method thereof
CN101959288B (zh) * 2009-07-15 2013-08-21 展讯通信(上海)有限公司 接收信号的自动增益控制调整方法及信号接收设备
TWI447709B (zh) 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
WO2011128985A1 (ja) * 2010-04-13 2011-10-20 パイオニア株式会社 情報記録媒体、情報記録装置及び方法、並びに情報再生装置及び方法
WO2012026092A1 (ja) * 2010-08-23 2012-03-01 パナソニック株式会社 音声信号処理装置及び音声信号処理方法
WO2013068637A1 (en) 2011-11-08 2013-05-16 Nokia Corporation A method and an apparatus for automatic volume leveling of audio signals
US9607624B2 (en) 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
PL3522157T3 (pl) * 2013-10-22 2022-02-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koncepcja połączonej kompresji zakresu dynamiki i sterowanego zapobiegania obcinaniu dla urządzeń audio
ITCO20130051A1 (it) 2013-10-23 2015-04-24 Nuovo Pignone Srl Metodo per la produzione di uno stadio di una turbina a vapore
EP3451706B1 (en) * 2014-03-24 2023-11-01 Dolby International AB Method and device for applying dynamic range compression to a higher order ambisonics signal

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ATSC Standard: Digital Audio Compression (AC-3). Advanced Television Systems Committee. Doc.A/52:2012. 2012.12.17.
Charles Q Robinson, et al. Dynamic Range Control via Metadata. Audio Engineering Society Convention 107. Audio Engineering Society, 1999.
Frank Baumgarte. Enhanced Metadata for Dynamic Range Compression. ISO/IEC JTC1/SC29/WG11 MPEG2013/M28901. 2013.04.17.*
Text of ISO/IEC13818-7:2004 (MPEG-2 AAC 3rd edition). ISO/IEC JTC1/SC29/WG11 N6428. 2004.*

Also Published As

Publication number Publication date
KR102163613B1 (ko) 2020-10-08
WO2014160895A1 (en) 2014-10-02
EP2956937A1 (en) 2015-12-23
CN109509477A (zh) 2019-03-22
CN109473114A (zh) 2019-03-15
KR20150122759A (ko) 2015-11-02
HK1215488A1 (zh) 2016-08-26
US20140297291A1 (en) 2014-10-02
ES2687044T3 (es) 2018-10-23
HK1257290A1 (zh) 2019-10-18
CN105144289B (zh) 2018-12-04
KR102077308B1 (ko) 2020-02-14
EP3364412A1 (en) 2018-08-22
AU2014241174B2 (en) 2017-05-11
AU2014241174A1 (en) 2015-10-01
KR20200016416A (ko) 2020-02-14
KR20170090512A (ko) 2017-08-07
US9607624B2 (en) 2017-03-28
KR20190010729A (ko) 2019-01-30
US10453463B2 (en) 2019-10-22
TW201503108A (zh) 2015-01-16
CN109473114B (zh) 2023-09-29
CN105144289A (zh) 2015-12-09
US11315579B2 (en) 2022-04-26
US20170229134A1 (en) 2017-08-10
CN109509477B (zh) 2023-08-04
EP3364412B1 (en) 2021-09-01
KR101763313B1 (ko) 2017-08-14
TWI562131B (en) 2016-12-11
US20190378524A1 (en) 2019-12-12
EP2956937B1 (en) 2018-06-13

Similar Documents

Publication Publication Date Title
KR101942913B1 (ko) 메타데이터 구동된 동적 범위 제어
US8527282B2 (en) Method and an apparatus for processing a signal
KR102578950B1 (ko) 스테레오 신호 인코딩 방법 및 장치
KR102622804B1 (ko) 오디오 신호의 고주파 재구성을 위한 하모닉 트랜스포저의 하위호환형 통합
CN110556116A (zh) 计算下混信号和残差信号的方法和装置
TWI841856B (zh) 音頻量化器和音頻去量化器及相關方法以及電腦程式

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant