KR20220063733A

KR20220063733A - 동적 범위 제어를 위한 연기된 라우드니스 조정

Info

Publication number: KR20220063733A
Application number: KR1020210149867A
Authority: KR
Inventors: 프랭크 바움가르트
Original assignee: 애플 인크.
Priority date: 2020-11-10
Filing date: 2021-11-03
Publication date: 2022-05-17
Also published as: GB2619594B; US20220147311A1; GB202305068D0; US20240143271A1; DE102021128853A1; GB2602873A; JP7465858B2; GB2619594A; CN114464199A; US11907611B2; JP2022077033A; GB202405585D0; GB2602873B

Abstract

오디오 신호의 인코딩된 버전 및 오디오 신호의 순시적인 라우드니스 시퀀스를 포함하는 비트스트림이 디코더 측에 의해 획득된다. 순시적인 라우드니스 시퀀스는 라우드니스 정규화되지 않았다. 라우드니스 정규화를 이용하여 순시적인 라우드니스 시퀀스를 동적 범위 제어, DRC, 특성에 적용함으로써 DRC 이득 시퀀스가 생성된다. DRC 이득 시퀀스는 디코딩된 오디오 신호에 적용된다. 다른 태양들이 또한 설명되고 청구된다.

Description

동적 범위 제어를 위한 연기된 라우드니스 조정{DEFERRED LOUDNESS ADJUSTMENT FOR DYNAMIC RANGE CONTROL}

음악, 팟캐스트(podcast), 라이브 레코딩된 짧은 비디오 클립, 또는 피처 필름과 같은 사운드 프로그램은 그의 동역학 및 동적 범위를 정의하는 라우드(loud) 및 소프트 세그먼트들을 갖는다. 잡음있는 환경에서 헤드셋을 통해 또는 심야 시나리오에서 집에서 스피커들을 통해 청취하는 것과 같은 많은 상황들에서, 청취자의 경험을 개선하기 위해 재생 사운드의 동역학 및 동적 범위를 감소시키는 것이 바람직하다. 동적 범위 압축기들이 그 목적을 위해 사용된다. 이들은 오디오 신호의 소프트 세그먼트들을 증폭하고 라우드 세그먼트들을 감쇠시키기 위해 (사운드 프로그램의) 입력 디지털 오디오 신호에 시변 이득을 적용하는 디지털 신호 프로세서들이다. 오디오 신호의 동적 범위 압축으로부터 기인할 수 있는 가청 펌핑 아티팩트들을 피하기 위해, 입력 오디오 신호를 압축 특성 또는 프로파일에 "정렬시키는" 한편, 압축 특성에 따라 오디오 신호를 압축하는 라우드니스 정규화 프로세스가 수행될 수 있다. 이는 입력 오디오 신호의 순시적인 라우드니스를 그의 프로그램 라우드니스로 오프셋시킴으로써 행해질 수 있는데, 여기서 프로그램 라우드니스는 사운드 프로그램의 전체 라우드니스(또한 통합된 라우드니스로 지칭됨)를 설명하는 것을 목표로 하는 컴퓨팅된 값이다.

오디오 코딩 표준들은 사운드 프로그램이 생성되고 있거나 분배를 위해 또는 저장/보관을 위해 준비되고 있는 인코더 측에서 동적 범위 제어, DRC, 이득들을 생성하는 동적 범위 압축을 위한 방법들을 정의한다. DRC 이득들은 본 명세서에서, 시퀀스 내의 하나 이상의 이득 값들이 사운드 프로그램의 대응하는 디지털 오디오 프레임에 적용되도록, 그의 연관된 사운드 프로그램과 시간 정렬되는 DRC 이득 시퀀스로서 지칭된다. 이어서, DRC 이득 시퀀스는, 예를 들어, 사운드 프로그램과 연관된 메타데이터로서 하나 이상의 비트스트림들로 포맷된다. 디코더 측은 비트스트림을 획득하고, (전형적으로, 디코딩된 오디오 신호의 재생 동안) 디코더 측에 의해 원한다면, 디코딩된 오디오 신호의 동적 범위를 압축하기 위해 인-스트림 DRC 이득들을 적용한다. 이러한 메타데이터-기반의 접근법의 이점은, 달리 실시간 압축에 대해 가능한 것보다, DRC 이득들의 오프라인 인코딩에 대한 더 큰 예견 시간 간격으로 인한 품질 개선이다. 다른 이점은, 압축 특성이, 예를 들어 사운드 프로그램 생성자 또는 분배자의 전문 지식에 따라, 인코더 측에서 제어될 수 있다는 것이다.

온라인 애플리케이션들에서의 메타데이터-기반 DRC(예를 들어, 라이브 오디오 스트리밍 및 파일에 라이브 오디오를 레코딩하는 것)의 경우, (사운드 프로그램이 아직 종료되지 않았기 때문에) 재생을 위해 스트리밍되거나 저장을 위해 파일에 기록되고 있는 사운드 프로그램의 프로그램 라우드니스가 아직 알려져 있지 않으면 어려움이 존재한다. 이는, 사운드 프로그램의 실제 프로그램 라우드니스(이는 사운드 프로그램이 종료된 후에만 결정될 수 있음)가 예상된 또는 예측된 것으로부터 상당히 벗어나면, 압축기 특성이 적절히 조정되지(또는 라우드니스 정규화되지) 않을 수 있기 때문이다.

여기서, 본 개시내용의 몇몇 태양들은 인코더 측으로부터 디코더 측으로, 동적 범위 제어(DRC)를 위한 라우드니스 조정(라우드니스 정규화)을 연기하는 신규한 디지털 신호 프로세싱 방법들이다. 다른 태양들은, 라우드니스 정규화와 함께, 메타데이터-기반 DRC 이득 시퀀스 프로세싱을 사용할 때 디코더 측에서 압축기 특성을 변경하기 위한 기술들이다. 이러한 태양들은 라이브 스트리밍 및 또한 파일에 대한 라이브 레코딩과 같은 애플리케이션들에 특히 유익하다.

상기의 발명의 내용은 본 발명의 모든 태양들의 총망라 목록을 포함하지는 않는다. 본 발명이 상기에서 요약된 다양한 태양들의 모든 적합한 조합들로부터 실시될 수 있는 모든 시스템들 및 방법들뿐만 아니라, 하기의 발명을 실시하기 위한 구체적인 내용에서 개시되고 청구범위 섹션에서 특히 지적되는 것들을 포함한다는 것이 고려된다. 그러한 조합들은 상기의 발명의 내용에서 구체적으로 언급되지 않은 특정의 장점들을 가질 수 있다.

본 명세서의 개시내용의 여러가지 태양들은 첨부 도면들의 도면들에서 제한으로서가 아니라 예로서 예시되며, 첨부 도면들에서 유사한 도면 부호들은 유사한 요소들을 표시한다. 본 개시내용에서 "일" 또는 "하나의" 태양에 대한 참조들이 반드시 동일한 태양에 대한 것은 아니며, 이들은 적어도 하나를 의미한다는 것에 유의해야 한다. 또한, 간결함 및 도면들의 총 수를 감소시키기 위해, 주어진 도면은 본 개시내용의 하나 초과의 태양의 특징부들을 예시하는데 사용될 수 있으며, 도면의 모든 요소들이 주어진 태양에 대해 요구되지는 않을 수 있다.
도 1은 예시적인 DRC 특성 곡선들을 도시한다.
도 2는 디코더 측에서 DRC를 적용하고, 인코더 측에서 라우드니스 정규화가 수행되지 않는 오디오 코덱 시스템의 블록도이다.
도 3은 라이브 스트리밍에 적합한, 디코더 측에서 DRC를 적용하고, 인코더 측에서 라우드니스 정규화가 수행되지 않는 오디오 코덱 시스템의 블록도이다.
도 4는 저장 또는 보관에 대한 라이브 레코딩에 적합한, 디코더 측에서 DRC를 적용하고, 인코더 측에서 라우드니스 정규화가 수행되지 않는 오디오 코덱 시스템의 블록도이다.
도 5는 디코더 측에 DRC를 적용하는 MPEG-D DRC 준수 오디오 코덱 시스템의 일부를 도시한다.
도 6은 인코더 측의 라우드니스 정규화와 함께 디코더 측에서 DRC를 적용하는 MPEG-D DRC 준수 오디오 코덱 시스템의 일부를 도시한다.
도 7은 디코더 측에서 라우드니스 정규화와 함께 DRC를 적용하는 MPEG-D DRC 준수 오디오 코덱 시스템의 일부를 도시한다.
도 8은 역호환가능한 및 역호환가능하지 않은 MPEG-D DRC 비트스트림 확장들을 생성할 수 있는 새로운 인코더 측 프로세스의 흐름도이다.
도 9는 역호환가능한 또는 역호환가능하지 않은 MPEG-D DRC 비트스트림 확장들을 사용하여 DRC 이득 시퀀스를 생성할 수 있는 새로운 디코더 측 프로세스의 흐름도이다.
도 10a 및 도 10b는, 역호환가능한 인코더 측이 새로운 디코더 및 레거시 디코더 둘 모두에 의해 프로세싱되고 있는 역호환가능한 비트스트림을 생성하는 MPEG-D DRC 준수 오디오 코덱 시스템의 블록도이다.

본 개시내용의 몇몇 양태들이 이제 첨부 도면들을 참조하여 설명된다. 설명된 부분들의 형상들, 상대적인 위치들 및 다른 태양들이 명시적으로 정의되지 않을 때마다, 본 발명의 범주는 단지 예시의 목적을 위해 의도되는 도시된 부분들로만 제한되지는 않는다. 또한, 수많은 세부사항들이 기재되지만, 본 개시내용의 일부 태양들이 이들 세부사항들 없이 실시될 수 있다는 것이 이해된다. 다른 예들에서, 본 설명의 이해를 모호하게 하지 않기 위해, 잘 알려진 회로들, 구조들, 및 기술들은 상세히 나타내어져 있지 않다.

동적 범위 제어를 오디오 신호에 적절하게 적용하기 위해, 압축기 특성(DRC 특성, DRC 프로파일)은 오디오 신호의 라우드니스 레벨 범위와 "정렬"되어야 한다. 예를 들어, 도 1을 참조하면, DRC 특성 곡선의 제로-크로싱(zero-crossing)이 대략 오디오 신호의 라우드니스 레벨 범위의 중심에 있도록, 정렬은 입력 레벨 축을 따른다. 제로-크로싱 포인트에서의 레벨은 또한, DRC 입력 라우드니스 타겟으로 지칭되며, 도 1에 도시된 특성 곡선들의 예시적인 세트에서, 그 레벨은 대략 -31 dB이다. 라우드니스 레벨 범위의 중심은, 예를 들어 사운드 프로그램의 평균 레벨, 또는 사운드 프로그램의 평균 대화 레벨일 수 있다. 이러한 정렬을 달성하기 위한 프로세스는 본 명세서에서, 오디오 신호의 DRC와 관련하여 주어진 라우드니스 타겟에 대한 라우드니스 정규화로 지칭된다. 예를 들어, 오디오 신호(사운드 프로그램)의 라우드니스는 통합된 음량으로 알려진 단일 값일 수 있다. 통합된 라우드니스는 오디오 신호의 라우드니스의 측정이며, 이는 루트 제곱 평균, RMS와 유사하지만, 인간 청력의 관점에서 더 신뢰된다. 이는, 사운드 프로그램이 그 전체 지속기간에 걸쳐 얼마나 라우드한지를 측정한다는 점에서 프로그램 라우드니스와 동등할 수 있다. 라우드니스 정규화를 달성하기 위해, 데시벨, dB 단위로 주어지는 경우의 통합된 라우드니스는, dB 단위의 정규화 이득을 유도하기 위해 DRC 입력 라우드니스 타겟으로부터 감산될 수 있다. 정규화 이득은 오디오 신호의 순시적인 라우드니스를 컴퓨팅하는 라우드니스 모델(사운드 프로그램)의 출력에 추가된다. 순시적인 라우드니스는 입력 디지털 오디오 신호를 구성하는 각자의 디지털 오디오 프레임에 기초하여(그리고 그의 인간 인지된 라우드니스를 표현하는) 각각 컴퓨팅된 라우드니스 값들의 시퀀스일 수 있다. 라우드니스 정규화를 달성하기 위한 다른 방식은, 도 1에 도시된 DRC 특성 곡선들을 (정규화 이득의 양만큼) 제로 dB의 우측 또는 좌측으로 시프트하는 것이다. 도 1의 예에서, 곡선들은 좌측으로 -31 dB(이 예에서, 라우드니스 타겟)로 시프트되고, 따라서, -31 dBA(A-가중됨) 또는 LKFS(라우드니스 K-가중된 레벨 풀 스케일)의 통합된 라우드니스를 갖는 사운드 프로그램과 적절히 정렬되는데(그리고 그에 따라 직접 적용될 수 있음), 다시 말하면, 그 경우의 정규화 이득은 제로 dBA일 것이다.

라이브 오디오에 대한 경우와 같이, 동적 범위 제어 신호 프로세싱이 진행중일 때 사운드 프로그램의 통합된 라우드니스가 아직 알려지지 않은 경우, 라우드니스 정규화를 적용하기 위한 예측이 이루어질 필요가 있다. 그러나, 예측은 부정확할 수 있고, 그에 의해, 그들에 원하지 않는 바이어스를 갖는 DRC 이득들을 초래하거나, 또는 오디오 신호의 압축되지 않은 부분들과 압축된 부분들 사이의 원하지 않는 라우드니스 시프트들인 펌핑 효과들을 생성하는 DRC 이득들을 초래할 수 있다.

바람직하지 않은 라우드니스 시프트의 가능성을 감소시키기 위해, 본 명세서의 본 개시내용의 태양은 오디오 코덱 시스템 또는 방법의 인코더 측보다는 디코더 측의 DRC에 라우드니스 정규화를 적용한다. 오디오 코덱 시스템 및 연관된 방법의 예가 도 2의 하드웨어 블록도에 도시된다. 오디오 코덱 시스템 및 방법의 다양한 하드웨어 블록들은 프로그래밍된 프로세서들에 의해 구현될 수 있다. 그러한 방법에서, 통합된 라우드니스(이는, 재생을 위해 또는 디코딩된 오디오 신호의 보관/저장을 위해 DRC와 관련하여 수행되는 라우드니스 정규화에 의해 필요함)는 도 3 및 도 4와 관련하여 아래에서 설명될 적어도 2개의 경우들에서 획득될 수 있다.

도 2부터 시작하여, 오디오 코덱 시스템은, 예를 들어 하나 이상의 서버들에서 일반적으로 본 명세서에서 "프로그래밍된 프로세서"로 지칭되는 메모리에 저장된 명령들에 의해 실행되거나 또는 구성되는 하나 이상의 프로세서들에 의해 구현될 수 있는 인코더 측을 갖는다. 상부 오디오 신호 프로세싱 경로는, 본 명세서에서 사운드 프로그램으로 또한 지칭되는 디지털 입력 오디오 신호(시퀀스)의 순시적인 라우드니스를 컴퓨팅 또는 추정하는 라우드니스 모델을 포함하는 사이드 체인을 포함한다. 이러한 추정은 (손(sone) 스케일과 같은) 지각적인 라우드니스 스케일에 기초하며, 따라서 이는 대략 로그이다. 시간의 경과에 따라 순시적인 라우드니스 시퀀스를 평활화하기 위해, 도시된 바와 같이 평활화 필터가 적용될 수 있다. 이는, 압축 이득 변화들이 바람직하지 않고 매크로-동적 라우드니스 전환들을 영향받지 않게 유지하는 입력 오디오 시퀀스의 영역들에서 평활화를 초래한다.

하부 오디오 신호 프로세싱 경로는 사이드 체인으로 인한 지연을 보상하기 위해 입력 오디오 시퀀스를 지연시키는 지연 블록을 포함한다. 이어서, 평활화된 라우드니스 시퀀스 및 지연된 입력 오디오 시퀀스는 인코더에 공급된다.

인코더는 그의 입력들 중 하나 또는 둘 모두에 대해 비트레이트 감소 동작들을 수행하고, 그의 입력들 중 하나 또는 둘 모두의 비트레이트 감소된 버전들을 포함하는 하나 이상의 비트스트림들을 생성할 수 있다. 이어서, 하나 이상의 비트스트림들은 디코더 측에 (예를 들어, 인터넷을 통해) 송신될 수 있거나, 또는 이들은 디코더 측 프로세스에 의해 액세스될 때까지 저장 또는 보관을 위해 파일에 기록될 수 있다. 평활화된 라우드니스(평활화된 라우드니스 값들의 시퀀스 또는 단일의 평활화된 라우드니스 값들을 지칭함)는, 예를 들어, 이들의 "대응하는" 어드밴스 오디오 코딩, AAC 오디오 프레임들과 연관된 지연된 입력 오디오 시퀀스와 동일한 비트스트림에서 메타데이터로서 전달될 수 있다. 이는 또한 오디오 계층에 있는 것으로 지칭된다. 대안적으로, 평활화된 라우드니스 시퀀스 및 다른 라우드니스 값들, 예를 들어 통합된 라우드니스 업데이트들 및 DRC 페이로드들(아래에서 추가로 논의됨)은 오디오 계층이 아니라 더 높은 계층, 예를 들어 파일 포맷 레벨에서 송신될 수 있다. 두 경우들 모두에서, 평활화된 라우드니스 시퀀스와 같은 연관된 메타데이터 또는 아래에 설명되는 바와 같이 다른 태양들에서, 인코더-소싱된 DRC 이득 시퀀스를 적용하기 위한 디코더 측에 대한 명령어들과 함께 인코딩된 오디오가 제공되는 하나 이상의 비트스트림들이 생성된다.

디코더 측은 또한, 오디오 재생 디바이스의 일부로서 메모리에 저장된 명령들에 의해 실행되거나 구성되는 하나 이상의 프로세서들과 같은 프로그래밍된 프로세서로서 구현될 수 있다. 여기서 디코더 측 프로세스들은 인코더 측 프로세스들과 동일한 오디오 재생 디바이스에서 구현될 수 있다는 점에 유의한다. 대안적으로, 디코더 측 프로세스들은 인코더 측 프로세스들을 수행하는 프로그래밍된 프로세서와 별개인 오디오 재생 디바이스에서 구현될 수 있다. 오디오 재생 디바이스의 예들은 스마트폰, 태블릿 컴퓨터, 디지털 미디어 플레이어, 헤드셋, 또는 차량 인포테인먼트 시스템을 포함한다. 디코더 측에서, 디코더는, 평활화된 라우드니스 시퀀스 및 지연된 입력 오디오 시퀀스를 복구하기 위해, 인코더의 비트레이트 감소 동작들을 실행취소한다. 이어서, 디코딩된 평활화된 라우드니스 값은 "대응하는" DRC 또는 압축 이득 값에 맵핑된다. 이 맵핑은, 예를 들어, 도 1에 예시된 곡선들 중 하나(또는 대안적으로 임의의 다른 원하는 곡선)를 구현하는 메모리-없는 입력-출력 함수이다. 맵핑은, 시변 입력 라우드니스 레벨의 함수인 시변 이득(DRC 이득 값들의 시퀀스)이 출력인 압축기 특성 또는 압축기 프로파일(DRC 특성)을 구성한다. 맵핑은 또한 로그 라우드니스 도메인으로부터 DRC 이득의 선형 도메인으로의 변환을 포함할 수 있다. 이어서, 압축이 요구되는 경우, 도면의 곱하기 심볼에 의해 도시된 바와 같이, 디코딩된 오디오 신호에 DRC 이득 값들(시퀀스)이 적용된다. 이어서, 도시되지 않았지만, 압축된 오디오는, 궁극적으로 압축된 오디오를 사운드로 변환하는 트랜스듀서(스피커) 드라이버 입력 신호들을 생성하는 재생 프로세싱 블록으로 전달될 수 있다.

도 2에서, 평활화된 라우드니스 시퀀스가 DRC 맵핑 블록에 입력되기 전에 디코더 측에서 조정되거나 정규화됨을 알 수 있다. 예를 들어, 정규화 이득을 dB 단위로 도출하기 위해, 일정한 통합된 라우드니스(단일 값)가 (dB 도메인에서) DRC 입력 라우드니스 타겟으로부터 감산될 수 있다. 정규화 이득은, 평활화된 라우드니스 시퀀스에 있는 각각의 평활화된 라우드니스 값에 추가되어, DRC 프로세스에서 사용되는 정규화된 라우드니스 시퀀스를 산출한다. 그러한 DRC 프로세스의 적어도 2개의 애플리케이션들, 예를 들어 라이브 또는 실시간 스트리밍 및 저장 또는 보관을 위한 파일로의 라이브 레코딩이 존재한다.

하나의 그러한 애플리케이션에서, 이제 도 3을 참조하면, 인코더 측에서의 입력 오디오는, 예를 들어, 인터넷을 통해 디코더 측으로 스트리밍되는 라이브 또는 실시간 디지털 오디오 레코딩이다. 입력 오디오는 인코딩 및 비트스트림 송신과 동시에 발생하는 라이브 또는 실시간 이벤트의 오디오 캡처를 포함한다. 따라서, 전체 사운드 프로그램을 표현하는 단일의 통합된 라우드니스 값은 라이브 이벤트가 종료될 때까지 컴퓨팅될 수 없다. 그 때까지, 인코더 측의 통합된 라우드니스 측정 블록은, 5 내지 100 msec의 단일 오디오 프레임보다 긴 시간 간격, 예를 들어, 수 초에 걸쳐, 시간 정렬을 위해 지연된 인코더로 전송되는 라이브 오디오의 샘플들을 수집하고, 그 간격의 라우드니스의 측정을 컴퓨팅한다. 이어서, 통합된 라우드니스 업데이트를 컴퓨팅하기 위해, 사운드 프로그램의 시작으로 되돌아가는 그러한 측정들 중 몇몇을 "통합"하거나 수집하는데, 예를 들어, 이들을 평균화한다. 통합된 라우드니스 업데이트는 현재 업데이트까지 재생되거나 스트리밍된 사운드 프로그램의 부분에 대해서만 통합된 라우드니스의 측정일 수 있다. 이러한 측정은 예를 들어, 주기적으로 반복되어 "실행 평균" 통합 라우드니스를 생성하고, 최신의 통합된 라우드니스 업데이트(단일 값임)를 디코더 측에 송신한다. 본 명세서에 사용되는 바와 같은 용어 "실행 평균"은 실제 평균이 수행될 것을 요구하지 않으며, 수집된 라우드니스 측정치들의 통계치를 평가하는 것을 포함하는 라우드니스 측정치들을 수집하는 것에 기초하여, 현재 업데이트까지 프로그램의 시작으로부터 사운드 프로그램의 라우드니스의 어떤 측정만이 수행된다는 것에 유의한다. 업데이트들(실행 평균들)은, 통합된 라우드니스 업데이트 필드의 복수의 인스턴스들로서 인코딩된 사운드 프로그램(인코딩된 오디오 신호)을 또한 포함하는 비트스트림의 일부로서 컴퓨팅되고 이어서 제공될 수 있으며, 비트스트림의 인접한 인스턴스들은 사운드 프로그램의 지속기간에 걸쳐 1 초 내지 10 초 간격으로 떨어져 있다.

또한, 용어 "통합된 라우드니스 업데이트"는 또한 실행 평균 라우드니스 또는 "부분 통합된 라우드니스"로 지칭될 수 있고; 사운드 프로그램의 종료 시에, 마지막 또는 최종 통합된 라우드니스 업데이트는 전체 사운드 프로그램의 라우드니스(예를 들어, 오디오 프로그램 라우드니스 및 실제-피크 오디오 레벨을 측정하기 위해 Recommendation ITU-R BS.1770-4 (10/2015) 알고리즘들에서 설명된 바와 같은 통합된 라우드니스 또는 프로그램 라우드니스로 또한 지칭됨)를 표현할 수 있음에 유의한다.

디코더 측에서, 디코더는 비트스트림을 획득하고, 그 비트스트림으로부터, 디코더 측 프로세스가 DRC 프로세스를 정규화하는 데 적용하는 통합된 라우드니스 업데이트를 추출한다. 이는, 예를 들어, DRC 특성 맵핑 블록에 대한 입력 전에 디코딩된 또는 복구된 순시적인 라우드니스 시퀀스에 단일의 라우드니스 정규화 이득 값(예를 들어, DRC 입력 라우드니스 타겟과 통합된 라우드니스 업데이트 값 사이의 차이)을 추가함으로써 수행될 수 있다. 대안적으로, 라우드니스 정규화는 그의 입력 축을 따라 라우드니스 정규화 이득 값과 동일한 양만큼 DRC 특성을 시프트함으로써 수행될 수 있다. 라우드니스 정규화 이득은, 라이브 이벤트의 경과된 부분에 대해 인코더 측에서 컴퓨팅된 최신의 부분적 통합된 라우드니스 값(통합된 라우드니스 업데이트)으로, 비트스트림(사운드 프로그램)의 송신 동안 주기적으로 업데이트될 수 있다.

다른 애플리케이션에서, 이제 도 4를 참조하면, 인코더 측에서의 입력 오디오는 보관 또는 저장 목적으로 (이벤트가 종료될 때) 레코딩의 종료 시에 파일에 기록될 이벤트의 라이브 또는 실시간 디지털 오디오 레코딩이다. 전체 라이브 오디오 이벤트의 프로그램 라우드니스를 표현하는 단일의 통합된 라우드니스 값은 통합된 라우드니스 모델 블록에 의해 레코딩의 종료 시에 컴퓨팅되어 이벤트가 종료되자마자 인코더에 제공될 수 있다. 인코더는, (동일한 라이브 오디오에 기초하여) 라우드니스 모델에 의해 컴퓨팅되고 있던 순시적인(그리고 평활화된) 라우드니스 시퀀스의 인코딩된 버전과 함께, 그리고 인코딩된 버전의 라이브 오디오와 함께 통합된 라우드니스 값을 파일에 기록한다. 디코더 측에서, 디코더는 파일(비트스트림)을 획득하고, 파일로부터 입력 오디오 및 순시적인 라우드니스 시퀀스를 디코딩하고, 파일로부터 통합된 라우드니스 값을 추출한다. 이어서, 디코더 측 프로세스는 통합된 라우드니스 값을 사용하여, DRC(압축) 맵핑 블록에 입력되기 전에 디코딩된 순시적인 라우드니스 시퀀스를 정규화하며, 이어서, 그 출력은 재생 동안 (압축이 요구되는 경우) 디코딩된 입력 오디오에 적용된다.

일 태양에서, 평탄화 필터는 미국 특허 제10,109,288호에 기술된 것과 같은 비선형 필터이다. 필터의 유용한 특성은 그 출력이 입력과 동일한 양만큼 레벨 시프트될 수 있다는 것이다. 즉, f(x)를 비선형 필터 함수로, x(n)을 입력 신호로, y(n)을 출력으로 정의할 때, 다음과 같이 쓸 수 있다.

만큼 입력 신호의 시프트가 주어지면, f(x)는 출력이 ΔL만큼 시프트되는 경우 시프트 특성을 충족시키거나 수학적으로 다음과 같이 표현된다:

이는, 절대적 라우드니스 값들에 대한 의존성을 갖는 인코더 측에서의 임의의 사이드 체인 프로세싱을 회피하기 때문에 유익하다.

여기서 본 개시내용의 다른 태양은 인코더 측에서 라우드니스 정규화를 지원하기 위해 확장된 MPEG-D DRC 표준인 ISO/IEC, "Information technology - MPEG Audio Technologies - Part 4: Dynamic Range Control," ISO/IEC 23003-4:2020 ("MPEG-D DRC")를 준수하여 DRC를 적용하는 방식이다. 도 5는 인코더 측으로부터 획득된 비트스트림에서 메타데이터로부터의 DRC 이득들을 디코딩하는 것에 기초하여, DRC 이득들을 생성 및 적용하는 MPEG-D DRC 프로세싱의 일부의 단순화된 블록도를 도시한다. MPEG-D DRC는 미리 정의된 DRC 특성들 및 파라미터화된 특성들을 인코딩하기 위한 유연한 방식들을 제공한다.

도 5에서, 인코더 측은 선택된 DRC 특성(도 2와 관련하여 위에서 사용된 바와 같이 "맵핑 블록"으로 또한 지칭됨)에 평활화된 순시적인 라우드니스 시퀀스(입력 오디오 시퀀스에 대해 컴퓨팅됨)를 적용한다. DRC 특성 맵핑 블록의 출력은 DRC 이득 시퀀스를 생성하며, 이는 이어서 DRC 인코더에 공급된다. 후자는 자신의 입력 시퀀스들을 하나 이상의 비트스트림들로 인코딩하기 위해 비트레이트 감소를 수행하고, 그 하나 이상의 비트스트림들은 이어서 디코더 측에 송신되거나 그렇지 않으면 그에 이용가능하게 된다. 디코더 측에서, DRC 디코더는 비트레이트 감소 인코딩을 실행취소하여, DRC 이득 시퀀스(디코딩된 DRC 이득 시퀀스)를 복구한다. 이어서, 디코딩된 DRC 이득 시퀀스는 (압축이 요구되는 경우) 디코딩된 오디오 신호에 적용된다.

MPEG-D DRC는 또한, 사운드 프로그램을 압축하기 위해 적용되는 DRC 특성을, (메타데이터로서 비트스트림에 삽입된 DRC 이득 시퀀스를 컴퓨팅하기 위해) 도 5에 도시된 바와 같이, 인코더 측에서 사용되는 것으로부터, 현재 재생 또는 청취 조건에 기초하여 디코더 측 프로세싱에 의해 선택될 수 있는 상이한 것으로 변경하는 유형의 디코더 측 프로세싱을 지원한다. 이는 도 6에 도시된 바와 같이 디코더 측에서, 먼저 인코더 측 DRC 이득 시퀀스를 생성하기 위해 인코더 측에서 적용되고 있는 DRC 특성 A의 역인 역 특성 A에 인코더 측 DRC 이득 시퀀스를 적용함으로써 달성된다. 디코더 측이 역 특성 A를 식별할 수 있도록, DRC 특성 A(DRC 이득 시퀀스를 생성하기 위해 인코더 측에서 사용됨)에 대한 인덱스(식별자 또는 포인터)가 비트스트림에서 제공될 수 있다. 역 특성 A에 대한 입력으로서 DRC 이득 시퀀스를 적용하는 것은 복구되고 평활화된 순시적인 라우드니스 시퀀스를 초래한다. 양자화 효과들이 무시되면, (역 특성 A 블록의 출력에서) 복구된 라우드니스 시퀀스는 본질적으로 인코더 측 프로세싱에 의해 사용된 평활화된 라우드니스 시퀀스이다. 그 결과, 복구된 라우드니스 시퀀스는 (DRC 특성 A보다) 디코딩된 오디오 신호를 압축하는 데 더 적합할 수 있는 제2 DRC 이득 시퀀스를 생성하기 위해, 제2 DRC 특성 B에 적용될 수 있다. 이어서, (예를 들어, 재생 동안 압축이 요구되는 경우) 제2 DRC 이득 시퀀스가 디코딩된 오디오에 적용된다.

여기서, 본 명세서의 본 개시내용의 일 태양에 따르면, 도 6에 도시된 인코더 측에서의 사이드 체인의 라우드니스 정규화는 도 2에 도시된 접근법을 사용하여 대체된다. 이는, 통합된 라우드니스-기반 오프셋(정규화 이득)이 인코더 측 대신에 디코더 측에서 적용됨을 의미한다. 도 7은 이러한 시스템의 블록도를 도시한다. 이는 또한 본 명세서에서 향상된 MPEG-D DRC 준수 시스템으로 지칭된다(아래에서 "새로운" 인코더 및 "새로운" 디코더를 갖는 것으로 또한 지칭됨). 그러한 시스템은 그의 인코더 측에서, 도 3과 관련하여 위에서 논의된 바와 같이, 출력이 통합된 라우드니스 값 업데이트들을 제공하는 통합된 라우드니스 측정으로 지칭되는 블록을 갖는다. 통합된 라우드니스 업데이트들이 오디오 인코더에 제공된다. 여기서, 인코더는 (입력 오디오 외에도) DRC 이득 시퀀스를 또한 인코딩하는 DRC 인코더이다. DRC 이득 시퀀스는 도 6과 관련하여 전술한 바와 같이 결정될 수 있다. 인코딩된 DRC 이득 시퀀스 및 통합된 라우드니스 업데이트들은 하나 이상의 비트스트림들을 통해 디코더 측에 제공된다. DRC 이득 시퀀스는 디코더 측에 또한 제공되고 있는 인코딩된 입력 오디오와 연관된 메타데이터로서 포맷될 수 있다.

통합된 라우드니스 측정은, 사운드 프로그램의 시작 시에 시작하여 취해진 통합된 라우드니스의 실행 측정치(또한 본 명세서에서 실행 평균으로 지칭됨)이며, 사운드 프로그램의 경과된 부분에 대한 통합된 라우드니스 값만을 컴퓨팅할 목적으로 사운드 프로그램의 오디오 신호를 시간 경과에 따라 계속 "통합"한다. 오디오 신호(사운드 프로그램)가 계속됨에 따라, 통합된 라우드니스 측정은 예를 들어, 주기적으로, 예를 들어 10 초마다 업데이트들을 생성한다. 이러한 통합된 라우드니스 업데이트들은 (예를 들어, DRC 인코더에 의해) 비트스트림에 기록된다. 이는, 오디오 비트스트림의 확장 필드들 또는 확장 페이로드들에 업데이트들을 기록하거나 또는 이들을 MP4 파일의 일부로서 별개의 메타데이터 트랙에 기록함으로써, MPEG-D DRC에서 지원될 수 있다. 추가적인 시스템 지연을 도입하지 않으면서, 업데이트들은 (DRC 특성 A 블록의 출력에서) DRC 이득 시퀀스를 생성하고 있는 사이드 체인의 레이턴시와 동일한 예견을 가질 수 있다. 더 큰 예견은 음향 프로그램의 시작 시에 제1 통합된 라우드니스 업데이트를 개선할 수 있는데, 즉, 음향 프로그램의 프로그램 라우드니스에 더 근접할 수 있다.

도 7에 의해 예시될 수 있는 제1 경우에서, 입력 오디오는, 비트스트림을 통해, 디코더 측에 (예를 들어, 인터넷을 통해) 디코더 측으로 동시에 스트리밍되고 있는 라이브 오디오이다. 그 경우, 프로그램 라우드니스는 (라이브 오디오 이벤트가 아직 종료되지 않았기 때문에) 스트리밍 동안 제공될 수 없다. 그 경우에, DRC(디코더 측에 적용됨)는 도시된 바와 같은 인-스트림 통합된 라우드니스 업데이트들, 즉, DRC 입력 라우드니스 타겟 값과 동적으로 변하는 통합된 라우드니스 업데이트 사이의 차이와 동일할 수 있는 동적으로 변하는 정규화 이득에 기초하여 동적으로 조정되거나 라우드니스 정규화된다. 통합된 라우드니스 업데이트의 변화율을 제한하기 위해, 업데이트 시퀀스는 스트림의 시작 시에 평활화될 수 있지만 스트림의 종료 시에는 그렇지 않을 수 있다. 또한, (스트림의 시작 시에) 초기 업데이트 값들은 입력 오디오의 예상된 라우드니스를 고려할 수 있다. 예를 들어, 예상되는 라우드니스는 입력 오디오의 경과된 초기 부분의 신중한 전문적인 스튜디오 설정 및 파일럿 측정들의 결과일 수 있다.

제2 경우에, (인코더 측에서) 입력 오디오는 (라이브 스트리밍되는 것이 아니라) 도 4 에서와 같이 인코더 측에서 오디오 파일에 기록되고 있는 라이브 오디오 레코딩이다. 그 경우에, 최종 통합된 라우드니스 업데이트(사운드 프로그램의 진정한 통합된 라우드니스 또는 프로그램 라우드니스)는 파일의 재기록을 요구하지 않으면서 레코딩의 종료 시에 파일에 기록될 수 있다. MPEG-D DRC를 준수하는 것을 추구할 때, 이는 ISO 베이스 미디어 파일 포맷 레벨의 라우드니스 "박스" 또는 필드에 최종 통합된 라우드니스 업데이트를 (인코더 측에서) 기록함으로써 달성될 수 있다. 오디오 스트림 라우드니스 박스 타입은 ludt로 지칭된다. 여전히 도 7을 참조하면, 인코딩된 오디오 및 그의 연관된 인코더 측 DRC 이득 시퀀스 및 통합된 라우드니스 업데이트들이 디코더 측에 의해 획득될 때, 디코더 측 프로세스는 디코딩된 오디오 신호의 라우드니스 정규화된 버전에 기초하여 (DRC 특성 B를 사용하여) DRC 이득 시퀀스를 결정함으로써 DRC를 적용할 수 있다. 이 예에서, 역 특성 A의 출력에서 복구된 평활화된 순시적인 라우드니스를 조정하는 이러한 정규화는 바람직하게는 라우드니스 박스에 기록된 최종 통합된 라우드니스 업데이트 값을 사용함으로써 달성된다. 레코딩이 인코더 측에서 라우드니스 박스를 스트림에 추가하지 않고 종료되면, 인-스트림 통합된 라우드니스 업데이트들을 사용함으로써, 디코더 측에서 라우드니스 정규화와 함께 DRC가 여전히 적용될 수 있다.

인-스트림 통합된 라우드니스 업데이트들은 시간의 경과에 따라 느리게, 예를 들어 1 내지 10 초마다 변할 수 있기 때문에, 정규화는 효과적으로 DRC 특성 B로 하여금 그에 따라 시프트되게 할 것이다. 이러한 시프트는, 통합된 라우드니스 업데이트들이 사운드 프로그램의 짧은 지속기간(경과된 시간 간격)에 기초할 때, 디코딩된 오디오의 재생 동안, 레코딩 또는 스트림의 시작 시에 가청이 될 수 있다. 통합된 라우드니스 업데이트들이 변하는 레이트를 제한하기 위해, 업데이트들 자체는 레코딩 또는 스트리밍의 시작 시에 평활화될 수 있지만, 종료 시에는 그렇지 않을 수 있다.

입력 오디오가 파일에 대한 라이브 레코딩인 도 6에 따른 인코더 측 프로세스에서, 입력 오디오는 사이드 체인 라우드니스 정규화를 사용하여 압축(DRC)되고, 이어서 인코더 측에서 인코딩되고 파일에 기록될 수 있다. 이는 본질적으로, 도 7에 따른 디코더 측 프로세스로부터 이용가능한 것과 본질적으로 동일하지 않은 경우에 필적가능한 압축된 오디오 출력을 초래할 수 있으며, 여기서, 디코딩된 오디오는 디코더 측에서 압축되며, 라우드니스 정규화는 비트스트림-포함된 통합된 라우드니스 업데이트들에 기초한다. 그러나, 도 7에서와 같이 디코더 측으로 라우드니스 정규화를 연기하는 이점은, 단지 레코딩 또는 이벤트가 종료되었을 때, ISO 베이스 미디어 파일 포맷 레벨 MP4 레벨에서 최종 통합된 라우드니스 업데이트를 추가함으로써, 파일이 재생될 때 청취 경험이 개선된다는 점이다.

이제 도 8을 참조하면, 이는 디코더 측에 의한 DRC를 위해, 역호환가능한 및 역호환가능하지 않은 MPEG-D DRC 비트스트림 확장들 둘 모두를 생성할 수 있는 새로운 인코더 측 프로세스의 흐름도이다. 역호환가능한 비트스트림 확장 필드 또는 페이로드는 (디코딩된 오디오 신호에 DRC를 적용할 때), 확장에 따라 그러나 라우드니스 정규화 없이 DRC를 수행하기 위해 레거시 디코더(디코더 측 프로세스)에 의해 프로세싱될 수 있는 것이다. 이러한 레거시 디코더의 일례는 도 6에서 볼 수 있다. 역호환불가능한 비트스트림 확장은 (압축된 오디오를 생성하기 위해) 레거시 디코더에 의해 프로세싱될 수 없는 것이다. 이러한 이중 특징은 다음과 같이 가능해질 수 있다.

예를 들어, characteristicV1Override로 지칭되는 비트스트림에 포함된 플래그가 정의될 수 있다. 인코더 측은 다음과 같이 이 플래그를 설정 또는 클리어할 수 있다. 역호환가능한 비트스트림을 생성하기 위해, 플래그에는 characteristicV1Override =1과 같은 제1 값이 주어지며, 그 경우, 비트스트림은 또한 encDrcNormGainDb로 지칭되는 라우드니스 정규화 이득을 또한 포함할 것이다. 이 모드에서, 인코더 측 프로세스는, 라우드니스 정규화 이득(또한 본 명세서에서 인코더 측 DRC 정규화 이득으로 지칭됨)을 사용하여, 라우드니스 정규화를 이용하여 오디오 신호를 제1 DRC 특성에 적용함으로써 제1 DRC 이득 시퀀스를 결정한다. 역호환가능한 인코더 측이 새로운 디코더 및 레거시 디코더 둘 모두에 의해 프로세싱되고 있는 역호환가능한 비트스트림을 생성하는 MPEG-D DRC 준수 오디오 코덱 시스템의 블록도인 도 10a 및 도 10b를 참조한다. 입력 오디오가 라이브 레코딩인 경우, 통합된 라우드니스 업데이트들이 또한 컴퓨팅되고 (비트스트림에 통합되도록) 인코더에 제공된다. 라우드니스 정규화 이득은 (예를 들어, dBA의 단위로 가정하여) 예측된 프로그램 라우드니스 값을 DRC 입력 라우드니스 타겟으로부터 감산함으로써, 도 10a에 도시된 바와 같이 컴퓨팅될 수 있다.

라우드니스 정규화 이득, encDrcNormGainDb는, (DRC 특성 A에 대한) 라우드니스 정규화를 이용하여 DRC 이득 시퀀스가 획득된 역호환가능한 비트스트림을 생성하기 위해, 새로운 역호환가능한 인코더 측 프로세스에서 적용되는 값이다. 비트스트림은, 예를 들어, 도 10b에 도시된 바와 같이, 새로운 디코더 및 레거시 디코더 둘 모두에 의해 프로세싱될 수 있다. 이러한 비트스트림이 레거시 디코더에 의해 프로세싱될 때, DRC 동안 라우드니스 정규화를 적용하지 않는다. DRC 동안 라우드니스 정규화를 적용하는 새로운 디코더에 의해 비트스트림이 프로세싱될 때, 통합된 라우드니스 업데이트를 사용하여 더 정확한 라우드니스 정규화를 적용하기 위해 역호환가능한 인코더에 의해 encDrcNormGainDb가 사용되어 encDrcNormGainDb의 적용을 보상하거나 중화시키거나 실행취소한다. 다시 말해서, 새로운 디코더의 프로세서는, 디코더 측 DRC 라우드니스 정규화를 적용할 때, 인코더 측 DRC 정규화 이득을 보상한다.

도 8로 되돌아가면, 레거시 및 새로운 디코더들 둘 모두에 의한 그의 프로세싱을 가능하게 하기 위해, 역호환가능한 비트스트림은 또한, 플래그가 제1 값, 예를 들어, characteristicV1Override=1일 때, 제1 DRC 구성 필드, 예를 들어, UNIDRCCONFEXT_V1, 및 제2 DRC 구성 필드, 예를 들어, UNIDRCCONFEXT_V2를 포함할 수 있다.를 제1 DRC 구성 필드는, 예를 들어 도 10b의 레거시 디코더 블록에서 확인되는 바와 같이, 라우드니스 정규화 없이 디코딩 오디오 신호에 DRC를 적용하도록 디코더 측 프로세스에 명령한다. 제2 DRC 구성 필드는, 예를 들어 도 10b의 새로운 디코더 블록에서 확인되는 바와 같이, 라우드니스 정규화를 이용하여 디코딩된 오디오 신호에 DRC를 적용하도록 디코더 측 프로세스에 명령한다.

여전히 도 8을 참조하면, 새로운 인코더 측은 다음과 같이 역호환불가능한 MPEG-D DRC 비트스트림 확장(압축된 오디오를 생성하기 위해 레거시 디코더에 의해 프로세싱될 수 없는 것)을 생성할 수 있다. 새로운 디코더 측만이 비트스트림을 프로세싱할 것임을 인식하는 경우, 인코더 측이 그렇게 하기를 원할 수 있다는 것에 유의한다. 그러한 비트스트림에서, 플래그는 제2 값, 예를 들어, characteristicV1Override=0을 갖고, 비트스트림은 (디코더 측에 의해 사용하도록 의도된) 라우드니스 정규화 이득을 포함하지 않는다. 또한, 제1 DRC 구성 필드, 예를 들어, UNIDRCCONFEXT_V1이 또한 비트스트림으로부터 생략된다. 도 9는 그러한 비트스트림을 프로세싱할 수 있는 새로운 디코더를 도시한다. 다시 말하면, 플래그가 제2 값, 예를 들어, characteristicV1Override =0을 갖는 경우, 비트스트림은 제1 DRC 구성 필드가 아니라 제2 DRC 구성 필드를 포함한다.

도 9는 역호환가능한 또는 역호환가능하지 않은 MPEG-D DRC 비트스트림 확장들을 사용하여 DRC 이득 시퀀스를 생성할 수 있는 새로운 디코더 측 프로세스의 흐름도이다. 프로세스는 제2 DRC 구성 필드, 예를 들어, UNIDRCCONFEXT _V2, 및 플래그 characteristicV1Override를 검출하기 위해 비트스트림을 파싱하는 것으로 시작할 수 있다. 플래그가 제1 값, 예를 들어, characteristicV1Override =1을 갖는 것에 응답하여, 프로세스는 i) 라우드니스 정규화 이득(예를 들어, encDrcNormGainDb) 및 ii) 통합된 라우드니스 업데이트의 복수의 인스턴스들(이들 둘 모두는 오디오 신호와 함께 DRC 디코더에 의해 획득된 비트스트림으로부터 디코딩됨)을 사용하는 라우드니스 정규화를 이용하여 그리고 DRC 특성 B를 사용하여, 예를 들어, 도 10b(새로운 디코더 블록)에 도시된 바와 같이 오디오 신호에 DRC를 적용한다.

일 태양에서, 여전히 도 9를 참조하면, 플래그가 제1 값, 예를 들어 characteristicV1Override =1을 가질 때, 제1 DRC 구성 필드에 포함될 수 있는 제1 DRC 특성의 인덱스는 제2 DRC 구성 필드에 포함되는 제1 DRC 특성의 인덱스에 의해 오버라이드된다. 예를 들어, MPEG-D DRC는 레거시 MPEG-D DRC 디코더들(본 명세서에서 레거시 인덱스 값들 또는 레거시 범위로 또한 지칭됨)에 의해 인식가능한 DRC 특성들 1 내지 6을 정의할 수 있다. 본 개시내용에서, 향상된 MPEG-D DRC 절차에 따라, 그러한 동일한 특성들은 상이한 인덱스 값들(본 명세서에서 또한 새로운 인덱스 값들 또는 새로운 범위, 예를 들어, 65 내지 70으로 지칭됨)로 복제된다. 다시 말하면, 레거시 특성들은 그들의 레거시 인덱스들 1 내지 6에 의해, 또는 그들의 새로운 표시들 65 내지 70에 의해 참조될 수 있고; 이들의 파라미터들은 하기 표에 나타난 바와 같이 동일하게 유지된다.

[표 6]

새로운 인코더 측 프로세스가 역호환가능한 비트스트림(도 8의 흐름도의 우측의 characteristicV1Override= 1)을 생성할 때, 이는 제1(V1) 및 제2(V2) DRC 구성 확장 필드들 둘 모두를 생성하고, 여기서, 레거시 디코더들과의 역호환가능성을 가능하게 하기 위해, 제1 DRC 구성 필드는 새로운 인덱스들 65 내지 70 중 임의의 것이 아닌 레거시 인덱스들 1 내지 6 중 하나 이상을 지칭한다. V2 확장 필드는 새로운 인덱스 값들 중 하나 이상을 지칭할 수 있거나, 또는 레거시 인덱스 값들 중 하나 이상을 지칭할 수 있다). 새로운 인덱스 값들은, 제2 DRC 이득 시퀀스를 생성하고 있을 때 라우드니스 정규화가 요구될 수 있는 새로운 디코더(본 개시내용에서 향상된 MPEG-D DRC 절차를 준수하는 것)를 효과적으로 시그널링한다. 오직, UNIDRCCONFEXT_V2 확장만이 디코더에서 라우드니스 정규화를 요구하는 DRC 특성 인덱스들 65 내지 70을 지원한다.

새로운 디코더 측 프로세스는 도 9의 우측에 도시된 바와 같이 V1 및 V2 확장 필드들 둘 모두를 디코딩하여, 동일한 DRC 특성 A를 가리키는 2개의 인덱스들(2개의 상이한 인덱스 값들)을 추출하게 할 수 있다. 이 경우, V2 인덱스는 V1 인덱스를 오버라이드하는 것으로 언급되는데, 그 이유는 새로운 디코더가 UNIDRCCONFEXT_V1 확장으로부터 획득된 DRC 특성 인덱스들을 UNIDRCCONFEXT_V2 확장으로부터의 것들로 대체한다는 점에서 characteristicV1Override= 1이기 때문이다.

도 8을 참조하면, (레거시 디코더가 아닌 새로운 디코더에 제공되도록) 역호환불가능한 비트스트림이 생성될 때, 플래그 characteristicV1Override는 제로로 설정되고, 비트스트림에서 UNIDRCCONFEXT_V2 확장이 생성된다. UNIDRCCONFEXT_V2 확장은 UNIDRCCONFEXT _V1 확장과 실질적으로 동일한 비트스트림 필드들을 포함한다. UNIDRCCONFEXT_V1은 특성들 65 내지 70을 지원하지 않지만, 송신된 UNIDRCCONFEXT_V2는 지원한다. 인코더 측에서 DRC 시퀀스를 생성하기 위한 라우드니스 정규화가 이 경우에 적용되지 않기 때문에(도 7참조), 이는 디코더에서 보상되지 않는다(도 7에서 또한 확인됨). 그 상황은 정규화 이득, 예를 들어, encDrcNormGainDb를 도 10b의 디코더 측 프로세스에서 제로로 설정하는 것과 동등하다. 그러한 비트스트림이 새로운 디코더 측 프로세스에 의해 파싱될 때, i) 플래그가 제2 값을 갖는 것 및 ii) 인덱스가 제1 값(예를 들어, 범위 65 내지 70)인 것에 응답하여, 디코더 측 프로세스는, 통합된 라우드니스 업데이트를 사용하지만 라우드니스 정규화 이득을 사용하지 않는(예를 들어, 합산 블록의 encDrcNormGainDb의 값은 제로로 설정됨) 라우드니스 정규화를 이용하여 그리고 제2 DRC 특성 B를 사용하여 DRC를 오디오 신호에 적용한다. 다시 말하면, DRC 특성 B의 입력에서 정규화된 라우드니스 시퀀스를 생성할 때 encDrcNormGainDb는 제로로 설정된다.

그러나, 새로운 디코더가 i) 제2 값을 갖는 플래그 및 ii) 제1 값과 상이한 (예를 들어, 범위 1 내지 6의) 제2 값인 인덱스를 만나면, 디코더 측 프로세스는 라우드니스 정규화 없이 (제2 DRC 특성 B를 사용하여) DRC를 오디오 신호에 적용한다. 다시 말하면, 도 10b를 참조하면, 역 특성 A의 출력에서 복구된 평활화된 순시적인 라우드니스 시퀀스는 (DRC 특성 B에 입력되기 전에) 조정되지 않고, 따라서, 그 도면에 도시된 합산 블록이 없다.

아래의 부록은 MPEG-D DRC 표준의 프레임워크에서 연기된 라우드니스 정규화를 위한 제안된 방법의 드래프트 규격을 포함한다. 본 문헌은 레거시 디코더들로 또한 디코딩될 수 있는 새로운 정보로 비트스트림들을 생성하는 효율적인 방법을 포함한다.

소정의 태양들이 설명되고 첨부 도면에 도시되었지만, 그러한 태양들은 광범위한 발명을 제한하는 것이 아니라 단지 예시하는 것이며, 다양한 다른 변형들이 당업자에게 떠오를 수 있기 때문에 본 발명이 도시되고 설명된 특정 구성들 및 배열들로 제한되지 않는다는 것이 이해될 것이다. 따라서, 본 설명은 제한하는 것이 아니라 예시적인 것으로 간주되어야 한다.

Claims

오디오 디코더 장치로서,
프로세서; 및
비트스트림을 획득하도록 상기 프로세서를 구성하는 명령어들을 저장한 메모리를 포함하고, 상기 비트스트림은,
오디오 신호의 인코딩된 버전;
상기 오디오 신호를 제1 DRC 특성에 적용하는 인코더 측 프로세스에 의해 결정된 제1 동적 범위 제어(DRC) 이득 시퀀스,
상기 제1 DRC 이득 시퀀스를 결정할 때 상기 인코더 측에 의해 적용된 라우드니스(loudness) 정규화 이득,
상기 제1 DRC 특성의 인덱스 - 상기 인덱스는 상기 제1 DRC 특성을 식별하거나 상기 제1 DRC 특성을 가리킴 -, 및
통합된 라우드니스 업데이트의 시간 경과에 따른 복수의 인스턴스들을 포함하는, 오디오 디코더 장치.
제1항에 있어서, 상기 인덱스가 제1 값을 갖는 것에 응답하여, 상기 프로세서는 상기 오디오 신호에 DRC를 적용할 때 라우드니스 정규화를 수행하는, 오디오 디코더 장치.
제1항에 있어서,
상기 비트스트림은, 상기 DRC 이득 시퀀스를 결정할 때 상기 인코더 측에 의해 적용된 라우드니스 정규화 이득을 보상하거나 실행취소하기 위해 상기 비트스트림에서 상기 라우드니스 정규화 이득을 사용함으로써, 상기 DRC 이득 시퀀스에 역 DRC 특성을 적용한 후에 라우드니스 정규화를 수행하도록 상기 프로세서에 명령하는, 오디오 디코더 장치.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 메모리는,
상기 제1 DRC 이득 시퀀스를 상기 제1 DRC 특성의 역에 적용함으로써 라우드니스 시퀀스를 복구하고,
상기 복구된 라우드니스 시퀀스에 대한 라우드니스 정규화를 수행하고,
상기 복구된 라우드니스 시퀀스를 제2 DRC 특성에 적용함으로써 제2 DRC 이득 시퀀스를 생성하고,
상기 제2 DRC 이득 시퀀스를 상기 오디오 신호에 적용하도록 상기 프로세서를 구성하는 명령들을 저장하는, 오디오 디코더 장치.
제4항에 있어서, 상기 라우드니스 정규화 이득은 dB 단위이고, 라우드니스 정규화를 수행하는 것은 상기 라우드니스 정규화 이득을 상기 복구된 라우드니스 시퀀스 및 상기 통합된 라우드니스 업데이트의 인스턴스와 조합하는 것을 포함하는, 오디오 디코더 장치.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 라우드니스 정규화를 수행하는 것은 상기 제2 DRC 특성을 그의 입력 축을 따라 상기 라우드니스 정규화 이득 및 상기 통합된 라우드니스 업데이트의 인스턴스에 기초한 양만큼 시프트시키는 것을 포함하는, 오디오 디코더 장치.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 프로세서는, 상기 통합된 라우드니스 업데이트의 각각의 인스턴스에 대해, DRC 입력 라우드니스 타겟과 상기 통합된 라우드니스 업데이트의 인스턴스 사이의 차이로서 정규화 이득에 대한 업데이트를 계산하고, 상기 제2 DRC 이득 시퀀스를 생성하기 위해 상기 정규화된 라우드니스 시퀀스를 상기 제2 DRC 특성에 적용하기 전에, 정규화된 라우드니스 시퀀스를 생성하기 위해 상기 정규화 이득을 상기 복구된 라우드니스 시퀀스에 추가하는, 오디오 디코더 장치.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 통합된 라우드니스 업데이트의 인접한 인스턴스들은 1 내지 10 초만큼 분리되는, 오디오 디코더 장치.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 통합된 라우드니스 업데이트는 상기 오디오 신호의 구동 평균 통합 라우드니스를 표현하는, 오디오 디코더 장치.
제1항에 있어서, 상기 프로세서는,
상기 비트스트림으로부터 상기 제1 DRC 특성에 대한 인덱스를 추출하고 상기 추출된 인덱스를 사용하여 상기 제1 DRC 특성의 역을 획득하고,
상기 제1 DRC 이득 시퀀스를 상기 제1 DRC 특성의 상기 역에 적용함으로써 라우드니스 시퀀스를 복구하고,
상기 인덱스가 제1 사전정의된 값을 갖는 경우, 통합된 라우드니스 업데이트의 각각의 인스턴스에 대해, i) DRC 입력 라우드니스 타겟과 ii) 통합된 라우드니스 업데이트의 인스턴스와 인코더 측 프로세스에 의해 사용된 인코더 측 라우드니스 정규화 이득의 합 사이의 차이로서 정규화 이득 업데이트를 계산하고, 정규화된 라우드니스 시퀀스를 생성하기 위해 상기 정규화 이득 업데이트를 상기 복구된 라우드니스 시퀀스에 추가하고,
상기 정규화된 라우드니스 시퀀스를 제2 DRC 특성에 적용함으로써 제2 DRC 이득 시퀀스를 생성하고,
상기 제2 DRC 이득 시퀀스를 상기 오디오 신호에 적용하도록 구성되는, 오디오 디코더 장치.
제10항에 있어서, 상기 프로세서는, 상기 인덱스가 제2 사전정의된 값을 갖는 경우, 라우드니스 정규화 없이 상기 복구된 라우드니스 시퀀스를 상기 제2 DRC 특성에 적용함으로써 상기 제2 DRC 이득 시퀀스를 생성하도록 구성되는, 오디오 디코더 장치.
오디오 디코더 장치로서,
프로세서; 및
비트스트림을 획득하도록 상기 프로세서를 구성하는 명령어들을 저장한 메모리를 포함하고, 상기 비트스트림은,
오디오 신호의 인코딩된 버전;
상기 오디오 신호를 제1 DRC 특성에 적용하는 인코더 측 프로세스에 의해 결정된 제1 동적 범위 제어(DRC) 이득 시퀀스,
상기 제1 DRC 특성의 인덱스 - 상기 인덱스는 상기 제1 DRC 특성을 식별하거나 상기 제1 DRC 특성을 가리킴 -,
통합된 라우드니스 업데이트의 시간 경과에 따른 복수의 인스턴스들, 및
플래그를 포함하고, 상기 플래그가 제1 값을 갖는 경우, 상기 비트스트림은 인코더 측 라우드니스 정규화 이득을 포함하거나, 상기 플래그가 제2 값을 갖는 경우, 상기 비트스트림은 상기 인코더 측 라우드니스 정규화 이득을 포함하지 않는, 오디오 디코더 장치.
제12항에 있어서, 상기 플래그가 상기 제1 값을 갖는 것에 응답하여, 상기 프로세서는 i) 상기 인코더 측 라우드니스 정규화 이득 및 ii) 상기 통합된 라우드니스 업데이트의 복수의 인스턴스들을 사용하여 라우드니스 정규화를 이용하여 그리고 제2 DRC 특성을 사용하여 상기 오디오 신호에 DRC를 적용하는, 오디오 디코더 장치.
제12항에 있어서, i) 상기 플래그가 상기 제2 값을 갖는 것 및 ii) 상기 인덱스가 제1 값을 갖는 경우에 응답하여, 상기 프로세서는, 통합된 라우드니스 업데이트의 상기 복수의 인스턴스들을 사용하지만 인코더 측 라우드니스 정규화 이득을 사용하지 않는 라우드니스 정규화를 이용하여 그리고 제2 DRC 특성을 사용하여 상기 오디오 신호에 DRC를 적용하는, 오디오 디코더 장치.
제14항에 있어서, 상기 인덱스가 상기 제1 값과 상이한 제2 값인 것에 응답하여, 상기 프로세서는 상기 제2 DRC 특성을 사용하지만 라우드니스 정규화 없이 상기 오디오 신호에 DRC를 적용하는, 오디오 디코더 장치.
오디오 디코더 장치로서,
프로세서; 및
비트스트림을 획득하도록 상기 프로세서를 구성하는 명령어들을 저장한 메모리를 포함하고, 상기 비트스트림은,
오디오 신호의 인코딩된 버전;
상기 오디오 신호를 제1 DRC 특성에 적용하는 인코더 측 프로세스에 의해 결정된 제1 동적 범위 제어(DRC) 이득 시퀀스,
상기 제1 DRC 특성의 인덱스 - 상기 인덱스는 상기 제1 DRC 특성을 식별하거나 상기 제1 DRC 특성을 가리킴 -, 및
통합된 라우드니스 업데이트의 시간 경과에 따른 복수의 인스턴스들을 포함하고,
상기 비트스트림은 인코더 측 DRC 정규화 이득을 포함하고, 상기 프로세서는 디코더 측 DRC 라우드니스 정규화를 적용할 때 상기 인코더 측 DRC 정규화 이득을 보상하는, 오디오 디코더 장치.
디지털 오디오 방법으로서,
비트스트림을 획득하는 단계 - 상기 비트스트림은 오디오 신호의 인코딩된 버전, 상기 오디오 신호를 제1 DRC 특성에 적용하는 인코더 측 프로세스에 의해 결정된 제1 동적 범위 제어(DRC) 이득 시퀀스, 상기 제1 DRC 특성의 인덱스, 및 통합된 라우드니스 업데이트의 시간 경과에 따른 복수의 인스턴스들을 포함하고, 상기 인덱스는 상기 제1 DRC 특성을 식별하거나 상기 제1 DRC 특성을 가리킴 -;
역 DRC 특성을 획득하기 위해 상기 인덱스를 사용하는 단계;
정규화된 라우드니스 시퀀스를 생성하기 위해, 상기 역 DRC 특성을 상기 제1 DRC 이득 시퀀스에 적용한 후에 라우드니스 정규화를 수행하는 단계;
제2 DRC 이득 시퀀스를 생성하기 위해 상기 정규화된 라우드니스 시퀀스를 제2 DRC 특성에 적용하는 단계; 및
압축된 오디오를 생성하기 위해 상기 제2 DRC 이득 시퀀스를 상기 오디오 신호에 적용하는 단계를 포함하는, 방법.
제17항에 있어서, 상기 비트스트림은, 상기 오디오 신호를 상기 제1 DRC 특성에 적용함으로써 상기 제1 DRC 이득 시퀀스를 결정할 때, 인코더 측에 의해 적용된 라우드니스 정규화 이득을 포함하고,
상기 비트스트림은, 상기 제1 DRC 이득 시퀀스를 결정할 때 상기 인코더 측에 의해 적용된 라우드니스 정규화 이득을 보상하거나 실행취소하기 위해 상기 비트스트림에서 상기 라우드니스 정규화 이득을 사용함으로써, 라우드니스 정규화를 수행하도록 상기 프로세서에 명령하는, 방법.
제17항에 있어서, 상기 비트스트림은 플래그를 포함하고, 상기 플래그가 제1 값을 갖는 경우, 상기 제1 DRC 이득 시퀀스는 라우드니스 정규화를 이용하여 상기 오디오 신호를 상기 제1 DRC 특성에 적용하는 상기 인코더 측 프로세스에 의해 결정되는, 방법.
제19항에 있어서, 상기 플래그가 제2 값을 갖는 경우, 상기 제1 DRC 이득 시퀀스는 라우드니스 정규화를 이용하지 않고 상기 오디오 신호를 상기 제1 DRC 특성에 적용하는 상기 인코더 측 프로세스에 의해 결정되는, 방법.
제17항 내지 제20항 중 어느 한 항에 있어서, 라우드니스 정규화를 수행하는 단계는,
상기 정규화된 라우드니스 시퀀스를 조정하고 이어서 상기 조정된 라우드니스 시퀀스를 상기 제2 DRC 특성에 적용하는 단계를 포함하는, 방법.