KR101112565B1

KR101112565B1 - 오디오 정보의 재생 음량 및 동적 범위에 영향을 미치는메타데이터를 정정하는 방법

Info

Publication number: KR101112565B1
Application number: KR1020067025378A
Authority: KR
Inventors: 마이클 존 스미터스; 제프리 찰스 리드밀러; 찰스 큐토 로빈슨; 브레트 그라함 크로켓
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2004-07-01
Filing date: 2005-04-08
Publication date: 2012-02-15
Also published as: CA2566345A1; JP2008505586A; DE602005024812D1; CN1973434A; CN1973434B; IL179309A; EP1771945B1; AU2005262870A1; US7617109B2; AU2005262870B2; IL179309A0; KR20070031920A; EP1771945A1; US8032385B2; ATE488911T1; CA2566345C; KR20100061759A; EP2214308A1; US20100250258A1; MXPA06015132A

Abstract

코딩된 신호는 그것의 재생 동안 오디오 정보의 동적 범위 및 음량을 제어하도록 사용될 수 있는 메타데이터 및 인코딩된 오디오 정보를 전달한다. 이러한 메타데이터 파라미터들에 대한 값들이 부정확하게 세팅되는 경우, 재생 동안 음량에서의 성가신 변동들이 결과로 나타날 수 있다. 본 발명은 신호에서 부정확한 메타데이터 파라미터 값들을 검출하고 정정된 값들로 부정확한 값들을 대체함으로써 이러한 문제를 극복한다.

Description

오디오 정보의 재생 음량 및 동적 범위에 영향을 미치는 메타데이터를 정정하는 방법{METHOD FOR CORRECTING METADATA AFFECTING THE PLAYBACK LOUDNESS AND DYNAMIC RANGE OF AUDIO INFORMATION}

본 발명은 일반적으로 오디오 인코딩 및 재생, 보다 구체적으로는 재생 동안 오디오 정보의 음량 및 동적 범위를 제어하는 것에 관한 것이다.

라디오 및 텔레비전 방송들과 미리 레코딩된 오디오 소재의 음량에 따른 극도의 변동들과 같은 소비자들 및 오디오 전문가들 사이에 불만족의 수준이 증가하고 있다. 음량에서의 큰 변동들은 주어진 스테이션으로부터 수신된 프로그램이 주요 프로 및 상업적 광고들 사이에서 스위칭하는 것과 같이 하나의 스테이션으로부터 또 다른 것으로 청취자들이 튜닝할 때와, 청취자들이 서로 다른 컴팩트 디스크들 또는 서로 다른 DVD들 사이에서 스위칭하는 것과 같이 자신들의 재생 시스템들에서 미디어를 변경할 때 종종 발생한다. 때때로, 청취자들은 상대적으로 균일한 음량을 유지하도록 자신들의 수신기들 및 재생 시스템들의 볼륨 제어들을 조정하도록 강요받는다.

이러한 문제를 극복하도록 제안된 한 가지 해결책은 오디오 정보에 따르는 제어 정보 또는 "메타데이터"를 사용하는 것이다. 오디오 데이터를 기술하는 데이 터 또는 메타데이터는 오디오 정보의 재생 음량을 제어하도록 레코딩된 신호 또는 방송에 제공될 수 있다. 메타데이터의 이러한 형태의 일례는 2001년 8월 20일 공개된, 명칭이 "디지털 오디오 압축(AC-3) 표준에 대한 개정판 A(Revision A to Digital Audio Compression(AC-3) Standard)"인 ATSC(Advanced Television Systems Committe) A/52A 문서에 기술되어 있다. 이러한 특정한 표준은 재생 신호 레벨 및 동적 범위에 관련되는 파리미터들, DIALNORM, COMPR, 및 DYNRNG를 포함하는 메타데이터를 명시한다. 신호 레벨 및 동적 범위 모두는 음량으로 언급되는 신호의 인식되거나 주관적인 레벨에 영향을 미친다. 이러한 ATSC 오디오 표준에 순응하는 수신기들은 재생 신호 레벨들을 제어하도록 DIALNORM 파라미터를 사용하고, 재생 신호 동적 범위의 압축을 제어하도록 COMPR 및 DYNRNG 파라미터들을 사용할 수 있다.

메타데이터의 이러한 형태가 오디오 콘텐츠 생성, 분배, 방송, 및 레코딩 프로세스들 동안 적절히 사용되는 경우, 재생 음량에서의 과도한 변동들을 통한 문제가 제거되거나 적어도 상당히 감소될 수 있다. 불행하게도, 메타데이터는 때때로 오용되거나 그것이 잘못 해석되기 때문에 전혀 사용되지 않으며, 그 이유는 적합한 사람들이 그것을 적절히 사용하는 방법을 알지 못하기 때문이거나, 그것이 부적절한 방식들로 미적 효과들을 생성하도록 사용되기 때문이다.

본 발명의 목적은 재생 동안 오디오 정보의 재생 음량 및 동적 범위의 정정을 제공하는 것이다.

본 발명의 일 측면에 따라, 오디오 정보의 재생 음량 및 동적 범위를 정정하는 방법은 제 1 음량 정규화 레벨, 제 1 동적 범위 조정 레벨, 및 인코딩 프로세스에 의해 생성되는 인코딩된 오디오 정보를 나타내는 데이터를 전달하는 입력 신호를 수신하고, 디코딩 프로세스의 애플리케이션으로부터 상기 입력 신호에서 디코딩된 오디오 정보를 얻고, 상기 디코딩된 오디오 정보의 분석으로부터 음량의 측정을 얻어 상기 음량의 측정으로부터 제 2 음량 정규화 레벨을 끌어내고, 상기 디코딩된 오디오 정보의 분석으로부터 그리고 상기 제 1 동적 범위 조정 레벨로부터 상기 인코딩 프로세스에 의해 사용되는 압축 프로파일의 추정을 얻으며, 상기 제 2 음량 정규화 레벨과, 오디오 정보 진폭, 상기 제 2 음량 정규화 레벨, 및 상기 압축 프로파일의 추정에 응답하여 얻어진 범위 조정 레벨을 나타내는 데이터를 조건부로 전달하는 출력 신호를 생성한다.

본 발명의 다양한 특징들 및 그것의 양호한 실시예들은 유사한 참조 번호들이 몇 개의 도면들에서 유사한 요소들을 언급하는 첨부된 도면들 및 다음의 논의를 참조로 하여 보다 양호하게 이해될 것이다. 다음의 논의 및 도면들의 콘텐츠들은 단지 예시적인 것으로 설명되며, 본 발명의 범위에 대한 제한을 나타내는 것으로 이해되지 않아야 한다.

도 1은 전형적인 방송 및 레코딩 시스템들에서 발생하는 프로세스들을 개략적으로 도시한 도면.

도 2는 오디오 정보의 재생 음량 및 동적 범위를 정정하도록 사용될 수 있는 오디오 정보 및 메타데이터를 갖는 출력 신호를 제공하는 디바이스를 개략적으로 도시한 도면.

도 3 및 도 4는 도 2에 도시된 디바이스 내 구성요소들을 개략적으로 도시한 도면.

도 5 내지 도 8은 인코딩된 오디오 정보 및 메타데이터를 전달하는 신호들을 개략적으로 도시한 도면.

도 9 내지 도 11은 메타데이터가 오디오 정보의 3개의 세그먼트들의 음량 및 동적 범위를 정정하도록 사용될 수 있는 방법을 가정하여 그래픽으로 도시한 도면.

도 12는 수정된 메타데이터 파라미터들을 갖는 출력 신호의 프레임을 생성하도록 사용될 수 있는 프로세스에 따른 단계들을 도시한 도면.

도 13은 본 발명의 다양한 측면들을 구현하도록 사용될 수 있는 디바이스를 개략적으로 도시한 도면.

본 발명을 수행하는 모드들

A. 도입부

도 1은 전형적인 방송 또는 레코딩 시스템에서 발생하는 프로세스들을 개략적으로 도시한 도면이다. 소스 프로세스(1)는 라이브 뮤지컬 공연 또는 스포츠 행사와 같은 소스로부터 종합 또는 캡쳐하여 오디오 정보를 얻는 활동들을 나타낸다. 분배 프로세스(2)는 하나 또는 그 이상의 소스들로부터 오디오 정보를 수신하여 이러한 정보의 모두 또는 일부를 방송 또는 레코딩을 위해 최종 프로그램으로 어셈블링하는 활동들의 폭넓은 범위를 나타낸다. 정보의 다른 형태들 뿐만 아니라 비디오 정보 또한 얻어져서 다양한 방식들로 최종 프로그램으로 어셈블링될 수 있다. 전달 프로세스(3)는 최종 프로그램이 방송 또는 레코딩되거나 이어서 재생 프로세스(4)에 전달되도록 하는 활동들을 나타낸다. 일부 또는 모든 이러한 프로세스들 동안, 오디오 정보는 그것이 더 낮은 대역폭을 사용하여 송신되거나 더 적은 공간에 저장될 수 있도록 그것의 정보 용량 요구들을 감소시키도록 인코딩될 수 있다.

방송 및 레코딩 시스템의 양호한 구현들에 있어서, 도 1에 도시된 각각의 프로세스들은 오디오 콘텐츠 제작자들 및 오디오 엔지니어들이 그것의 재생 동안 오디오 정보의 의도된 음량 및 동적 범위를 규정하는 메타데이터를 명시하도록 허용한다. 불행하게도, 심지어 이러한 양호한 실시예들에서도, 이러한 형태의 메타데이터가 실수로 부정확하게 사용되거나 의도적으로 오용된다. 본 발명은 재생 동안 오디오 정보의 재생 음량 및 동적 범위를 정정하도록 사용될 수 있는 방법들 및 장치들에 관한 것이다. 본 발명에서는 도 1에 도시된 프로세스들 중 어느 것에 따른 하나 또는 그 이상의 시간들이 사용될 수 있지만, 본 발명이 분배 프로세스(2)의 엔드 근처 또는 전달 프로세스(3)의 시작 근처에서 가장 효율적으로 사용될 수 있다는 것이 기대된다. 예를 들어, 본 발명은 최종 프로그램을 방송 또는 레코딩하기 이전에 즉시 사용될 수 있다.

이하 기술되는 본 발명의 구현들은 상기 언급된 ATSC 표준과 순응하는 포맷에 따라 인코딩된 오디오 정보를 전달하는 신호들을 통해 사용하기에 적절한 특징들을 포함한다. 이러한 특정한 구현들 및 특징들은 단지 예시적인 것들이다. 본 발명의 원리들은 그러한 오디오 정보의 음량 및 동적 범위에 관한 오디오 정보 및 메 타데이터를 전달하는 본질적으로 신호의 어떠한 형태를 통해 유리하게 사용될 수 있다.

B. 디바이스 개요

도 2는 재생 동안 오디오 정보의 재생 음량 및 동적 범위를 정정하도록 사용될 수 있는 본 발명의 다양한 측면들을 포함하는 디바이스(10)를 개략적으로 도시한 블록도이다. 디바이스(10)는 인코딩된 오디오 정보 및 메타데이터를 전달하고, 이러한 정보를 프로세싱하며, 인코딩된 오디오 정보 및 수정된 메타데이터를 전달하는 경로(18)를 따라 출력 신호를 생성하는 통신 경로(11)로부터 입력 신호를 수신한다. 메타데이터는 오디오 정보의 재생 동안 사용을 위한 음량 정규화 레벨 및 동적 범위 조정을 나타낸다.

디코더(12)는 입력 신호를 생성하도록 사용되는 프로세스들에 상보적인 프로세스들을 수행함으로써 오디오 정보의 메타데이터 및 디코딩된 표현을 얻기 위해 입력 신호를 프로세싱한다. 디코딩된 오디오 정보는 경로(13)를 따라 건네진다. 메타데이터는 경로(14)를 따라 건네진다. 예를 들어 디바이스(10)가 상기 언급된 ATSC 표준과 순응하는 포맷을 갖는 입력 신호를 통해 사용되는 경우, 디코더(12)는 어떻게 비트들이 오디오 신호의 스펙트럼 콘텐츠를 나타내도록 할당되는지를 결정하는 프로세스들을 수행하고, 입력 신호로부터 양자화된 스펙트럼 구성요소들을 복구하도록 이러한 할당을 사용하며, 디코딩된 오디오 정보를 생성하도록 그 복구된 스펙트럼 구성요소들에 종합 필터들을 적용한다. 추가적인 정보는 상기 언급된 ATSC 문서로부터 얻어질 수 있다.

디코더(12)에 의해 수행되는 디코딩 프로세스는 디코더(12)가 디코딩된 정보에서 어떠한 조정들을 하기 위해 음량 정규화 레벨 및 동적 범위 조정 레벨 메타데이터를 사용하지 않기 때문에 종래의 재생 시스템에 의해 수행되는 디코딩 프로세스와 단지 약간만 다르다.

대안적인 구현에 있어서, 디코더(12)는 그것이 타임 도메인 정보에 따라 인코딩된 오디오 정보를 디코딩하지 않는다는 점에서 종래의 디코더들과 보다 현저히 다르다. 대신에, 그것은 다음의 프로세싱을 위해 경로(13)에 따라 건네지는 변환 계수들 또는 역양자화된 스펙트럼 구성요소들로 인코딩된 오디오 정보를 디코딩한다. 디코더(12)의 구현에서 이러한 변화는 이하 모두 논의되는 음량 분석기(15), 동적 범위 분석기(23), 동적 범위 계산기(25), 스케일러(31), 및 인코더에 대한 구현의 세부적인 것들에 영향을 미치지만, 이러한 구성요소들이 수행하는 프로세싱의 본질을 바꾸지는 않는다.

음량 분석기(15)는 그것이 경로(16)를 따라 통과하는 음량의 측정을 얻기 위해 경로(13)로부터 수신하는 디코딩된 오디오 정보를 분석한다. 본질적으로, 어떠한 분석도 원칙적으로 사용될 수 있지만, 분석의 선택은 음량 측정의 정확성에 영향을 미칠 수 있다. 바람직하게는, 음량의 측정은 확실히 음성인 오디오 정보의 세그먼트들을 분리함으로써 얻어진다. 이것이 이루어질 수 있는 몇 가지 방식들은 2004년 3월 4일 공개된 공보 번호 US 2004-0044525, 2002년 8월 30일 출원된 Vinton 등에 의한 명칭이 "오디오 소재의 음성 및 다른 형태들을 포함하는 신호들에서 음성의 음량 제어(Controlling Loudness of Speech in Signals That Contain Speech and Other Types of Audio Material)"인 미국 특허 출원서 제 10/233,073 호에 기술되어 있다. 확실히 음성인 세그먼트들의 식별은 필수적이지는 않지만, 보통 음량 측정의 정확성을 향상시킨다. 음성이 존재하지 않거나 지배적이지 않은 경우, 전체 오디오 정보의 평균 음량 측정은 충분한 측정을 제공할 수 있다.

음량의 측정은 전체 오디오 프로그램에 대해 얻어질 수 있거나, 원해질 수 있는 근본적으로 어떠한 길이의 세그먼트들에 대해서도 얻어질 수 있다. 음량 측정(Leqm)이 계산될 수 있는 한 가지 방식은,

로 표현될 수 있고,

여기서 P(t) = 시간 t에서 신호의 주파수 가중된 사운드 압력 레벨이고,

P0 = t=0에서 신호의 주파수 가중된 사운드 압력 레벨이며,

m은 상기 신호에 적용된 주파수 가중을 표시한다.

사용될 수 있는 주파수 가중의 한 가지 공지된 예는 이른바 "등가 음량(equal-loudness)" 가중이다. 표준 B 또는 C 가중된 전력 측정들이 대신 사용될 수 있다. 대안적으로, 음량의 음향심리학(psychoacoustic)의 모델들은 "Acoustics -- Method for calculating loudness level," ISO 532(1975)에 기술된 바와 같이 사용될 수 있다. 바람직하게, 음량의 측정은 디지털 "풀 스케일(full-scale)" 사인 곡선의 진폭(0 dB FS)과 비교하여 dB의 단위로 계산되고, 그것은 오디오 정보를 나타내도록 사용되는 유한 길이 디지털 값들에 의해 표현될 수 있는 가장 큰 디지털 레벨이다.

출력 신호 생성기(20)는 경로(11)로부터 수신되는 입력 신호와, 경로(14)로 부터 수신되는 음량 정규화 레벨 및 동적 범위 조정 레벨 메타데이터와, 경로(13)로부터 수신되는 오디오 정보의 디코딩된 표현과, 경로(16)로부터 수신되는 음량의 유도된 측정을 프로세싱하며, 재생 동안 오디오 정보의 음량 및 동적 범위를 정정하도록 사용될 수 있는 메타데이터의 세트와 오디오 신호의 인코딩된 표현을 전달하는 출력 신호를 경로(18)에 따라 생성한다.

구현의 추가적인 세부 사항들은 이하 기술되어 있다.

C. 신호 포맷

본 명세서에 기술되는 디바이스(10)의 구현은 상기 언급된 ATSC 표준과 순응하는 포맷으로 전달되는 메타데이터 데이터 및 인코딩된 오디오 정보를 통해 입력 신호를 프로세싱한다. 입력 신호는 프레임들에 배열되는 2진 데이터를 포함한다. 각각의 프레임은 디지털 오디오 신호들의 1부터 6 채널들까지의 1536 샘플들을 나타내는 메타데이터 및 인코딩된 오디오 정보를 포함한다. 메타데이터는 오디오 콘텐츠가 저작권 보호에 적용되는지 어떤지 음성 오디오 콘텐츠의 언어와 같은 정보와, 타이밍 정보를 포함할 수 있다. 메타데이터는 또한 오디오 정보의 재생 동안 사용을 위해 음량 정규화 레벨 및 동적 범위 조정 레벨을 포함한다.

각각의 입력 신호 프레임은 도 5에 개략적으로 도시된 바와 같은 섹션들로 나눠진다. 도 6에 도시된 SI(Synchronization Information) 섹션은 프레임의 제 1 5/8번째에서 비트 에러들의 검출을 위해 2개의 CRC들(cyclical redundancy codes) 중 첫 번째(CRC1)와 SW(synchronization word)를 전달한다. 도 7에 도시된 BSI(Bit Stream Information)는 프레임에 대한 대부분의 메타데이터를 전달한다. 6개 오디 오 블록들(AB0 내지 AB5)은 도 8에 도시된 바와 같이 인코딩된 오디오 정보 및 추가적인 메타데이터를 전달한다. 프레임의 나머지 섹션들은 각각의 프레임이 일정한 수의 비트들과, 본 발명에 관련되지 않는 추가적인 메타데이터를 전달할 수 있는 AUX 섹션(Auxiliary), 및 상기 프레임의 마지막 3/8번째에서 비트 에러들의 검출을 위해 2개의 CRC들 중 두 번째(CRC2)를 갖도록 오디오 콘텐츠가 인코딩된 후에 남아있는 사용되지 않은 비트들을 전달하는 W(Waste) 비트 섹션들을 포함한다.

음량 정규화

각각의 프레임의 BSI 섹션은 재생 동안 사용을 위해 음량 정규화 레벨인 DIALNORM으로 언급되는 메타데이터 파라미터를 전달한다. 이러한 파라미터는 오디오 정보에서 음성 또는 대화의 평균 또는 주요한 음량을 표시하도록 의도된다. 음성의 부재에 있어서, 파라미터는 오디오 아이템의 전체 콘텐츠의 평균 음량을 나타낼 수 있다. "오디오 아이템"은 예를 들어 전체 길이 모션 픽쳐에 대한 전체 사운드트랙 또는 30초 텔레비전 광고에 대한 오디오와 같은 오디오 정보의 간격이다.

도 9는 3개의 가정적인 오디오 아이템들에 대한 신호 레벨들을 그래픽으로 도시한 도면이다. 각각의 오디오 아이템의 "디지털 레벨"은 디지털 풀 스케일 사인 곡선(0 dB FS)의 진폭과 비교되는 그것의 오디오 정보의 진폭이다. 각각의 오디오 아이템에 대한 최대 및 최소 신호 레벨들은 그것의 DIALNORM 파라미터의 값을 따라 도면에 도시되어 있다. 각각의 오디오 아이템에 대한 DIALNORM 값은 1 dB 단위들로 반올림된다.

재생 동안, 재생 프로세스(4)는 음성이 인식된 음량이 서로 다른 오디오 아 이템들 사이에서 일정하도록 재생 동안 신호의 진폭을 스케일링하기 위해 DIALNORM 파라미터의 값을 사용한다. 도 10은 이러한 프로세스를 그래픽으로 도시하고 있다. 재생 프로세스(4)는 DIALNORM 파라미터에 의해 표시되는 바와 같이 자신의 음량이 -31 dB FS의 기준 레벨과 같게 스케일링되도록 각각의 오디오 아이템에서 신호를 조정한다. 이러한 기준 레벨은 바람직한 사운드 압력 레벨에 부합하도록 각각의 재생 시스템에서 측정될 수 있다.

동적 범위 조정

입력 신호의 각각의 프레임은 재생 동안 사용을 위한 동적 범위 조정 레벨들인 COMPR 및 DYNRNG로 언급되는 메타데이터 파라미터들을 전달할 수 있다. 도 7 및 도 8을 참조로 하면, 프레임의 BSI 섹션은 전체 프레임에 적용하는 COMPR 파라미터를 포함할 수 있고, 각각의 오디오 블록은 그것 자신의 각각의 DYNRNG 파라미터를 가질 수 있다. 이러한 파라미터들에 대한 값들은 몇 개의 압축 프로파일들 중 하나를 사용하여 인코드 프로세스 동안 결정된다. 각각의 프로파일은 압축 비율, 어택 및 릴리즈 시간 상수들, 및 압축에 대한 진폭 범위들과 같은 압축기의 동작가능한 특징들을 명시하는 전형적인 압축 파라미터들을 포함한다. 이러한 동적 범위 압축 파라미터들에 대한 값들은 오디오 아이템의 평균 음량이 압축에 의해 변경되지 않도록 DIALNORM 파라미터를 참조로 하여 결정된다.

도 9를 다시 참조로 하면, 3개의 가정적인 오디오 아이템들에 대한 최대 및 최소 신호 레벨들은 DIALNORM 파라미터들의 값들을 따라 도면에 도시되어 있다. 재생 동안, 재생 프로세스(4)는 동적 범위가 감소되도록 재생을 위한 신호를 압축하 기 위해 DYNRNG 파라미터들 또는 COMPR 파라미터를 사용할 수 있다. 도 11은 이러한 프로세스를 그래픽으로 도시하고 있다. 재생 프로세스(4)는 오디오 아이템들의 동적 범위들이 보다 일정하도록 각각의 오디오 아이템에서 신호를 압축한다.

오디오 아이템의 동적 범위를 감소시키기 위한 능력은 다양한 상황들에서 유용하다. 예를 들어, 종종 인접한 거주지들 내 점유자들 또는 취침 중인 가족 구성원들을 방해하는 것을 피하기 위해 늦은 밤 동안 텔레비전 프로그램 또는 모션 픽쳐의 오디오 재생 레벨을 감소시키는 것이 바람직하다. 오디오 아이템들이 많은 모션 픽쳐들에 대해 전형적인 것과 같은 매우 큰 동적 범위를 가질 때, 허용 한계 레벨들에서 가장 큰 소리의 세그먼트들을 유지하도록 재생 레벨을 감소시키는 것은 대화의 많은 부분이 듣기 어렵고 거의 이해하는 것이 불가능하도록 한다. 동적 범위 압축은 대화 세그먼트들이 이해될 수 있도록 더 높은 레벨에서 재생 음량이 세팅되도록 허용하면서, 가장 큰 소리의 세그먼트들의 음량을 감소시키도록 사용될 수 있다. 추가로, 동적 범위 압축은 다른 경우에 재생 환경에서 주변 노이즈를 통해 들리지 않는 조용한 세그먼트들의 음량을 증가시키도록 사용될 수 있다.

동적 범위 압축의 적절한 동작은 DIALNORM 파라미터에 대한 적절한 세팅을 요구한다. DIALNORM 파라미터가 부적절하게 세팅되는 경우, 그에 따라 동적 범위 압축이 두드러지거나 성가신 방식으로 대화 레벨을 변경할 가능성이 매우 높다.

적절한 값들의 중요성

DIALNORM 파라미터가 적절히 세팅될 때, 재생 시스템은 다른 방식으로 서로 다른 오디오 아이템들의 재생에서 존재하는 음량 및 동적 범위에 따른 극적인 차이 들을 감소시킴으로써 보다 일관되고 예측가능한 청취 경험을 제공할 수 있다. 성가신 차이들은 텔레비전 광고들, 텔레비전 엔터테인먼트, 및 뉴스 프로그램들 사이에서와 서로 다른 텔레비전 스테이션들 사이에서 제거되거나 적어도 상당히 감소될 수 있다.

지금까지, 방송 및 레코딩 시스템들은 적절하게 DIALNORM을 세팅하기 위해 오디오 콘텐츠 제작자들 및 오디오 엔지니어들에 의존해야 했다. 오디오 아이템의 평균 또는 주요한 대화 레벨이 정확하게 측정되고 DIALNORM 파라미터가 그에 따라 세팅된다고 기대되었었다. 불행하게도, DIALNORM 파라미터는 때때로 부적절하게 세팅되거나 명확히 세팅되지 않으며, 그것은 재생 시스템들이 부적절한 디폴트 값을 사용하도록 한다. 이것은 오디오에서 대화의 실제 레벨 및 DIALNORM 파라미터에 의해 표시되는 레벨 사이에 편차를 일으키고, 그것은 서로 다른 오디오 아이템들 사이에서 일관된 청취 경험을 제공하기 위한 재생 시스템의 능력을 방해하거나 적어도 손상시킨다.

대부분의 환경들 하에서, 각각의 프레임은 모든 채널들에 적용하는 음량 정규화 및 동적 범위 조정에 대한 파라미터들의 단일한 세트를 전달하지만, ATSC 표준은 프레임이 2 채널 시스템에서 각각의 채널에 대한 파라미터들의 개별적인 세트를 전달하도록 허용한다. 도 7 및 도 8을 참조로 하면, 파라미터들의 제 2 세트는 DIALNORM2, COMPR2, 및 DYNRNG2로 도시되어 있다. 다음의 논의는 파라미터들의 제 1 세트만을 언급한다. 파라미터들의 2개의 세트들이 프레임에 대해 존재할 때, 파라미터들의 제 2 세트는 파라미터들의 제 1 세트가 사용되는 동일한 방식으로 사용 된다.

D. 출력 신호 생성기

도 3은 도 2와 관련하여 상기 논의된 출력 신호 생성기(20)를 개략적으로 도시한 도면이다. 비교기(21)는 경로(14)로부터 수신된 음량 정규화 레벨(DIALNORM) 메타데이터와 경로(16)로부터 수신된 음량의 유도된 측정을 비교하고, DIALNORM 파라미터가 충분히 정확한지의 여부를 표시하는 경로(22)를 따라 제어 신호를 생성한다. DIALNORM 파라미터는 2개의 입력 신호들 사이의 차의 절대 값이 문턱보다 작은 경우에 충분히 정확한 것으로 고려될 수 있다. 바람직한 경우, 이러한 문턱은 0과 같게 세팅될 수 있지만, 양호한 구현들에서 문턱은 메타데이터 파리미터들의 정확성과, 본 발명을 구현하기 위해 필요로 되는 계산 리소스들의 비용과, 다른 메타데이터 파라미터들의 값들 뿐만 아니라 DIALNORM 파라미터의 계산된 값이 부정확하고 그것들이 사용이 재생 동안 오디오 정보의 품질을 저하시킬 가능성 사이의 트레이드오프에서 균형을 잡도록 선택된다. 3(3 dB)의 문턱 값이 많은 애플리케이션들에 대해 적합하다.

신호 어셈블러(30)는 경로(22)로부터의 제어 신호 및 경로(11)로부터의 입력 신호를 수신한다. 제어 신호가 충분히 정확한 DIALNORM 파라미터를 표시하는 경우, 입력 신호는 변경되지 않은 상태로 경로(18)에 건네진다. 제어 신호가 충분히 정확하지 않은 DIALNORM 파라미터를 표시하는 경우, 신호 어셈블러(30)는 출력 신호에 대해 수정된 DIALNORM 파라미터를 제공하도록 경로(16)로부터 수신된 음량의 유도된 측정을 사용한다.

DIALNORM 파라미터의 값이 변경될 때마다, COMPR 및 DYNRNG 파라미터들의 값들 또한 변경될 가능성이 높다. COMPR 및 DYNRNG 파라미터들은 종래의 재생 시스템에서 디코더에 의해 적용될 수 있는 이득 변화들을 나타낸다. COMPR 파라미터는 전체 프레임으로부터 디코딩되는 오디오 정보의 모두에 적용될 수 있는 스케일링 인자를 나타낸다. 각각의 오디오 블록에서 DYNRNG 파라미터는 그러한 오디오 블록으로부터 디코딩되는 오디오 정보에 적용될 수 있는 스케일링 인자를 나타낸다.

이러한 파라미터들의 값들은 입력 신호를 생성한 인코더에 의해 계산된다. 최초 값들은 출력 신호에서 변경되지 않은 상태로 남겨질 수 있지만, 종래의 재생 시스템에 의한 결과적인 출력 신호의 디코딩이 심각한 이득 변동 및 오디오 신호의 가능한 클리핑을 일으킬 가능성이 높다. 본 발명의 양호한 구현은 그것이 보장될 때 COMPR 및/또는 DYNRNG 파라미터들에 대해 수정된 값들을 제공한다. 이러한 수정된 값들은 동적 범위 분석기(23) 및 동적 범위 계산기(25)에 의해 생성되지만, 수정된 값들은 인코더가 최초 메타데이터 값들을 계산한 방법에 대해 추가적인 정보가 얻어질 수 있는 경우에 보다 정확하게 생성될 수 있다.

필요로 되는 추가적인 정보는 인코더가 사용한 압축 프로파일이다. 불행하게도, 이러한 정보는 입력 신호에 전달되지 않는다. 동적 범위 분석기(23)는 어떠한 압축 프로파일이 경로(14)로부터 수신되는 DIALNORM, COMPR, 및 DYNRNG 파라미터들과, 경로(13)로부터 수신되는 오디오 정보의 디코딩된 표현을 분석함으로써 인코더에 의해 사용된 것을 추정한다. 프로파일은 최신 인코더 구현들에 의해 사용될 알려진 각각의 압축 프로파일에 대해 COMPR 및/또는 DYNRNG 파라미터들을 계산하도록 인코더에 의해 사용되는 동일한 계산 프로세스를 반복적으로 사용함으로써 추정될 수 있다. 입력 신호에서 전달되는 최초 값들에 가장 가까운 계산된 파라미터 값들을 산출하는 프로파일은 인코더에 의해 사용되는 압축 프로파일로 간주된다. 추정된 프로파일의 표시는 동적 범위 계산기(25)로 경로(24)를 따라 건네진다.

압축 프로파일의 추정은 각각의 프레임에 대해 업데이트될 수 있거나, 다소 적게 업데이트될 수 있다. 주파수는 정확성 및 계산 복잡도 사이의 트레이드오프에서 균형을 이루도록 선택될 수 있다.

추정된 압축 프로파일이 부정확할 가능성이 있으므로, 단지 최초 DIALNORM 파라미터 값이 상기 논의된 바와 같이 충분히 정확하지 않은 것으로 판단되는 경우에만 출력 신호로 수정된 메타데이터를 삽입하는 것이 바람직할 수 있다.

E. 출력 신호 어셈블러

수정된 메타데이터가 출력 신호로 삽입될 때마다, 결과적인 출력 신호는 ATSC 표준에 의해 강제되는 모든 요구들에 순응해야 한다. 이것은 신호 어셈블러(30)에 의해 달성된다. 신호 어셈블러의 대안적인 구현은 도 4에 도시되어 있고 이하 논의된다.

출력 신호 리팩킹( Output Signal Repacking )

ATSC 표준에 순응하는 출력 신호를 생성하도록 사용될 수 있는 하나의 프로세스에 따른 단계들은 도 12에 도시되어 있고 이하 논의된다.

단계(50)는 출력 신호의 프레임이 수정된 DIALNORM 파라미터 값을 통해 생성될 것인지의 여부를 결정한다. 이것은 최초 DIALNORM 파라미터 값이 상기 논의된 바와 같이 충분히 정확한지의 여부를 결정함으로써 이루어질 수 있다. DIALNORM 파라미터 값에 대한 어떠한 수정도 필요로 되거나 원해지지 않는 경우, 프로세스는 단계(61)를 계속한다. 그렇지 않은 경우, 프로세스는 단계(51)를 계속한다.

단계(51)는 출력 신호의 프레임에서 DIALNORM 파라미터의 값을 변경한다. DIALNORM 파라미터는 ATSC 표준에 따르는 모든 신호 프레임들에서 8 비트로 표현된다. 출력 신호에서 DIALNORM 파라미터의 값은 단지 최초 DIALNORM 파라미터를 나타내는 비트들의 값들을 변경함으로써 쉽게 수정될 수 있다.

단계(52)는 COMPR 파라미터 또는 어떠한 DYNRNG 파라미터에 대한 값에서 어떠한 변경이 존재하는지의 여부를 결정한다. 그렇지 않은 경우, 프로세스는 수정된 DIALNORM 파라미터 값을 통해 출력 신호의 프레임을 생성하는 단계(61)를 계속 진행한다. 다른 경우, 프로세스는 단계(53)를 계속한다.

COMPR 및 DYNRNG 파라미터 값들을 수정하도록 필요로 되는 단계들은 COMPR 및 DYNRNG 파라미터들이 프레임에 항상 존재하지는 않기 때문에 DIALNORM 파라미터 값을 수정하도록 필요로 되는 단계보다 더 복잡하다. 수정들은 이러한 파라미터들을 나타내도록 필요로 되는 비트들의 수를 변경할 수 있다. 단계(53)는 수정된 COMPR 파라미터 값 또는 어떠한 수정된 DYNRNG 파라미터 값을 나타내도록 필요로 되는 비트들의 수에서 어떠한 변경이 존재하는지의 여부를 결정한다. 그렇지 않은 경우, 프로세스는 단계(60)를 계속 진행하가ㅗ, 그것은 프레임의 적절한 위치들로 수정된 값들을 삽입함으로써 이러한 파라미터들을 수정한다. 단계(61)는 그 후에 COMPR 및 DYNRNG 파라미터들에 대한 하나 또는 그 이상의 수정된 값들 및 수정된 DIALNORM 파라미터 값을 통해 출력 신호의 프레임을 생성한다.

단계(53)가 수정된 COMPR 파라미터 값 또는 어떠한 수정된 DYNRNG 파라미터 값을 나타내도록 필요로 되는 비트들이 수에서 변경이 존재한다는 것을 결정하는 경우, 그에 따라 데이터는 그 변경들을 수용하도록 프레임 내에서 이동되어야 한다. 이러한 특정한 구현에 있어서, 파라미터를 나타내도록 필요로 되는 비트들의 수에서 변경들은 단지 파라미터가 프레임으로부터 추가되거나 제거되는 경우에만 발생한다. 파라미터가 추가되는 경우, 데이터는 새로운 파라미터에 대한 공간을 생성하도록 이동된다. 파라미터가 제거되는 경우, 데이터는 제거된 파라미터에 의해 비워진 공간으로 이동된다.

프레임에 존재할 때, COMPR 및 DYNRNG 파라미터들은 8 비트에 의해 각각 표현된다. 프레임에서 COMPR 파라미터의 존재는 1 비트 COMPRE 플래그에 의해 표시된다. 1로 세팅될 때, COMPRE 플래그는 COMPR 파라미터가 입력 신호 프레임의 BSI 섹션에 존재하는 것을 표시한다. 각각의 오디오 블록(AB0 내지 AB5)에서 DYNRNG 파라미터의 존재는 그 블록 내 1 비트 DYNRNGE 플래그에 의해 표시된다. 1로 세팅될 때, DYNRNGE 플래그는 각각의 오디오 블록에 존재하는 DYNRNG 파라미터 값을 표시한다. DYNRNG 파라미터가 오디오 블록(AB0)에 존재하지 않는 경우, 0 dB(압축이 존재하지 않음)의 디폴트 파라미터 값이 추론된다. DYNRNG 파라미터가 이어지는 오디오 블록들(AB1 내지 AB5) 중 어느 것에도 존재하지 않는 경우, 그에 따라 그 오디오 블록에 대한 파라미터 값은 즉시 바로 앞의 블록의 파라미터 값과 암시적으로 같다.

단계(54)는 각각의 이러한 파라미터들에 대해 값에 따른 변화를 나타내도록 필요로 되는 비트들에서 네트 변화를 계산한다. 이것은,

Δ(k) = M(k)-O(k)

로 표현될 수 있고,

여기서 Δ(k) = 파라미터 k를 나타내기 위해 필요로 되는 비트들에서 네트 변화이고,

M(k) = 수정된 파라미터 k 값을 나타내도록 필요로 되는 비트들의 수이며,

O(k) = 최초 파라미터 k 값을 나타내도록 필요로 되는 비트들의 수이다.

간단한 표기가 메타데이터 파라미터들을 나타내도록 본 명세서에서 사용된다. 이러한 표기에서, 파라미터들(0 내지 5)은 오디오 블록들(AB0 내지 AB5) 각각에 대해 DYNRNG 파라미터에 대응하고, 파라미터(6)는 COMPR 파라미터에 대응한다.

단계(55)는 오디오 블록들(AB0 및 AB1)에 대한 COMPR 파라미터 및 DYNRNG 파라미터들의 값에 따른 제안된 수정들이 5/8번째 룰로 본 명세서에서 언급되는 것을 위반하는지의 여부를 결정하도록 파라미터들(0, 1, 6)에 대한 Δ(k) 값들을 사용한다. ATSC 표준은 프레임에서 오디오 블록들(AB1 및 AB2) 사이의 경계가 그 프레임의 제 1의 5/8번째 내에서 발생해야 한다는 것을 요구한다. 오디오 블록들(AB0 및 AB1)에서 COMPR 파라미터 및/또는 DYNRNG 파라미터들에 대한 수정된 값들을 나타내도록 필요로 되는 추가적인 비트들의 수가 5/8번째 룰을 위반하는 프레임에서 데이터의 이동을 요구하는 경우, 그에 따라 이러한 수정된 파라미터 값들 중 하나 또는 그 이상을 나타내도록 필요로 되는 비트들의 수를 감소시키는 단계(56)를 계속 진 행한다. 다른 경우, 프로세스는 단계(57)를 진행한다.

단계(56)는 오디오 블록들(AB0 및 AB1)에서 수정된 DYNRNG 파라미터들을 나타내도록 필요로 되는 비트들의 수에 따른 초기 감소를 만든다. 이것은 오디오 블록들(AB0 및 AB1)에 대한 DYNRNGE 플래그들에 따른 제안된 수정들을 분석함으로써 이루어진다. 단지 오디오 블록(AB0)에서 수정된 DYNRNGE 플래그가 1로 세팅될 경우, 그에 따라 이러한 플래그는 0으로 리셋된다. 단지 오디오 블록(AB1)에서 수정된 DYNRNGE 플래그가 1로 세팅될 경우, 그에 따라 이러한 플래그는 0으로 리셋된다. 오디오 블록들(AB0 및 AB1) 모두에서 수정된 DYNRNGE 플래그가 1로 세팅될 경우, 그에 따라 이러한 플래그들 중 하나는 다음의 테스트에 따라 리셋된다.

오디오 블록(AB0)에 대한 수정된 DYNRNG 파라미터 값과 0 dB 사이의 절대차가 오디오 블록들(AB0 및 AB1)에 대한 수정된 DYNRNG 파라미터 값들 사이의 절대차보다 작은 경우, 그에 따라 오디오 블록(AB0)에 대한 수정된 DYNRNGE 플래그는 0으로 리셋된다. 그렇지 않은 경우, 오디오 블록(AB1)에 대한 수정된 DYNRNGE 플래그는 0으로 리셋되고, 오디오 블록(AB0)에 대한 수정된 DYNRNG 파라미터 값은 오디오 블록들(AB0 및 AB1)에 대한 2개의 제안된 수정된 DYNRNG 파라미터 값들 중 더 작은 것으로 리셋된다.

DYNRNGE 플래그가 오디오 블록들(AB0 및 AB1) 모두에서 0으로 세팅될 경우, 그에 따라 COMPRE 플래그는 0으로 세팅된다. 0으로 리셋되는 플래그와 연관되는 파라미터는 출력 신호의 프레임으로부터 제거될 것이다. 대응하는 네트 변화 Δ(k)는 8 비트의 감소를 나타내도록 조정된다.

초기 감소가 충분하지 않은 경우에, 비트들의 요구되는 수가 더 감소된다. 0으로 세팅될 오디오 블록들(AB0 및 AB1)에서 나머지 DYNRNGE 플래그는 0으로 리셋된다. 연관된 DYNRNG 파라미터는 출력 신호의 프레임으로부터 제거될 것이고, 대응하는 네트 변화 Δ(k)는 8비트들의 감소를 나타내도록 조정된다. 이러한 단계에서 이루어지는 하나 또는 그 이상의 감소들은 5/8번째 룰을 초기에 만족시키는 입력 신호이 프레임이 제공되는 5/8번째 룰을 만족시키도록 보장된다.

동적 범위 계산기(25)가 0과 동일한 오디오 블록(AB2)에 대해 수정된 DYNRNGE 플래그를 계산한 경우, 그에 따라 그 계산은 오디오 블록(AB2)에 대해 수정된 DYNRNG 파라미터 값이 오디오 블록(AB1)에 대한 파라미터 값과 동일할 것이라는 가정하에서 수행된다. 5/8번째 룰을 만족시키기 위해 오디오 블록들(AB0, AB1)에 대해 수정된 DYNRNGE 플래그들에 따라 이루어지는 어떠한 변화들도 오디오 블록들(AB2)에 대해 DYNRNG 파라미터 값에 따른 의도된 변화를 일으키는 이러한 가정을 위반할 가능성이 있다. 이러한 가정을 위반하지 않을 유일한 상황은 오디오 블록들(AB0 및 AB1) 모두에 대한 수정된 DYNRNGE 플래그들이 1로 세팅되지만 단지 오디오 블록(AB0)에 대한 플래그가 0으로 세팅되는 경우이다. 모든 다른 상황들에 대해, 본 발명의 양호한 구현에서 오디오 블록(AB2)에 대한 수정된 DYNRNGE 플래그는 1로 리셋되고, 수정된 DYNRNG 파라미터 값은 동적 범위 계산기(25)에 의해 계산되는 적절한 값과 동일하게 세팅된다.

출력 신호의 생성 이전에 이러한 프로세스에서 나머지 단계들은 모든 수정된 압축 파라미터들을 나타내도록 사용가능한 충분한 수의 비트들을 보장한다.

단계(57)는 이러한 수정된 파라미터 값들을 나타내도록 프레임에서 사용가능한 사용되지 않는 비트들의 전체 수와 압축 파라미터 값들에 따른 모든 제안된 수정들을 나타내도록 필요로 되는 비트들의 전체 수를 결정한다.

압축 파라미터들에 따른 모든 제안된 수정들을 나타내도록 필요로 되는 비트들 전체의 수(N_TOT)는 합,

을 계산함으로써 결정될 수 있다.

수정된 압축 파라미터 값들을 나타내도록 프레임에서 사용가능한 사용되지 않는 비트들의 전체 수(N_AV)는 그 프레임으로부터 얻어지는 정보로부터 계산된다. 도 5를 참조로 하면, 각각의 프레임은 보통 상기 프레임에 추가되는 새로운 메타데이터 파라미터들을 나타내도록 사용될 수 있는 다수의 사용되지 않는 비트들을 포함한다. 이러한 사용되지 않는 비트들의 일부는 오디오 정보가 인코딩된 후에 남아있는 할당되지 않은 비트들인 프레임의 W 섹션 내에 있다. 일부 사용되지 않는 비트들은 오디오 블록의 SKIPD(Skip Data) 영역에 존재할 수 있다. 각각의 SKIPD 영역은 8비트 바이트들에 따른 SKIPD 영역의 길이를 표시하는 SKIPL 파라미터와, 1로 세팅되는 경우 SKIPT 파라미터 및 연관된 SKIPD 영역 존재를 표시하는 1비트 SKIPLE 플래그와 연관된다. 예를 들어, 각각의 오디오 블록이 1로 세팅되는 SKIPLE 플래그와 10과 동일한 SKIPL 파라미터를 갖는 경우, 그에 따라 그 각각의 오디오 블록의 SKIPD 영역은 10 바이트 또는 80 비트를 포함한다. 프레임에서 사용되지 않는 비트들의 전체 수는 그 프레임의 W 섹션에서 비트들의 수만큼 프레임에서 모든 SKIPL 파라미터들의 값들을 추가함으로써 결정될 수 있다.

W 섹션에서 비트들의 수(N_W)는 3개의 알려진 값들로부터 계산될 수 있다. 제 1 값은 다수의 비트들로 표현되는 프레임의 길이(N_L)이고, 그것은 샘플 레이트(FSCOM) 및 샘플 사이즈(FRAMSIZECOD)를 명시하는 프레임의 SI 섹션에서 전달되는 파라미터들로부터 계산될 수 있다. 추가적인 정보는 상기 인용된 ATSC 문서로부터 얻어질 수 있다. 제 2 값은 프레임에서 CRC2와, 모든 오디오 블록들(AB0 내지 AB5)과, SI 및 BSI 섹션들에서 전달되는 데이터를 나타내도록 사용되는 비트들의 수(N_D)이다. 제 3 값은 프레임의 AUX 섹션이 길이(N_A)이고, 다수의 비트들을 표현한다. 이러한 길이는 AUX 섹션의 엔드에서 프레임 내에 전달된다. 계산은,

N_W = N_L - (N_D + N_A)

로 표현될 수 있다.

단계(58)는 사용가능한 비트들의 수(N_AV)가 수정된 압축 파라미터들을 나타내도록 필요로 되는 비트들의 전체 수(N_TOT)를 만족시키기에 충분한지의 여부를 결정한다. 비트들의 충분한 수가 사용가능한 경우, 프로세스는 단계(60)를 계속 진행한다. 그렇지 않은 경우, 프로세스는 단계(59)를 계속 진행한다.

단계(59)는 자신들을 나타내도록 필요로 되는 비트들의 수를 감소시키기 위 해 하나 또는 그 이상의 수정된 압축 파라미터들을 변경한다. 이것은 하나 또는 그 이상의 오디오 블록들로부터 DYNRNG 파라미터를 제거하고, 선행하는 오디오 블록의 DYNRNG 파라미터와 그러한 오디오 블록들을 연관시킴으로써 이루어질 수 있다. 프레임의 6개 오디오 블록들에서 수정된 DYNRNG 파라미터 값들 및 DYNRNGE 플래그들은 그 블록들을 영역들로 그룹핑하도록 사용된다. 제 1 영역은 0으로 세팅되는 그것들의 각각의 수정된 DYNRNGE 플래그를 갖는 그것을 즉시 따르는 모든 오디오 블록들 및 오디오 블록(AB0)을 포함한다. 어떠한 경우에, 추가적인 영역들 각각은 1로 세팅되는 수정된 DYNRNGE 플래그를 갖는 오디오 블록에서 시작하고, 0으로 세팅되는 각각의 수정된 DYNRNGE 플래그를 갖는 시작 블록을 즉시 따르는 모든 오디오 블록들을 포함한다. 영역들의 수는 가능한 한 오디오 블록(AB0)을 제외한 프레임에서 어떠한 오디오 블록도 1로 세팅되는 수정된 DYNRNGE 플래그를 갖지 않는 경우만큼 적을 수 있다. 영역들의 수는 프레임에서 모든 오디오 블록이 1로 세팅되는 수정된 DYNRNGE 플래그를 갖는 경우 6만큼 많을 수 있다. 영역에서 모든 오디오 블록들은 공통 DYNRNG 파라미터 값을 공유한다. 오디오 블록(AB0)에 대한 DYNRNGE 플래그가 0으로 세팅되는 경우, 제 1 영역에 대한 이러한 값은 상기 설명된 바와 같이 암시적으로 명시된다.

3개 또는 그 이상의 영역들이 존재하는 경우, 제 2 영역에 대해 공유되는 수정된 DYNRNG 파라미터 값은 각각의 인접한 영역에 대해 공유되는 수정된 DYNRNG 파라미터 값과 비교된다. 가장 근사한 값들을 갖는 영역들의 쌍은 2개의 영역들에 대해 2개의 수정된 DYNRNG 파라미터 값들의 더 작은 것으로 선행하는 영역의 제 1 오 디오 블록에서 DYNRNG 파라미터 값을 세팅하고, 이어지는 영역의 제 1 오디오 블록에서 0으로 DYNRNGE 플래그를 세팅함으로써 하나의 영역으로 결합된다. 이것은 8비트에 의해 수정된 DYNRNG 파라미터들을 나타내도록 필요로 되는 전체 수를 감소시킨다. 영역들은 수정된 DYNRNG 파라미터 값들을 나타내도록 필요로 되는 비트들의 전체 수(N_TOT)가 표현을 위해 사용가능한 비트들의 전체 수(N_AV)보다 작거나 같을 때까지 또는 단지 2개의 영역들이 남을 때까지 이러한 방식으로 결합될 수 있다.

2개의 영역들이 존재하고 N_AV가 N_TOT보다 작을 때, 그 2개 영역들은 앞선 단락에 기술된 바와 같이 결합된다.

단지 하나의 영역이 존재하고 N_AV가 N_TOT보다 작을 때, 추가적인 감소가 이루어진다. 오디오 블록(AB0)에 대한 제안된 수정된 DYNRNGE 플래그가 1로 세팅되는 경우, 0으로 이러한 플래그를 리셋하는 것은 8비트 만큼 N_TOT를 감소시킬 것이다. 이러한 플래그는 0으로 이미 세팅되거나 0으로 그것을 리셋하는 것이 충분하지 않은 경우, 그에 따라 이루어질 수 있는 유일한 나머지 변경은 0으로 COMPRE 플래그를 리셋하는 것이다. 이러한 마지막 변경은 비트 요구들이 초기에 만족되는 입력 신호의 프레임이 제공되는 비트 요구들을 만족시키도록 보장된다.

N_TOT가 N_AV보다 작거나 같도록 단계(59)가 N_TOT를 감소시킬 때, 프로세스는 단계(60)를 계속해서 진행한다.

단계(60)는 압축 파라미터들의 추가 또는 제거를 수용하기 위해 필요할 때 프레임 내에서 데이터를 이동시킨다.

COMPR 파라미터를 수정하기 위해, 최초 COMPRE 플래그가 1로 세팅되는 경우, 최초 COMPR 파라미터 값은 수정된 값에 의해 대체된다. 최초 COMPRE 플래그가 0으로 세팅되고 수정된 COMPRE 플래그가 1로 세팅되는 경우, COMPRE 플래그를 따르는 데이터는 새로운 COMPR 파라미터에 대한 장소를 만들도록 8비트에 의해 프레임의 엔드로 향하여 이동된다. 출력 신호의 프레임에서 COMPRE 플래그는 1로 세팅되고 새로운 COMPR 값은 새롭게 생성된 공간으로 기록된다. 최초 COMPR 플래그가 1로 세팅되고 수정된 COMPR 플래그가 0으로 세팅되는 경우, 그에 따라 출력 신호의 프레임에서 COMPRE 플래그는 0으로 세팅되고 COMPR 파라미터를 따르는 데이터는 COMPR 파라미터가 그 프레임에 더 이상 존재하지 않기 때문에 8비트에 의해 프레임의 처음을 향해 이동된다.

각각의 오디오 블록에서 DYNRNG 파라미터를 수정하기 위해, 최초 DYNRNGE 플래그가 1로 세팅되는 경우, 최초 DYNRNG 파라미터 값은 수정된 값에 의해 대체될 수 있다. 최초 DYNRNGE 플래그가 0으로 세팅되고 수정된 DYNRNGE 플래그가 1로 세팅되는 경우, DYNRNGE 플래그를 따르는 데이터는 새로운 DYNRNG 파라미터에 대한 장소를 만들기 위해 8비트에 의해 오디오 블록의 엔드를 향해 이동된다. 오디오 블록에서 DYNRNGE 플래그는 1로 세팅되고 새로운 DYNRNG 값은 새롭게 생성된 공간으로 기록된다. 최초 DYNRNGE 플래그가 1로 세팅되고 추정된 DYNRNGE 플래그가 0으로 세팅되는 경우, 그에 따라 출력 신호의 프레임에서 DYNRNGE 플래그는 0으로 세팅되고 DYNRNG 파라미터를 따르는 데이터는 DYNRNG 파라미터가 더 이상 그 볼록에 존재 하지 않기 때문에 8비트에 의해 오디오 블록의 처음을 향해 이동된다.

각각이 오디오 블록에서 수정된 DYNRNG 파라미터를 나타내도록 필요로 되는 비트들의 수에 따른 변경이 단지 그 오디오 블록에서 변경하여 만족될 수 있다는 것이 가능하다. 그러한 경우, 이것은 SKIPD 영역에서 비트들의 수를 조정하고, 오디오 블록 내 데이터를 이동시킴으로써 이루어질 수 있다. SKIPL 파라미터는 SKIPD 영역이 교정된 길이를 표시하도록 변경된다. DYNRNG 파라미터가 오디오 블록에 추가되고 어떠한 SKIPD 영역도 그 블록에 존재하지 않는 경우, 그에 따라 사용되지 않는 비트들은 W 섹션으로부터 또는 또 다른 오디오 블록으로부터 얻어져야 한다.

단계(61)는 출력 신호의 프레임을 생성한다. 어떠한 메타데이터 파라미터들도 수정되지 않는 경우, 출력 신호 프레임응ㄴ 각각의 입력 신호 프레임과 동일할 수 있다. 프레임에서 어떠한 데이터가 변경될 때, 2개의 에러 정정 코드들(CRC1, CRC2) 중 하나 또는 모두가 다시 계산되어야 한다. 데이터가 단지 프레임의 제 1 5/8번째에서 변경되는 경우, CRC1 코드만을 다시 계산하는 것으로 충분하다. 데이터가 단지 프레임의 마지막 3/8번째에서 변경되는 경우, CRC2 코드만을 다시 계산하는 것으로 충분하다.

리인코딩( Re - Encoding )

ATSC 표준에 따라, DIALNORM 파라미터는 포괄적으로 -1로부터 -31 dB 내에서 정수 값을 가져야 한다. 음량 분석기(15)에 의해 얻어진 음량의 측정이 이러한 범위 밖에 있다는 것이 가능하다. 이러한 상황은 그 범위 내에서 가장 근사한 값으로 DIALNORM 파라미터를 세팅함으로써 다뤄질 수 있지만, 양호한 해결책은 오디오 정 보를 스케일링하여 DIALNORM 파라미터가 음량의 정확한 측정을 표현할 수 있도록 음량의 측정을 스케일링하는 것이다. 예를 들어, 음량의 계산된 측정이 -36 dB인 경우, 오디오 정보의 진폭은 수정된 DIALNORM 파라미터 값이 -31 dB의 가장 근사한 유효 값에 정확하게 세팅될 수 있도록 5 dB 만큼 상승될 수 있다. 이러한 해결책은 디코딩된 오디오 정보가 스케일링 후에 인코딩될 것을 요구한다. 이것은 도 4에 도시된 바와 같이 신호 어셈블러(30)의 구현을 사용함으로써 달성될 수 있다.

이러한 구현에서, 스케일러(31)는 경로(26)로부터 수신되는 음량의 계산된 측정에 응답하여 경로(28)로부터 수신되는 디코딩된 오디오 정보를 스케일링한다. 스케일링된 오디오 정보는 그 스케일링된 오디오 정보를 인코딩하는 인코더(33)로 경로(32)를 따라 건네진다. 음량의 측정값은 스케일링을 설명하도록 조정되고, 출력 신호에 포함하기 위해 출력 신호 포맷터(40)로 건네진다.

인코더(33)는 DIALNORM 파라미터를 제외한 프레임의 BSI 및 AUX 섹션들에서 모든 정보를 유지하는 것이 바람직하다. 에러 정정 코드들(CRC1, CRC2)이 다시 계산되고, 압축 데이터 파라미터들 COMPR 및/또는 DYNRNG가 경로(27)로부터 수신되는 정보에 의해 명시되는 프로파일을 사용하여 다시 계산된다. 이러한 리인코딩 프로세스는 재생 동안 오디오 정보의 인식되는 품질을 저하시킬 수 있으므로, 단지 최초 DIALNORM 파라미터가 상기 논의된 바와 같이 충분히 정확한 것으로 고려되지 않는 경우에만 리인코딩을 수행하는 것이 바람직할 수 있다.

인코딩된 정보는 포맷들이 리인코딩된 오디오 정보 및 수정된 메타데이터 파라미터 값들을 전달하는 경로(18)를 따라 출력 신호를 생성하는 출력 신호 포맷 터(40)로 경로(34)를 따라 건네진다.

경로(22)로부터 수신되는 제어 신호가 충분히 정확한 최초 DIALNORM 파라미터를 표시하는 경우, 오디오 정보는 스케일링 및 리인코딩될 필요가 없다. 이러한 상황에서, 출력 신호 포맷터(40)는 경로(11)로부터 수신되는 입력 신호에서 메타데이터 파라미터 값들을 수정함으로써 출력 신호를 생성한다.

F. 하드웨어 구현

본 발명의 다양한 측면들을 포함하는 디바이스들은 범용 컴퓨터에서 발견되는 것들과 유사한 구성요소들에 연결되는 DSP(digital signal processor)와 같은 보다 특화된 구성요소들을 포함하는 몇 가지 다른 디바이스 또는 컴퓨터에 의한 실행을 위해 소프트웨어를 포함하는 다양한 방식들로 구현될 수 있다. 도 13은 본 발명의 측면들을 구현하도록 사용될 수 있는 디바이스(70)를 개략적으로 도시한 블록도이다. 디지털 신호 프로세서(DSP)(72)는 계산 리소스들을 제공한다. 램(73)은 프로세싱을 위해 DSP(72)에 의해 사용되는 시스템 RAM(random access memory)이다. ROM(74)은 디바이스(70)를 동작시키기 위해 필요로 되는 프로그램을 저장하고, 가능한 한 본 발명의 다양한 측면들을 수행하는 ROM(read only memory)과 같은 영구적인 저장소의 어떠한 형태를 나타낸다. I/O 제어(75)는 통신 채널(76, 77)에 의해 신호들을 수신 및 송신하기 위한 인터페이스 회로를 나타낸다. 도시된 실시예에서, 모든 대다수의 시스템 구성요소들은 하나 이상의 물리적 또는 논리적 버스를 나타낼 수 있는 버스(71)에 접속하지만, 버스 구조는 본 발명을 구현하기 위해 요구되지 않는다.

범용 컴퓨터 시스템에 의해 구현되는 실시예들에서, 추가적인 구성요소들은 키보드 또는 마우스와 같은 디바이스들과 디스플레이로 인터페이싱하고, 자기 테이프 또는 디스크나 광학 매체와 같은 저장 매체를 갖는 저장 디바이스(78)를 제어하도록 포함될 수 있다. 저장 매체는 운영 시스템들, 유틸리티들, 및 애플리케이션들에 대한 명령어들의 프로그램들을 레코딩하도록 사용될 수 있고, 본 발명의 다양한 측면들을 구현하는 프로그램들을 포함할 수 있다. 컴퓨터 시스템은 하드웨어 고장들에 대해 안전하게 구성될 수 있다. 이것이 이루어질 수 있는 한 가지 방식은 이중 전력 공급원들 및 잉여 저장 디바이스들과 같은 잉여 구성요소들을 제공하여 결함들에 대해 검출 및 반응할 수 있는 운영 시스템을 사용하는 것이다.

본 발명의 다양한 측면들을 실행하도록 요구되는 기능들은 이산 논리 구성요소들, 집적 회로들, 하나 또는 그 이상의 ASIC들, 및/또는 프로그램 제어 프로세서들을 포함하는 폭넓은 다양한 방식들로 구현되는 구성요소들에 의해 수행될 수 있다. 이러한 구성요소들이 구현되는 방식은 본 발명에서 중요하지 않다.

본 발명의 소프트웨어 구현들은 초음파로부터 자외선까지 포함하는 스펙트럼을 통한 기저대역 또는 변조된 통신 경로들과 같은 다양한 머신 판독가능 매체나, 자기 테이프, 카드들 또는 디스크, 광학 카드들 또는 디스크, 및 페이퍼를 포함하는 매체상의 검출가능한 마크들을 포함하는 근본적으로 어떠한 레코딩 테크놀로지를 사용하여 정보를 전달하는 저장 매체에 의해 전달될 수 있다.

Claims

오디오 정보의 재생 음량 및 동적 범위를 정정하는 방법에 있어서,

제 1 음량 정규화 레벨, 제 1 동적 범위 조정 레벨, 및 제 1 인코딩된 오디오 정보를 나타내는 데이터를 전달하는 입력 신호를 수신하는 단계로서, 상기 입력 신호에 의해 전달되는 데이터는 음향심리학(psychoacoustic)의 원리들에 따라 상기 제 1 인코딩된 오디오 정보를 생성하고, 오디오 정보 진폭, 상기 제 1 음량 정규화 레벨, 및 신호 압축기의 하나 또는 그 이상의 동작가능한 특징들을 명시하는 압축 프로파일에 응답하여 상기 제 1 동적 범위 조정 레벨을 결정하는 인코딩 프로세스에 의해 생성되는, 상기 수신 단계와,

디코딩 프로세스의 애플리케이션으로부터 상기 입력 신호에서 디코딩된 오디오 정보를 얻는 단계와,

상기 디코딩된 오디오 정보의 분석으로부터 음량의 측정을 얻고, 상기 음량의 측정으로부터 제 2 음량 정규화 레벨을 유도하는 단계와,

상기 디코딩된 오디오 정보의 분석으로부터 그리고 상기 제 1 동적 범위 조정 레벨로부터 상기 인코딩 프로세스에 의해 사용되는 상기 압축 프로파일의 추정을 얻는 단계와,

제 3 음량 정규화 레벨, 제 3 동적 범위 조정 레벨, 및 인코딩된 형태로 상기 오디오 정보를 나타내는 제 3 인코딩된 오디오 정보를 나타내는 데이터를 전달하는 출력 신호를 생성하는 단계로서,

상기 제 1 및 제 2 음량 정규화 레벨들 사이의 차가 문턱(threshold)을 넘지 않는 경우, 상기 제 3 음량 레벨은 상기 제 1 음량 정규화 레벨을 나타내고, 상기 제 3 동적 범위 조정 레벨은 상기 제 1 동적 범위 조정 레벨을 나타내고, 상기 제 3 인코딩된 오디오 정보는 상기 제 1 인코딩된 오디오 정보를 나타내며,

상기 제 1 및 제 2 음량 정규화 레벨들의 차가 상기 문턱을 넘는 경우, 상기 제 3 음량 레벨은 상기 제 2 음량 정규화 레벨로부터 유도되고, 상기 제 3 동적 범위 조정 레벨은 상기 오디오 정보 진폭, 상기 제 3 음량 정규화 레벨, 및 상기 압축 프로파일의 추정에 응답하여 얻어지는, 상기 생성 단계를 포함하는, 상기 오디오 정보 재생 음량 및 동적 범위 정정 방법.
제 1 항에 있어서,

상기 제 1 및 제 2 음량 정규화 레벨들 사이의 차가 상기 문턱을 넘는 경우, 상기 제 3 인코딩된 오디오 정보는 음향심리학의 원리들에 따라 상기 디코딩된 오디오 정보를 인코딩함으로써 생성되는, 상기 오디오 정보 재생 음량 및 동적 범위 정정 방법.
제 1 항에 있어서,

상기 제 1 및 제 2 음량 정규화 레벨들 사이의 차가 상기 문턱을 넘는 경우, 상기 제 3 인코딩된 오디오 정보는 상기 제 1 인코딩된 오디오 정보를 나타내는, 상기 오디오 정보 재생 음량 및 동적 범위 정정 방법.
제 1 항에 있어서,

상기 입력 신호는 상기 제 1 동적 범위 조정 레벨을 나타내는 제 1 비트들의 수를 전달하고 상기 출력 신호는 상기 제 3 동적 범위 조정 레벨을 나타내는 제 2 비트들의 수를 수용하도록 재배열되는 데이터를 통해 생성되며, 상기 제 1 비트들의 수는 상기 제 2 비트들의 수보다 더 큰, 상기 오디오 정보 재생 음량 및 동적 범위 정정 방법.
제 1 항에 있어서,

상기 입력 신호는 상기 제 1 동적 범위 조정 레벨을 나타내는 제 1 비트들의 수를 전달하고 상기 출력 신호는 상기 제 3 동적 범위 조정 레벨을 나타내는 제 2 비트들의 수를 수용하도록 재배열되는 데이터를 통해 생성되며, 상기 제 1 비트들의 수는 상기 제 2 비트들의 수보다 더 작은, 상기 오디오 정보 재생 음량 및 동적 범위 정정 방법.
오디오 정보의 재생 음량 및 동적 범위를 정정하는 장치에 있어서,

제 1 음량 정규화 레벨, 제 1 동적 범위 조정 레벨, 및 제 1 인코딩된 오디오 정보를 나타내는 데이터를 전달하는 입력 신호를 수신하도록 적응되며, 상기 입력 신호에 의해 전달되는 데이터는 음향심리학의 원리들에 따라 상기 제 1 인코딩된 오디오 정보를 생성하고, 오디오 정보 진폭, 상기 제 1 음량 정규화 레벨, 및 신호 압축기의 하나 또는 그 이상의 동작가능한 특징들을 명시하는 압축 프로파일에 응답하여 상기 제 1 동적 범위 조정 레벨을 결정하는 인코딩 프로세스에 의해 생성되며,

디코딩 프로세스의 애플리케이션으로부터 상기 입력 신호에서 디코딩된 오디오 정보를 얻도록 적응되고,

상기 디코딩된 오디오 정보의 분석으로부터 음량의 측정을 얻고, 상기 음량의 측정으로부터 제 2 음량 정규화 레벨을 유도하도록 적응되고,

상기 디코딩된 오디오 정보의 분석으로부터 그리고 상기 제 1 동적 범위 조정 레벨로부터 상기 인코딩 프로세스에 의해 사용되는 상기 압축 프로파일의 추정을 얻도록 적응되며,

제 3 음량 정규화 레벨, 제 3 동적 범위 조정 레벨, 및 인코딩된 형태로 상기 오디오 정보를 나타내는 제 3 인코딩된 오디오 정보를 나타내는 데이터를 전달하는 출력 신호를 생성하도록 적응되며,

상기 제 1 및 제 2 음량 정규화 레벨들 사이의 차가 문턱을 넘지 않는 경우, 상기 제 3 음량 레벨은 상기 제 1 음량 정규화 레벨을 나타내고, 상기 제 3 동적 범위 조정 레벨은 상기 제 1 동적 범위 조정 레벨을 나타내고, 상기 제 3 인코딩된 오디오 정보는 상기 제 1 인코딩된 오디오 정보를 나타내고,

상기 제 1 및 제 2 음량 정규화 레벨들의 차가 상기 문턱을 넘는 경우, 상기 제 3 음량 레벨은 상기 제 2 음량 정규화 레벨로부터 유도되고, 상기 제 3 동적 범위 조정 레벨은 상기 오디오 정보 진폭, 상기 제 3 음량 정규화 레벨, 및 상기 압축 프로파일의 추정에 응답하여 얻어지는, 회로를 포함하는, 상기 오디오 정보 재생 음량 및 동적 범위 정정 장치.
오디오 정보의 재생 음량 및 동적 범위를 정정하는 방법을 수행하도록 디바이스에 의해 실행가능한 명령어들의 프로그램을 전달하는 매체에 있어서

상기 방법은,

제 1 음량 정규화 레벨, 제 1 동적 범위 조정 레벨, 및 제 1 인코딩된 오디오 정보를 나타내는 데이터를 전달하는 입력 신호를 수신하는 단계로서, 상기 입력 신호에 의해 전달되는 데이터는 음향심리학의 원리들에 따라 상기 제 1 인코딩된 오디오 정보를 생성하고, 오디오 정보 진폭, 상기 제 1 음량 정규화 레벨, 및 신호 압축기의 하나 또는 그 이상의 동작가능한 특징들을 명시하는 압축 프로파일에 응답하여 상기 제 1 동적 범위 조정 레벨을 결정하는 인코딩 프로세스에 의해 생성되는, 상기 수신 단계와,

디코딩 프로세스의 애플리케이션으로부터 상기 입력 신호에서 디코딩된 오디오 정보를 얻는 단계와,

상기 디코딩된 오디오 정보의 분석으로부터 음량의 측정을 얻고, 상기 음량의 측정으로부터 제 2 음량 정규화 레벨을 유도하는 단계와,

상기 디코딩된 오디오 정보의 분석으로부터 그리고 상기 제 1 동적 범위 조정 레벨로부터 상기 인코딩 프로세스에 의해 사용되는 상기 압축 프로파일의 추정을 얻는 단계와,

제 3 음량 정규화 레벨, 제 3 동적 범위 조정 레벨, 및 인코딩된 형태로 상기 오디오 정보를 나타내는 제 3 인코딩된 오디오 정보를 나타내는 데이터를 전달하는 출력 신호를 생성하는 단계로서,

상기 제 1 및 제 2 음량 정규화 레벨들 사이의 차가 문턱을 넘지 않는 경우, 상기 제 3 음량 레벨은 상기 제 1 음량 정규화 레벨을 나타내고, 상기 제 3 동적 범위 조정 레벨은 상기 제 1 동적 범위 조정 레벨을 나타내고, 상기 제 3 인코딩된 오디오 정보는 상기 제 1 인코딩된 오디오 정보를 나타내며,

상기 제 1 및 제 2 음량 정규화 레벨들의 차가 상기 문턱을 넘는 경우, 상기 제 3 음량 레벨은 상기 제 2 음량 정규화 레벨로부터 유도되고, 상기 제 3 동적 범위 조정 레벨은 상기 오디오 정보 진폭, 상기 제 3 음량 정규화 레벨, 및 상기 압축 프로파일의 추정에 응답하여 얻어지는, 상기 생성 단계를 포함하는, 상기 명령어들의 프로그램 전달 매체.
제 6 항에 있어서,

상기 제 1 및 제 2 음량 정규화 레벨들 사이의 차가 상기 문턱을 넘는 경우, 상기 제 3 인코딩된 오디오 정보는 음향심리학의 원리들에 따라 상기 디코딩된 오디오 정보를 인코딩함으로써 생성되는, 상기 오디오 정보 재생 음량 및 동적 범위 정정 장치.
제 6 항에 있어서,

상기 제 1 및 제 2 음량 정규화 레벨들 사이의 차가 상기 문턱을 넘는 경우, 상기 제 3 인코딩된 오디오 정보는 상기 제 1 인코딩된 오디오 정보를 나타내는, 상기 오디오 정보 재생 음량 및 동적 범위 정정 장치.
제 6 항에 있어서,

상기 입력 신호는 상기 제 1 동적 범위 조정 레벨을 나타내는 제 1 비트들의 수를 전달하고 상기 출력 신호는 상기 제 3 동적 범위 조정 레벨을 나타내는 제 2 비트들의 수를 수용하도록 재배열되는 데이터를 통해 생성되며, 상기 제 1 비트들의 수는 상기 제 2 비트들의 수보다 더 큰, 상기 오디오 정보 재생 음량 및 동적 범위 정정 장치.
제 6 항에 있어서,

상기 입력 신호는 상기 제 1 동적 범위 조정 레벨을 나타내는 제 1 비트들의 수를 전달하고 상기 출력 신호는 상기 제 3 동적 범위 조정 레벨을 나타내는 제 2 비트들의 수를 수용하도록 재배열되는 데이터를 통해 생성되며, 상기 제 1 비트들의 수는 상기 제 2 비트들의 수보다 더 작은, 상기 오디오 정보 재생 음량 및 동적 범위 정정 장치.
제 7 항에 있어서,

상기 제 1 및 제 2 음량 정규화 레벨들의 차가 상기 문턱을 넘는 경우, 상기 제 3 인코딩된 오디오 정보는 음향심리학의 원리들에 따라 상기 디코딩된 오디오 정보를 인코딩함으로써 생성되는, 상기 명령어들의 프로그램 전달 매체.
제 7 항에 있어서,

상기 제 1 및 제 2 음량 정규화 레벨들 사이의 차가 상기 문턱을 넘는 경우, 상기 제 3 인코딩된 오디오 정보는 상기 제 1 인코딩된 오디오 정보를 나타내는, 상기 명령어들의 프로그램 전달 매체.
제 7 항에 있어서,

상기 입력 신호는 상기 제 1 동적 범위 조정 레벨을 나타내는 제 1 비트들의 수를 전달하고 상기 출력 신호는 상기 제 3 동적 범위 조정 레벨을 나타내는 제 2 비트들의 수를 수용하도록 재배열되는 데이터를 통해 생성되며, 상기 제 1 비트들의 수는 상기 제 2 비트들의 수보다 더 큰, 상기 명령어들의 프로그램 전달 매체.
제 7 항에 있어서,

상기 입력 신호는 상기 제 1 동적 범위 조정 레벨을 나타내는 제 1 비트들의 수를 전달하고 상기 출력 신호는 상기 제 3 동적 범위 조정 레벨을 나타내는 제 2 비트들의 수를 수용하도록 재배열되는 데이터를 통해 생성되며, 상기 제 1 비트들의 수는 상기 제 2 비트들의 수보다 더 작은, 상기 명령어들의 프로그램 전달 매체.