KR20220160638A

KR20220160638A - 오디오 장면을 위한 라우드니스 조정의 시그널링

Info

Publication number: KR20220160638A
Application number: KR1020227037433A
Authority: KR
Inventors: 쥔 톈; 샤오중 쉬; 산 류
Original assignee: 텐센트 아메리카 엘엘씨
Priority date: 2021-03-08
Filing date: 2021-10-15
Publication date: 2022-12-06
Also published as: WO2022191876A1; JP2023521689A; CN115486096A; US11595730B2; EP4101181A1; EP4101181A4; US20220286751A1

Abstract

본 개시내용의 양태들은 MPEG-I 몰입형 오디오 스트림과 연관된 오디오 장면에 대한 라우드니스 조정을 위한 방법들, 장치들, 및 비일시적 컴퓨터-판독가능 저장 매체들을 포함한다. 하나의 장치는 오디오 장면에 포함된 사운드 신호들의 개수를 표시하는 제1 신택스 엘리먼트를 수신하는 프로세싱 회로부를 포함한다. 프로세싱 회로부는 하나 이상의 음성 신호가 제1 신택스 엘리먼트에 의해 표시되는 사운드 신호들에 포함되는지 여부를 결정한다. 프로세싱 회로부는 하나 이상의 음성 신호가 사운드 신호들에 포함되는 것에 기초하여 하나 이상의 음성 신호로부터 기준 음성 신호를 결정한다. 프로세싱 회로부는 앵커 음성 신호에 기초하여 오디오 장면의 기준 음성 신호의 라우드니스 레벨을 조정한다. 프로세싱 회로부는 기준 음성 신호의 조정된 라우드니스 레벨에 기초하여 사운드 신호들의 라우드니스 레벨들을 조정한다.

Description

오디오 장면을 위한 라우드니스 조정의 시그널링

문헌 원용

본 출원은 2021년 10월 14일에 출원된 미국 특허출원 번호 제17/501,749호, "SIGNALING LOUDNESS ADJUSTMENT FOR AN AUDIO SCENE"에 대해 우선권의 이익을 주장하며, 2021년 3월 8일에 출원된 미국 가출원 번호 제63/158,261호, "SIGNALING LOUDNESS ADJUSTMENT FOR AUDIO SCENE"에 대해 우선권의 이익을 주장한다. 선행 출원들의 개시내용들은 본원에 그들 전체로 참조에 의해 원용된다.

기술 분야

본 개시내용은 오디오 장면에 대한 라우드니스 조정의 시그널링 정보에 일반적으로 관련된 실시형태들을 설명한다.

본원에서 제공되는 배경 설명은 본 개시내용의 맥락을 일반적으로 제시하기 위한 것이다. 이 배경 섹션에서 작업이 설명된 범위 내에서, 현재 명명된 발명자들의 작업 뿐만 아니라, 출원 시에 선행 기술로서 인정되지 않을 수 있는 설명의 양태들은, 본 개시내용에 대한 선행 기술로서 명시적이거나 묵시적으로 인정되지 않는다.

동화상 전문가 그룹(MPEG)은 몰입형 오디오, 몰입형 비디오, 및 시스템들 지원을 포함하는 일련의 표준들을 제안하였다. 일련의 표준들은 사용자가 6 자유도(6 DoF)를 이용하여 환경을 탐색하고 상호작용할 수 있는 가상 현실(VR) 또는 증강 현실(AR) 프레젠테이션을 지원할 수 있다. 도 1은 본 개시내용의 일 실시형태에 따른 6 자유도의 일 예를 나타낸다. 도 1에서, 6 자유도는 공간 내비게이션(x, y, z) 및 사용자 머리 방위(요, 피치, 롤)에 의해 표현될 수 있다.

MPEG-I 프레젠테이션들의 목표는 사용자가 가상 세계에 실제로 존재한다는 느낌을 주는 것이다. 가상 세계(또는, 가상 장면)의 오디오 신호들은 연관된 시각적 모습에서 나오는 사운드들로, 현실 세계에서와 같이 인지된다. 즉, 사운드들은 정확한 위치 및 정확한 거리에서 인지된다. 현실 세계에서 사용자의 물리적 이동은 가상 세계에서 일치하는 이동으로서 인지된다. 더욱이, 중요하게는, 사용자는 가상 장면과 상호작용할 수 있으므로, 사운드들은 사실적으로 인지되고 현실 세계에서 사용자의 경험과 일치해야 한다.

상호작용 VR/AR 테스트에서, 상이한 사운드 레벨들이 청취 테스트 셋업에 포함된다. 이들 사운드 레벨들의 관계들은 기술적 셋업에 의해 주어지거나, 또는 라우드니스 측정들에 의해 정규화되거나, 또는 수동으로 설정될 수 있다. 장면 라우드니스 조정을 위한 프로시저는 MPEG-I 몰입형 오디오의 제안 요청(call of proposals)(CfP)의 부분으로서 설명된다.

본 개시내용의 양태들은 MPEG-I 몰입형 오디오 스트림과 연관된 오디오 장면에 대한 라우드니스 조정을 위한 장치들을 제공한다. 하나의 장치는 오디오 장면에 포함된 사운드 신호들의 개수를 표시하는 제1 신택스 엘리먼트를 수신하는 프로세싱 회로부를 포함한다. 프로세싱 회로부는 하나 이상의 음성 신호가 제1 신택스 엘리먼트에 의해 표시되는 사운드 신호들에 포함되는지 여부를 결정한다. 프로세싱 회로부는 하나 이상의 음성 신호가 사운드 신호들에 포함되는 것에 기초하여 하나 이상의 음성 신호로부터 기준 음성 신호를 결정한다. 프로세싱 회로부는 앵커 음성 신호에 기초하여 오디오 장면의 기준 음성 신호의 라우드니스 레벨을 조정한다. 프로세싱 회로부는 기준 음성 신호의 조정된 라우드니스 레벨에 기초하여 사운드 신호들의 라우드니스 레벨들을 조정한다.

일 실시형태에서, 프로세싱 회로부는 하나 이상의 음성 신호가 사운드 신호들에 포함되는지 여부를 표시하는 제2 신택스 엘리먼트를 수신한다. 프로세싱 회로부는 하나 이상의 음성 신호가 사운드 신호들에 포함된다고 제2 신택스 엘리먼트가 표시하는 것에 기초하여 하나 이상의 음성 신호가 사운드 신호들에 포함된 것으로 결정한다.

일 실시형태에서, 프로세싱 회로부는 복수의 제3 신택스 엘리먼트들을 수신하며, 제3 신택스 엘리먼트들 각각은 사운드 신호들의 개별 신호가 음성 신호인지 여부를 표시한다. 프로세싱 회로부는 사운드 신호들의 개별 신호가 음성 신호임을 제3 신택스 엘리먼트들 중 적어도 하나가 표시하는 것에 기초하여 하나 이상의 음성 신호가 사운드 신호들에 포함된 것으로 결정한다.

일 실시형태에서, 프로세싱 회로부는 사운드 신호들에 포함된 하나 이상의 음성 신호의 개수를 표시하는 제4 신택스 엘리먼트를 수신한다. 프로세싱 회로부는 제4 신택스 엘리먼트에 의해 표시되는 하나 이상의 음성 신호의 개수가 0보다 큰 것에 기초하여 하나 이상의 음성 신호가 사운드 신호들에 포함된 것으로 결정한다.

일 실시형태에서, 프로세싱 회로부는 하나 이상의 음성 신호의 개수가 1보다 큰 것에 기초하여 기준 음성 신호를 표시하는 제5 신택스 엘리먼트를 수신한다.

일 실시형태에서, 프로세싱 회로부는 복수의 제6 신택스 엘리먼트들을 수신하며, 제6 신택스 엘리먼트들 각각은 사운드 신호들의 개별 신호의 식별 인덱스를 표시한다.

일 실시형태에서, 프로세싱 회로부는 어떤 음성 신호도 사운드 신호들에 포함되지 않은 것으로 결정한다. 프로세싱 회로부는 디폴트 기준 신호에 기초하여 사운드 신호들의 라우드니스 레벨들을 조정한다.

본 개시내용의 양태들은 MPEG-I 몰입형 오디오 스트림과 연관된 오디오 장면에 대한 라우드니스 조정을 위한 방법들을 제공한다. 하나의 방법에서, 오디오 장면에 포함된 사운드 신호들의 개수를 표시하는 제1 신택스 엘리먼트가 수신된다. 하나 이상의 음성 신호가 제1 신택스 엘리먼트에 의해 표시되는 사운드 신호들에 포함되는지 여부가 결정된다. 하나 이상의 음성 신호로부터의 기준 음성 신호는 하나 이상의 음성 신호가 사운드 신호들에 포함되는 것에 기초하여 결정된다. 오디오 장면의 기준 음성 신호의 라우드니스 레벨은 앵커 음성 신호에 기초하여 조정된다. 사운드 신호들의 라우드니스 레벨들은 기준 음성 신호의 조정된 라우드니스 레벨에 기초하여 조정된다.

본 개시내용의 양태들은 또한 적어도 하나의 프로세서에 의해 실행될 때 적어도 하나의 프로세서로 하여금, MPEG-I 몰입형 오디오 스트림과 연관된 오디오 장면에 대한 라우드니스 조정을 위한 방법들의 임의의 하나 또는 조합을 수행하게 하는 명령어들을 저장하는 비일시적 컴퓨터-판독가능 매체들을 제공한다.

개시된 기술요지의 추가 특징들, 성질, 및 다양한 이점들은 다음 상세한 설명 및 첨부 도면들로부터 더욱 명확히 알 수 있을 것이다.
도 1은 본 개시내용의 일 실시형태에 따른 6 자유도의 일 예를 나타낸다.
도 2는 본 개시내용의 일 실시형태에 따른 예시적인 플로우차트를 나타낸다.
도 3은 본 개시내용의 일 실시형태에 따른 컴퓨터 시스템의 개략도이다.

I. 오디오 장면에 대한 라우드니스 조정

본 개시내용은 장면 라우드니스 조정을 위한 시그널링 방법들을 포함한다.

본 개시내용의 양태들에 따르면, 장면 생성기는 장면 라우드니스를 조정하기 위해 앵커 음성 신호를 기준 신호로서 제공할 수 있다. 오디오 장면에서의 사운드 신호들의 경우, 장면 라우드니스 조정을 위한 프로시저는 다음과 같이 설명될 수 있다.

장면 사운드와 규정된 앵커 신호 사이의 라우드니스 조정은 장면 생성기(또는, 콘텐츠 생성기)에 의해 이루어져야 한다. 일 예에서, 장면 사운드는 인코더 입력 포맷(EIF)에 사용되는 펄스-코드 변조(PCM) 오디오 신호일 수 있다. 펄스-코드 변조(PCM)는 샘플링된 아날로그 신호들을 디지털로 나타내는데 이용되는 방법이다. EIF는 MPEG-I 몰입형 오디오 인코더가 판독 및 압축하는 장면 메타데이터 정보의 구조 및 표현을 기술한다. Dirac HRTF(head related transfer function)를 가진 GBR(general binaural renderer)이 라우드니스 조정을 위해 콘텐츠 생성기에 의해 사용될 수 있다.

하나 이상의(예를 들어, 하나 또는 2개의) 측정 지점이 장면에 정의될 수 있다. 이들 측정 지점들은 이 장면에 대한 정상 라우드니스(normal loudness)를 나타내는 장면 작업 경로 상의 위치들을 나타내야 한다.

장면 생성기는 이들 위치들에서 Dirac HRTF를 가진 GBR로 장면 출력 신호를 기록하고 결과적인 오디오 파일들(예를 들어, wav-파일들)을 이용하여 기준 신호와 비교하고, 장면 라우드니스 레벨에 필요한 조정들을 결정할 수 있다.

음성 신호가 장면 내에 존재하면, 일 예에서, 하나의 측정 위치는 음성 소스에서 약 1.5 m 떨어져 있을 수 있다. 이후, 이 측정 위치에서의 음성 신호의 라우드니스 레벨이 앵커 음성 신호와 동일한 라우드니스 레벨로 조정될 수 있다.

장면 내 모든 다른 사운드 신호들의 라우드니스 레벨들은 음성 신호의 라우드니스 레벨에 기초하여 조정될 수 있다. 예를 들어, 모든 다른 사운드 신호들의 라우드니스 레벨들 각각이 정제된 음성 신호의 라우드니스 레벨에 기초하여 개별 스케일러에 의해 곱해질 수 있다.

음성 신호가 장면 내에 존재하지 않으면, 장면 내 사운드 신호들의 라우드니스 레벨들이 앵커 음성 신호와 비교하여 조정될 수 있다.

게다가, 장면 작업 경로 상의 가장 시끄러운 지점은 장면 생성기에 의해 식별되어야 한다. 가장 시끄러운 지점에서의 라우드니스 레벨은 클리핑이 없는지 체크되어야 한다. 예를 들어, 청취자가 사운드 소스에 비정상적으로 접근할 때 클리핑의 에지 케이스들(edge cases)이 방지되어야 한다. 비정상 접근법에 대해 사운드 레벨을 조정하는 것은 일 실시형태에서 렌더러의 작업이다.

이후, 장면 작업 경로 상의 부드러운 지점들 또는 영역들이 너무 조용하지 않은지 체크되어야 한다. 예를 들어, 긴 침묵의 기간들이 장면 작업 경로 상에 있지 않아야 한다.

일부 실시형태들에서, 오디오 장면 내 사운드 신호들에 기초하여 기준 신호를 결정하고 기준 신호를 앵커 신호와 동일한 라우드니스 레벨로 조정하는 것이 중요하다. 기준 신호를 결정함이 없이, 사운드 신호들의 스케일러들이 결정되지 않을 수 있다. 예를 들어, 오디오 장면 내에 2개의 사운드 신호들 A(라우드니스가 5임) 및 B(라우드니스가 20임)가 있고 앵커 음성 신호의 라우드니스가 10이면, 기준 신호를 결정하지 않고, 사운드 신호 A가 10으로 스케일링 업되었는지 또는 사운드 신호 B가 10으로 스케일링 다운되었는지가 명확하지 않을 수 있다. 이 경우, 하나의 가능한 해결책은 사운드 신호들 A 및 B 둘 모두가 앵커 음성 신호와 동일한 라우드니스 레벨(예를 들어, 10)로 조정되는 것이다. 이 해결책은 일부 애플리케이션들에서 필요하지 않을 수 있다. 따라서, 기준 신호가 오디오 장면 내 사운드 신호들에 기초하여 결정되면, 사운드 신호들의 스케일러들이 결정될 수 있다. 예를 들어, 사운드 신호 A가 기준 신호로서 선택되면, 사운드 신호 A는 2의 스케일러로 10으로 스케일링 업될 수 있으며 사운드 신호 B는 동일한 2의 스케일러로 40으로 스케일링 업될 수 있다. 게다가, 오디오 장면에서의 음성 신호가 앵커 음성 신호로 인해 기준 신호로서 선택될 수 있다.

본 개시내용의 양태들에 따르면, 2개 이상의 음성 신호들이 오디오 장면 내에 존재할 때, 장면 라우드니스 조정이 다음과 같이 수행될 수 있다.

장면 사운드와 규정된 앵커 신호 사이의 라우드니스 조정이 장면 생성기(또는, 콘텐츠 생성기)에 의해 수행될 수 있다. 일 예에서, 장면 사운드는 EIF에 사용되는 PCM 오디오 신호일 수 있다. Dirac HRTF을 갖는 GBR이 라우드니스 조정을 위해 콘텐츠 생성기에 의해 이용될 수 있다.

하나 이상의(예를 들어, 하나 또는 2개의) 측정 지점이 장면에 정의될 수 있다. 이들 측정 지점들은 이 장면에 대한 정상 라우드니스를 나타내는 장면 작업 경로 상의 위치들을 나타내어야 한다.

장면 생성기는 이들 위치들에서 GBR 및 Dirac HRTF로 장면 출력 신호를 기록하고 결과적인 오디오 파일들(예를 들어, wav-파일들)을 이용하여 기준 신호와 비교하고, 장면 라우드니스 레벨에 필요한 조정들을 결정할 수 있다.

2개 이상의 음성 신호들이 장면 내에 존재하면, 조정된 음성 신호가 생성될 수 있다. 이후, 조정된 음성 신호의 라우드니스 레벨이 앵커 음성 신호와 동일한 라우드니스로 추가로 조정될 수 있다. 이후, 조정된 음성 신호가 정제된 음성 신호로서 사용될 수 있다.

장면 내 모든 다른 사운드 신호들의 라우드니스 레벨들은 정제된 음성 신호의 라우드니스 레벨에 기초하여 조정될 수 있다. 예를 들어, 모든 다른 사운드 신호들의 라우드니스 레벨들 각각이 정제된 음성 신호의 라우드니스 레벨에 기초하여 개별 스케일러에 의해 곱해질 수 있다.

게다가, 장면 작업 경로 상의 가장 시끄러운 지점이 장면 생성기에 의해 식별될 수 있다. 가장 시끄러운 지점에서의 라우드니스 레벨은 클리핑이 없는지 체크되어야 한다. 예를 들어, 청취자가 사운드 소스에 비정상적으로 접근할 때, 클리핑의 에지 케이스들이 방지되어야 한다. 비정상 접근법에 있어 사운드 레벨을 조정하는 것은 일 실시형태에서 렌더러의 작업이다.

본 개시내용의 양태들에 따르면, 조정된 음성 신호는 2개 이상의 음성 신호들이 존재할 때, 장면 내에 존재하는 2개 이상의 음성 신호들로부터 발생될 수 있다.

일 실시형태에서, 조정된 음성 신호는 장면 내에 존재하는 음성 신호들 중 하나일 수 있으며, 여기서, 선택은 장면 생성기에 의해 이루어진다. 선택은 사용자에게 표시될 수 있다. 예를 들어, 선택은 비트스트림에 표시되거나 또는 오디오 신호들과 연관된 메타데이터의 부분으로서 표시될 수 있다.

조정된 음성 신호는 상이한 기준들에 따라 선택될 수 있다. 예를 들어, 조정된 음성 신호는 음성 신호들 중 하나 이상의 적어도 하나의 특성 또는 음성 신호들 중 하나 이상 사이의 적어도 하나의 수학적 관계에 기초하여 선택될 수 있다. 예를 들어, 조정된 음성 신호는 사운드 레벨 또는 볼륨에 기초하여 결정될 수 있다. 일 실시형태에서, 조정된 음성 신호는 장면 내에 존재하는 가장 시끄러운 음성 신호일 수 있다. 일 실시형태에서, 조정된 음성 신호는 장면 내에 존재하는 가장 조용한 음성 신호일 수 있다.

일부 실시형태들에서, 조정된 음성 신호는 음성 신호들 또는 음성 신호들의 서브세트의 평균 또는 중앙값(median)에 기초하여 결정될 수 있다. 또, 평균은 일부 실시형태들에서 가중될 수 있다. 일 실시형태에서, 조정된 음성 신호는 장면 내에 존재하는 모든 음성 신호들의 평균일 수 있다. 일 실시형태에서, 조정된 음성 신호는 장면 내에 존재하는 가장 시끄러운 음성 신호와 가장 조용한 음성 신호의 평균일 수 있다. 일 실시형태에서, 조정된 신호는 장면 내에 존재하는 모든 음성 신호들의 중앙값일 수 있다. 일 실시형태에서, 조정된 신호는 장면 내에 존재하는 모든 음성 신호들의 분위수의 평균, 예를 들어, 25% 내지 75%의 분위수일 수 있다. 일 실시형태에서, 조정된 신호는 장면 내에 존재하는 모든 음성 신호들의 가중 평균일 수 있으며, 여기서, 가중치들은 거리 기반 또는 라우드니스 기반일 수 있다.

일부 실시형태들에서, 조정된 음성 신호는 음성 신호들의 클러스터링에 기초하여 결정될 수 있다. 예를 들어, 조정된 신호는 장면 내에 존재하는 모든 음성 신호들의 클러스터링 중심에 가장 가깝게 위치된 음성 신호일 수 있다.

본 개시내용에 포함된 방법들은 별도로 또는 임의의 조합으로 사용될 수 있다는 점에 유의한다. 방법들은 부분적으로 또는 전체로 이용될 수 있다.

본 개시내용은 장면 라우드니스 조정을 위한 시그널링 방법들을 포함한다. 시그널링 방법들에서, 조정들에 필요한 정보가 표시될 수 있다. 시그널링 정보는 비트스트림의 부분 또는 메타데이터의 부분일 수 있다. 시그널링 정보는 당사자들 사이, 예를 들어, 센더(sender)와 수신기 사이에 통신될 수 있다. 시그널링 정보를 수신한 후, 수신기는 이러한 정보를 이용하여, 수신된 사운드 신호들의 신호 레벨들을 조정할지 여부 및 방법을 결정할 수 있다.

일부 실시형태들에서, 시그널링 정보는 장면 내에 존재하는 음성 신호가 있는지 여부를 규정할 수 있다. 예를 들어, 시그널링 정보는 음성 신호가 장면 내에 존재할 때 음성 신호가 있다고 규정한다. 장면 내에 존재하는 음성 신호가 있을 때, 시그널링 정보는 장면 내에 존재하는 2개 이상의 음성 신호들이 있는지 여부를 규정할 수 있다. 또, 시그널링 정보는 필요한 경우, 2개 이상의 음성 신호들의 개수를 규정할 수 있다.

일부 실시형태들에서, 시그널링 정보는 음성 신호(들)(장면 내에 존재할 때)를 라우드니스 조정을 위한 기준 신호로서 이용할지 여부 및 방법, 또는 디폴트 신호 레벨을 라우드니스 조정을 위한 기준 신호 레벨로서 이용할지 여부 및 방법을 규정할 수 있다.

일 실시형태에서, 시그널링 정보는 음성 신호들 중 하나(장면 내에 존재할 때)가 취해져 라우드니스 조정을 위한 앵커 음성 신호와 동일한 라우드니스로 조정되는지 여부를 규정할 수 있다. 어떤 음성 신호도 취해지지 않으면, 디폴트 신호 레벨(예를 들어, 앵커 음성 신호의 라우드니스 레벨)이 다른 사운드 신호들을 조정하기 위한 기준 레벨로서 이용될 수 있다.

일 실시형태에서, 시그널링 정보는 음성 신호들 중 하나가 라우드니스 조정을 위해 취해진 것으로 결정될 때 장면 내에 존재하는 음성 신호들 중 어느 것이 취해져 앵커 음성 신호와 동일한 라우드니스로 조정되는지를 규정할 수 있다.

일 실시형태에서, 시그널링 정보는 음성 신호들 중 하나(장면 내에 존재할 때)가 라우드니스 조정을 위해 취해지는지 여부를 규정할 수 있다. 음성 신호들 중 하나가 라우드니스 조정을 위해 취해지는 것으로 결정되면, 앵커 음성 신호의 동일한 라우드니스로 취해져 조정되는 음성 신호는 음성 신호들의 특성들(예를 들어, 레벨 또는 볼륨)에 기초하여 결정될 수 있다. 예를 들어, 장면 내에 존재하는 가장 시끄러운 음성 신호가 취해져 앵커 음성 신호와 동일한 라우드니스로 조정될 수 있다. 다른 예에서, 장면 내에 존재하는 가장 조용한 음성 신호가 취해져 앵커 음성 신호와 동일한 라우드니스로 조정될 수 있다.

일 실시형태에서, 시그널링 정보는 음성 신호들 중 하나(장면 내에 존재할 때)가 라우드니스 조정을 위해 취해지는지 여부를 규정할 수 있다. 음성 신호들 중 하나가 라우드니스 조정을 위해 취해지는 것으로 결정되면, 앵커 음성 신호의 동일한 라우드니스로 취해져 조정되는 음성 신호는 음성 신호들의 클러스터링에 기초하여 결정될 수 있다. 예를 들어, 장면 내에 존재하는 모든 음성 신호들의 클러스터링 중심에 가장 가깝게 위치된 음성 신호가 취해져 앵커 음성 신호와 동일한 라우드니스로 조정될 수 있다. 클러스터링 중심은 모든 음성 신호들의 위치들에 기초하여 유도될 수 있다.

일 실시형태에서, 시그널링 정보는 음성 신호들 중 하나(장면 내에 존재할 때)가 라우드니스 조정을 위해 취해지는지 여부를 규정할 수 있다. 음성 신호들 중 하나가 라우드니스 조정을 위해 취해지는 것으로 결정되면, 앵커 음성 신호의 동일한 라우드니스로 취해져 조정되는 음성 신호는 조정된 음성 신호에 기초하여 결정될 수 있다. 예를 들어, 조정된 음성 신호는 장면 내 가용 음성 신호들에 기초하여 발생되고, 앵커 음성 신호와 동일한 라우드니스로 조정될 수 있다.

일부 실시형태들에서, 시그널링 정보는 장면 내 가용 음성 신호들에 기초하여 조정된 음성 신호가 발생되는 방법을 규정할 수 있다. 조정된 음성 신호는 음성 신호들 또는 음성 신호들의 서브세트의 평균 또는 중앙값에 기초하여 결정될 수 있다. 또, 평균은 일부 실시형태들에서 가중될 수 있다.

일 실시형태에서, 시그널링 정보는 가용 음성 신호들(장면 내에 존재할 때)로부터 발생된 조정된 음성 신호가 라우드니스 레벨 조정을 위한 기준 신호로서 취해지는지 여부를 규정할 수 있다. 발생된 조정된 음성 신호가 라우드니스 레벨 조정을 위한 기준 신호로서 취해지는 것으로 결정되면, 조정된 음성 신호는 장면 내에 존재하는 모든 음성 신호들의 평균일 수 있다.

일 실시형태에서, 시그널링 정보는 가용 음성 신호들(장면 내에 존재할 때)로부터 발생된 조정된 음성 신호가 라우드니스 레벨 조정을 위한 기준 신호로서 취해지는지 여부를 규정할 수 있다. 발생된 조정된 음성 신호가 라우드니스 레벨 조정을 위한 기준 신호로서 취해지는 것으로 결정되면, 조정된 음성 신호는 장면 내에 존재하는 가장 시끄러운 음성 신호와 가장 조용한 음성 신호의 평균일 수 있다.

일 실시형태에서, 시그널링 정보는 가용 음성 신호들(장면 내에 존재할 때)로부터 발생된 조정된 음성 신호가 라우드니스 레벨 조정을 위한 기준 신호로서 취해지는지 여부를 규정할 수 있다. 발생된 조정된 음성 신호가 라우드니스 레벨 조정을 위한 기준 신호로서 취해지는 것으로 결정되면, 조정된 음성 신호는 장면 내에 존재하는 모든 음성 신호들의 중앙값일 수 있다.

일 실시형태에서, 시그널링 정보는 가용 음성 신호들(장면 내에 존재할 때)로부터 발생된 조정된 음성 신호가 라우드니스 레벨 조정을 위한 기준 신호로서 취해지는지 여부를 규정할 수 있다. 발생된 조정된 음성 신호가 라우드니스 레벨 조정을 위한 기준 신호로서 취해지는 것으로 결정되면, 조정된 음성 신호는 장면 내에 존재하는 모든 음성 신호들의 분위수의 평균일 수 있다.

일 실시형태에서, 시그널링 정보는 가용 음성 신호들(장면 내에 존재할 때)로부터 발생된 조정된 음성 신호가 라우드니스 레벨 조정을 위한 기준 신호로서 취해지는지 여부를 규정할 수 있다. 발생된 조정된 음성 신호가 라우드니스 레벨 조정을 위한 기준 신호로서 취해지는 것으로 결정되면, 조정된 음성 신호는 장면 내에 존재하는 모든 음성 신호들의 가중 평균일 수 있다.

일 실시형태에서, 시그널링 정보는 가중치들이 거리 기반임을 규정할 수 있다. 예를 들어, 가정된 중심으로부터 멀어질수록, 더 낮은 레벨 가중치가 할당될 수 있다.

일 실시형태에서, 시그널링 정보는 가중치들이 라우드니스 기반임을 규정할 수 있다. 예를 들어, 음성 신호가 더 조용할수록, 더 낮은 레벨 가중치가 할당될 수 있다.

시그널링 정보의 예시적인 신택스 테이블이 표 1에 나타내어져 있다.

표 1

표 1에서, 신택스 엘리먼트 num_sound(예를 들어, 2 이상의 비트들)는 오디오 장면 내 사운드 신호들의 개수를 표시한다. 오디오 장면 내 각각의 사운드 신호에 대해, 시그널링 정보는 개별 사운드 신호의 식별 인덱스를 규정하는 개별 신택스 엘리먼트 sound_id(예를 들어, 2 이상의 비트들)를 포함할 수 있다. 오디오 장면 내 각각의 사운드 신호에 대해, 시그널링 정보는 개별 사운드 신호가 음성 신호인지 여부를 규정하는 개별 1 비트 플래그 is_speech_flag를 포함할 수 있다.

일 실시형태에서, 시그널링 정보는 음성 신호가 장면 내에 존재하는지 여부를 규정하는 1 비트 플래그 speech_present_flag를 포함할 수 있다.

일 실시형태에서, 음성 신호가 장면 내에 존재하는지 여부는 1과 동일한 연관된 신택스 엘리먼트 is_speech_flag를 갖는 사운드 신호가 존재하는지 여부를 체크함으로써 결정될 수 있다.

일 실시형태에서, 음성 신호가 장면 내에 존재하는 것으로 결정되면, 시그널링 정보는 장면 내에 존재하는 음성 신호들의 개수를 규정하는 신택스 엘리먼트 num_speech_signals(예를 들어, 2 이상의 비트들)를 포함할 수 있다.

일 실시형태에서, 장면 내에 존재하는 음성 신호들의 개수는 1과 동일한 연관된 신택스 엘리먼트 is_speech_flag를 각각 갖는 사운드 신호들의 개수를 계수함으로써 유도될 수 있다.

일 실시형태에서, 다수의 라우드니스 조정 방법들이 지원될 수 있다. 다수의 라우드니스 조정 방법들은 본 개시내용에서 설명되는 하나 이상의 방법을 포함할 수 있다. 일 예에서, 이들 방법들의 서브세트가 허용될 수 있다.

일 실시형태에서, 장면 내에 존재하는 음성 신호들의 개수가 하나 보다 많으면, 시그널링 정보는 라우드니스 조정을 위해 조정된 음성 신호를 발생시키는 방법을 규정하는 신택스 엘리먼트 adjusted_speech_signal_method(예를 들어, 3 이상의 비트들)를 포함할 수 있다.

표 2는 라우드니스 조정을 위한 예시적인 시그널링 방법을 나타낸다.

표 2

본 개시내용은 MPEG-I 몰입형 오디오 스트림과 연관된 오디오 장면에 대한 라우드니스 조정 시그널링을 위한 데이터 구조를 포함한다. 데이터 구조는 라우드니스 조정 정보에서 오디오 장면에 포함된 사운드 신호들의 개수를 표시하는 제1 신택스 엘리먼트를 포함한다. 기준 음성 신호는 제1 신택스 엘리먼트에 기초하여 하나 이상의 음성 신호가 사운드 신호들에 포함된 것으로 결정되는 것에 응답하여 하나 이상의 음성 신호로부터 결정된다. 오디오 장면의 기준 음성 신호의 라우드니스 레벨은 앵커 음성 신호에 기초하여 조정된다. 사운드 신호들의 라우드니스 레벨들은 기준 음성 신호의 조정된 라우드니스 레벨에 기초하여 조정된다.

일 실시형태에서, 데이터 구조는 라우드니스 조정 정보에서 하나 이상의 음성 신호가 사운드 신호들에 포함되는지 여부를 표시하는 제2 신택스 엘리먼트를 포함한다. 하나 이상의 음성 신호는 제2 신택스 엘리먼트가 하나 이상의 음성 신호가 사운드 신호들에 포함된다고 표시하는 것에 기초하여 사운드 신호들에 포함된 것으로 결정된다.

일 실시형태에서, 데이터 구조는 라우드니스 조정 정보에서 복수의 제3 신택스 엘리먼트들을 포함한다. 제3 신택스 엘리먼트들 각각은 사운드 신호들의 개별 신호가 음성 신호인지 여부를 표시한다. 하나 이상의 음성 신호는 사운드 신호들의 개별 신호가 음성 신호임을 제3 신택스 엘리먼트들 중 적어도 하나가 표시하는 것에 기초하여 사운드 신호들에 포함된 것으로 결정된다.

일 실시형태에서, 데이터 구조는 라우드니스 조정 정보에서 사운드 신호들에 포함된 하나 이상의 음성 신호의 개수를 표시하는 제4 신택스 엘리먼트를 포함한다. 하나 이상의 음성 신호는 제4 신택스 엘리먼트에 의해 표시되는 하나 이상의 음성 신호의 개수가 0보다 큰 것에 기초하여 사운드 신호들에 포함된 것으로 결정된다.

일 실시형태에서, 데이터 구조는 하나 이상의 음성 신호의 개수가 1보다 큰 것에 기초하여 라우드니스 조정 정보에서 기준 음성 신호를 표시하는 제5 신택스 엘리먼트를 포함한다.

일 실시형태에서, 데이터 구조는 라우드니스 조정 정보에서 복수의 제6 신택스 엘리먼트들을 포함한다. 제6 신택스 엘리먼트들 각각은 사운드 신호들의 개별 신호의 식별 인덱스를 표시한다.

II. 플로우차트

도 2는 본 개시내용의 일 실시형태에 따른 예시적인 프로세스(200)을 개략적으로 나타낸 플로우 차트를 나타낸다. 다양한 실시형태들에서, 프로세스(200)은 도 3에 나타낸 바와 같은 프로세싱 회로부와 같은 프로세싱 회로부에 의해 실행된다. 일부 실시형태들에서, 프로세스(200)은 소프트웨어 명령어들로 구현되며, 따라서 프로세싱 회로부가 소프트웨어 명령어들을 실행할 때, 프로세싱 회로부는 프로세스(200)을 수행한다.

프로세스(200)은 일반적으로 단계(S210)에서 시작할 수 있으며, 여기서, 프로세스(200)은 오디오 장면에 포함된 사운드 신호들의 개수를 표시하는 제1 신택스 엘리먼트를 수신한다. 이후, 프로세스(200)은 단계(S220)로 진행한다.

단계(S220)에서, 프로세스(200)은 하나 이상의 음성 신호가 제1 신택스 엘리먼트에 의해 표시되는 사운드 신호들에 포함되는지 여부를 결정한다. 이후, 프로세스(200)은 단계(S230)로 진행한다.

단계(S230)에서, 프로세스(200)은 하나 이상의 음성 신호가 사운드 신호들에 포함되는 것에 기초하여 하나 이상의 음성 신호로부터 기준 음성 신호를 결정한다. 이후, 프로세스(200)은 단계(S240)로 진행한다.

단계(S240)에서, 프로세스(200)은 앵커 음성 신호에 기초하여 오디오 장면의 기준 음성 신호의 라우드니스 레벨을 조정한다. 이후, 프로세스(200)은 단계(S250)로 진행한다.

단계(S240)에서, 프로세스(200)은 기준 음성 신호의 조정된 라우드니스 레벨에 기초하여 사운드 신호들의 라우드니스 레벨들을 조정한다. 이후, 프로세스(200)가 종료된다.

일 실시형태에서, 프로세스(200)은 하나 이상의 음성 신호가 사운드 신호들에 포함되는지 여부를 표시하는 제2 신택스 엘리먼트를 수신한다. 프로세스(200)는 제2 신택스 엘리먼트가 하나 이상의 음성 신호가 사운드 신호들에 포함된다고 표시하는 것에 기초하여 하나 이상의 음성 신호가 사운드 신호들에 포함된 것으로 결정한다.

일 실시형태에서, 프로세스(200)는 복수의 제3 신택스 엘리먼트들을 수신하며, 제3 신택스 엘리먼트들 각각은 사운드 신호들의 개별 신호가 음성 신호인지 여부를 표시한다. 프로세스(200)는 사운드 신호들의 개별 신호가 음성 신호임을 제3 신택스 엘리먼트들 중 적어도 하나가 표시하는 것에 기초하여 하나 이상의 음성 신호가 사운드 신호들에 포함된 것으로 결정한다.

일 실시형태에서, 프로세스(200)는 사운드 신호들에 포함된 하나 이상의 음성 신호의 개수를 표시하는 제4 신택스 엘리먼트를 수신한다. 프로세스(200)는 제4 신택스 엘리먼트에 의해 표시되는 하나 이상의 음성 신호의 개수가 0보다 큰 것에 기초하여 하나 이상의 음성 신호가 사운드 신호들에 포함된 것으로 결정한다.

일 실시형태에서, 프로세스(200)는 하나 이상의 음성 신호의 개수가 1보다 큰 것에 기초하여 기준 음성 신호를 표시하는 제5 신택스 엘리먼트를 수신한다.

일 실시형태에서, 프로세스(200)는 복수의 제6 신택스 엘리먼트들을 수신하며, 제6 신택스 엘리먼트들 각각은 사운드 신호들의 개별 신호의 식별 인덱스를 표시한다.

일 실시형태에서, 프로세스(200)는 음성 신호가 사운드 신호들에 포함되지 않은 것으로 결정한다. 프로세스(200)는 디폴트 기준 신호에 기초하여 사운드 신호들의 라우드니스 레벨들을 조정한다.

III. 컴퓨터 시스템

위에서 설명된 기법들은 컴퓨터-판독가능 명령어들을 이용하여 컴퓨터 소프트웨어로서 구현될 수 있으며, 하나 이상의 컴퓨터-판독가능 매체에 물리적으로 저장될 수 있다. 예를 들어, 도 3은 개시된 기술요지의 특정의 실시형태들을 구현하는데 적합한 컴퓨터 시스템(300)을 나타낸다.

컴퓨터 소프트웨어는 하나 이상의 컴퓨터 중앙 처리 유닛(CPU), 그래픽 프로세싱 유닛(GPU) 등에 의해, 직접, 또는 해석, 마이크로-코드 실행 등을 통해서, 실행될 수 있는 명령어들을 포함하는 코드를 생성하기 위해 어셈블리, 편집, 링킹(linking), 또는 유사한 메커니즘들을 거칠 수 있는, 임의의 적합한 기계 코드 또는 컴퓨터 언어를 이용하여 코딩될 수 있다.

명령어들은 예를 들어, 개인용 컴퓨터들, 태블릿 컴퓨터들, 서버들, 스마트폰들, 게이밍 디바이스들, 사물 인터넷 디바이스들 등을 포함한, 다양한 유형들의 컴퓨터들 또는 이들의 컴포넌트들 상에서 실행될 수 있다.

컴퓨터 시스템(300)에 대한 도 3에 나타낸 컴포넌트들은 본질적으로 예시적이며, 본 개시내용의 실시형태들을 구현하는 컴퓨터 소프트웨어의 용도 또는 기능의 범위에 대한 어떠한 제한도 제안하도록 의도되지 않는다. 컴포넌트들의 구성은 컴퓨터 시스템(300)의 예시적인 실시형태에 예시된 컴포넌트들의 임의의 하나 또는 조합에 관한 임의의 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안된다.

컴퓨터 시스템(300)은 특정의 인간 인터페이스 입력 디바이스들을 포함할 수 있다. 이러한 인간 인터페이스 입력 디바이스는 예를 들어, 촉각 입력(예컨대: 키스트로크들, 스와이프들, 데이터 글러브 이동들), 오디오 입력(예컨대: 보이스, 박수), 시각적 입력(예컨대: 제스쳐들), 후각 입력(미도시됨)을 통해, 하나 이상의 인간 사용자에 의한 입력에 응답할 수 있다. 인간 인터페이스 디바이스들은 또한 오디오(예컨대: 음성, 음악, 주변 사운드), 이미지들(예컨대: 스캔된 이미지들, 정지 화상 카메라로부터 획득된 사진 이미지들), 비디오(예컨대, 2차원 비디오, 입체 비디오를 포함하는 3차원 비디오)와 같은, 인간에 의한 의식적인 입력에 반드시 직접 관련되지는 않은 특정의 매체들을 캡처하는데 사용될 수 있다.

입력 인간 인터페이스 디바이스들은 키보드(301), 마우스(302), 트랙패드(303), 터치 스크린(310), 데이터-글러브(미도시), 조이스틱(305), 마이크로폰(306), 스캐너(307), 및 카메라(308) 중 하나 이상(각 도시된 것 중 하나만)을 포함할 수 있다.

컴퓨터 시스템(300)은 또한 특정의 인간 인터페이스 출력 디바이스들을 포함할 수 있다. 이러한 인간 인터페이스 출력 디바이스들은 예를 들어, 촉각 출력, 사운드, 광, 및 냄새/미각을 통해, 하나 이상의 인간 사용자의 감각들을 자극할 수 있다. 이러한 인간 인터페이스 출력 디바이스들은 촉각 출력 디바이스들(예를 들어, 터치-스크린(310), 데이터-글러브(미도시), 또는 조이스틱(305)에 의한 촉각 피드백이지만, 또한 입력 디바이스들로서 기능하지 않는 촉각 피드백 디바이스들도 있을 수 있음), 오디오 출력 디바이스들(예컨대: 스피커들(309), 헤드폰들(미도시됨)), 시각적 출력 디바이스들(예컨대, CRT 스크린들, LCD 스크린들, 플라즈마 스크린들, OLED 스크린들을 포함하되, 각각이 터치-스크린 입력 능력이 있거나 없고, 각각이 촉각 피드백 능력이 있거나 또는 없는 - 이중 일부는 입체 출력과 같은 수단을 통해 2차원 시각적 출력 또는 3차원 초과의 출력을 출력할 수 있음 - 스크린들(310); 가상-현실 안경(미도시됨), 홀로그램 디스플레이들 및 연기 탱크들(미도시됨)), 및 프린터들(미도시됨)을 포함할 수 있다. 이들 시각적 출력 디바이스들(예컨대, 스크린들(310))은 그래픽 어댑터(350)를 통해서 시스템 버스(348)에 접속될 수 있다.

컴퓨터 시스템(300)은 또한 CD/DVD 또는 유사 매체들(321)과 함께 CD/DVD ROM/RW(320)를 포함하는 광학 매체들, 썸(thumb)-드라이브(322), 착탈식 하드 드라이브 또는 솔리드 스테이트 드라이브(323), 테이프 및 플로피 디스크(미도시됨)와 같은 레거시 자기 매체들, 보안 동글들(미도시됨)과 같은 특수 ROM/ASIC/PLD 기반의 디바이스들 등과 같은, 인간 액세스가능한 저장 디바이스들 및 이들의 연관된 매체들을 포함할 수 있다.

통상의 기술자들은 또한 용어 "컴퓨터 판독가능 매체들"이 현재 개시된 기술요지와 관련하여 사용될 때 송신 매체들, 반송파들, 또는 다른 일시적 신호들을 포함하지 않는 것으로 이해해야 한다.

컴퓨터 시스템(300)은 또한 하나 이상의 통신 네트워크(355)에 대한 네트워크 인터페이스(354)를 포함할 수 있다. 하나 이상의 통신 네트워크(355)는 예를 들어, 무선, 유선, 광학일 수 있다. 하나 이상의 통신 네트워크(355)는 추가적으로 로컬, 광역, 대도시, 차량 및 산업, 실시간, 지연 허용 등일 수 있다. 하나 이상의 통신 네트워크(355)의 예들은 이더넷, 무선 LAN들과 같은 근거리 네트워크들, GSM, 3G, 4G, 5G, LTE 및 기타 등등을 포함하는 셀룰러 네트워크들, 케이블 TV, 위성 TV, 및 지상 브로드캐스트 TV를 포함하는 TV 유선 또는 무선 광역 디지털 네트워크들, CANBus을 포함하는 차량 및 산업 등을 포함한다. 특정의 네트워크들은 일반적으로 특정의 범용 데이터 포트들 또는 주변장치 버스들(349)(예컨대, 예를 들어, 컴퓨터 시스템(300)의 USB 포트들에 부착된 외부 네트워크 인터페이스 어댑터들을 필요로 하며; 다른 것들은 일반적으로 아래에서 설명되는 바와 같이 시스템 버스에의 부착에 의한 컴퓨터 시스템(300)의 코어에 통합된다(예를 들어, PC 컴퓨터 시스템으로의 이더넷 인터페이스 또는 스마트폰 컴퓨터 시스템으로의 셀룰러 네트워크 인터페이스). 이들 네트워크들 중 임의의 것을 이용하여, 컴퓨터 시스템(300)은 다른 엔터티들과 통신할 수 있다. 이러한 통신은 예를 들어, 로컬 또는 광역 디지털 네트워크들을 이용한 다른 컴퓨터 시스템들로의, 단방향 수신 전용(예를 들어, 브로드캐스트 TV), 단방향 전송 전용(예를 들어, CANbus에서 특정의 CANbus 디바이스들로), 또는 양방향일 수 있다. 특정의 프로토콜들 및 프로토콜 스택들이 위에서 설명한 바와 같이 이들 네트워크들 및 네트워크 인터페이스들 각각 상에서 사용될 수 있다.

전술한 인간 인터페이스 디바이스들, 인간-액세스가능한 저장 디바이스들, 및 네트워크 인터페이스들은 컴퓨터 시스템(300)의 코어(340)에 부착될 수 있다.

코어(340)는 하나 이상 중앙 처리 유닛들(CPU)(341), 그래픽 프로세싱 유닛들(GPU)(342), 필드 프로그래밍가능 게이트 영역들(FPGA)(343)의 형태의 특수 프로그래밍가능 프로세싱 유닛들, 특정의 작업들(344)을 위한 하드웨어 액셀러레이터들 등을 포함할 수 있다. 이들 디바이스들은, 판독-전용 메모리(ROM)(345), 랜덤-액세스 메모리(346), 내부 비-사용자 액세스가능한 하드 드라이브들, SSD들 등과 같은 내부 대용량 스토리지(347)와 함께, 시스템 버스(348)를 통해서 접속될 수 있다. 일부 컴퓨터 시스템들에서, 시스템 버스(348)는 추가적인 CPU들, GPU 등에 의한 확장들을 가능하게 하기 위해 하나 이상의 물리적인 플러그의 형태로 액세스가능할 수 있다. 주변장치 디바이스들은 코어의 시스템 버스(348)에 직접, 또는 주변장치 버스(349)를 통해서 부착될 수 있다. 주변장치 버스에 대한 아키텍처들은 PCI, USB 등을 포함한다.

CPU들(341), GPU들(342), FPGA들(343), 및 액셀러레이터들(344)은 조합하여, 전술한 컴퓨터 코드를 구성할 수 있는 특정의 명령어들을 실행할 수 있다. 그 컴퓨터 코드는 ROM(345) 또는 RAM(346)에 저장될 수 있다. 전이 데이터는 또한 RAM(346)에 저장될 수 있지만, 영구적인 데이터는 예를 들어, 내부 대용량 스토리지(347)에 저장될 수 있다. 메모리 디바이스들 중 임의의 디바이스로의 빠른 저장 및 취출은 하나 이상의 CPU(341), GPU(342), 대용량 스토리지(347), ROM(345), RAM 346 등과 밀접하게 연관될 수 있는 캐시 메모리의 사용을 통해서 가능해질 수 있다.

컴퓨터 판독가능 매체들은 다양한 컴퓨터-구현되는 동작들을 수행하는 컴퓨터 코드를 가질 수 있다. 매체들 및 컴퓨터 코드는 본 개시내용의 목적들을 위해 특별히 설계되고 구성된 것일 수 있거나, 또는 이들은 컴퓨터 소프트웨어 분야의 통상의 기술자에게 널리 알려져 있고 이용 가능한 종류일 수 있다.

일 예로서 그리고 비제한적으로, 아키텍처(300), 및 구체적으로 코어(340)를 갖는 컴퓨터 시스템은 하나 이상의 유형의, 컴퓨터-판독가능 매체에 구현된 소프트웨어를 실행하는 (CPU들, GPU들, FPGA, 액셀러레이터들 등을 포함한) 프로세서(들)의 결과로서 기능을 제공할 수 있다. 이러한 컴퓨터-판독가능 매체들은 위에서 소개된 바와 같은 사용자-액세스가능한 대용량 스토리지 뿐만 아니라, 코어-내부 대용량 스토리지(347) 또는 ROM(345)과 같은, 비일시적 성질인 코어(340)의 특정의 스토리지와 연관된 매체들일 수 있다. 본 개시내용의 다양한 실시형태들을 구현하는 소프트웨어는 이러한 디바이스들에 저장되고 코어(340)에 의해 실행될 수 있다. 컴퓨터-판독가능 매체는 특정의 요구들에 따라, 하나 이상의 메모리 디바이스 또는 칩을 포함할 수 있다. 소프트웨어는 코어(340), 구체적으로는 (CPU, GPU, FPGA 등을 포함하는) 그 안의 프로세서들로 하여금, RAM(346)에 저장된 데이터 구조들을 정의하고 소프트웨어에 의해 정의된 프로세스들에 따라서 이러한 데이터 구조들을 수정하는 것을 포함하여, 본원에서 설명되는 특정의 프로세스들 또는 특정의 프로세스들의 특정의 부분들을 실행하게 할 수 있다. 추가적으로 또는 대안적으로, 컴퓨터 시스템은 본원에서 설명되는 특정의 프로세스들 또는 특정의 프로세스들의 특정의 부분들을 실행하기 위해 소프트웨어 대신 또는 그와 함께 동작할 수 있는 회로(예를 들어: 액셀러레이터(344))에 하드와이어드되거나 또는 달리 내장되는 로직의 결과로서 기능을 제공할 수 있다. 소프트웨어에 대한 참조는 로직을 포함할 수 있으며, 적절한 경우 반대의 경우도 마찬가지이다. 컴퓨터-판독가능 매체들에 대한 참조는 적절한 경우, 실행을 위한 소프트웨어를 저장하는 회로(예컨대, 집적 회로(IC)), 실행을 위한 로직을 구현하는 회로, 또는 둘 모두를 포함할 수 있다. 본 개시내용은 임의의 적합한 하드웨어와 소프트웨어의 조합을 포함할 수 있다.

본 개시내용은 여러 예시적인 실시형태들을 설명하였지만, 본 개시내용의 범위에 속하는 변형들, 치환들, 및 다양한 대체 균등물들이 있다. 따라서, 본원에서 명시적으로 도시되거나 또는 설명되지는 않았지만, 본 개시내용의 원리들을 구현하고 따라서 이의 사상 및 범위 내인 매우 많은 시스템들 및 방법들을 고안할 수 있음을 통상의 기술자들은 알 수 있을 것이다.

Claims

MPEG-I 몰입형 오디오 스트림과 연관된 오디오 장면에서 라우드니스 조정(loudness adjustment)을 위한 방법으로서,
상기 오디오 장면에 포함된 사운드 신호들의 개수를 표시하는 제1 신택스 엘리먼트를 수신하는 단계;
하나 이상의 음성 신호(speech signal)가 상기 제1 신택스 엘리먼트에 의해 표시되는 상기 사운드 신호들에 포함되는지 여부를 결정하는 단계;
상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함되는 것에 기초하여 상기 하나 이상의 음성 신호로부터 기준 음성 신호를 결정하는 단계;
앵커 음성 신호에 기초하여 상기 오디오 장면의 기준 음성 신호의 라우드니스 레벨을 조정하는 단계; 및
상기 기준 음성 신호의 조정된 라우드니스 레벨에 기초하여 상기 사운드 신호들의 라우드니스 레벨들을 조정하는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 수신하는 단계는 상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함되는지 여부를 표시하는 제2 신택스 엘리먼트를 수신하는 단계를 포함하며,
상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함되는지 여부를 결정하는 단계는 상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함됨을 상기 제2 신택스 엘리먼트가 표시하는 것에 기초하여 상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함된 것으로 결정하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 수신하는 단계는 복수의 제3 신택스 엘리먼트들을 수신하는 단계를 포함하며, 상기 제3 신택스 엘리먼트들 각각은 상기 사운드 신호들의 개별 신호가 음성 신호인지 여부를 표시하며,
상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함되는지 여부를 결정하는 단계는 상기 사운드 신호들의 개별 신호가 상기 음성 신호임을 상기 제3 신택스 엘리먼트들 중 적어도 하나가 표시하는 것에 기초하여 상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함된 것으로 결정하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 수신하는 단계는 상기 사운드 신호들에 포함된 상기 하나 이상의 음성 신호의 개수를 표시하는 제4 신택스 엘리먼트를 수신하는 단계를 포함하며,
상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함되는지 여부를 결정하는 단계는 상기 제4 신택스 엘리먼트에 의해 표시되는 상기 하나 이상의 음성 신호의 개수가 0보다 큰 것에 기초하여 상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함된 것으로 결정하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 기준 음성 신호를 결정하는 단계는 상기 하나 이상의 음성 신호의 개수가 1보다 큰 것에 기초하여 상기 기준 음성 신호를 표시하는 제5 신택스 엘리먼트를 수신하는 단계를 포함하는, 방법.
제1항에 있어서,
복수의 제6 신택스 엘리먼트들을 수신하는 단계
를 더 포함하며, 상기 제6 신택스 엘리먼트들 각각은 상기 사운드 신호들의 개별 신호의 식별 인덱스를 표시하는, 방법.
제1항에 있어서,
상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함되는지 여부를 결정하는 단계는 어떤 음성 신호도 상기 사운드 신호들에 포함되지 않은 것으로 결정하는 단계를 포함하며,
상기 사운드 신호들의 라우드니스 레벨들을 조정하는 단계는 디폴트 기준 신호에 기초하여 상기 사운드 신호들의 라우드니스 레벨들을 조정하는 단계를 포함하는, 방법.
장치로서,
프로세싱 회로부
를 포함하고, 상기 프로세싱 회로부는
오디오 장면에 포함된 사운드 신호들의 개수를 표시하는 제1 신택스 엘리먼트를 수신하고;
하나 이상의 음성 신호가 상기 제1 신택스 엘리먼트에 의해 표시되는 상기 사운드 신호들에 포함되는지 여부를 결정하고;
상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함되는 것에 기초하여 상기 하나 이상의 음성 신호로부터 기준 음성 신호를 결정하고;
앵커 음성 신호에 기초하여 상기 오디오 장면의 기준 음성 신호의 라우드니스 레벨을 조정하고;
상기 기준 음성 신호의 조정된 라우드니스 레벨에 기초하여 상기 사운드 신호들의 라우드니스 레벨들을 조정하도록
구성되는, 장치.
제8항에 있어서,
상기 프로세싱 회로부는
상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함되는지 여부를 표시하는 제2 신택스 엘리먼트를 수신하고;
상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함됨을 상기 제2 신택스 엘리먼트가 표시하는 것에 기초하여 상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함된 것으로 결정하도록
구성되는, 장치.
제8항에 있어서,
상기 프로세싱 회로부는
복수의 제3 신택스 엘리먼트들을 수신하고 - 상기 제3 신택스 엘리먼트들 각각은 상기 사운드 신호들의 개별 신호가 음성 신호인지 여부를 표시함 -;
상기 사운드 신호들의 개별 신호가 상기 음성 신호임을 상기 제3 신택스 엘리먼트들 중 적어도 하나가 표시하는 것에 기초하여 상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함된 것으로 결정하도록
구성되는, 장치.
제8항에 있어서,
상기 프로세싱 회로부는
상기 사운드 신호들에 포함된 상기 하나 이상의 음성 신호의 개수를 표시하는 제4 신택스 엘리먼트를 수신하고;
상기 제4 신택스 엘리먼트에 의해 표시되는 상기 하나 이상의 음성 신호의 개수가 0보다 큰 것에 기초하여 상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함된 것으로 결정하도록
구성되는, 장치.
제8항에 있어서,
상기 프로세싱 회로부는
상기 하나 이상의 음성 신호의 개수가 1보다 큰 것에 기초하여 상기 기준 음성 신호를 표시하는 제5 신택스 엘리먼트를 수신하도록 구성되는, 장치.
제8항에 있어서,
상기 프로세싱 회로부는
복수의 제6 신택스 엘리먼트들을 수신하도록 구성되며, 상기 제6 신택스 엘리먼트들 각각은 상기 사운드 신호들의 개별 신호의 식별 인덱스를 표시하는, 장치.
제8항에 있어서,
상기 프로세싱 회로부는
어떤 음성 신호도 상기 사운드 신호들에 포함되지 않은 것으로 결정하고;
디폴트 기준 신호에 기초하여 상기 사운드 신호들의 라우드니스 레벨들을 조정하도록
구성되는, 장치.
MPEG-I 몰입형 오디오 스트림과 연관된 오디오 장면에 대한 라우드니스 조정 시그널링을 위한 방법으로서,
상기 오디오 장면에 포함된 사운드 신호들의 개수를 표시하는 제1 신택스 엘리먼트를 라우드니스 조정 정보에 포함시키는 단계를 포함하며,
기준 음성 신호는 하나 이상의 음성 신호가 상기 제1 신택스 엘리먼트에 의해 표시되는 상기 사운드 신호들에 포함된 것으로 결정되는 것에 응답하여 상기 하나 이상의 음성 신호로부터 결정되며,
상기 오디오 장면의 기준 음성 신호의 라우드니스 레벨은 앵커 음성 신호에 기초하여 조정되며,
상기 사운드 신호들의 라우드니스 레벨들은 상기 기준 음성 신호의 조정된 라우드니스 레벨에 기초하여 조정되는, 방법.
제15항에 있어서,
상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함되는지 여부를 표시하는 제2 신택스 엘리먼트를 상기 라우드니스 조정 정보에 포함시키는 단계를 더 포함하며,
상기 하나 이상의 음성 신호는, 상기 하나 이상의 음성 신호가 상기 사운드 신호들에 포함됨을 상기 제2 신택스 엘리먼트가 표시하는 것에 기초하여 상기 사운드 신호들에 포함된 것으로 결정되는, 방법.
제15항에 있어서,
상기 라우드니스 조정 정보에 복수의 제3 신택스 엘리먼트들을 포함시키는 단계를 더 포함하며, 상기 제3 신택스 엘리먼트들 각각은 상기 사운드 신호들의 개별 신호가 음성 신호인지 여부를 표시하며,
상기 하나 이상의 음성 신호는 상기 사운드 신호들의 개별 신호가 상기 음성 신호임을 상기 제3 신택스 엘리먼트들 중 적어도 하나가 표시하는 것에 기초하여 상기 사운드 신호들에 포함된 것으로 결정되는, 방법.
제15항에 있어서,
상기 사운드 신호들에 포함된 상기 하나 이상의 음성 신호의 개수를 표시하는 제4 신택스 엘리먼트를 상기 라우드니스 조정 정보에 포함시키는 단계를 더 포함하며,
상기 하나 이상의 음성 신호는 상기 제4 신택스 엘리먼트에 의해 표시되는 상기 하나 이상의 음성 신호의 개수가 0보다 큰 것에 기초하여 상기 사운드 신호들에 포함된 것으로 결정되는, 방법.
제15항에 있어서,
상기 하나 이상의 음성 신호의 개수가 1보다 큰 것에 기초하여 상기 기준 음성 신호를 표시하는 제5 신택스 엘리먼트를 상기 라우드니스 조정 정보에 포함시키는 단계를 더 포함하는, 방법.
제15항에 있어서,
상기 라우드니스 조정 정보에 복수의 제6 신택스 엘리먼트들을 포함시키는 단계를 더 포함하며, 상기 제6 신택스 엘리먼트들 각각은 상기 사운드 신호들의 개별 신호의 식별 인덱스를 표시하는, 방법.