KR20160125511A - 오브젝트-기반 오디오 라우드니스 관리 - Google Patents

오브젝트-기반 오디오 라우드니스 관리 Download PDF

Info

Publication number
KR20160125511A
KR20160125511A KR1020167026581A KR20167026581A KR20160125511A KR 20160125511 A KR20160125511 A KR 20160125511A KR 1020167026581 A KR1020167026581 A KR 1020167026581A KR 20167026581 A KR20167026581 A KR 20167026581A KR 20160125511 A KR20160125511 A KR 20160125511A
Authority
KR
South Korea
Prior art keywords
audio signal
based audio
loudness
received
metric
Prior art date
Application number
KR1020167026581A
Other languages
English (en)
Other versions
KR102341971B1 (ko
Inventor
파디 말락
테미스 카치아노스
쟝 마크 조트
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20160125511A publication Critical patent/KR20160125511A/ko
Application granted granted Critical
Publication of KR102341971B1 publication Critical patent/KR102341971B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/002Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • H03G3/3026Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers the gain being discontinuously variable, e.g. controlled by switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

오브젝트-기반 오디오 신호를 처리하는 방법 및 장치를 제공한다. 이 장치는 복수의 오브젝트-기반 오디오 신호를 수신한다. 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터와, 오디오 파형 데이터와 관련되는 오브젝트 메타데이터를 포함한다. 오브젝트 메타데이터는 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함한다. 이 장치는 수신된 오브젝트-기반 오디오 신호에 기반하여 그리고 수신된 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나에 기반하여, 라우드니스 메트릭을 결정한다. 일 구성에서, 이 장치는 결정된 라우드니스 메트릭에 기반하여 수신된 오브젝트-기반 오디오 신호를 출력 신호의 세트에 렌더링한다. 다른 구성에서, 이 장치는 결정된 라우드니스 메트릭에 기반하여 수신된 오브젝트-기반 오디오 신호를 송신(예컨대, 방송, 파일 전달 또는 스트리밍)한다.

Description

오브젝트-기반 오디오 라우드니스 관리{OBJECT-BASED AUDIO LOUDNESS MANAGEMENT}
본 출원은, "오브젝트-기반 오디오 라우드니스 관리"라는 명칭으로 2014년 2월 27일에 출원된 미국 가출원 일련번호 제61/945,734호 및 "오브젝트-기반 오디오 라우드니스 관리"라는 명칭으로 2015년 2월 26일에 출원된 미국 특허출원 제14/632,997호의 이익을 청구하며, 이들 출원은 명백히 그 전체가 본 명세서에서 참조로서 인용된다.
본 개시는 일반적으로 라우드니스(loudness) 관리에 관한 것이며, 더욱 상세하게는 오브젝트-기반(object-based) 오디오 라우드니스 관리에 관한 것이다.
라우드니스는, 주로 리니어(실시간) 엔터테인먼트의 스트림-타입 전달에서 반복되는 문제이다. 리니어 엔터테인먼트는 방송 리니어 프로그래밍, 비디오 온 디맨드(VOD) 및 오버-더-탑(OTT) 스트리밍을 포함할 수 있다. 과거에, 오디오 엔지니어와 전문가의 세계적인 모임으로 이뤄진 여러 국제 표준 기구가 방송 오디오 믹스의 인지된 라우드니스를 정확히 측정하는 방법을 정의하였다. 초기에 이러한 작업이 표준 기구에 의해 이뤄졌지만, 궁극적으로는 개별 국가의 법 관련 기관이 관여하게 되었다. 이들 법 관련 기관은 표준화된 세트의 기술적 명세를 구현하고, 그 사용을 기재하며 최상의 실행을 추천하기 위한 규정을 발행하였다. 그러나, 이러한 작업은 스테레오 및 더욱 최근에는 5.1 채널 서라운드 사운드의 채널-기반의 오디오 계에서만 이뤄졌다.
본 개시의 구성에서, 플레이백 시스템을 통한 재생을 위해 오브젝트-기반 오디오 신호를 처리하는 방법 및 장치를 제공한다. 이 장치는 복수의 오브젝트-기반 오디오 신호를 수신한다. 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터와, 오디오 파형 데이터와 관련되는 오브젝트 메타데이터를 포함한다. 오브젝트 메타데이터는 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함한다. 이 장치는 수신한 오브젝트-기반 오디오 신호에 기반하여 그리고 수신한 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나에 기반하여 라우드니스 메트릭을 결정한다. 이 장치는 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호를 출력 신호의 세트에 렌더링한다.
본 개시의 구성에서, 방송, 파일 전달 또는 스트리밍 중 적어도 하나를 위한 오브젝트-기반 오디오 신호를 처리하는 방법 및 장치를 제공한다. 이 장치는 복수의 오브젝트-기반 오디오 신호를 수신한다. 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터와, 오디오 파형 데이터와 관련되는 오브젝트 메타데이터를 포함한다. 오브젝트 메타데이터는 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함한다. 이 장치는 수신한 오브젝트-기반 오디오 신호에 기반하여 그리고 수신한 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나에 기반하여 라우드니스 메트릭을 결정한다. 이 장치는 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호를 송신한다.
이제, 전반에 걸쳐서 유사한 참조 번호가 대응하는 부분을 나타내는 도면을 참조하여,
도 1은, 공간 공칭화 오브젝트-기반 오디오(OBA) 라우드니스 관리 시스템 및 방법의 실시예에 의한 사용을 위한 다차원 오디오 비트스트림의 예시적인 구조를 예시한 도면.
도 2는 다차원 오디오(MDA) 방송 비트스트림 작성 프로세스의 예시적인 구현의 개요를 예시하는 블록도.
도 3은 글로벌 합산 라우드니스 메타데이터의 생성의 개요를 예시하는 블록도.
도 4는, 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예에 의해 계산된 향상된 공간 공칭화 라우드니스 메트릭과 기본 공간 공칭화 라우드니스 메트릭의 상정되는 사용을 예시하는 블록도.
도 5는 도 4에 도시한 공간 공칭화 라우드니스 메트릭의 계산의 개요를 예시하는 블록도.
도 6은 콘텐트 작성/인코딩 단계 개요를 예시하는 블록도.
도 7은, 오브젝트에 대한 청취자 머리의 방향과 기하학적 모양을 예시하며 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법과 관련한 모니터링 단계 동안 사용되는 도면.
도 8은, 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예의 세 개의 단계 모두의 일반적인 동작을 예시하는 흐름도.
도 9는 플레이백 시스템을 통한 재생을 위한 오브젝트-기반 오디오 신호를 처리하는 방법의 흐름도.
도 10은 방송, 파일 전달 또는 스트리밍 중 적어도 하나를 위한 오브젝트-기반 오디오 신호를 처리하는 방법의 흐름도.
도 11은 예시적인 장치에서 상이한 모듈/수단/소자 사이의 데이터 흐름을 예시하는 개념적인 데이터 흐름도.
첨부한 도면과 연계하여 이하에서 제기한 상세한 설명은 여러 구성의 설명이고자 하며, 본 명세서에서 설명한 개념이 실행될 수 있는 구성만을 나타내고자 하는 것은 아니다. 상세한 설명은 여러 개념의 철저한 이해를 제공할 목적의 특정한 세부 내용을 포함한다. 그러나 당업자에게는, 이들 개념이 이들 특정한 세부 내용 없이도 실행될 수 있음이 자명할 것이다. 일부 경우에, 그러한 개념을 모호하게 하는 것을 회피하기 위해 잘 알려진 구조와 소자를 블록도 형태로 도시한다. 장치 및 방법을 다음의 상세한 설명에서 설명할 것이며, 여러 블록, 모듈, 소자, 회로, 단계, 프로세스, 알고리즘, 요소 등에 의해 첨부 도면에서 예시할 수 있다.
공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예에 대한 다음의 설명에서, 첨부 도면을 참조한다. 이들 도면은 예시로서 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예가 어떻게 실행될 수 있는지의 특정한 예를 도시한다. 청구한 요지의 범위에서 벗어나지 않고 다른 실시예를 활용할 수 있으며 구조적 변화를 이룰 수 있음을 이해해야 한다.
I. 소개
OBA의 출현으로, 새로운 기회와 도전에 직면하게 되었다. 하나의 주요한 이슈는 임의의 수의 오디오 오브젝트가 믹스에 존재할 수 있을 때 라우드니스를 측정하고 관리하는 방법이다. 라우드니스를 측정하고 관리할 수 있는 성능은, 쌍방향 제어가 가정에 소개되어, 소비자가 오디오 오브젝트를 추가하거나 드롭하게 할 때 특히 중요하다. OBA의 융통성은 많은 장점을 갖지만, OBA는 도전을 소개하고 있으며, 이는 채널 기반의 라우드니스 관리 및 제어의 기존 방법이 허용할 수 없기 때문이다.
도 1은 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예에 의한 사용을 위한 MDA 프로그램 비트스트림(100)의 예시적인 구조를 예시한다. 도 2는 MDA 방송 비트스트림 작성 프로세스의 예시적인 구현의 개요를 예시하는 블록도(200)이다. MDA 프로그램 비트스트림(100)은 프로그램 특정 메타데이터(102)와 복수의 오디오 오브젝트(104)를 포함할 수 있다. 오디오 오브젝트(104)는 동적 또는 정적 오브젝트 특정 메타데이터(106)를 갖는 하나 이상의 오디오 파형이며, 이러한 메타데이터(106)는 이들 파형의 특정 특징을 설명한다. 이들 특징은 주어진 시점에 3차원(3D) 공간에서의 포지션 위치, 측정된 라우드니스 값, (악기, 효과, 음악, 배경 또는 대화와 같은) 오브젝트의 속성, 대화 언어, 오브젝트를 디스플레이하는 방법, 및 오브젝트를 처리, 렌더링 또는 플레이백하는 방법에 관한 정보의 형태의 메타데이터를 포함할 수 있다. 순수한 OBA에서, 오디오 오브젝트(104)는 특정 채널에 매핑되지 않는다. 사실, 플레이백 구성이 얼마나 많은 채널을 포함하는지를 알 수 없을 수 있다. 다시 말해, 오디오 오브젝트(104)는, 스피커 렌더링의 임의의 특정한 미리 한정된 또는 고정된 플레이백 구성과 독립적으로 단일 방식으로 처리되고자 한다. 이들 상황에서, 렌더링 프로세스는 이후에 행해져 (플레이백 구성에 의해 한정된 바와 같이) 변환 및 플레이백 채널로의 혼합을 행한다.
일반적으로, 라우드니스는, 조용함에서부터 시끄러움까지 연장하는 스케일로 어떠한 소리의 순서를 정할 수 있다는 점에서 청각의 속성으로서 한정된다. 라우드니스는 소리압 레벨(SPL), 주파수, 대역폭, 지속기간, 및 근접성에 의해 영향을 받는 주관적인 측정치이다. 게다가, 국제 원격통신 협회(ITU) 방송 서비스(BS) 1770(ITU BS.1770)는 라우드니스를 한정하고 계산하는 방송 표준이며, 유럽 방송 협회(EBU) R-128은 방송국이 오디오를 어떻게 측정할 수 있으며 공칭화할 수 있는지를 한정한다.
OBA의 개방되고 독점적인 예가 현재 존재한다. 본 명세서에서 설명한 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법은, 라우드니스 값에 대한 포괄적인 세트를 포함하는 풍부한 메타데이터 세트를 갖는 OBA를 사용한다. 개방 OBA 비트스트림은 개방 구조를 가져서, 메타데이터는 비트스트림의 존재 시 임의의 시점에서 판독 가능하며 액세스 가능하다. 예를 들어 그리고 비제한적으로, MDA는, 비트스트림 표현과 OBA 패이로드를 포함하는 개방 포맷이다. MDA는, 임의의 콘텐트 제공자가 오브젝트-기반 오디오나 오브젝트-기반 오디오 및 채널-기반의 오디오의 임의의 조합을 믹스하게 하는 완전히 개방된 오브젝트-기반 오디오 몰입형 오디오 플랫폼이다. 예컨대, 콘텐트는 12개의 스피커를 사용하여 믹스할 수 있으며, MDA는 5.1 또는 스테레오와 같은 임의의 플레이백 구성에 콘텐트를 매핑할 것이다. 본 명세서에서, MDA는 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예에 적용하기 위한 일 예로서 참조할 것이다. 그러나, 다른 타입의 비트스트림 포맷(예컨대, DTS:X)도 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예에 적용할 수 있다. MDA는 오브젝트, 채널 및 장면-기반 오디오(고차 앰비소닉스(HOA))를 지원할 수 있지만, 본 명세서에서, MDA는 주로 OBA 패이로드를 참조하고 있음을 주목해야 한다.
II. 동작 및 시스템 개요
오디오 제작 분야가 채널-기반 오디오에서 OBA로 이동함에 따라 라우드니스를 취급하는 새로운 기술을 한정하거나 기존의 기술을 업데이트하는 것이 바람직하다. 현재, 그러나, 3D 공간에서 오브젝트 오디오의 라우드니스를 측정하는 방법이 알려져 있지 않거나 합의되어 있지 않다. 가까운 장래에, EBU의 전문가들과 같은 세계적인 업계 전문가들은 오브젝트, 채널+오브젝트 또는 HOA와 같은 몰입형 오디오 패이로드를 가질 때 라우드니스 관리를 취급하는 새로운 방법을 의심할 여지 없이 탐색하고 있을 것이다.
라우드니스 측정 방법을 업데이트하여 OBA에 적용하는 것이 바람직할 뿐만 아니라, 목표 렌더링 구성을 알지 못하고도 라우드니스의 구체적이고 의미있는 측정치를 한정하고 결정할 수 있는 기술을 설계하는 것도 바람직할 수 있다. 이 기술이 오브젝트를 렌더링할 필요 없이 측정치를 계산할 수 있다면 더 좋다. 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예는 이들 목적을 달성한다.
글로벌 합산 라우드니스
글로벌 합산 라우드니스로 불리는 메타데이터 파라미터는 MDA 프로그램 비트스트림의 프로그램 특정 메타데이터 내에서 한정할 수 있다. 글로벌 합산 라우드니스 값은 총 OBA 프로그램 또는 믹스의 혼합되고 측정된 라우드니스 값을 나타낼 수 있다. 오디오 업계가 이해하게 될 값을 달성할 유일한 알려진 방법은 오늘날 강제된 렌더링을 통해 스트림의 오디오 오브젝트 패이로드를 채널 루프에 전송하는 것이다. 여기서, 오브젝트는 (벡터 베이스 진폭 패닝(VBAP)(도 2 참조)과 같은) MDA 참조 렌더러를 사용하여 ITU 한정된 5.1 스피커 레이아웃 구성에 렌더링한다. 이것은 본래 모든 오브젝트를 5.1 채널 피드로 변환한다. 그 후, 이들 오브젝트는 기존의 EBU R-128 또는 개선된 텔레비전 시스템 위원회(ATSC) A85 호환 라우드니스 측정 프로세스에 공급된다. (풀 스케일에 대한 라우드니스, K-가중(LKFS) 또는 풀 스케일에 대한 라우드니스 유닛(LUFS)으로 측정한) 측정된 값을 프로그램의 글로벌 합산 라우드니스 값으로서(예컨대, ITU5.1-23LUFS) 비트스트림 레벨에서 MDA 비트스트림에 다시 기록하며, 개별 오브젝트 레벨은 기록하지 않는다(도 1 참조). 이러한 구성은 스테레오에도 적용할 수 있다.
도 3은 글로벌 합산 라우드니스 메타데이터의 생성의 개요를 예시하는 블록도(300)이다. 302에서, OBA 메타데이터가 메타데이터 생성 단계에서 생성된다. 그러한 메타데이터는 예컨대 MDA 또는 DTS:X에 대해 생성할 수 있다. 후속하여, 304에서, 렌더링 또는 사전 렌더링이 오디오-오브젝트 신호에 관해 실행할 수 있어서, 오디오-오브젝트 신호 각각의 평균 파워나 라우드니스를 결정할 수 있다. 306에서, 라우드니스 모니터링/측정을 실행하여 글로벌 합산 라우드니스 값을 결정할 수 있다. 그러한 모니터링/측정은 EBU R-128 또는 상업 광고 라우드니스 완화(CALM) 법에 부합할 수 있다. 글로벌 합산 라우드니스 값을 계산하면, 308에서, 계산한 글로벌 합산 라우드니스 값을 CALM 법에서의 -24 LKFS 또는 EBU R-128에서의 -23 LUFS와 같은 국제 규정 표준에 명시한 목표 라우드니스 레벨과 비교할 수 있다. 목표 라우드니스 레벨은 MDA 비트스트림 내의 프로그램 특정 메타데이터에서 반송할 수 있다. 비교에 기반하여, 310에서, 오프셋을 계산할 수 있으며, 312에서, 이 오프셋을 글로벌 합산 라우드니스 오프셋으로서 MDA 비트스트림 내의 프로그램 특정 메타데이터에 저장할 수 있다. 글로벌 합산 라우드니스 오프셋은, 오디오가 최종적으로 소비재 플레이백을 위해 렌더링될 때 추후 다운스트림에서 적용될 수 있다.
공간 공칭화 라우드니스 메트릭
공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예는 목표 렌더링 구성(예컨대, 스피커의 개수 또는 스피커 구성)을 알지 못하고도 구체적이고 의미있는 라우드니스 측정치를 한정하고 결정한다. 이점은, 소비자 전달 및 플레이백되고자 하는 OBA 콘텐트를 위한 경우일 것이므로 중요하다. 게다가, 이 시스템 및 방법의 실시예는 오브젝트를 렌더링할 필요 없이도 이 라우드니스 측정치를 계산한다.
도 4는, 기본적인 공간 공칭화 라우드니스 메트릭 및 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예에 의해 계산한 향상된 공간 공칭화 라우드니스 메트릭의 상정된 사용을 예시하는 블록도(400)이다. 도 5는 도 4에 도시한 공간 공칭화 라우드니스 메트릭의 계산의 개요를 예시하는 블록도(500)이다. 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법은 두 타입의 공간 공칭화 라우드니스 메트릭을 한정한다. 기본적인 공간 공칭화 라우드니스 메트릭은 최종 믹스(즉, 라우드니스를 결정하는데 사용되는 오디오 오브젝트 모두)와 목표 렌더링 환경을 알면 계산할 수 있다. 이점은 플레이백 구성의 고정 목록에 대한 필요를 경감하며, 소비자 가정의 체인에 있는 최종 가능 지점에서 행할 수 있다. 향상된 공간 공칭화 라우드니스 메트릭은 청취자 위치와 방향과 같은 추가 정보에 기반하여 계산할 수 있다. 공간 공칭화 라우드니스 메트릭은 방송 제작/전달/플레이백 체인에서 임의의 주어진 지점에서 결정할 수 있다.
두 기술과 값은 두 개의 식별된 문제를 해결하는 것을 목적으로 한다. 제1 문제는, 엄격한 국가 규정 하에 있는 방송자를 제공하여 라우드니스 제어를 유지하며 이들 방송자가 가정에 전달하는 콘텐트로 이들의 소비자를 위한 일관된 라우드니스 경험을 보장하는 것이다. 제2 문제는, OBA 전달을 취급하기 위한 새로운 기술을 제시할 필요를 해결하는 것이다. 이들 상황에서, (새로운 국가적 방송 표준과 같은) 그러한 시스템을 위한 적용 및 요건은 오디오 오브젝트 위치에 대하여 임의의 주어진 청취자 위치/방향에 적응시킬 융통성을 가질 것을 요구한다.
공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예로 인해 엔드-투-엔드 체인은 더 스마트하고 더 적응 가능하다. 게다가, 이 시스템 및 방법은 많은 헤비 리프팅을 헤드엔드나 클라우드-기반의 아키텍쳐에 이동시킨다. 일부 알고리즘 계산은 소비자 측에서 유지되어 임의의 주어진 환경 및 임의의 믹스나 (늦은 바인딩 또는 가정 네트워크 피드를 통해 소비자 쌍방향 간섭에 의해 변화되는) 변경된 믹스에 적응한다. 이 시스템 및 방법은 또한 특정한 소비자 플레이백 환경에서 인자로서 포함된다.
기본적인 공간 공칭화 라우드니스 메트릭이 사용되는 상황에서, 방송자는 많은 시스템 소자를 사용할 수 있어서 오디오 채널의 라우드니스를 스폿-체크, 검증 또는 정정할 수 있다. 일부 방송자는 파일-기반의 시스템이며 일부 방송자는 실시간 장비를 사용한다. 부합성을 유지하는 (또는 특정한 증명된 콘텐트에 터치하지 않는) 책임은 배포 체인의 일 부분으로부터 그 다음 부분으로 콘텐트 권리 계약을 통해 전해진다. 궁극적으로, 법을 만들어 특정 개별 회사가 채임을 지우게 한다. 미국에서, 콘텐트를 만드는 것은 프로그래머와 방송자이다. 원 저작자에 의한 오디오 콘텐트의 (동적 범위와 같은) 오디오 품질에 영향을 거의 미치지 않으면서 라우드니스를 검증, 체크 또는 조정하기 위해 툴이 필요하다. 예시적인 시스템과 방법은 엔드 유저 구성을 렌더링하거나 알아야 할 필요 없이 OBA 프로그램의 라우드니스의 계산을 얻고 임의의 주어진 지점에 비트스트림을 "탭"할 비-침입 방식이다.
향상된 공간 공칭화 라우드니스 메트릭이 사용되는 상황에서, 정확한 청취자 포지션/방향을 안다. 이러한 환경에서, (소비자 가정에서의 (도 4 참조)) 전달 체인의 마지막 단계에서, 시스템은 오브젝트가 청취자에 대해 룸에서 렌더링될 장소를 안다. 이것은 시스템 및 방법 그리고 그 계산의 정확도를 향상시킨다.
근접성이 원 믹스의 작성에 사용되었다면, 이들 효과를 레버리지할 수 있는 개선된 렌더러를 또한 사용한다. 근접성은 더욱 정확한 측정과 보상을 위해 이 시스템 및 방법의 실시예에 의해 사용할 수 있다. 이 시스템 및 방법은 또한 3D 청취 공간에서 오브젝트의 포지션에 대한 청취자의 포지션에서의 임의의 변화를 사용할 수 있다. 이러한 변화는 환경 피드백 시스템을 통해 이 시스템 및 방법에 알려지게 된다. 추가 정보가 이 시스템 및 방법의 실시예에 이용 가능하다면, 청취자의 시점에 대한 3D 공간에서 렌더링되는 모든 오브젝트의 "인지한" 라우드니스 레벨을 계산할 수 있다.
기본적인 공간 공칭화 라우드니스 메트릭 기술과 향상된 공간 공칭화 라우드니스 메트릭스 기술은 맨 먼저 새로운 측정 프로세스임을 주목하고 이해해야하는 것이 중요하다. 이 시스템 및 방법의 실시예는, 파일-기반 또는 실시간이든지 간에, 체인에서의 임의의 주어진 지점에서 OBA 비트스트림에 적용할 수 있다. 두 타입의 공간 공칭화 라우드니스 메트릭은 작성 및 배포 단계에서 임의의 지점에서 계산할 수 있으며, 계산되어 작성된 이후 OBA 비트스트림에 메타데이터로서 다시 삽입될 수 도 있다. MDA에서, 공간 공칭화 라우드니스 메트릭은 ITU 5.1 방법으로의 렌더를 사용하여 글로벌 합산 라우드니스 값을 교체할 수 있다.
향상된 공간 공칭화 라우드니스 메트릭은 소비자 프레이백 환경의 전달 체인에서의 최종 지점에서 계산할 수 있다. 이것은, 더 많은 정보가, 쌍방향성이 발생한 후 청취자와 믹스의 마지막 세트의 오브젝트에서 시스템에 알려지는 지점이다. 향상된 공간 공칭화 라우드니스 메트릭은 몰입형 오디오의 소비자 디코더에서 실시간 시스템에 설계할 수 있다. 게다가, 이것은 원치 않는 라우드니스 불일치를 정정하는데 궁극적으로 사용할 수 있다. 이 시스템 및 방법은, (메타데이터 정정을 통해서만) 오디오 에센스나 예술적 취지(intent)에 영향을 미치지 않고도, 방송 헤드엔드 워크플로에서 라우드니스 문제를 측정, 모니터링 또는 정정하도록 설계한 전문 방송 제품에 허가되어 구현될 수 있다.
넓게는, OBA 라우드니스 관리 시스템 및 방법의 실시예는, 오디오가 3D 공간에서 오디오 오브젝트 형태로 되어 있을 때 라우드니스를 측정하기 위한 기술을 포함한다. 이 시스템 및 방법의 실시예는 OBA 패이로드의 새로운 참조 단위와 새로운 측정 값을 작성하기 위해 오디오 오브젝트 메타데이터를 이용한다. 라우드니스 문제는 오늘날 세계적으로, 주로 방송 리니어 프로그래밍, VOD 및 OTT 스트리밍과 같은 리니어 엔터테인먼트의 스트림-타입 전달에서 존재한다. 기존의 기술은 종래의 스테레오 및 5.1 채널 시나리오에 대한 라우드니스를 단지 관리한다.
OBA 라우드니스 관리 시스템 및 방법으로 인해 콘텐트 작성자 및 배포자는 오디오 오브젝트를 렌더링하지 않고도 패이로드 라우드니스에 대한 새로운 값을 측정하고 참조할 수 있다. 게다가, 플레이백 구성은 알 필요가 없다.
현재의 기술은 OBA와 같은 몰입형 오디오를 측정할 수 있는 성능이 부족하다. 이 시스템 및 방법의 실시예는 개별 오브젝트 라우드니스/파워 정보와 결합된 공간 정보를 사용하여 패이로드를 렌더링할 필요 없이도 새로운 참조 값을 작성한다. 예시적인 시스템 및 방법은, 오브젝트의 작성 동안 개별 측정된 라우드니스와 3D 공간에서의 오브젝트의 포지션에 관한 정보를 반송하는 비트스트림을 사용한다. 예를 들어 그리고 비제한적으로, 비트스트림은 MDA 비트스트림 또는 대안적인 OBA 개방 규격일 수 있다. 예시적인 시스템 및 방법은, 필요로 하는 정보가 주어진다면 (그리고 렌더링 없다면) 공간 공칭화 라우드니스 메트릭을 계산하는 공간 공칭화 기술을 또한 포함한다.
일반적으로, 공간 공칭화 라우드니스 메트릭은 두 타입 중 하나일 수 있다. 일부 실시예에서, 오디오 오브젝트의 위치에 대한 특정한 청취자 포지션/방향을 가정함으로써 임의의 주어진 시간에 계산할 수 있는 기본적인 공간 공칭화 라우드니스 메트릭을 사용한다. 이것은 파일-기반의 환경과 실시간 환경 모두에서 사실이다. 다른 실시예에서, 향상된 공간 공칭화 라우드니스 메트릭을 사용한다. 이들 실시예에서, 청취자의 포지션/방향을 알게 된다. 기본 공간 공칭화 라우드니스 메트릭과 비교할 때, 향상된 공간 공칭화 라우드니스 메트릭은 더욱 정확하고 개인화된 인지된 라우드니스 값을 작성할 수 있다. 이 향상된 라우드니스 메트릭은 프로그램 동안 또는 프로그램 사이 동안 또는 프로그램과 광고 사이 동안 임의의 라우드니스 불일치를 관리하는데 사용할 수 있다. 향상된 공간 공칭화 라우드니스 메트릭은 또한 다양한 다른 라우드니스 관련 정보를 고려할 수 있다. 예를 들어 그리고 비제한적으로, 이러한 라우드니스 관련 정보는 근접성 정보를 포함한다. 게다가, 일부 실시예에서, 향상된 라우드니스 메트릭은 (오브젝트를 믹스에 추가함으로써, 오브젝트를 믹스로부터 드롭시킴으로써, 또는 (예컨대, 오브젝트를 상이한 위치로 이동하거나 믹스에서 오브젝트를 패닝함으로써와 같이) 믹스에서 오브젝트의 위치를 변화시킴으로써 - 이들 동작 모두는 믹스의 전체 라우드니스를 변화시킴 - ) 임의의 소비자 측 쌍방향성과 콘텐트가 리믹스되는 장소를 고려할 수 있다.
기본적인 공간 공칭화 라우드니스 메트릭은, 오디오 작성, 처리 및 인코딩/디코딩/트랜스코딩 장비를 만드는 전문 제품에 허가된 전문 방송 장비 코드로서 형태를 띨 것이다. 이것은 독립 툴(하드웨어 박스나 소프트웨어)에, 또는 다른 3자의 툴에, 인코더에, 또는 오디오를 조정하고 공칭화하는 서버 기반 또는 클라우드-기반의 처리 장비의 일부로서 내장할 수 있다.
향상된 공간 공칭화 라우드니스 메트릭은 통합된 허가 소비자 해법(코덱 슈트 또는 후-처리)의 일부로서 사용할 수 있다. 이들 툴은 오늘날 전달 및 플레이백 해법을 위한 방송 및 OTT 준비의 일부분이다. 향상된 공간 공칭화 라우드니스 메트릭의 클라이언트 측 구현은 PC, 태블릿, 모바일 스마트폰, 텔레비전 및 셋톱 박스와 같은 멀티-스크린 적용에서 구현되는 디코더 및 플레이어를 포함한다. 게다가, 이들 디바이스는 심지어 스피커를 필요하지 않으며, 이는 헤드폰 플레이백도 적용할 수 있기 때문이다.
III. 동작 및 시스템 세부 내용
공간 공칭화 OBA 라우드니스 관리 시스템 및 방법은 OBA에서의 라우드니스 측정 및 관리를 설명한다. 각 오디오 오브젝트와 관련된 메타데이터는 예컨대 3D 공간에서의 오브젝트의 위치, 오브젝트를 렌더링할 때 파형에 적용되는 파형 진폭 스케일링 인자, 수반되는 오브젝트의 상관 관계에 관한 데이터, 또는 시작할 때와 종료할 때와 같은 오브젝트에 관한 시간 정보일 수 있다. 다음의 논의에서, 이 시스템 및 방법은 세 단계: a) 콘텐트 작성(또는 인코딩) 단계, b) 중간 모니터링 단계, 및 c) 콘텐트 소비 단계의 환경에서 논의할 것이다.
메타데이터 인코딩 단계
도 6은 콘텐트 작성/인코딩 단계의 개요를 예시하는 블록도(600)이다. 작성 단계 동안, (각 오디오 오브젝트의 파워 또는 라우드니스와 같은) 각 오디오 오브젝트(602)와 관련되는 메타데이터를 비트스트림의 일부 타입의 "사전-렌더링"을 실행함으로써 측정한다(604). 짧은, 중간 또는 파일-기반의 측정을 이 단계에서 할 수 있다. 입력 신호(yi)에 대한 파워 측정(zi)은 시간 기간(T) 동안 다음과 같이 한정된다:
Figure pct00001
, (1)
여기서 i∈I, I는 오디오-오브젝트 신호의 세트이다. 파워 측정 정보는 오디오 오브젝트 신호와 함께 메타데이터(606)로서 저장할 수 있다. 파워 측정 정보는 대안적으로 라우드니스 정보로서 저장할 수 있다. 이득/진폭, 오디오-오브젝트 위치 및 청취자의 위치/방향을 포함한 추가 정보를 오브젝트-특정 메타데이터로서 저장할 수 있다. 오디오 오브젝트에 대한 파워/라우드니스 측정 메타데이터 정보의 처리는 아래의 모니터링 단계에 관해 설명한다.
모니터링 단계
만약 I가 (오디오 오브젝트가 아니라) 채널의 파워 측정에 대한 입력 채널 세트라면, 라우드니스 값으로의 측정된 파워의 매핑은 로그 변환에 의해 행할 수 있다:
Figure pct00002
, (2)
여기서 Gi는 i번째 오디오-오브젝트 신호에 대한 가중 계수이다.
중간 라우드니스 측정의 경우, 변환의 (75%로 세팅될 수 있는) 게이트된 중첩 타입을 사용할 수 있다:
Figure pct00003
(3),
Jg는 게이팅 블록 라우드니스가 -70dBFS에서 통상 취한 게이팅 임계치보다 큰 블록 인덱스 세트이며, |Jg|는 Jg에서 요소의 수이다:
Figure pct00004
(4).
단일-채널 파형 오브젝트 라우드니스 측정의 경우, 앞선 수학식에서의 합은 1이 되며(즉, N=1), 스케일링 계수(G1)는 1.0으로 세팅할 수 있다. 일부 실시예에서, 각 채널이 (멀티-채널 "베드"로 지칭되는) 공간의 고정 위치에 할당되는 멀티-채널 오디오 신호를 나타내는 단일-채널 오브젝트의 그룹의 경우, 앞선 수학식에서 스케일링 계수(Gi)는 BS.1770-x 규격에 있는 채널당 가중치에 매핑될 수 있으며 "5.1" 구성과 같은 표준 멀티-채널 스피커 플레이백 구성에 대해서만 한정될 수 있다. 파워/라우드니스 측정(612)이 단일-채널 오브젝트(610)에서 실행될 수 있어서 메타데이터(614)로서 저장될 수 있다. 라우드니스 측정을 하기 전 사전-필터링 단계를 적용할 수 있음을 본 명세서에서 주목해야 한다. 이것은 머리 및 개정된 저 주파수 B-가중 필터의 음향 효과를 고려하기 위한 필터를 포함한다. 오브젝트 당 파워/라우드니스 정보를 측정하면, 측정 값은 그 후 이후에 사용할 수 있는 메타데이터로서 저장한다. 게다가, 공간 공칭화 라우드니스 메트릭의 계산을 추후에 용이하게 할 수 있는 오브젝트의 상관을 나타내는 메타데이터를 이 단계에서 계산할 수 있다(608). 오브젝트의 상관은, 하나의 소리의 인지가 다른 소리의 존재에 의해 영향을 받을 때 발생하는 청각 마스킹을 나타낸다. 주파수 영역에서, 청각 마스킹을 동기 마스킹, 주파수 마스킹 또는 스펙트럼 마스킹이라고 칭할 수 있다. 시간 영역에서, 청각 마스킹은 시간 마스킹 또는 비-동기 마스킹이라고 칭할 수 있다.
모니터링 단계 동안, 오브젝트당 파워/라우드니스 메타데이터 정보를 수신하여(수학식(1) 참조), 글로벌 라우드니스 값을 계산하는데 사용한다. 회수한 개별 파워/라우드니스 측정을 조합/합하여, 글로벌 라우드니스 측정을 유도한다. 게다가, 개별 측정은 조합/합해지기 전 오브젝트당 가중 메타데이터 정보에 기반하여 스케일링될 수 있다. 조합/합해진 글로벌 라우드니스 측정은 (SNM으로도 지칭되는) 공간 공칭화 라우드니스 메트릭으로서 한정된다. 공간 공칭화 라우드니스 메트릭은 파워 또는 라우드니스-매핑된 포맷으로 계산할 수 있음을 이해해야 한다.
앞서 제시한 수학식 (2) 및 수학식 (3)은 채널 또는 채널 그룹당 라우드니스 측정을 설명한다. 수학식 (2) 및 수학식 (3)은 이제 오디오 오브젝트 또는 오디오 오브젝트 그룹당 공간 공칭화 라우드니스 메트릭 측정을 생성하도록 일반화될 수 있다.
특히, 간격(T) 동안 공간 공칭화 라우드니스 메트릭(SNM)의 결정은 다음과 같이 일반화될 수 있다:
Figure pct00005
(5),
여기서, i∈I, I는 오디오-오브젝트 신호의 세트이고, N은 오디오-오브젝트 신호의 세트(I)에서의 오디오-오브젝트 신호의 개수이다.
간격(T) 동안의 게이트된 공간 공칭화 라우드니스 메트릭(게이트된 SNM)의 결정은 다음과 같이 일반화될 수 있다:
(6),
여기서, i∈I, I는 오디오-오브젝트 신호의 세트이고, N은 오디오-오브젝트 신호의 세트(I)에서의 오디오-오브젝트 신호의 개수이다.
게이트된 SNM의 경우, 간격(T)은 중첩 게이팅 블록 간격의 세트로 분리된다. 게이팅 블록은 400 ms의 지속기간을 가질 수 있는 지속기간(Tg)의 연속 오디오 샘플의 세트이다. 각 게이팅 블록의 중첩은 게이팅 블록 지속기간(Tg)의 75%일 수 있다. 75%의 중첩과 400 ms의 윈도우 지속기간으로, 게이팅된 SNM은 게이팅된 SNM의 이전 계산에 사용되는 오디오-오브젝트 신호의 300 ms에 기반하여 결정된다. 이처럼, 75%의 중첩과 400 ms의 윈도우 지속기간으로, 게이트된 SNM은 매 100 ms마다 결정한다.
일반화된 수학식 (5) 및 (6)은, 다음과 같이 한정되는 함수(FJJT)를 도입함으로써 수학식(2) 및 (3)으로부터 유도한다:
Figure pct00007
(7),
여기서 ci는 i번째 오브젝트의 상관 인자이며, 다른 N-1개의 오브젝트 중 하나 이상에 의한 i번째 오브젝트의 오디오 마스킹의 상관 단위이고, ai는 메타데이터 스트림에서 반송되는 i번째 오브젝트의 진폭 스케일링 인자(오디오-오브젝트 신호이 의도한 진폭을 얻기 위한 스케일링 인자)이고,
Figure pct00008
는 부가적이며, i번째 오브젝트와 청취자의 역제곱 상대 거리법을 따르며, gi는, 머리에 대한 그리고 가정한 시청-방향(통상 "전방 중앙" 채널의 포지션과 일치함)에 대한 소리의 각 위치의 함수로서 사람 청취 라우드니스 감도를 고려하는 부가적 주파수 의존적 가중 인자이다. 이 가중 인자는 머리의 음향 효과를 고려하도록 설계된 BS.1770-x에 설명된 사전-필터링 단계의 일반화된 형태로서 고려할 수 있다. 상관 인자(ci)는 오디오 마스킹에 역비례 관계일 수 있다. 예컨대, 오디오 마스킹이 없을 때, 상관 인자(ci)는 1일 수 있으며, 100% 오디오 마스킹이 있을 때, 상관 인자(ci)는 0일 수 있다.
Figure pct00009
는 앞서 설명한 가중 인자(gi)에 결합되는 추가 정정 인자이다.
Figure pct00010
는 외적 오른쪽 및 위 벡터(
Figure pct00011
Figure pct00012
) 각각을 이용하며, 이들 벡터는 도 7에 도시한 바와 같이 i번째 오브젝트에 대한 청취자 머리의 기하학적 모양을 설명한다. 도 7에 도시한 바와 같이, 오른쪽 벡터의 방향은 청취자 자신의 머리 외부를 가리키는 청취자의 오른쪽 귀의 방향을 따른다. 위 벡터의 방향은 청취자의 머리 위이다.
오른쪽 벡터와 위 벡터에 대해 설명하는 각 변환(
Figure pct00013
)에 의해 설명한 오브젝트 방위각(θ)/고도(φ) 변화에 대해 상대적인 청취자가 있다면,
Figure pct00014
는 i번째 오브젝트의 라우드니스에 대한 정정 스케일링 인자를 계산한다.
게다가, 연속 함수(
Figure pct00015
)의 이산 출력의 표를 방위각 및 고도의 여러 쌍에 대해 생성할 수 있으며 이 표는 방향 가중 인자가 계산될 필요가 있을 때 찾아볼 수 있다. (통상의 전방-중앙 스피커 위치에 대응하는) 디폴트 전방-중앙 포지션에 대해
Figure pct00016
=1임을 주목해야 한다. 상대 거리 및 방향 인자는 이 단계에서 1로 세팅할 수 있으며 이하에서 설명한 소비자 디바이스 단계에서 부가적으로 다시 계산할 수 있다.
i번째 오브젝트는 청취자의 머리에 대한 오디오-오브젝트 신호(예컨대, 효과, 대화, 악기, 음악, 배경 등)에 대한 의도한 위치이며, 플레이백 스피커 구성과 독립적임을 주목해야 한다. 청취자의 머리를, 렌더링될 때 모든 오브젝트가 수신되고자 의도하는 수신 지점으로 지칭할 수 있다. 예컨대, 오디오-오브젝트 신호(i)의 특정 효과는 의도한 수신 지점에 대한 θi의 방위각과 φi의 고도에 위치하고자 할 수 있다. 다른 예로, 수신 지점에 대한 θi의 방위각과 φi의 고도에서, 오디오-오브젝트 신호(i)의 그러한 특정한 효과는 수신 지점으로부터 의도한 거리(
Figure pct00017
)를 가질 수 있다.
이것은 "라우드니스 모니터링" 동작임을 주목해야 한다. 다시 말해, 이 단계에서 임의의 OBA 렌더링이 반드시 발생하는 것은 아니다. 임의의 오디오 파형 디코딩과 파워 또는 라우드니스 계산을 필요로 하지 않고도 OBA 콘텐트의 라우드니스를 측정할 수 있게 한다는 점이 공간 공칭화 OBA 라우드니스 관리 시스템의 핵심 장점이다. 대신, 대신, 공간 공칭화 라우드니스 메트릭 계산은 앞서 기재한 계산 방법과 OBA 콘테트 포맷에서 오브젝트당 라우드니스 메타데이터를 제공한 덕분에 상당히 용이하게 되며 간략화된다.
소비자 디바이스 (소비) 단계
이 마지막 단계에서, 글로벌 합산 라우드니스, 또는 공간 공칭화 라우드니스 메트릭은 오브젝트 작성, 오브젝트 삭제, 오브젝트 변경(예컨대, 감쇄) 또는 청취자 위치 또는 머리-방향 변화 중 임의의 것을 고려하기 위해 (필요하다면) 재계산될 수 있다. 이러한 업데이트는 모니터링 단계에서 주어진 대응하는 설명에 대한 상대적인 거리와 방향 업데이트를 포함할 수 있지만, 이것으로 제한되지 않는다.
글로벌 합산 라우드니스 메타데이터
일부 실시예에서, 글로벌 합산 라우드니스 메타데이터 값은 (MDA 또는 DTS:X와 같은) 오디오 스트림의 제작 동안 계산한다. 이것은 (VBAP와 같은) 참조 렌더러를 사용하여 이 스트림을 (ITU 5.1과 같은 것이지만 이것으로 제한되지 않는) 목표 구성에 렌더링함으로써 행한다. 이 스트림이 렌더링되면, 렌더링된 스트림의 라우드니스 속성을 측정하기에 부합하는 R128/CALM인 기존의 라우드니스 모니터링/측정 툴을 사용할 수 있다. 이들 속성은 동기 라우드니스, 단기간 라우드니스, 트루 피크, 및 라우드니스 거리를 포함할 수 있지만, 이들로 제한되지 않으며, 대화와 같은 앵커 요소를 이용하거나 이용하지 않고 측정할 수 있다.
이들 측정치는 BS.1770-x와 같은 라우드니스 모델 규격당 가중될 수 있지만, 그러한 가중을 따르도록 제한되지 않는다. 게다가, 상관 측정은 렌더링된 신호의 상관 관계를 식별하도록 행할 수 있으며, BS.1770-x의 파워 합보다는 상관 관계 모델에 기반하여, 전체 라우드니스를 계산하는데 사용될 수 있다. 라우드니스가 계산되면, 계산된 라우드니스는 이때 CALM 법에서는 -24 LKFS 또는 EBU R-128에서 -23LUFS와 같은 국제 규정 표준과 비교된다. 이 비교에 기반하여, 오프셋을 계산하며, 이 오프셋은, 제작되는 스트림에 대한 메타데이터 값으로서 저장되는 글로벌 합산 라우드니스이다.
글로벌 합산 라우드니스는, 향상된 공간 공칭화 라우드니스 메트릭이 사용될 때, 겹쳐쓸 가능성이 있음을 여기서 주목해야 한다. 이는 그러한 경우에 사용되는 추가적인 동적 정보 때문이다.
IV. 대안적인 실시예와 예시적인 동작 환경
본 명세서에서 설명한 것들이 아닌 많은 다른 변형은 본 명세서로부터 자명하게 될 것이다. 예컨대, 실시예에 따라, 본 명세서에서 설명한 방법 및 알고리즘 중 임의의 것의 특정한 법, 이벤트 또는 기능은 상이한 시퀀스로 실행할 수 있으며, 함께 추가되고, 통합되거나 뺄 수 있다(그리하여 설명한 모든 법이나 이벤트가 이 방법 및 알고리즘의 실행에 필요한 것은 아니다). 게다가, 특정한 실시예에서, 법이나 이벤트는 멀티-스레디드 처리, 중단 처리 또는 다중 프로세서 또는 프로세서 코어를 통해 또는 순차적이기보다는 다른 병렬 아키텍쳐와 같이 동시에 실행할 수 있다. 게다가, 상이한 작업이나 프로세스는, 함께 기능할 수 있는 상이한 기기와 계산 시스템에 의해 실행될 수 있다.
도 8은, 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예의 세 개의 단계 모두의 일반적인 동작을 예시하는 흐름도이다. 메타데이터 생성 단계(802)에서, 메타데이터가 프로그램 비트스트림 내에서 오디오 오브젝트에 대해 생성된다. 그러한 메타데이터는 앞서 논의한 바와 같이 수학식 1 및 수학식 5 내지 7에 사용된 정보를 포함할 수 있다. 블록(804)에서, 파워/라우드니스 측정을 실행한다. 파워/라우드니스 측정은 수학식 1에 따라 실행할 수 있다. 파워/라우드니스 측정 자체는 오디오 오브젝트에 대한 메타데이터에 저장할 수 있다. 후속하여, 블록(806)에서, 공간 공칭화 라우드니스 메트릭을 결정할 수 있다. 공간 공칭화 라우드니스 메트릭은 오디오 오브젝트에 대한 청취자의 포지션/위치에 대한 가정과 메타데이터에 기반하여 결정할 수 있다. 예컨대, 청취자는, 특정한 반경/거리로 청취자 주위에 위치하는 오디오 오브젝트에 대한 3D 공간에서 포지션(0, 0, 0)에 있는 것으로 가정할 수 있다. 후속하여, 808에서, 오디오 오브젝트는 소비자 디바이스(810)에 송신된다(예컨대, 스트리밍되어, 파일 전달에 의해 전송되며 방송됨). 소비자 디바이스에서, 812에서, 공간 공칭화 라우드니스 메트릭은 믹스에 포함된 오디오 오브젝트에 기반하여 재결정할 수 있다. 예컨대, 청취자는 믹스로부터 오디오 오브젝트를 업데이트(814)(예컨대, 추가, 삭제)할 수 있거나 믹스에서 오디오 오브젝트를 변화시킬 수 있다. 812에서, 향상된 공간 공칭화 라우드니스 메트릭은 업데이트된 청취자 포지션(816)과 같은 추가 정보에 기반하여 결정될 수 있다. 예컨대, 청취자가 오디오 오브젝트를 청취할 때 자신의 위치를 변화시킬 수 있어서, 청취자는 더 이상 3D 공간에서 포지션(0, 0, 0)에 있지 않거나, 청취자는 단정히 앉기보다는 누움으로써 자신의 머리 방향을 변화시킬 수 있다. 향상된 공간 공칭화 메트릭은 업데이트된 고도, 방위각 및 오디오 오브젝트의 의도한 위치에 대한 청취자의 위치 정보에 기반하여 결정될 수 있다.
도 9는 플레이백 시스템을 통한 재생을 위한 오브젝트-기반 오디오 신호를 처리하는 방법의 흐름도(900)이다. 이 방법은 중앙처리장치(CPU)와 같은 프로세서에 의해 실행될 수 있다. 프로세서는 플레이백 시스템 내에 있을 수 있거나, 플레이백 시스템을 통한 추후 재생을 위해 오브젝트-기반 오디오 신호를 처리하는 시스템 내에 있을 수 있다. 프로세서는 도 9에서 장치로 칭한다. 902에서, 장치는 복수의 오브젝트-기반 오디오 신호를 수신한다. 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터와, 오디오 파형 데이터와 관련된 오브젝트 메타데이터를 포함한다. 오브젝트 메타데이터는 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함한다. 예컨대, 앞서 논의한 바와 같이 오브젝트 메타데이터는 파워 파라미터(zi)를 포함할 수 있다. 대안적으로, 오브젝트 메타데이터는, 파워 파라미터(zi)의 함수인 (LKFS 또는 LUFS에서의) 라우드니스 파라미터(zi)를 포함할 수 있다. 904에서, 장치는, 수신한 오브젝트-기반 오디오 신호에 기반하여 그리고 수신한 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나에 기반하여 라우드니스 메트릭을 결정한다. 예컨대, 장치는 수학식 5, 수학식 6 및 수학식 7에 기반하여 공간 공칭화 라우드니스 메트릭을 결정할 수 있다. 910에서, 장치는 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호를 출력 신호의 세트에 렌더링한다.
일 구성에서, 910에서, 수신한 오브젝트-기반 오디오 신호를 렌더링할 때, 장치는 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭(ai)을 조정할 수 있다. 예컨대, 906에서, 장치는 라우드니스 메트릭과 목표 라우드니스 메트릭 간의 비교에 기반하여 라우드니스 메트릭 오프셋을 결정할 수 있다. 목표 라우드니스 메트릭은 앞서 논의한 바와 같이 CALM 법에서의 -24 LKFS나 EBU R-128에서의 -23 LUFS와 같은 국제 규정 표준에 명시한 목표 라우드니스 레벨일 수 있다. 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭(ai)은 라우드니스 메트릭과 목표 라우드니스 메트릭 간의 비교에 기반하여 조정할 수 있다. 구체적으로, 908에서, 장치는, 라우드니스 메트릭이 목표 라우드니스 메트릭보다 큰지를 결정할 수 있다. 908에서, 라우드니스 메트릭이 목표 라우드니스 메트릭보다 큰 것으로 결정될 때, 910에서, 장치는 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭(ai)을 조정/스케일링할 수 있어서, 라우드니스는 목표 라우드니스 메트릭에 접근하도록 감소한다.
일 구성에서, 라우드니스 메트릭은, 수신한 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대해, 수신 지점에 대한 오브젝트-기반 오디오 신호의 포지션 데이터에 기반하여 또한 결정된다. 수신 지점은 3D 공간에서 0,0,0과 같은 가정한 수신 지점이나 3D 공간 내에서 청취자의 실제 위치일 수 있다. 오브젝트-기반 오디오 신호의 포지션 데이터는 0,0,0 수신 지점에 대한 오브젝트-기반 오디오 신호의 의도한 위치이다. 예컨대, 제1 오브젝트-기반 오디오 신호는 수신 지점에 대한 제1 고도와 제1 방위각에서 청취자의 오른쪽으로 위치하고자 할 수 있으며, 제2 오브젝트-기반 오디오 신호는 수신 지점에 대한 제2 고도와 제2 방위각에서 청취자의 왼쪽으로 위치하고자 할 수 있다.
일 구성에서, 포지션 데이터는 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 방위각 또는 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 고도 중 적어도 하나를 포함한다. 포지션 데이터는 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 거리를 더 포함할 수 있다. 일 구성에서, 모든 오브젝트-기반 오디오 신호는 수신 지점(0,0,0)으로부터 고정된 거리/반경을 갖는다고 가정할 수 있다.
일 구성에서, 라우드니스 메트릭은, 수신한 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대해, 수신한 오브젝트-기반 오디오 신호의 하나 이상의 다른 오브젝트-기반 오디오 신호에 대한 오브젝트-기반 오디오 신호의 상관 인자(ci), 오브젝트-기반 오디오 신호의 진폭 스케일링 인자(ai), 또는 수신 지점에 대한 오브젝트-기반 오디오 신호의 각 위치의 함수로서 청취 라우드니스 감도를 고려하기 위한 오브젝트-기반 오디오 신호의 주파수 의존적 가중 인자(gi) 중 적어도 하나를 더 기반으로 하여 결정된다.
일 구성에서, 라우드니스 메트릭은
Figure pct00018
에 기반하여 결정되며, 여기서 i∈I, I는 오브젝트-기반 오디오 신호의 세트이고, N은 수신한 오브젝트-기반 오디오 신호에서의 오브젝트-기반 오디오 신호의 개수이고, zi는 i번째 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나이고, ri는 i번째 오브젝트-기반 오디오 신호와 관련된 위치이고, rL은 수신 지점과 관련된 위치이고, θi는 i번째 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 방위각이고, φi는 i번째 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 고도이고, ai는 i번째 오브젝트-기반 오디오 신호의 진폭 스케일링 인자이고, gi는, 수신 지점에 대한 i번째 오브젝트-기반 오디오 신호의 각 위치의 함수로서 청취 라우드니스 감도를 고려하기 위한 i번째 오브젝트-기반 오디오 신호의 주파수 의존적 가중치 인자이며, ci는 수신된 상기 오브젝트-기반 오디오 신호 중 하나 이상의 다른 오브젝트-기반 오디오 신호에 대한 i번째 오브젝트-기반 오디오 신호의 상관 인자이다.
일 구성에서, 수신한 오브젝트-기반 오디오 신호는 사용자-특정된다. 즉, 사용자는 오브젝트-기반 오디오 신호를 추가, 삭제 또는 그 밖에 변화시킬 수 있다. 이처럼, 912에서, 장치는 오브젝트-기반 오디오 신호의 새로운 세트를 나타내는 정보를 수신할 수 있다. 오브젝트-기반 오디오 신호의 세트를 나타내는 정보는 사용자 입력을 기반으로 수신된다. 후속하여, 장치는 오브젝트-기반 오디오 신호의 세트에 기반하여 그리고 오브젝트-기반 오디오 신호의 세트의 각각의 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나에 기반하여 라우드니스 메트릭을 재결정할 수 있다(904).
앞서 논의한 바와 같이, 각 오브젝트-기반 오디오 신호의 오브젝트 메타데이터는 수신 지점에 대한 오브젝트-기반 오디오 신호의 포지션 데이터나 오브젝트-기반 오디오 신호의 진폭 스케일링 인자 중 적어도 하나를 포함한다. 수신 지점에 대한 오브젝트-기반 오디오 신호의 포지션 데이터는 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 거리, 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 방위각, 또는 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 고도 중 적어도 하나를 포함할 수 있다.
일 구성에서, 라우드니스 메트릭은 T ms 동안의 평균 라우드니스이며, 라우드니스 메트릭은 매 T ms마다 결정된다. 일 구성에서, 라우드니스 메트릭은 T ms 동안의 평균 라우드니스이며, 라우드니스 메트릭은 매 D ms마다 결정되며, 여기서 D<T이다. 예컨대, 라우드니스 메트릭은 400 ms 동안의 평균 라우드니스일 수 있으며, 라우드니스 메트릭은 매 100 ms마다 결정할 수 있다. 일 구성에서, 라우드니스 메트릭은 복수의 윈도우 구간 동안 결정되며, 이들 기간 각각은 이전 윈도우와 중첩한다. 예컨대, 윈도우 구간 각각은 400 ms의 지속기간을 가지며, 다른 윈도우 구간과 300 ms만큼 중첩한다.
일 구성에서, 수신한 오브젝트-기반 오디오 신호는 N개의 오브젝트-기반 오디오 신호를 포함하고, 수신한 오브젝트-기반 오디오 신호는 n개의 채널을 포함하는 스피커를 통해 렌더링되며, N은 n과 상관되지 않는다. 특히, 오브젝트-기반 오디오 신호의 수(N)는 채널의 수(n)와 완전히 상관하지 않는다.
다시 910을 참조하면, 일 구성에서, 수신한 오브젝트-기반 오디오 신호 중 하나 이상의 진폭을, 필요하다면, 조정/변경한 후, 장치는 출력 신호의 세트를 생성할 때 오브젝트-기반 오디오 신호를 특정한 스피커(또는 채널)에 매핑할 수 있다. 각 오브젝트-기반 오디오 신호는 오브젝트-기반 오디오 신호의 위치를 기반으로 하고 오브젝트-기반 오디오 신호에 가장 가까운 스피커 위치에 기반하여 가장 가까운 스피커 세트(예컨대, 삼각형 패턴으로 된 세 개의 스피커)에 매핑될 수 있다. 다른 구성에서, 출력 신호의 세트는 이 매핑을 특정 스피커(채널)에 대해 실행하는 다른 장치에 제공된다.
도 10은 방송, 파일 전달 또는 스트리밍 중 적어도 하나를 위한 오브젝트-기반 오디오 신호를 처리하는 방법의 흐름도이다. 이 방법은 CPU와 같은 프로세서에 의해 실행될 수 있다. 프로세서는 도 10에서 장치로서 지칭한다. 1002에서, 장치는 복수의 오브젝트-기반 오디오 신호를 수신한다. 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터와, 오디오 파형 데이터와 관련된 오브젝트 메타데이터를 포함한다. 오브젝트 메타데이터는 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함한다. 1004에서, 장치는 수신한 오브젝트-기반 오디오 신호에 기반하여 그리고 수신한 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나에 기반하여 라우드니스 메트릭을 결정한다. 1012에서, 장치는 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호를 송신한다.
일 구성에서, 1006에서, 장치는 라우드니스 메트릭과 목표 라우드니스 메트릭 간의 비교에 기반하여 라우드니스 메트릭 오프셋을 결정할 수 있다. 1008에서, 장치는 라우드니스 메트릭이 목표 라우드니스 메트릭보다 큰지를 결정할 수 있다. 라우드니스 메트릭이 목표 라우드니스 메트릭보다 큰 것으로 결정된다면, 1010에서, 장치는 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 조정할 수 있다. 후속하여, 1012에서, 장치는 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 조정된 진폭을 갖는 수신된 오브젝트-기반 오디오 신호를 송신할 수 있다. 대안적으로, 1010에서, 장치는 결정된 라우드니스 메트릭에 기반하여 프로그램 비트스트림의 프로그램 특정 메타데이터에서의 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 변경할 수 있다. 후속하여, 1012에서, 장치는 프로그램 특정 메타데이터에서 변경된 진폭을 갖는 수신된 오브젝트-기반 오디오 신호를 송신할 수 있다.
도 11은 예시적인 장치(1102)에서 상이한 모듈/수단/소자 사이의 데이터 흐름을 예시하는 개념적인 데이터 흐름도(1100)이다. 장치는 플레이백 시스템을 통한 재생을 위해 또는 방송, 파일 전달 또는 스트리밍을 통한 송신을 위해 오브젝트-기반 오디오 신호를 처리한다. 장치(1102)는, 복수의 오브젝트-기반 오디오 신호를 수신하도록 구성되는 수신 모듈(1104)을 포함한다. 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터와, 오디오 파형 데이터와 관련된 오브젝트 메타데이터를 포함한다. 오브젝트 메타데이터는 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함한다. 장치(1102)는 수신한 오브젝트-기반 오디오 신호에 기반하여 그리고 수신한 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나에 기반하여 라우드니스 메트릭을 결정하도록 구성되는 라우드니스 메트릭 결정 모듈(1106)을 더 포함한다. 장치(1102)는, 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호를 출력 신호의 세트에 렌더링하도록 구성될 수 있는 렌더링/송신 모듈(1108)을 더 포함한다. 대안적으로, 렌더링/송신 모듈(1108)은 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호를 송신하도록 구성된다.
일 구성에서, 렌더링/송신 모듈(1108)은 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 조정하도록 구성된다. 일 구성에서, 라우드니스 메트릭 결정 모듈(1106)은 라우드니스 메트릭과 목표 라우드니스 메트릭 간의 비교에 기반하여 라우드니스 메트릭 오프셋을 결정하도록 구성될 수 있다. 렌더링/송신 모듈(1108)은 라우드니스 메트릭과 목표 라우드니스 메트릭 간의 비교에 기반하여 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 결정하도록 구성될 수 있다. 일 구성에서, 라우드니스 메트릭 결정 모듈(1106)은 라우드니스 메트릭이 목표 라우드니스 메트릭보다 큰지를 결정하도록 구성될 수 있다. 렌더링/송신 모듈(1108)은, 라우드니스 메트릭이 목표 라우드니스 메트릭보다 큰 것으로 결정될 때 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 조정하도록 구성될 수 있다.
일 구성에서, 렌더링/송신 모듈(1108)은 수신한 오브젝트-기반 오디오 신호를 송신하기 이전에 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 조정할 수 있다. 일 구성에서, 오브젝트-기반 오디오 신호는 프로그램 비트스트림과 관련되며, 렌더링/송신 모듈(1108)은 수신한 오브젝트-기반 오디오 신호를 송신하기 전 결정된 라우드니스 메트릭에 기반하여 프로그램 비트스트림의 프로그램 특정 메타데이터에서 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 변경하도록 구성된다.
일 구성에서, 라우드니스 메트릭 결정 모듈(1106)은, 수신한 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대해, 또한 수신 지점에 대한 오브젝트-기반 오디오 신호의 포지션 데이터에 기반하여 라우드니스 메트릭을 결정하도록 구성될 수 있다. 포지션 데이터는, 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 방위각 또는 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 고도 중 적어도 하나를 포함한다. 포지션 데이터는 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 거리를 더 포함할 수 있다. 라우드니스 메트릭 결정 모듈(1106)은, 수신한 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대해, 수신한 오브젝트-기반 오디오 신호 중 하나 이상의 다른 오브젝트-기반 오디오 신호에 대한 오브젝트-기반 오디오 신호의 상관 인자, 오브젝트-기반 오디오 신호의 진폭 스케일링 인자, 또는 수신 지점에 대한 오브젝트-기반 오디오 신호의 각 위치의 함수로서 청취 라우드니스 감도를 고려하기 위한 오브젝트-기반 오디오 신호의 주파수 의존적 가중 인자 중 적어도 하나를 또한 기반으로 하여 라우드니스 메트릭을 결정할 수 있다.
일 구성에서, 라우드니스 메트릭 결정 모듈(1106)은
Figure pct00019
에 기반하여 라우드니스 메트릭을 결정할 수 있으며, 여기서 i∈I, I는 오브젝트-기반 오디오 신호의 세트이고, N은 수신한 오브젝트-기반 오디오 신호에서의 오브젝트-기반 오디오 신호의 개수이고, zi는 i번째 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나이고, ri는 i번째 오브젝트-기반 오디오 신호와 관련된 위치이고, rL은 수신 지점과 관련된 위치이고, θi는 i번째 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 방위각이고, φi는 i번째 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 고도이고, ai는 i번째 오브젝트-기반 오디오 신호의 진폭 스케일링 인자이고, gi는, 수신 지점에 대한 i번째 오브젝트-기반 오디오 신호의 각 위치의 함수로서 청취 라우드니스 감도를 고려하기 위한 i번째 오브젝트-기반 오디오 신호의 주파수 의존적 가중치 인자이며, ci는 수신한 오브젝트-기반 오디오 신호 중 하나 이상의 다른 오브젝트-기반 오디오 신호에 대한 i번째 오브젝트-기반 오디오 신호의 상관 인자이다.
일 구성에서, 수신 모듈(1104)은 수신한 오브젝트-기반 오디오 신호를 나타내는 사용자-특정 입력을 수신할 수 있다. 일 구성에서, 수신 모듈(1104)은 오브젝트-기반 오디오 신호의 새로운 세트를 나타내는 정보를 수신할 수 있다. 오브젝트-기반 오디오 신호의 세트를 나타내는 정보는 사용자 입력에 기반하여 수신할 수 있다. 그러한 구성에서, 라우드니스 메트릭 결정 모듈(1106)은 오브젝트-기반 오디오 신호의 세트에 기반하여 그리고 오브젝트-기반 오디오 신호의 세트의 각각의 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나에 기반하여 라우드니스 메트릭을 재결정할 수 있다.
일 구성에서, 각 오브젝트-기반 오디오 신호의 오브젝트 메타데이터는 수신 지점에 대한 오브젝트-기반 오디오 신호의 포지션 데이터나 오브젝트-기반 오디오 신호의 진폭 스케일링 인자 중 적어도 하나를 포함한다. 일 구성에서, 수신 지점에 대한 오브젝트-기반 오디오 신호의 포지션 데이터는 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 거리, 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 방위각, 또는 오브젝트-기반 오디오 신호의 위치와 수신 지점 사이의 고도 중 적어도 하나를 포함할 수 있다.
일 구성에서, 라우드니스 메트릭은 T ms 동안의 평균 라우드니스이며, 라우드니스 메트릭은 매 T ms마다 결정된다. 일 구성에서, 라우드니스 메트릭은 T ms 동안의 평균 라우드니스이며, 라우드니스 메트릭은 매 D ms마다 결정되며, 여기서 D<T이다. 일 구성에서, 라우드니스 메트릭은 복수의 윈도우 구간 동안 결정하며, 이 기간 각각은 이전 윈도우와 중첩한다. 일 구성에서, 윈도우 구간 각각은 400 ms의 지속기간을 가지며, 다른 윈도우 구간과 300 ms만큼 중첩한다. 일 구성에서, 수신한 오브젝트-기반 오디오 신호는 N개의 오브젝트-기반 오디오 신호를 포함하고, 수신한 오브젝트-기반 오디오 신호는 n개의 채널을 갖는 스피커를 통해 렌더링되며, N은 n과 상관되지 않는다.
장치는, 도 9 및 도 10의 앞서 언급한 흐름도에서 알고리즘의 블록 각각을 실행하는 추가 모듈을 포함할 수 있다. 이처럼, 도 9 및 도 10의 앞서 언급한 흐름도의 각 블록은 모듈에 의해 실행될 수 있으며 장치는 이들 모듈 중 하나 이상을 포함할 수 있다. 모듈은, 구체적으로 언급한 프로세스/알고리즘을 수행하도록 구성되고, 이러한 프로세스/알고리즘을 실행하도록 구성된 프로세서에 의해 구현될 수 있으며 프로세서에 의해 또는 그 일부 조합에 의해 구현하기 위해 컴퓨터로 판독 가능한 매체 내에 저장되는 하나 이상의 하드웨어일 수 있다.
일 구성에서, 플레이백 시스템을 통한 재생을 위해 오브젝트-기반 오디오 신호를 처리하는 장치는 복수의 오브젝트-기반 오디오 신호를 수신하는 수단을 포함한다. 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터와, 오디오 파형 데이터와 관련되는 오브젝트 메타데이터를 포함한다. 오브젝트 메타데이터는 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함한다. 이 장치는 수신한 오브젝트-기반 오디오 신호에 기반하여 그리고, 수신한 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나에 기반하여 라우드니스 메트릭을 결정하는 수단을 더 포함한다. 이 장치는 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호를 출력 신호의 세트에 렌더링하는 수단을 더 포함한다.
일 구성에서, 수신한 오브젝트-기반 오디오 신호를 렌더링하는 수단은 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 조정하도록 구성된다. 일 구성에서, 이 장치는, 라우드니스 메트릭과 목표 라우드니스 메트릭 간의 비교에 기반하여 라우드니스 메트릭 오프셋을 결정하는 수단을 포함한다. 그러한 구성에서, 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭은 라우드니스 메트릭과 목표 라우드니스 메트릭 간의 비교에 기반하여 조정된다. 일 구성에서, 이 장치는, 라우드니스 메트릭이 목표 라우드니스 메트릭보다 큰지를 결정하는 수단을 포함한다. 그러한 구성에서, 수신한 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭은, 라우드니스 메트릭이 목표 라우드니스 메트릭보다 큰 것으로 결정될 때 조정된다.
일 구성에서, 방송, 파일 전달, 또는 스트리밍 중 적어도 하나를 위한 오브젝트-기반 오디오 신호를 처리하는 장치는 복수의 오브젝트-기반 오디오 신호를 수신하는 수단을 포함한다. 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터와, 오디오 파형 데이터와 관련되는 오브젝트 메타데이터를 포함한다. 오브젝트 메타데이터는 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함한다. 이 장치는, 수신한 오브젝트-기반 오디오 신호에 기반하여 그리고, 수신한 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나에 기반하여 라우드니스 메트릭을 결정하는 수단을 더 포함한다. 이 장치는 결정된 라우드니스 메트릭에 기반하여 수신한 오브젝트-기반 오디오 신호를 송신하는 수단을 더 포함한다.
본 명세서에서 개시한 실시예와 연계하여 설명한 여러 예시적인 로직 블록, 모듈, 방법 및 알고리즘 프로세스와 시퀀스는 전자 하드웨어, 컴퓨터 소프트웨어 또는 이들 둘 모두의 조합으로 구현할 수 있다. 하드웨어 및 소프트웨어의 이러한 상호 교환성을 명확히 예시하기 위해, 여러 예시적인 소자, 블록, 모듈 및 프로세서 동작은 이들의 기능 면에서 일반적으로 앞서 설명하였다. 그러한 기능이 하드웨어나 소프트웨어로서 구현되는 지의 여부는 전체 시스템에 부과되는 특정한 적용 및 설계에 의존한다. 설명한 기능은 각 특정한 적용을 위해 다양한 방식으로 구현할 수 있지만, 그러한 구현의 결정은 본 명세서의 범위에서의 이탈을 초래하는 것으로 해석되지는 않아야 한다.
본 명세서에서 개시한 실시예와 연계하여 설명한 여러 예시적인 로직 블록 및 모듈은 범용 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그램 가능한 게이트 어레이(FPGA) 또는 다른 프로그램 가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 소자 또는 본 명세서에서 설명한 기능을 실행하도록 설계된 이들의 임의의 조합과 같은 기기에 의해 구현되거나 실행될 수 있다. 범용 프로세서는 마이크로프로세서일 수 있지만, 대안으로, 이 프로세서는 제어기, 마이크로컨트롤러, 또는 상태기, 이들의 조합 등일 수 있다. 프로세서는 또한 DSP 및 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 연계한 하나 이상의 마이크로프로세서 또는 임의의 다른 그러한 구성과 같은 계산 디바이스의 조합으로서 구현할 수 있다.
본 명세서에서 설명한 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예는 여러 타입의 범용 또는 전용 계산 시스템 환경 또는 구성 내에서 동작한다. 일반적으로, 계산 환경은, 예를 들면 기기, 휴대폰, 데스크톱 컴퓨터, 휴대용 컴퓨터, 태블릿 컴퓨터, 스마트폰 및 내장 컴퓨터를 가진 기기 내의 하나 이상의 마이크로프로세서, 메인프레임 컴퓨터, 디지털 신호 프로세서, 휴대용 계산 디바이스, 개인용 오거나이저, 디바이스 제어기, 계산 엔진을 포함하지만 이들로 제한되지는 않는 임의의 타입의 컴퓨터 시스템을 포함할 수 있다.
그러한 계산 디바이스는 통상 개인용 컴퓨터, 서버 컴퓨터, 핸드-헬드 계산 디바이스, 랩탑 또는 휴대용 컴퓨터, 셀폰 및 PDA와 같은 통신 디바이스, 마이크로프로세서 시스템, 마이크로프로세서-기반의 시스템, 셋톱 박스, 프로그램 가능한 가전장치, 네트워크 PC들, 미니컴퓨터, 메인프레임 컴퓨터, 오디오 또는 비디오 미디어 플레이어 등을 포함하지만 이들로 제한되지 않는 적어도 일부 최소 계산 성능을 가진 디바이스에서 볼 수 있다. 일부 실시예에서, 계산 디바이스는 하나 이상의 프로세서를 포함할 것이다. 각 프로세서는 DSP, 매우 긴 명령 워드(VLIW) 또는 다른 마이크로-컨트롤러와 같은 전문 마이크로프로세서일 수 있거나, 멀티-코어 CPU에서 전문 그래픽 처리 유닛(GPU)-기반의 코어를 포함한 하나 이상의 처리 코어를 갖는 종래의 CPU일 수 있다.
본 명세서에서 개시한 실시예와 연계하여 설명한 방법, 프로세스 또는 알고리즘의 프로세스 동작은 직접 하드웨어로, 프로세서에 의해 수행되는 소프트웨어 모듈로 또는 이들 둘의 임의의 조합으로 구현할 수 있다. 소프트웨어 모듈은 계산 디바이스에 의해 액세스될 수 있는 컴퓨터로 판독 가능한 매체에 포함될 수 있다. 컴퓨터로 판독 가능한 매체는, 탈착 가능한, 비-탈착 가능한 또는 이들의 임의의 조합인 휘발성 및 불휘발성 매체를 포함하다. 컴퓨터로 판독 가능한 매체는 컴퓨터로 판독 가능한 또는 컴퓨터로 수행 가능한 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보를 저장하는데 사용된다. 예를 들어 그리고 비제한적으로, 컴퓨터로 판독 가능한 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다.
컴퓨터 저장 매체는, 광학 저장 디바이스, 블루레이 디스크(BD), 디지털 다용도 디스크(DVD), 컴팩트 디스크(CD), 플로피디스크, 테이프 드라이브, 하드드라이브, 광학 드라이브, 고체 메모리 디바이스, 랜덤-액세스 메모리(RAM) 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 플래시 메모리 또는 다른 메모리 기술, 자기 카세트, 자기 테이프, 자기 디스크 저장, 또는 다른 자기 저장 디바이스, 또는 원하는 정보를 저장하는데 사용할 수 있으며 하나 이상의 계산 디바이스에 의해 액세스될 수 있는 임의의 다른 디바이스와 같은 컴퓨터 또는 기기 판독 가능한 매체나 저장 디바이스를 포함하지만 이들로 제한되지는 않는다.
소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드디스크, 탈착 가능한 디스크, CD-ROM, 또는 비일시적 컴퓨터로 판독 가능한 저장 매체(들)의 임의의 다른 형태 또는 종래 기술에 알려져 있는 물리적인 컴퓨터 저장부에 상주할 수 있다. 예시적인 저장 매체는 프로세서에 결합될 수 있어서, 프로세서는 저장 매체로부터 정보를 판독할 수 있으며, 저장 매체에 정보를 기록할 수 있다. 대안으로서, 저장 매체는 프로세서에 통합될 수 있다. 프로세서 및 저장 매체는 ASIC에 상주할 수 있다. ASIC는 사용자 단말에 상주할 수 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말의 별도의 소자로서 상주할 수 있다.
본 명세서에서 사용한 문구, "비-일시적"은 "지속하거나 오래-남음"을 의미하다. 문구, "비일시적 컴퓨터로 판독 가능한 매체"는 일시적이며 전파하는 신호만을 제외하고, 임의의 그리고 모든 컴퓨터로 판독 가능한 매체를 포함한다. 이것은 예를 들어 그리고 비제한적으로 레지스터 메모리, 프로세서 캐시 및 RAM과 같은 비일시적 컴퓨터로 판독 가능한 매체를 포함한다.
컴퓨터로 판독 가능하거나 컴퓨터로 수행 가능한 명령, 데이터 구조, 프로그램 모듈 등과 같은 정보의 보관은 또한, 여러 통신 매체를 사용하여 하나 이상의 변조된 데이터 신호, (반송파와 같은) 전자기파, 또는 다른 전송 메커니즘이나 통신 프로토콜을 인코딩함으로써 달성할 수 있으며, 임의의 유선 또는 무선 정보 전달 메커니즘을 포함한다. 일반적으로, 이들 통신 매체는, 신호에서 정보나 명령을 인코딩하는 방식으로 세팅되거나 변화되는 그 특징 중 하나 이상을 갖는 신호를 참조한다. 예컨대, 통신 매체는 하나 이상의 변조된 데이터 신호를 반송하는 유선 네트워크나 직접-유선 연결과 같은 유선 매체와, 음파, 무선 주파수(RF), 적외선, 레이저 및 하나 이상의 변조된 데이터 신호나 전자기파를 송신, 수신 또는 둘 모두를 행하기 위한 다른 무선 매체를 포함한다. 상기 구성 중 임의의 것의 조합은 또한 통신 매체의 범위 내에 포함될 수 있다.
또한, 본 명세서에서 설명한 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 여러 실시예 중 일부나 모두를 구현하는 소프트웨어, 프로그램, 컴퓨터 프로그램 제품 중 하나나 임의의 조합은, 컴퓨터로 수행 가능한 명령 또는 다른 데이터 구조의 형태로 컴퓨터나 기기로 판독 가능한 매체 또는 저장 디바이스와 통신 매체의 임의의 원하는 조합에 저장, 수신, 송신 또는 이로부터 판독할 수 있다.
본 명세서에서 설명한 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 실시예는, 계산 디바이스에 의해 수행되는 프로그램 모듈과 같은 컴퓨터로 수행 가능한 명령의 일반 환경에서 또한 설명할 수 있다. 일반적으로, 프로그램 모듈은, 특정한 작업을 수행하거나 특정한 요약 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트, 구성요소, 데이터 구조 등을 포함한다. 본 명세서에서 설명한 실시예는 배포된 계산 환경에서 실행할 수 도 있으며, 이러한 환경에서, 작업은 하나 이상의 원격 처리 디바이스에 의해서 또는 하나 이상의 통신 네트워크를 통해 링크되는 하나 이상의 디바이스의 클라우드 내에서 실행된다. 배포된 계산 환경에서, 프로그램 모듈은 매체 저장 디바이스를 포함하는 근거리 및 원격 컴퓨터 저장 매체 모두에 위치할 수 있다. 또한, 앞서 언급한 명령은, 프로세서를 포함할 수 있거나 포함하지 않을 수 있는 하드웨어 로직 회로로서 부분적으로 또는 전적으로 구현할 수 있다.
특히, "할 수 있다", "할 수 도 있었다", "할 수 도 있다", "예컨대" 등과 같이, 본 명세서에서 사용한 조건적 문구는, 구체적으로 달리 언급하지 않거나 그 밖에 본 환경 내에서 사용되는 것으로 이해된다면, 일반적으로 특정한 실시예가, 비록 다른 실시예는 포함하지 않지만, 특정한 특성, 요소 및/또는 상태를 포함함을 전달하고자 한다. 따라서, 그러한 조건적 문구는 일반적으로, 특성, 요소 및/또는 상태는 어떤 식으로든 하나 이상의 실시예에 필요하거나 하나 이상의 실시예가 작성자의 입력 또는 프롬프트가 있거나 없이 이들 특성, 요소 및/또는 상태가 임의의 특정한 실시예에 포함되거나 임의의 특정한 실시예에서 실행되는지의 여부를 결정하기 위한 로직을 반드시 포함함을 암시하고자 하는 것은 아니다. 용어, "포함하는", "갖는" 등은 동의어이며, 열린 종렬 방식으로 포괄적으로 사용되고, 추가 요소, 특성, 작동, 동작 등을 배제하지 않는다. 또한, 용어, "또는"은 포괄적인 의미로 사용되어서 (배제적인 의미로 사용되지 않아서), 예컨대 요소 목록을 연결하는데 사용될 때, 용어, "또는"은 목록의 요소 중 하나, 일부 또는 모두를 의미한다.
상기 상세한 설명은 여러 실시예에 적용되는 새로운 특성을 도시하고, 설명하며 지적하였지만, 예시한 디바이스나 알고리즘의 형태와 세부 내용에서 여러 가지 생략, 대체 및 변화는 본 개시의 사상에서 벗어나지 않고 이뤄질 수 있음을 이해해야 한다. 인식할 바와 같이, 본 명세서에서 설명한 공간 공칭화 OBA 라우드니스 관리 시스템 및 방법의 특정한 실시예는, 본 명세서에서 기재한 특성과 장점 모두를 제공하지 않는 형태 내에서 구현될 수 있으며, 이는 일부 특성은 다른 특성과 별개로 사용되거나 실행될 수 있기 때문이다.
게다가, 비록 요지가 구조적 특성과 방법적 작동에 특정되는 문구로 설명하였지만, 첨부한 청구항에 한정한 요지는 앞서 설명한 특정한 특성이나 작동으로 반드시 제한되는 것은 아님을 이해해야 한다. 오히려, 앞서 설명한 특정한 특성 및 작동은 청구항을 구현하는 예시적인 형태로 개시한다.
이전 설명을 제공하여 당업자는 본 명세서에서 설명한 여러 구성을 실행할 수 있다. 이들 구성에 대한 여러 가지 변경은 당업자에게 이미 자명할 것이며, 본 명세서에서 한정한 일반 원리는 다른 구성에 적용할 수 있다. 따라서, 청구항은 본 명세서에서 기재한 구성으로 제한되기 보다는 청구항에 부합하는 전범위로 허용되고자 하며, 단수의 요소에 대한 참조는 구체적으로 언급되지 않는다면 "단 하나"를 의미하기 보다는 "하나 이상"을 의미하고자 한다. 용어, "예시적인"은 본 명세서에서 "예, 예시로서 제공되는"을 의미하도록 사용된다. "예시적인"으로서 본 명세서에서 설명한 임의의 구성은 반드시 다른 구성보다 바람직하거나 유리한 것으로 해석될 필요는 없다. 달리 구체적으로 언급되지 않는다면, 용어, "일부"는 하나 이상을 지칭한다. "A, B 또는 C 중 적어도 하나", "A, B 및 C 중 적어도 하나" 및 "A, B, C 또는 이들의 임의의 조합"과 같은 조합은 A, B 및/또는 C의 임의의 조합을 포함하며, 다수의 A, 다수의 B 또는 다수의 C를 포함할 수 있다. 구체적으로, "A, B 또는 C 중 적어도 하나", "A, B 및 C 중 적어도 하나" 및 "A, B, C 또는 이들의 임의의 조합"과 같은 조합은 A만, B만, C만, A 및 B, A 및 C, B 및 C 또는 A 및 B 및 C일 수 있으며, 여기서 임의의 그러한 조합은 A, B 또는 C 중 하나 이상의 구성원들을 포함할 수 있다. 당업자에게 알려져 있거나 추후에 알려지게 될 본 개시 전반에 설명한 여러 구성의 요소에 대한 모든 구조적 및 기능적 등가물이 본 명세서에서 명시적으로 참조로서 병합되어 있으며, 청구항에 의해 포함되고자 한다. 게다가, 본 명세서에서 개시한 어떤 것도, 그러한 개시가 청구항에 명백히 언급되는지에 상관없이 전적으로 공개되고자 하는 것은 아니다. 청구항 요소는, 이러한 요소가 문구 "하는 수단"을 사용하여 명백히 언급되지 않는다면 기능식(means plus function)으로 해석되지는 않을 것이다.

Claims (37)

  1. 플레이백(playback) 시스템을 통한 재생을 위한 오브젝트-기반 오디오 신호(object-based audio signal)를 처리하는 방법에 있어서,
    복수의 오브젝트-기반 오디오 신호를 수신하는 단계 ― 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터 및 상기 오디오 파형 데이터와 관련된 오브젝트 메타데이터를 포함하며, 상기 오브젝트 메타데이터는 상기 오디오 파형 데이터와 관련되는 라우드니스(loudness) 파라미터 또는 파워 파라미터 중 적어도 하나를 포함함 ― ;
    수신된 상기 오브젝트-기반 오디오 신호에 기반하여 그리고 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 상기 라우드니스 파라미터 또는 상기 파워 파라미터 중 상기 적어도 하나에 기반하여, 라우드니스 메트릭을 결정하는 단계; 및
    결정된 상기 라우드니스 메트릭에 기반하여, 수신된 상기 오브젝트-기반 오디오 신호를 출력 신호의 세트에 렌더링하는 단계
    를 포함하는, 오브젝트-기반 오디오 신호 처리 방법.
  2. 제1항에 있어서,
    수신된 상기 오브젝트-기반 오디오 신호를 렌더링하는 단계는, 결정된 상기 라우드니스 메트릭에 기반하여 수신된 상기 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 조정하는 단계를 포함하는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  3. 제2항에 있어서,
    상기 라우드니스 메트릭과 목표 라우드니스 메트릭 간의 비교에 기반하여 라우드니스 메트릭 오프셋을 결정하는 단계를 더 포함하며, 수신된 상기 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭은 상기 라우드니스 메트릭과 상기 목표 라우드니스 메트릭 간의 비교에 기반하여 조정되는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  4. 제3항에 있어서,
    상기 라우드니스 메트릭이 상기 목표 라우드니스 메트릭보다 큰지를 결정하는 단계를 더 포함하며, 수신된 상기 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭은, 상기 라우드니스 메트릭이 상기 목표 라우드니스 메트릭보다 큰 것으로 결정될 때 조정되는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  5. 제1항에 있어서,
    상기 라우드니스 메트릭은 또한, 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대해, 수신 지점에 대한 상기 오브젝트-기반 오디오 신호의 포지션 데이터에 기반하여 결정되는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  6. 제5항에 있어서,
    상기 포지션 데이터는, 상기 오브젝트-기반 오디오 신호의 위치와 상기 수신 지점 사이의 방위각(azimuth) 또는 상기 오브젝트-기반 오디오 신호의 위치와 상기 수신 지점 사이의 고도(elevation) 중 적어도 하나를 포함하는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  7. 제6항에 있어서,
    상기 포지션 데이터는 상기 오브젝트-기반 오디오 신호의 위치와 상기 수신 지점 사이의 거리를 더 포함하는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  8. 제1항에 있어서,
    상기 라우드니스 메트릭은 또한, 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대해, 수신된 상기 오브젝트-기반 오디오 신호 중 하나 이상의 다른 오브젝트-기반 오디오 신호에 대한 상기 오브젝트-기반 오디오 신호의 상관 인자(correlation factor), 상기 오브젝트-기반 오디오 신호의 진폭 스케일링 인자(amplitude scaling factor), 또는 수신 지점에 대한 상기 오브젝트-기반 오디오 신호의 각 위치(angular location)의 함수로서 청취 라우드니스 감도를 고려하기 위한 상기 오브젝트-기반 오디오 신호의 주파수 의존적 가중 인자(frequency dependent weight factor) 중 적어도 하나에 기반하여 결정되는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  9. 제1항에 있어서,
    상기 라우드니스 메트릭은
    Figure pct00020
    에 기반하여 결정되며, 여기서 i∈I, I는 오브젝트-기반 오디오 신호의 세트이고, N은 수신된 상기 오브젝트-기반 오디오 신호에서의 오브젝트-기반 오디오 신호의 개수이고, zi는 i번째 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 상기 적어도 하나이고, ri는 i번째 오브젝트-기반 오디오 신호와 관련된 위치이고, rL은 수신 지점과 관련된 위치이고, θi는 i번째 오브젝트-기반 오디오 신호의 상기 위치와 상기 수신 지점 사이의 방위각이고, φi는 i번째 오브젝트-기반 오디오 신호의 상기 위치와 상기 수신 지점 사이의 고도이고, ai는 i번째 오브젝트-기반 오디오 신호의 진폭 스케일링 인자이고, gi는, 상기 수신 지점에 대한 i번째 오브젝트-기반 오디오 신호의 각 위치의 함수로서 청취 라우드니스 감도를 고려하기 위한 i번째 오브젝트-기반 오디오 신호의 주파수 의존적 가중치 인자이며, ci는 수신된 상기 오브젝트-기반 오디오 신호 중 하나 이상의 다른 오브젝트-기반 오디오 신호에 대한 i번째 오브젝트-기반 오디오 신호의 상관 인자인 것인, 오브젝트-기반 오디오 신호 처리 방법.
  10. 제1항에 있어서,
    수신된 상기 오브젝트-기반 오디오 신호는 사용자-특정되는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  11. 제10항에 있어서,
    오브젝트-기반 오디오 신호의 새로운 세트를 나타내는 정보를 수신하는 단계를 더 포함하고, 상기 정보는 사용자 입력에 기반하여 수신한 오브젝트-기반 오디오 신호의 세트를 나타내며, 상기 방법은, 상기 오브젝트-기반 오디오 신호의 세트에 기반하여 그리고 상기 오브젝트-기반 오디오 신호의 세트의 각각의 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 상기 적어도 하나에 기반하여 상기 라우드니스 메트릭을 재결정하는 단계를 더 포함하는, 오브젝트-기반 오디오 신호 처리 방법.
  12. 제1항에 있어서,
    각 오브젝트-기반 오디오 신호의 상기 오브젝트 메타데이터는, 수신 지점에 대한 상기 오브젝트-기반 오디오 신호의 포지션 데이터 또는 상기 오브젝트-기반 오디오 신호의 진폭 스케일링 인자 중 적어도 하나를 포함하는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  13. 제12항에 있어서,
    상기 수신 지점에 대한 상기 오브젝트-기반 오디오 신호의 포지션 데이터는, 상기 오브젝트-기반 오디오 신호의 위치와 상기 수신 지점 사이의 거리, 상기 오브젝트-기반 오디오 신호의 위치와 상기 수신 지점 사이의 방위각 또는 상기 오브젝트-기반 오디오 신호의 위치와 상기 수신 지점 사이의 고도 중 적어도 하나를 포함하는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  14. 제1항에 있어서,
    상기 라우드니스 메트릭은 T ms 동안의 평균 라우드니스이며, 상기 라우드니스 메트릭은 매 T ms마다 결정되는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  15. 제1항에 있어서,
    상기 라우드니스 메트릭은 T ms 동안의 평균 라우드니스이고, 상기 라우드니스 메트릭은 매 D ms마다 결정되며, 여기서 D<T인 것인, 오브젝트-기반 오디오 신호 처리 방법.
  16. 제15항에 있어서,
    상기 라우드니스 메트릭은 복수의 윈도우 구간 동안 결정되며, 각 윈도우 구간은 이전 윈도우와 중첩하는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  17. 제16항에 있어서,
    상기 윈도우 구간 각각은 400 ms의 지속기간을 가지며, 다른 윈도우 구간과 300 ms만큼 중첩하는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  18. 제1항에 있어서,
    수신된 상기 오브젝트-기반 오디오 신호는 N개의 오브젝트-기반 오디오 신호를 포함하고, 수신된 상기 오브젝트-기반 오디오 신호는 n개의 채널을 포함하는 스피커를 통해 렌더링되며, N은 n과 상관되지 않는 것인, 오브젝트-기반 오디오 신호 처리 방법.
  19. 방송, 파일 전달, 또는 스트리밍 중 적어도 하나를 위한 오브젝트-기반 오디오 신호를 처리하는 방법에 있어서,
    복수의 오브젝트-기반 오디오 신호를 수신하는 단계 ― 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터 및 상기 오디오 파형 데이터와 관련되는 오브젝트 메타데이터를 포함하며, 상기 오브젝트 메타데이터는 상기 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함함 ― ;
    수신된 상기 오브젝트-기반 오디오 신호에 기반하여 그리고 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 상기 라우드니스 파라미터 또는 상기 파워 파라미터 중 상기 적어도 하나에 기반하여 라우드니스 메트릭을 결정하는 단계; 및
    결정된 상기 라우드니스 메트릭에 기반하여 수신된 상기 오브젝트-기반 오디오 신호를 송신하는 단계
    를 포함하는, 오브젝트-기반 오디오 신호 처리 방법.
  20. 제19항에 있어서,
    수신된 상기 오브젝트-기반 오디오 신호를 송신하는 단계 이전에 결정된 상기 라우드니스 메트릭에 기반하여, 수신된 상기 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 조정하는 단계를 더 포함하는, 오브젝트-기반 오디오 신호 처리 방법.
  21. 제19항에 있어서,
    상기 오브젝트-기반 오디오 신호는 프로그램 비트스트림과 관련되며, 상기 방법은, 수신된 상기 오브젝트-기반 오디오 신호를 송신하는 단계 이전에 결정된 상기 라우드니스 메트릭에 기반하여, 상기 프로그램 비트스트림의 프로그램 특정 메타데이터에서 수신된 상기 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 변경하는 단계를 더 포함하는, 오브젝트-기반 오디오 신호 처리 방법.
  22. 플레이백 시스템을 통한 재생을 위한 오브젝트-기반 오디오 신호를 처리하기 위한 장치에 있어서,
    복수의 오브젝트-기반 오디오 신호를 수신하는 수단 ― 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터 및 상기 오디오 파형 데이터와 관련되는 오브젝트 메타데이터를 포함하며, 상기 오브젝트 메타데이터는 상기 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함함 ― ;
    수신된 상기 오브젝트-기반 오디오 신호에 기반하여 그리고 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 상기 라우드니스 파라미터 또는 상기 파워 파라미터 중 상기 적어도 하나에 기반하여, 라우드니스 메트릭을 결정하는 수단; 및
    결정된 상기 라우드니스 메트릭에 기반하여 수신된 상기 오브젝트-기반 오디오 신호를 출력 신호의 세트에 렌더링하는 수단
    을 포함하는, 오브젝트-기반 오디오 신호 처리 장치.
  23. 제22항에 있어서,
    수신된 상기 오브젝트-기반 오디오 신호를 렌더링하는 수단은, 결정된 상기 라우드니스 메트릭에 기반하여 수신된 상기 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 조정하도록 구성되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
  24. 제23항에 있어서,
    상기 라우드니스 메트릭과 목표 라우드니스 메트릭 간의 비교에 기반하여 라우드니스 메트릭 오프셋을 결정하는 수단을 더 포함하며, 수신된 상기 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭은 상기 라우드니스 메트릭과 상기 목표 라우드니스 메트릭 간의 비교에 기반하여 조정되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
  25. 제24항에 있어서,
    상기 라우드니스 메트릭이 상기 목표 라우드니스 메트릭보다 큰지를 결정하는 수단을 더 포함하며, 수신된 상기 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭은, 상기 라우드니스 메트릭이 상기 목표 라우드니스 메트릭보다 큰 것으로 결정될 때 조정되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
  26. 제22항에 있어서,
    상기 라우드니스 메트릭은 또한, 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대해, 수신 지점에 대한 상기 오브젝트-기반 오디오 신호의 포지션 데이터에 기반하여 결정되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
  27. 제22항에 있어서,
    상기 라우드니스 메트릭은 또한, 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대해, 수신된 상기 오브젝트-기반 오디오 신호 중 하나 이상의 다른 오브젝트-기반 오디오 신호에 대한 상기 오브젝트-기반 오디오 신호의 상관 인자, 상기 오브젝트-기반 오디오 신호의 진폭 스케일링 인자, 또는 수신 지점에 대한 상기 오브젝트-기반 오디오 신호의 각 위치의 함수로서 청취 라우드니스 감도를 고려하기 위한 상기 오브젝트-기반 오디오 신호의 주파수 의존적 가중 인자 중 적어도 하나에 기반하여 결정되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
  28. 제22항에 있어서,
    상기 라우드니스 메트릭은
    Figure pct00021
    에 기반하여 결정되며, 여기서 i∈I, I는 오브젝트-기반 오디오 신호의 세트이고, N은 수신된 상기 오브젝트-기반 오디오 신호에서의 오브젝트-기반 오디오 신호의 개수이고, zi는 i번째 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 상기 적어도 하나이고, ri는 i번째 오브젝트-기반 오디오 신호와 관련된 위치이고, rL은 수신 지점과 관련된 위치이고, θi는 i번째 오브젝트-기반 오디오 신호의 상기 위치와 상기 수신 지점 사이의 방위각이고, φi는 i번째 오브젝트-기반 오디오 신호의 상기 위치와 상기 수신 지점 사이의 고도이고, ai는 i번째 오브젝트-기반 오디오 신호의 진폭 스케일링 인자이고, gi는, 상기 수신 지점에 대한 i번째 오브젝트-기반 오디오 신호의 각 위치의 함수로서 청취 라우드니스 감도를 고려하기 위한 i번째 오브젝트-기반 오디오 신호의 주파수 의존적 가중치 인자이며, ci는 수신된 상기 오브젝트-기반 오디오 신호 중 하나 이상의 다른 오브젝트-기반 오디오 신호에 대한 i번째 오브젝트-기반 오디오 신호의 상관 인자인 것인, 오브젝트-기반 오디오 신호 처리 장치.
  29. 방송, 파일 전달, 또는 스트리밍 중 적어도 하나를 위한 오브젝트-기반 오디오 신호를 처리하기 위한 장치에 있어서,
    복수의 오브젝트-기반 오디오 신호를 수신하는 수단 ― 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터 및 상기 오디오 파형 데이터와 관련되는 오브젝트 메타데이터를 포함하며, 상기 오브젝트 메타데이터는 상기 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함함 ― ;
    수신된 상기 오브젝트-기반 오디오 신호에 기반하여 그리고 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 상기 라우드니스 파라미터 또는 상기 파워 파라미터 중 상기 적어도 하나에 기반하여, 라우드니스 메트릭을 결정하는 수단; 및
    결정된 상기 라우드니스 메트릭에 기반하여, 수신된 상기 오브젝트-기반 오디오 신호를 송신하는 수단
    을 포함하는, 오브젝트-기반 오디오 신호 처리 장치.
  30. 플레이백 시스템을 통한 재생을 위한 오브젝트-기반 오디오 신호를 처리하기 위한 장치에 있어서,
    메모리; 및
    상기 메모리에 결합되는 적어도 하나의 프로세서
    를 포함하며,
    상기 적어도 하나의 프로세서는,
    복수의 오브젝트-기반 오디오 신호를 수신하고 ― 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터 및 상기 오디오 파형 데이터와 관련되는 오브젝트 메타데이터를 포함하며, 상기 오브젝트 메타데이터는 상기 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함함 ― ;
    수신된 상기 오브젝트-기반 오디오 신호에 기반하여 그리고 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 상기 라우드니스 파라미터 또는 상기 파워 파라미터 중 상기 적어도 하나에 기반하여, 라우드니스 메트릭을 결정하며;
    결정된 상기 라우드니스 메트릭에 기반하여, 수신된 상기 오브젝트-기반 오디오 신호를 출력 신호의 세트에 렌더링하도록
    구성되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
  31. 제30항에 있어서,
    상기 적어도 하나의 프로세서는, 결정된 상기 라우드니스 메트릭에 기반하여 수신된 상기 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭을 조정함으로써 수신된 상기 오브젝트-기반 오디오를 렌더링하도록 구성되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
  32. 제31항에 있어서,
    상기 적어도 하나의 프로세서는 또한, 상기 라우드니스 메트릭과 목표 라우드니스 메트릭 간의 비교에 기반하여 라우드니스 메트릭 오프셋을 결정하도록 구성되며, 수신된 상기 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭은 상기 라우드니스 메트릭과 상기 목표 라우드니스 메트릭 간의 비교에 기반하여 조정되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
  33. 제32항에 있어서,
    상기 적어도 하나의 프로세서는 또한, 상기 라우드니스 메트릭이 상기 목표 라우드니스 메트릭보다 큰지를 결정하도록 구성되며, 수신된 상기 오브젝트-기반 오디오 신호 중 적어도 하나의 오브젝트-기반 오디오 신호의 진폭은, 상기 라우드니스 메트릭이 상기 목표 라우드니스 메트릭보다 큰 것으로 결정될 때 조정되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
  34. 제30항에 있어서,
    상기 라우드니스 메트릭은 또한, 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대해, 수신 지점에 대한 상기 오브젝트-기반 오디오 신호의 포지션 데이터에 기반하여 결정되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
  35. 제30항에 있어서,
    상기 라우드니스 메트릭은 또한, 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대해, 수신된 상기 오브젝트-기반 오디오 신호 중 하나 이상의 다른 오브젝트-기반 오디오 신호에 대한 상기 오브젝트-기반 오디오 신호의 상관 인자, 상기 오브젝트-기반 오디오 신호의 진폭 스케일링 인자, 또는 수신 지점에 대한 상기 오브젝트-기반 오디오 신호의 각 위치의 함수로서 청취 라우드니스 감도를 고려하기 위한 상기 오브젝트-기반 오디오 신호의 주파수 의존적 가중 인자 중 적어도 하나에 기반하여 결정되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
  36. 제30항에 있어서,
    상기 라우드니스 메트릭은
    Figure pct00022
    에 기반하여 결정되며, 여기서 i∈I, I는 오브젝트-기반 오디오 신호의 세트이고, N은 수신된 상기 오브젝트-기반 오디오 신호에서의 오브젝트-기반 오디오 신호의 개수이고, zi는 i번째 오브젝트-기반 오디오 신호에 대한 라우드니스 파라미터 또는 파워 파라미터 중 상기 적어도 하나이고, ri는 i번째 오브젝트-기반 오디오 신호와 관련된 위치이고, rL은 수신 지점과 관련된 위치이고, θi는 i번째 오브젝트-기반 오디오 신호의 상기 위치와 상기 수신 지점 사이의 방위각이고, φi는 i번째 오브젝트-기반 오디오 신호의 상기 위치와 상기 수신 지점 사이의 고도이고, ai는 i번째 오브젝트-기반 오디오 신호의 진폭 스케일링 인자이고, gi는 상기 수신 지점에 대한 i번째 오브젝트-기반 오디오 신호의 각 위치의 함수로서 청취 라우드니스 감도를 고려하기 위한 i번째 오브젝트-기반 오디오 신호의 주파수 의존적 가중치 인자이며, ci는 수신된 상기 오브젝트-기반 오디오 신호 중 하나 이상의 다른 오브젝트-기반 오디오 신호에 대한 i번째 오브젝트-기반 오디오 신호의 상관 인자인 것인, 오브젝트-기반 오디오 신호 처리 장치.
  37. 방송, 파일 전달 또는 스트리밍 중 적어도 하나를 위한 오브젝트-기반 오디오 신호를 처리하기 위한 장치에 있어서,
    메모리; 및
    상기 메모리에 결합되는 적어도 하나의 프로세서
    를 포함하며,
    상기 적어도 하나의 프로세서는,
    복수의 오브젝트-기반 오디오 신호를 수신하고 ― 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호는 오디오 파형 데이터 및 상기 오디오 파형 데이터와 관련되는 오브젝트 메타데이터를 포함하며, 상기 오브젝트 메타데이터는 상기 오디오 파형 데이터와 관련되는 라우드니스 파라미터 또는 파워 파라미터 중 적어도 하나를 포함함 ― ;
    수신된 상기 오브젝트-기반 오디오 신호에 기반하여 그리고 수신된 상기 오브젝트-기반 오디오 신호의 각각의 오브젝트-기반 오디오 신호에 대한 상기 라우드니스 파라미터 또는 상기 파워 파라미터 중 상기 적어도 하나에 기반하여, 라우드니스 메트릭을 결정하며;
    결정된 상기 라우드니스 메트릭에 기반하여, 수신된 상기 오브젝트-기반 오디오 신호를 송신하도록
    구성되는 것인, 오브젝트-기반 오디오 신호 처리 장치.
KR1020167026581A 2014-02-27 2015-02-27 오브젝트-기반 오디오 라우드니스 관리 KR102341971B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461945734P 2014-02-27 2014-02-27
US61/945,734 2014-02-27
US14/632,997 US10063207B2 (en) 2014-02-27 2015-02-26 Object-based audio loudness management
US14/632,997 2015-02-26
PCT/US2015/018045 WO2015131063A1 (en) 2014-02-27 2015-02-27 Object-based audio loudness management

Publications (2)

Publication Number Publication Date
KR20160125511A true KR20160125511A (ko) 2016-10-31
KR102341971B1 KR102341971B1 (ko) 2021-12-23

Family

ID=53883555

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167026581A KR102341971B1 (ko) 2014-02-27 2015-02-27 오브젝트-기반 오디오 라우드니스 관리

Country Status (8)

Country Link
US (1) US10063207B2 (ko)
EP (1) EP3111677B1 (ko)
JP (1) JP6670752B2 (ko)
KR (1) KR102341971B1 (ko)
CN (1) CN106170992B (ko)
ES (1) ES2714905T3 (ko)
PL (1) PL3111677T3 (ko)
WO (1) WO2015131063A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021133089A1 (ko) * 2019-12-26 2021-07-01 네이버 주식회사 오디오 신호 처리 방법 및 시스템

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9451296B2 (en) * 2014-08-19 2016-09-20 At&T Intellectual Property I, L.P. Extracting data from advertisement files for ad insertion
US10032447B1 (en) * 2014-11-06 2018-07-24 John Mitchell Kochanczyk System and method for manipulating audio data in view of corresponding visual data
WO2016077320A1 (en) * 2014-11-11 2016-05-19 Google Inc. 3d immersive spatial audio systems and methods
PT3311379T (pt) 2015-06-17 2023-01-06 Fraunhofer Ges Forschung Controlo de intensidade sonora para interatividade de utilizador em sistemas de codificação de áudio
US10091581B2 (en) * 2015-07-30 2018-10-02 Roku, Inc. Audio preferences for media content players
US9961475B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9980078B2 (en) * 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
CN110447071B (zh) * 2017-03-28 2024-04-26 索尼公司 信息处理装置、信息处理方法和记录程序的可拆卸介质
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
JP7449856B2 (ja) 2017-10-17 2024-03-14 マジック リープ, インコーポレイテッド 複合現実空間オーディオ
JP7309734B2 (ja) 2018-02-15 2023-07-18 ドルビー ラボラトリーズ ライセンシング コーポレイション 音量制御方法および装置
US11477510B2 (en) 2018-02-15 2022-10-18 Magic Leap, Inc. Mixed reality virtual reverberation
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
WO2019199040A1 (ko) * 2018-04-10 2019-10-17 가우디오랩 주식회사 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치
CN112236940A (zh) 2018-05-30 2021-01-15 奇跃公司 用于滤波器参数的索引方案
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
GB2593117A (en) * 2018-07-24 2021-09-22 Nokia Technologies Oy Apparatus, methods and computer programs for controlling band limited audio objects
US11716586B2 (en) * 2018-09-28 2023-08-01 Sony Corporation Information processing device, method, and program
BR112021008089A2 (pt) 2018-11-02 2021-08-03 Dolby International Ab codificador de áudio e decodificador de áudio
US20220122616A1 (en) * 2019-01-25 2022-04-21 Sony Group Corporation Information processing device and information processing method
JP7235590B2 (ja) * 2019-05-21 2023-03-08 日本放送協会 音声配信システム、配信サーバ、再生装置、及びプログラム
EP4049466A4 (en) 2019-10-25 2022-12-28 Magic Leap, Inc. REVERBER FOOTPRINT ESTIMATION
EP4055840A1 (en) * 2019-11-04 2022-09-14 Qualcomm Incorporated Signalling of audio effect metadata in a bitstream
US20220270626A1 (en) 2021-02-22 2022-08-25 Tencent America LLC Method and apparatus in audio processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050078833A1 (en) * 2003-10-10 2005-04-14 Hess Wolfgang Georg System for determining the position of a sound source
KR20090005225A (ko) * 2006-04-27 2009-01-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어
US20110150242A1 (en) * 2009-12-17 2011-06-23 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling for digital audio signals
WO2014025752A1 (en) * 2012-08-07 2014-02-13 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
RU2431940C2 (ru) * 2006-10-16 2011-10-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аппаратура и метод многоканального параметрического преобразования
TWI447709B (zh) * 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
WO2012146757A1 (en) * 2011-04-28 2012-11-01 Dolby International Ab Efficient content classification and loudness estimation
CN103024125A (zh) * 2011-09-28 2013-04-03 宏碁股份有限公司 在免提模式下提供最佳化音响特性的方法和移动通信装置
CN103456334B (zh) * 2012-06-01 2016-04-06 腾讯科技(深圳)有限公司 音频文件播放方法及播放装置
JP6012884B2 (ja) 2012-12-21 2016-10-25 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
US9832584B2 (en) 2013-01-16 2017-11-28 Dolby Laboratories Licensing Corporation Method for measuring HOA loudness level and device for measuring HOA loudness level
KR102158002B1 (ko) 2013-01-21 2020-09-21 돌비 레버러토리즈 라이쎈싱 코오포레이션 프로그램 라우드니스 및 경계 메타데이터를 가진 오디오 인코더 및 디코더
EP3657823A1 (en) * 2013-11-28 2020-05-27 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050078833A1 (en) * 2003-10-10 2005-04-14 Hess Wolfgang Georg System for determining the position of a sound source
KR20090005225A (ko) * 2006-04-27 2009-01-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어
US20110150242A1 (en) * 2009-12-17 2011-06-23 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling for digital audio signals
WO2014025752A1 (en) * 2012-08-07 2014-02-13 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021133089A1 (ko) * 2019-12-26 2021-07-01 네이버 주식회사 오디오 신호 처리 방법 및 시스템
KR20210082598A (ko) * 2019-12-26 2021-07-06 네이버 주식회사 오디오 신호 처리 방법 및 시스템

Also Published As

Publication number Publication date
JP6670752B2 (ja) 2020-03-25
ES2714905T3 (es) 2019-05-30
KR102341971B1 (ko) 2021-12-23
WO2015131063A1 (en) 2015-09-03
US10063207B2 (en) 2018-08-28
EP3111677A4 (en) 2017-10-11
US20150245153A1 (en) 2015-08-27
EP3111677A1 (en) 2017-01-04
CN106170992A (zh) 2016-11-30
JP2017511048A (ja) 2017-04-13
CN106170992B (zh) 2019-12-06
PL3111677T3 (pl) 2019-06-28
EP3111677B1 (en) 2019-01-02

Similar Documents

Publication Publication Date Title
KR102341971B1 (ko) 오브젝트-기반 오디오 라우드니스 관리
US11632641B2 (en) Apparatus and method for audio rendering employing a geometric distance definition
US20240055007A1 (en) Encoding device and encoding method, decoding device and decoding method, and program
CN109313907B (zh) 合并音频信号与空间元数据
US20210195356A1 (en) Audio signal processing method and apparatus
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
US10271156B2 (en) Audio signal processing method
US11540075B2 (en) Method and device for processing audio signal, using metadata

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right