KR20240014462A - 공간 오디오 객체의 동적 범위 조정 - Google Patents

공간 오디오 객체의 동적 범위 조정 Download PDF

Info

Publication number
KR20240014462A
KR20240014462A KR1020237036304A KR20237036304A KR20240014462A KR 20240014462 A KR20240014462 A KR 20240014462A KR 1020237036304 A KR1020237036304 A KR 1020237036304A KR 20237036304 A KR20237036304 A KR 20237036304A KR 20240014462 A KR20240014462 A KR 20240014462A
Authority
KR
South Korea
Prior art keywords
presentation
audio
gain
signal level
rendered
Prior art date
Application number
KR1020237036304A
Other languages
English (en)
Inventor
더크 제로엔 브리바아트
브렛 지. 크로켓
라이언 마이클 프리드릭
조던 로버트 글래스고
데릭 크리스찬 존스
에릭 윌란 이어건
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20240014462A publication Critical patent/KR20240014462A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

본 개시는 공간 오디오 객체의 동적 범위 조정을 수행하기 위한 방법 및 오디오 처리 시스템에 관한 것이다. 방법은 복수의 공간 오디오 객체(10)를 획득하는 단계(단계 S1), 공간 오디오 객체(10)의 적어도 하나의 렌더링된 오디오 프리젠테이션을 획득하는 단계(단계 S2), 및 프리젠테이션 오디오 채널의 세트에서 각각의 프리젠테이션 오디오 채널과 연관된 신호 수준 데이터를 결정하는 단계(단계 S3)를 포함한다. 방법은 임계 값을 획득하는 단계(단계 S31), 각각의 시간 세그먼트에 대해, 최고 신호 수준 또는 최저 신호 수준과 연관된 선택된 프리젠테이션 오디오 채널을 선택하는 단계(단계 S4), 임계 값, 및 선택된 오디오 채널의 신호 수준의 표현에 기초하여 이득을 결정하는 단계(단계 S5), 및 각각의 시간 세그먼트의 이득을 공간 오디오 객체의 대응하는 시간 세그먼트에 적용하는 단계(단계 S6)를 포함한다.

Description

공간 오디오 객체의 동적 범위 조정
관련 출원에 대한 상호 참조
본 출원은 2021년 05월 28일에 출원된 미국 가출원 제63/194,359호에 대한 우선권을 주장하고, 이는 그 전체가 본원에 참조로 통합된다.
본 발명은 공간 오디오 객체의 동적 범위 조정을 수행하기 위한 방법 및 전술한 방법을 이용한 오디오 처리 시스템에 관한 것이다.
오디오 마스터링(audio mastering)의 분야에서, 마스터링 엔지니어는 통상적으로 렌더링된 오디오 프리젠테이션(audio presentation)을 수신하고, 예를 들어 렌더링된 오디오 프리젠테이션이 헤드폰의 세트 또는 홈 시어터 오디오 시스템과 같은 타겟 재생 시스템 상에서 재생하기에 적합하도록 등화 또는 다른 형태의 오디오 처리를 수행한다. 예를 들어, 오디오 프리젠테이션이 전문 레코딩 스튜디오에서 레코딩된 고품질 스테레오 신호인 경우, 마스터링 엔지니어는 헤드셋과 같은 간단한 스테레오 디바이스를 통한 재생 및/또는 낮은 비트레이트 디지털화에 더욱 적합한 마스터링된 스테레오 신호를 획득하기 위해 고품질 스테레오 신호의 동적 범위 또는 등화를 수정해야 할 수 있다.
렌더링된 프리젠테이션의 오디오 신호가 피크 임계치를 초과하지 않도록, 상이한 형태의 피크 제한기가 마스터링 프로세스, 특히 음악의 마스터링에서 사용된다. 또한, 피크 제한기의 사용은 마스터링된 프리젠테이션이 최종-사용자에 의해 어떻게 지각되는지에 영향을 미칠 렌더링된 프리젠테이션의 오디오 신호의 동적 범위 또는 다른 특성을 변경하기 위한 효과적인 도구이다.
유사한 방식으로, 오디오 압축기는 마스터링 프로세스에서, 렌더링된 프리젠테이션 오디오 신호의 상향 및/또는 하향 압축 중 어느 하나를 구현하는 데 사용된다. 예를 들어, 하향 오디오 압축기는 미리 결정된 임계치를 초과하는 신호 수준을 갖는 오디오 신호에 감쇠를 적용할 것이며, 여기서 적용된 감쇠는 예를 들어, 임계 값을 초과하는 신호 수준에 따라 선형적으로 증가한다. 따라서, 압축기는 통상적으로 더 높은 신호 수준이 더 공격적인 감쇠의 도입으로 이어지고, 확장기의 경우 그 역이라는 것을 보장할 것이다.
복수의 오디오 객체로 표현되는 객체-기반 오디오 콘텐츠의 도입으로, 동일한 객체-기반 오디오 콘텐츠가 스테레오 프리젠테이션 또는 5.1 또는 7.1 프리젠테이션과 같은 다중 채널 프리젠테이션과 같은, 많은 수의 상이한 프리젠테이션으로 렌더링될 수 있다. 이는 동일한 오디오 콘텐츠를 상이한 프리젠테이션으로 렌더링하면서, 향상된 공간 오디오 경험을 동시에 제공하는 렌더링의 관점에서 유연성을 가능하게 하지만, 이 유연성은 오디오 마스터링에 문제를 유발한다. 객체-기반 오디오가 렌더링될 프리젠테이션이 미리 결정되어 있지 않기 때문에, 마스터링 프로세스의 피크 제한기 또는 압축기가 적용될 수 있는 어떠한 단일 프리젠테이션도 존재하지 않는다.
객체-기반 오디오 콘텐츠를 마스터링하기 위해 제안된 방법의 단점은 프로세스가 일반적으로 무손실이 아니고, 마스터링된 단일 프리젠테이션보다 다른 프리젠테이션에 바람직하지 않은 오디오 아티팩트를 유발할 수 있다는 것이다. 추가적으로, 객체-기반 오디오 콘텐츠를 마스터링하기 위해 이전에 제안된 방법은 마스터링 엔지니어가 마스터링 프로세스의 결과를 실질적으로 실시간으로 음성 테스트하는 것(audition)을 허용하지 않고, 나아가 마스터링 엔지니어는 한 번에 객체-기반 오디오 콘텐츠의 하나의 미리 결정된 프리젠테이션에 대해서만 작업할 수 있다. 예를 들어, 마스터링 엔지니어가 동일한 공간 오디오 콘텐츠의 마스터링된 스테레오 프리젠테이션 및 마스터링된 5.1 프리젠테이션을 생성하려는 경우, 마스터링 엔지니어는 두 개의 상이한 프리젠테이션 각각에 대해 두 개의 별개의 마스터링 프로세스를 연달아 수행해야 할 것이다.
오디오 마스터링을 수행하기 위한 기존의 기술의 이들 단점은 객체-기반 오디오 콘텐츠를 마스터링할 때 번거롭고 반복적인 작업 흐름을 가져오면서, 동시에 결과적인 마스터링된 객체-기반 오디오 콘텐츠는 마스터링 엔지니어에 의해 분석된 선택된 수 개의 프리젠테이션 포맷이 아닌, 프리젠테이션 포맷의 바람직하지 않은 오디오 아티팩트를 특징으로 할 수 있다.
그러므로, 본 개시의 목적은 공간 오디오 객체의 동적 범위 조정을 수행하기 위한 향상된 방법 및 오디오 처리 시스템을 제공하는 것이다.
본 발명의 제1 양상에 따른, 공간 오디오 객체의 동적 범위 조정을 수행하기 위한 방법이 제공된다. 방법은 복수의 공간 오디오 객체를 획득하는 단계, 임계 값을 획득하는 단계 및 공간 오디오 객체의 적어도 하나의 렌더링된 오디오 프리젠테이션을 획득하는 단계를 포함하고, 적어도 하나의 렌더링된 오디오 프리젠테이션은 프리젠테이션 오디오 채널의 세트를 형성하는 적어도 하나의 프리젠테이션 오디오 채널을 포함한다. 방법은 프리젠테이션 오디오 채널의 세트에서 각각의 프리젠테이션 오디오 채널과 연관된 신호 수준 데이터를 결정하는 단계 - 신호 수준 데이터는 프리젠테이션 오디오 채널의 복수의 시간 세그먼트에 대한 신호 수준을 표현함 - , 및 각각의 시간 세그먼트에 대해: 프리젠테이션 오디오 채널의 세트의 다른 프리젠테이션 오디오 채널에 비해 시간 세그먼트에 대해 최고 신호 수준 또는 최저 신호 수준과 연관된 프리젠테이션 오디오 채널의 세트의 프리젠테이션 오디오 채널인 선택된 프리젠테이션 오디오 채널을 선택하는 단계를 더 포함한다. 선택된 프리젠테이션 채널의 경우, 방법은 이득을 결정하는 단계 - 이득은 임계 값, 및 선택된 오디오 채널의 신호 수준의 표현에 기초함 - , 및 동적 범위 조정된 공간 오디오 객체를 형성하기 위해, 각각의 시간 세그먼트의 이득을 각각의 공간 오디오 객체의 대응하는 시간 세그먼트에 적용하는 단계를 포함한다.
이득을 통해, 이는 신호 진폭 및/또는 파워 수준의 수정을 의미한다. 수정은 신호 진폭 및/또는 파워 수준의 증가 또는 감소 중 어느 하나와 관련될 수 있다는 것이 이해된다. 즉, '이득'이란 용어는 진폭 및/또는 파워의 증가를 의미하는 증폭 이득과 진폭 및/또는 파워의 감소를 의미하는 감쇠를 모두 포함한다. 이를 강조하기 위해 '이득'이란 광범위한 용어는 일부 경우에서, '감쇠 및/또는 이득' 또는 '감쇠/이득'으로 지칭될 것이다.
즉, 이 방법은 프리젠테이션 채널의 세트의 모든 프리젠테이션 채널에 걸쳐 각각의 시간 세그먼트에 대한 최고/최저 신호 수준을 정확히 찾는 단계, 및 각각의 시간 세그먼트의 최고/최저 신호 수준 및 임계 값을 기초로 감쇠/이득을 결정하는 단계를 수반한다. 결정된 감쇠/이득은 동적 범위 조정된 공간 오디오 객체를 형성하기 위해 복수의 공간 오디오 객체 각각의 대응하는 시간 세그먼트에 적용되고, 동적 범위 조정된 공간 오디오 객체는 결국 임의의 프리젠테이션 포맷으로 렌더링될 수 있다.
감쇠/이득을 결정하는 단계는: 피크 제한기, (피크 제한기와 반대인) 하단 제한기, 상향 압축기, 하향 압축기, 상향 확장기, 하향 확장기 및 그의 평활화된 버전 중 적어도 하나를 실현하기 위해 감쇠/이득을 결정하는 단계를 포함할 수 있다. 일부 구현에서, 임계 값은 임계 값보다 초과/미만인 신호 수준에 적용될 감쇠/이득의 양을 나타내는 비율과 함께 획득된다. 더욱이, 감쇠/이득은 최고/최저 신호 수준 외에 추가적인 신호 수준을 기초로 할 수도 있다.
예를 들어, 감쇠/이득은 각각의 시간 세그먼트의 모든 프리젠테이션 채널 또는 두 개, 세 개, 네 개 이상의 최고/최저 프리젠테이션 오디오 채널의 각각의 시간 세그먼트의 신호 수준의 가중 평균과 같은 결합에 기초할 수 있다. 이러한 구현에서, 프리젠테이션 채널을 선택하는 단계는 각각의 시간 세그먼트에 대해 프리젠테이션 채널의 세트의 모든 프리젠테이션 채널에 대한 평균 신호 수준을 계산하는 단계로 대체되고, 그로 인해 감쇠 이득은 평균 신호 수준 및 획득된 임계 값에 기초한다.
본 발명은 최고/최저 프리젠테이션 채널을 선택하고 선택된 프리젠테이션 채널의 신호 수준에 기초하여 감쇠/이득을 결정함으로써, 동적 범위 조정된 공간 오디오 객체가 생성될 수 있다는 이해에 적어도 부분적으로 기초하고, 동적 범위 조정된 공간 오디오 객체는 그것이 렌더링되는 임의의 프리젠테이션 포맷에 대한 동적 범위 조정을 포함할 것이다. 게다가, 위에서 설명된 방법은, 조정된 공간 오디오 객체가 임의의 수의 프리젠테이션 포맷으로 렌더링되고, 동시에 동적 범위 조정이 수행되어 마스터링 엔지니어가 조정을 음성 테스트하고 마스터링 프로세스 동안 프리젠테이션 포맷 간에 쉽게 스위칭하는 것을 허용하기 때문에, 공간 오디오 객체로 작업하는 마스터링 엔지니어에 대한 효율적인 작업 흐름을 용이하게 한다.
일부 구현에서, 적어도 두 개의 렌더링된 프리젠테이션이 획득되고, 여기서 각각의 렌더링된 오디오 프리젠테이션은 적어도 하나의 프리젠테이션 오디오 채널을 포함한다. 따라서, 프리젠테이션 채널을 선택하는 단계는 두 개 이상의 상이한 프리젠테이션의 프리젠테이션 오디오 채널에 걸쳐 발생할 수 있다. 예를 들어, 감쇠/이득은 제2 선택된 프리젠테이션 채널의 신호 수준의 표현에 추가로 기초할 수 있고, 여기서 제2 선택된 프리젠테이션 채널은 선택된 오디오 채널과 상이한 렌더링된 프리젠테이션의 것이다. 위에서 설명된 바와 같이, 하나보다 많은 신호 수준이 결합될 수 있고, 여기서 두 개 이상의 신호 수준의 결합은 감쇠 이득을 결정하는 데 사용된다.
객체-기반 오디오 콘텐츠의 마스터링을 가능하게 하는 명백히 상이한 방법이 WO2021007246에 개시되고, 이는 오디오 콘텐츠를 단일 프리젠테이션으로 렌더링하는 것, 및 마스터링 엔지니어 또는 마스터링 프로세스가 마스터링된 프리젠테이션을 형성하기 위해 단일 프리젠테이션에 대해 오디오 처리를 수행하는 것을 허용하는 것과 관련된다. 마스터링된 프리젠테이션을 원래의 프리젠테이션과 비교함으로써, 마스터링된 프리젠테이션과 원래의 프리젠테이션 간의 차이가 추출될 수 있고, 객체-기반 오디오 콘텐츠는 결정된 차이에 기초하여 마스터링 프로세스를 겪는다.
본 발명은 본 발명의 현재 바람직한 실시예를 도시하는, 첨부 도면을 참조하여 더욱 상세하게 설명될 것이다.
도 1은 일부 구현에 따른, 공간 오디오 객체의 동적 범위 조정을 수행하기 위한 오디오 처리 시스템을 예시하는 블록도이다.
도 2는 일부 구현에 따른, 공간 오디오 객체의 동적 범위 조정을 수행하기 위한 방법을 예시하는 흐름도이다.
도 3은 일부 구현에 따른, 세 개의 렌더러 - 각각의 렌더러는 공간 오디오 객체를 상이한 렌더링된 프리젠테이션으로 렌더링함 - 를 통해 공간 오디오 객체의 동적 범위 조정을 수행하기 위한 오디오 처리 시스템을 예시하는 블록도이다.
도 4는 일부 구현에 따른, 분석 필터뱅크에 의해 추출된 상이한 서브대역 표현의 공간 오디오 객체의 동적 범위 조정을 수행하기 위한 오디오 처리 시스템을 예시하는 블록도이다.
도 5는 일부 구현에 따른, 사이드-체인에서 컴퓨팅된 빠른 이득(fast gain) 및 느린 이득(slow gain)을 통해 공간 오디오 객체의 동적 범위 조정을 수행하기 위한 오디오 처리 시스템을 예시하는 블록도이다.
도 6은 일부 구현에 따른, 오디오 처리 시스템에 의해 부과된 동적 범위 조정을 수정하기 위해 사용자가 출력 렌더러 매개변수 및/또는 사이드-체인 매개변수를 조작하는 것을 예시하는 블록도이다.
본 출원에 개시된 시스템 및 방법은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다. 하드웨어 구현에서, 작업의 분할이 물리적인 유닛으로의 분할에 반드시 대응하는 것은 아니고; 대조적으로, 하나의 물리적인 구성요소는 다수의 기능을 가질 수 있고, 하나의 작업은 여러 물리적인 구성요소에 의해 협력하여 수행될 수 있다.
컴퓨터 하드웨어는 예를 들어, 서버 컴퓨터, 클라이언트 컴퓨터, 개인용 컴퓨터(PC), 태블릿 PC, 셋톱박스(set-top box, STB), PDA(Personal Digital Assistant), 휴대 전화(cellular telephone), 스마트폰, 웹 기기(web appliance), 네트워크 라우터, 스위치 또는 브리지, 또는 그 컴퓨터 하드웨어에 의해 취해질 조치를 지정하는 명령어(순차적 또는 기타)를 실행할 수 있는 임의의 머신일 수 있다. 추가로, 본 개시는 본원에서 논의된 개념 중 임의의 하나 이상을 수행하기 위해 명령어를 개별적으로 또는 공동으로 실행하는 컴퓨터 하드웨어의 임의의 집합과 관련될 것이다.
특정 또는 모든 구성요소는 프로세서 중 하나 이상에 의해 실행될 때 본원에 설명된 방법 중 적어도 하나를 수행하는 명령어의 세트를 포함하는 컴퓨터 판독가능(또한 소위 머신 판독가능) 코드를 수락하는 하나 이상의 프로세서에 의해 구현될 수 있다. 취할 조치를 지정하는 명령어의 세트(순차적 또는 기타)를 실행할 수 있는 임의의 프로세서가 포함된다. 따라서, 하나의 예는 하나 이상의 프로세서를 포함하는 통상적인 처리 시스템(즉, 컴퓨터 하드웨어)이다. 각각의 프로세서는 CPU, 그래픽 처리 유닛 및 프로그램 가능한 DSP 유닛 중 하나 이상을 포함할 수 있다. 처리 시스템은 하드 드라이브, SSD, RAM 및/또는 ROM을 포함하는 메모리 서브시스템을 더 포함할 수 있다. 구성요소 사이의 통신을 위해 버스 서브시스템이 포함될 수 있다. 소프트웨어는 컴퓨터 시스템에 의한 소프트웨어의 실행 동안 프로세서 내에 및/또는 메모리 서브시스템에 상주할 수 있다.
하나 이상의 프로세서는 독립형 디바이스로 동작할 수 있거나, 또는 다른 프로세서(들)에 연결, 예를 들어 네트워킹될 수 있다. 이러한 네트워크는 다양한 상이한 네트워크 프로토콜 상에서 구축될 수 있고, 인터넷, 광역 통신망(Wide Area Network, WAN), 근거리 통신망(Local Area Network, LAN) 또는 이의 조합일 수 있다.
소프트웨어는 컴퓨터 저장 매체(또는 비일시적 매체) 및 통신 매체(또는 일시적 매체)를 포함할 수 있는, 컴퓨터 판독가능 매체 상에 배포될 수 있다. 통상의 기술자에게 잘 알려진 바와 같이, 컴퓨터 저장 매체라는 용어는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같이, 정보의 저장을 위한 임의의 방법 또는 기술에서 구현된 휘발성 및 비휘발성, 이동식 및 비-이동식 매체 모두를 포함한다. 컴퓨터 저장 매체는 EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다목적 디스크(digital versatile disks, DVD) 또는 다른 광학 디스크 저장소, 자기 카세트, 자기 테이프, 자기 디스크 저장소 또는 다른 자기 저장 디바이스 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체와 같은, 다양한 포맷의 물리적(비일시적) 저장 매체를 포함하지만 이에 제한되지 않는다. 추가로, 통상의 기술자에게는 통신 매체(일시적)는 통상적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 기타 전송 메커니즘과 같은 변조된 데이터 신호의 다른 데이터를 구현하고, 임의의 정보 전달 매체를 포함한다는 것이 잘 알려진다.
일부 구현에 따른 동적 범위 조정을 위한 오디오 처리 시스템은 도 1 및 도 2를 참조하여 논의될 것이다.
복수의 공간 오디오 객체(10)는 (동적) 공간 위치와 연관된 복수의 오디오 신호를 포함한다. 공간 위치는 복수의 오디오 신호와 연관된 메타데이터를 사용하여 표현될 수 있으며, 여기서 메타데이터는 예를 들어, 오디오 객체(오디오 신호)가 3차원 공간에서 어떻게 움직이는지를 나타낸다. 공간 오디오 객체(10)의 집합은 객체-기반 오디오 자산으로 지칭된다. 객체-기반 오디오 자산은 연관된 공간 메타데이터에 의해 표시된 시변 포지션을 갖는 예를 들어, 2, 10, 20개 이상의 공간 오디오 객체, 가령 50 또는 100개의 공간 오디오 객체를 포함한다.
단계 S1에서, 공간 오디오 객체(10)가 획득되고, 적어도 하나의 렌더러(31), 신호 수준 분석기(32) 및 이득 계산기(33)를 포함하는 오디오 처리 시스템의 사이드-체인(30)에 제공된다. 단계 S2에서, 렌더러(31)는 오디오 객체(10)를, 프리젠테이션 오디오 채널의 세트를 형성하는 적어도 하나의 프리젠테이션 오디오 채널을 포함하는 미리 결정된 오디오 프리젠테이션으로 렌더링한다. 미리 결정된 오디오 프리젠테이션은 예를 들어, 마스터링 엔지니어에 의해 설정되거나, 또는 렌더러(31)의 미리 설정된 오디오 프리젠테이션에 의해 설정될 수 있다. 다른 예에서, 미리 결정된 오디오 프리젠테이션은 (음악, 스피치 또는 영화 오디오 트랙과 같은) 공간 오디오 객체(10)에 의해 표현되는 오디오 콘텐츠의 유형에 의해 설정될 수 있다.
예를 들어, 렌더러(31)는 공간 오디오 객체를: 모노 프리젠테이션(한 개의 채널), 스테레오 프리젠테이션(두 개의 채널), 바이노럴 프리젠테이션(binaural presentation)(두 개의 채널), 5.1 프리젠테이션(여섯 개의 채널), 7.1 프리젠테이션(여덟 개의 채널), 5.1.2 프리젠테이션(여덟 개의 채널), 5.1.4 프리젠테이션(열 개의 채널), 7.1.2 프리젠테이션(열 개의 채널), 7.1.4 프리젠테이션(열 두개의 채널), 9.1.2 프리젠테이션(열 두 개의 채널), 9.1.4 프리젠테이션(열 네 개의 채널), 9.1.6 프리젠테이션(열 여섯 개의 채널), 및 (24개의 채널, 및 귀, 귀의 위 및 귀의 아래에 위치된 세 개의 높이 수준을 갖는 22.2 프리젠테이션과 같은) 적어도 세 개의 높이 수준을 갖는 다중 채널 프리젠테이션으로 구성된 그룹으로부터 선택된 적어도 하나의 프리젠테이션으로 렌더링할 수 있다. 이들 프리젠테이션은 단지 예시일 뿐이며 렌더러(31)는 공간 오디오 객체를 임의의 수의 프리젠테이션 채널을 갖는 하나 이상의 임의의 프리젠테이션으로 렌더링할 수 있다는 것을 유의한다.
일부 구현에서, 각각의 프리젠테이션은 적어도 두 개의 프리젠테이션 오디오 채널을 포함하며, 이는 렌더러(31)가, 공간 오디오 객체를 모노 프리젠테이션 대안(한 개의 채널)을 제외하고, 위에서 언급된 그룹으로부터 선택된 프리젠테이션으로 렌더링하도록 구성된다는 것을 의미한다.
프리젠테이션 오디오 채널(들) 및 공간 오디오 객체(10) 각각의 오디오 신호는 시간 세그먼트의 시퀀스로 표현된다. 시간 세그먼트는 개별적인 샘플, 프레임, 두 개 이상의 프레임의 그룹 또는 오디오 채널의 미리 결정된 시간 부분일 수 있다. 더욱이, 시간 세그먼트는 시간 세그먼트가 예를 들어 30% 중첩으로 10ms 프레임이 되도록 부분적으로 중첩될 수 있다.
렌더러(31)는 오디오 객체 인덱스 i 및 시간 세그먼트 인덱스 n을 갖는 공간 오디오 객체 xi[n]을 수신하고, 객체 인덱스 i에 대한 메타데이터 Mi[n]을 기초로 프리젠테이션 인덱스 j 및 스피커 피드 인덱스 k를 갖는 프리젠테이션 채널 sj,k[n]을 컴퓨팅한다. 각각의 프리젠테이션은 연관된 스피커 피드 인덱스 k를 갖는 스피커를 사용한 재생을 위해 의도된 적어도 하나의 프리젠테이션 오디오 채널을 포함한다. 예를 들어, 스테레오 프리젠테이션 k = 1, 2인 경우, 제1 프리젠테이션 오디오 채널(왼쪽 스테레오 채널)은 인덱스 k = 1를 갖는 스피커 피드 신호와 연관되고, 제2 프리젠테이션 오디오 채널(오른쪽 스테레오 채널)은 인덱스 k = 2를 갖는 스피커 피드 신호와 연관된다. 일부 구현에서, 하나의 프리젠테이션만이 사용되고, 따라서 k개의 스피커 피드(프리젠테이션 채널)를 갖는 하나의 프리젠테이션만이 있으므로, 인덱스 j는 생략될 수 있다. 렌더러(31)는 (잠재적으로 시변) 메타데이터 Mi[n]을 각각의 객체 인덱스 i 및 스피커 피드 인덱스 k에 대해 잠재적으로 시변 렌더링 이득 벡터 gi,k[n]로 변환하여, 다음에 따라 프레젠테이션 채널 sj,k[n]을 컴퓨팅하고,
[수학식 1]
여기서 메타데이터 Mi[n]로부터 렌더링 이득 벡터 gi,k[n]로의 변환은 일반적으로 원하는 출력 프레젠테이션 포맷에 의존한다. 일반적으로, 렌더러(31)는 주파수 변형 방식으로 프리젠테이션 채널 sj,k[n]으로의 공간 오디오 객체(10)(즉, xi[n])의 렌더링을 수행한다. 예를 들어, 공간 오디오 객체(10)를 두 개의 프리젠테이션 채널을 갖는 바이노럴 프리젠테이션 포맷으로 렌더링할 때, 각각의 개개의 바이노럴 채널에 대한 공간 오디오 객체(10)의 매핑은 예를 들어, 주파수 의존 머리-관련 전달 함수(head-related transfer function, HRTF)를 고려하여 주파수 의존적일 것이다. 다른 예에서, 오디오 프리젠테이션은 상이한 특성을 갖는 스피커를 사용한 재생을 위한 것으로 의도되며, 이는 렌더러(31)가 특정 스피커 피드(프리젠테이션 채널)에 대해 일부 주파수를 강조할 수 있다는 것을 의미한다. 예를 들어, 저성능 오디오 장비 상에서의 재생을 위한 것으로 의도되는 프리젠테이션의 경우, 공간 오디오 객체(10)의 고주파수 및/또는 저주파수 콘텐츠가 억제될 수 있다는 것이 조사된다. 또한, 예를 들어, 5.1 프리젠테이션의 경우 공간 오디오 객체(10)의 저주파수 콘텐츠는 LFE 채널로 렌더링될 수 있는 한편, 중앙, 왼쪽 및/또는 오른쪽 채널에 대해서는 고주파수가 강조되는 것이 조사된다. 하지만, 일부 간단한 경우에서, 렌더러(31)는 주파수 불변 방식으로 렌더링을 수행한다.
모든 경우는 아니지만 다수의 경우에서, 공간 오디오 객체(10)의 수는 스피커 피드(k)의 수보다 많다.
단계 S3에서, 렌더링된 프리젠테이션의 프리젠테이션 오디오 채널은 프리젠테이션 오디오 채널의 세트의 각각의 프리젠테이션 오디오 채널과 연관된 신호 수준 데이터를 먼저 결정하는 신호 수준 분석기(32)에 제공된다. 신호 수준 데이터는 각각의 프리젠테이션 채널의 각각의 시간 세그먼트의 신호 수준의 적어도 하나의 표현 또는 측정을 나타내고, 여기서 신호 수준 데이터는: 예를 들어, 시간 세그먼트의 신호 수준/파워의 RMS 표현, 시간 세그먼트의 진폭/파워, 시간 세그먼트의 최대 진폭/파워 및 시간 세그먼트의 평균 진폭/파워 중 적어도 하나이다. 신호 수준 데이터는 임의의 적절한 방법을 사용하여 결정될 수 있으며, 각각의 프리젠테이션 오디오 신호가 시간 도메인 파형 샘플로 표현되는 간단한 사례에서, 신호 수준 데이터는 단순히 각각의 샘플의 진폭(신호) 수준이다. 다른 예에서, 프리젠테이션 오디오 채널이 일련의(잠재적으로 중첩하는) 주파수 도메인 프레임으로 표현되는 경우, 신호 수준은 각각의 프레임의 스펙트럼 에너지의 함수로서 결정될 수 있다.
나아가, 신호 수준 분석기(32)는 신호 수준 데이터를 사용하여, 프리젠테이션 오디오 신호의 세트 중에서 발생하는 각각의 시간 세그먼트에 대한 최대 또는 최소 신호 수준, max[n] 또는 min[n]을 결정한다. 대안적으로, 신호 수준 분석기(32)는 (예를 들어 모든 프리젠테이션 채널과 같은) 적어도 두 개의 프리젠테이션 채널에 대한 평균 신호 수준 avg[n]을 결정하고, 여기서 평균 신호 수준 avg[n]은 가중 평균일 수 있다. 먼저, 신호 수준 데이터를 결정하는 것 및 후속적으로 신호 수준 데이터를 사용하여 최대, 최소 또는 평균 신호 수준 max[n], min[n], avg[n]을 결정하는 것이 두 개의 서브 단계로 설명되지만, 최대, 최소 또는 평균 신호 수준, max[n], min[n], avg[n]은 프리젠테이션 오디오 채널로부터 단일 단계로 직접적으로 결정될 수 있다는 것이 이해된다.
단계 S4에서, 각각의 시간 세그먼트에 대해 프리젠테이션 오디오 채널의 세트 중에서 프리젠테이션 오디오 채널이 선택된다. 예를 들어, 최대 max[n] 또는 최소 min[n] 신호 수준과 연관된 프리젠테이션 채널은 신호 수준 분석기(32)에 의해 선택된다. 대안적으로, 단계 S4는 신호 수준 분석기(32)를 통해, 적어도 두 개의 프리젠테이션 오디오 채널에 대한 평균 신호 수준 avg[n]을 결정하는 단계를 포함할 수 있다. 예를 들어, 평균 신호 수준 avg[n]을 사용하는 것은, (일부 프리젠테이션 채널이 타겟 상위 신호 수준 또는 타겟 하위 신호 수준보다 높거나 낮은 것을 잠재적으로 허용하면서) 덜 공격적으로 압축되거나 확장되는 동적 범위 조정된 공간 오디오 객체로 이어질 수 있다. 최대 max[n] 또는 최소 min[n] 신호 수준을 사용하는 것은, (압축 또는 확장이 공격적이고, 평균 신호 수준 avg[n]을 사용할 때 아티팩트가 존재하지 않는 것으로 이어질 수 있으면서) 어떠한 프리젠테이션 채널도 타겟 상위 신호 수준 또는 타겟 하위 신호 수준보다 높거나 낮지 않다는 것을 보장하는데 효과적이다.
단계 S5에서, 감쇠/이득 계산기(33)는 선택된 프리젠테이션 신호의 신호 수준(또는 두 개 이상의 프리젠테이션 신호의 평균 신호 수준)에 기초하여 감쇠 또는 이득을 결정하고, 결정된 감쇠 또는 이득을 나타내는 정보를 감쇠/이득 적용기 유닛(22)으로 출력한다.
일부 구현에서, 단계 S5는 이득 계산기(33)가 신호 수준 분석기(32)로부터 획득된 신호 수준(예를 들어, max[n], min[n] 또는 avg[n])을 획득된 임계 값과 비교하는 단계, 및 피크 값 max[n]을 임계 값으로 감소시키는 감쇠, 또는 최소 신호 값 min[n]을 임계 값으로 증가시키는 이득을 계산하는 단계를 수반한다. 즉, 감쇠/이득 계산기(33)는 공간 오디오 객체(10)의 동적 범위를 조정하기 위해 상향 피크 제한 및 하향 피크 제한 중 적어도 하나를 수행하기 위한 이득 또는 감쇠를 계산하도록 구성될 수 있다.
다른 구현에서, 단계 S5는 이득 계산기(33)가 단계 S4에서 획득된 min[n] 또는 avg[n] 신호 수준을 획득된 임계 값과 비교하는 단계를 수반하고, min[n] 또는 avg[n] 신호 수준이 임계 값보다 낮은 경우, 이득 계산기(33)는 시간 세그먼트가 감쇠되어야 하는 것(예를 들어, 완전히 침묵되어야 하는 것)을 나타낸다. 예를 들어, 이러한 이득 계산기는 임계 값 미만의 연관된 신호 수준을 갖는 임의의 시간 세그먼트를 완전히 침묵시키는 것과 같은 하향 확장을 구현하는 데 사용될 수 있다.
단계 S6에서, 감쇠/이득 적용기 유닛(22)은 동적 범위 조정된 공간 오디오 객체 x'i[n]을 형성하기 위해, 각각의 공간 오디오 객체(10)의 대응하는 시간 세그먼트에 감쇠/이득을 적용한다. 감쇠/이득 적용기 유닛(22)은 선택적 지연 유닛(21)과 함께, 사이드-체인(30)에 의해 제어되는 방식으로 공간 오디오 객체를 처리하는(예를 들어, 이득 또는 감쇠를 적용하는) 메인 처리 체인(20)을 형성한다.
일부 구현에서, S31에서 획득된 임계 값은 임계 값을 초과/미만인 신호 수준에 대해 적용될 감쇠/이득을 나타내는 조정 비율 계수가 동반한다. 따라서, 이득 계산기(33)에 의해 계산된 감쇠/이득은 압축기 또는 확장기의 역할을 할 수 있고, 여기서 조정 비율은 1:2, 1:3, 1:4 또는 일반적으로 1:x - 여기서 x∈(1, ∞) - 와 같은 비율이다. 1:∞의 조정 비율은 피크 또는 하단 제한기에 대응할 것이라는 것이 이해된다. 예를 들어, 단계 S31은 조정 비율 계수를 획득하는 단계를 포함하고, 단계 S5는 감쇠/이득 계산기(33)를 통해, 임계치 차이를 결정하는 단계 - 임계치 차이는 피크 임계 값과 선택된 오디오 채널의 신호 수준 표현 사이의 차이임 - , 및 조정 비율 계수로 가중된 임계 차이에 기초하여 감쇠/이득의 제한을 결정하는 단계를 포함한다. 임계 값 및/또는 조정 비율은 예를 들어, 사용자에 의해 생성된 원하는 입력/출력 곡선에 기초할 수 있다.
감쇠/이득 적용기(22)에 의한 감쇠/이득의 적용에 의해 생성된 동적 범위 조정된 공간 오디오 객체 x'i[n]은 직접적인 음성 테스트를 위해 보관, 인코딩, 배포 또는 렌더링될 수 있다. 예를 들어, 동적 범위 조정된 공간 오디오 객체 x'i[n]은 저장 유닛(50a)에 제공될 수 있거나, 예를 들어 헤드폰 스피커 렌더러(스테레오 렌더러) 또는 7.1.4 스피커 렌더러와 같은 적어도 하나의 프리젠테이션 렌더러(50b)로 송신될 수 있다. 임의의 다른 유형의 프리젠테이션 렌더가 또한 사용될 수 있고, 이는 본 개시의 범주 내에 있다.
공간 오디오 객체가 렌더러(31)에 의해 미리 결정된 공칭 프리젠테이션으로 렌더링되지만, 공간 오디오 객체(10)는 상이한 스피커 또는 헤드폰 설정에 적합한 많은 수의 상이한 프리젠테이션으로 렌더링될 수 있다는 것을 유의한다. 동적 범위 조정된 공간 오디오 객체 x'i[n]가 선택된 몇 개의 렌더링된 프리젠테이션(가령, 하나의 렌더링된 프리젠테이션)의 분석에 의해 획득되더라도, 동적 범위 조정된 공간 오디오 객체 x'i[n]의 동적 범위 조정은, 동적 범위 조정된 공간 객체 x'i[n]가 분석에 사용된 선택된 몇 개의 프리젠테이션 이외의 프리젠테이션으로 렌더링될 때에도 동적 범위 조정을 수행할 것이다.
예를 들어, 사이드-체인(30)은 공간 오디오 객체를 다섯 개의 귀-높이 스피커 피드, 한 개의 저주파수 효과(Low-Frequency Effect, LFE) 신호, 신호 수준 분석기(32) 및 이득 계산기(33)가 동작하는 두 개의 오버헤드 스피커 피드를 포함하는 5.1.2 프리젠테이션으로 렌더링한다. 결과적인 시변 감쇠/이득은 동적 범위 조정된 공간 오디오 객체 x'i[n]을 획득하기 위해 감쇠/이득 적용기(22)에서 공간 오디오 객체(10)의 대응하는 시간 세그먼트에 적용된다. 동적 범위 조정된 공간 오디오 객체 x'i[n]은 결국 저장소(50a)에 저장되거나 또는 프리젠테이션 렌더러(50b)에 의해 동적 범위 조정을 특징으로 할 2.0 프리젠테이션 또는 7.1.4 프리젠테이션과 같은 (5.1.2 프리젠테이션을 포함하는) 임의의 프리젠테이션으로 렌더링될 수 있다.
일부 구현에서, 오디오 처리 시스템은 공간 오디오 객체(10)의 지연된 버전을 형성하도록 구성된 지연 유닛(21)을 더 포함한다. 지연 유닛(21)에 의해 도입된 지연은 사이드-체인(30)의 렌더러(31), 신호 수준 분석기(32) 및/또는 이득 계산기(33)에 의해 도입된 지연에 대응하는 지연일 수 있다. 렌더러(31)에 의해 도입된 지연은 렌더러에 의해 출력된 프리젠테이션 포맷에 의존하여 매우 크게 변할 수 있다. 시간-도메인 렌더러의 경우, 지연은 샘플 중 영 개 또는 수십 개와 같이 매우 짧을 수 있지만, (예를 들어, 헤드폰에 대한 바이노럴 오디오 신호를 렌더링하는 데 사용되는) 변환-기반 렌더러는 수백 내지 수천 개의 샘플의 범위에 있는, 가령 500 내지 2000개의 샘플의 범위에 있는 더욱 긴 지연을 가질 수 있다.
도 3은 일부 구현에 따른, 공간 오디오 객체(10)의 동적 범위 조정을 수행하기 위한 오디오 처리 시스템을 예시한다. 관찰되는 바와 같이, 오디오 처리 시스템의 사이드-체인(30)은 적어도 두 개의 렌더러, 가령 세 개의 렌더러(31a, 31b, 31c)를 포함하고, 각각의 렌더러(31a, 31b, 31c)는 복수의 공간 오디오 객체(10)를 획득하고, 공간 오디오 객체를 개개의 렌더링된 프리젠테이션으로 렌더링하도록 구성되며, 각각의 렌더링된 프리젠테이션은 프리젠테이션 오디오 채널의 세트를 형성하는 적어도 하나의 프리젠테이션 오디오 채널을 포함한다. 따라서, 신호 수준 분석기(32)는 하나보다 많은 프리젠테이션에 걸쳐 신호 수준 분석을 수행한다. 예를 들어, max[n], min[n] 또는 avg[n] 신호 수준을 결정할 때, 신호 수준 분석기(32)는 두 개 이상의 렌더링된 프리젠테이션으로부터의 채널을 포함하는 프리젠테이션 채널의 세트의 모든 프리젠테이션 채널에 걸쳐 max[n], min[n] 또는 avg[n]을 결정한다.
일부 구현에서, 신호 수준 분석기(32)는 프리젠테이션 채널의 세트의 프리젠테이션 채널 중 적어도 두 개를 포함하는 서브세트의 모든 프리젠테이션 채널에 걸쳐 max[n], min[n] 또는 avg[n]을 결정한다. 예를 들어, 신호 수준 분석기(32)는 각각의 프리젠테이션에서 최대 또는 최소 신호 수준 max[n], min[x]를 선택할 수 있고, 선택된 최대 또는 최소 신호 수준 max[n], min[x]의 평균을 결정할 수 있다.
예를 들어, 렌더러 A(31a)는 공간 오디오 객체(10)를 스테레오 프리젠테이션(sA,k, k = 1, 2)으로 렌더링하고, 렌더러 B(31b)는 공간 오디오 객체(10)를 5.1 프리젠테이션(sB,k, k = 1, 2 … 6)으로 렌더링하고, 및 렌더러 C(31c)는 공간 오디오 객체(10)를 7.1.4 프리젠테이션(sC,k, k = 1, 2 … 12)으로 렌더링한다. 이 예에서, 신호 수준 분석기(32)는 세 개의 상이한 렌더링된 프리젠테이션으로부터 2 + 6 + 12 = 20개의 채널에 걸쳐 분석(예를 들어, max[n], min[n] 또는 avg[n]의 결정)을 수행한다.
도 3에 묘사된 실시예가 세 개의 렌더러(31a, 31b, 31c)를 갖지만, 세 개의 렌더러(31a, 31b, 31c)에 대한 대안으로서 두 개의 렌더 또는 적어도 네 개의 렌더러와 같이 임의의 수의 렌더러가 사용될 수 있다. 더욱이, 렌더러(31a, 31b, 31c)가 별개의 렌더러로 묘사되어 있지만, 두 개 이상의 렌더링된 오디오 프리젠테이션은 공간 오디오 객체(10)를 두 개 이상의 프리젠테이션으로 렌더링하도록 구성된 단일 렌더러에 의해 획득될 수 있다.
감쇠/이득 계산기(33)는 각각의 시간 세그먼트에 대한 감쇠/이득을 결정하고, 공간 오디오 객체(10)의 대응하는 시간 세그먼트로의 적용을 위해 결정된 감쇠/이득을 메인-체인(20)에 제공한다.
일부 구현에서, 적어도 두 개의 프리젠테이션 sA,k, sB,k, sC,k 각각에 대해 동일한 임계 값이 사용된다. 다른 구현에서, 적어도 두 개의 프리젠테이션 각각에 대해 개별적인 임계 값이 획득되고, 여기서 감쇠/이득은 선택된 프리젠테이션 오디오 채널 및 각각의 프리젠테이션의 임계 값에 기초한다. 따라서, 임계 값은 모든 프리젠테이션에 대해 전역적으로, 각각의 프리젠테이션에 대해 개별적으로 또는 프리젠테이션의 서브세트별로 설정될 수 있다. 예를 들어, 하나의 서브세트는 헤드폰 또는 이어폰을 사용한 재생을 위해 의도된 프리젠테이션을 포함할 수 있는 한편, 다른 서브세트는 서라운드 시스템의 확성기를 사용한 재생을 위해 의도된 프리젠테이션을 포함할 수 있다.
예를 들어, 이득 계산기(33)는 선택된 프리젠테이션 오디오 채널 및 선택된 프리젠테이션 오디오 채널과 결합된 제1 프리젠테이션의 임계 수준 및 제2 프리젠테이션의 임계 수준에 기초하여 감쇠/이득을 계산한다. 선택된 프리젠테이션 오디오 채널 및 적어도 두 개의 프리젠테이션 오디오 채널의 임계 수준을 결합하는 것은 예를 들어, 프리젠테이션 각각에 대해 계산된 감쇠/이득의 평균(또는 가중된 평균)을 계산하는 것을 포함할 수 있다. 예를 들어, 하향 압축을 가능하게 하기 위한 감쇠를 계산할 때, 이득 계산기(33)는 선택된 오디오 채널의 신호 수준을 제1 임계 값과 비교하고, 제1 프리젠테이션의 압축을 위해 제1 감쇠 A1가 요구되는 것으로 결정한다. 유사하게, 이득 계산기(33)는 제2 프리젠테이션의 압축을 위해 제2 감쇠 A2가 요구되는 것으로 결정하고, 그로 인해 신호 계산기(33)는 감쇠/이득 적용기(22)에 의해 적용되는 제1 및 제2 감쇠 A1, A2의 (예를 들어, 평균 또는 가중 평균과 같은) 결합을 계산한다.
각각의 프리젠테이션의 임계 값은 예를 들어, 각각의 프리젠테이션의 공간 오디오 객체의 다운믹싱을 고려함으로써 획득된 단일 임계 값으로부터 결정될 수 있다.
일부 구현(미도시)에서, 각각의 렌더러(31a, 31b, 31c)는 개별적인 신호 수준 분석기(32) 및/또는 개별적인 이득 계산기(33)와 연관된다. 예를 들어, 각각의 렌더러(31a, 31b, 31c)는 신호 수준 min[n], max[n], avg[n]을 공통 이득 계산기(33)로 출력하는 개별적인 신호 수준 분석기(32)와 연관된다. 나아가, 각각의 렌더러(31a, 31b, 31c)는 개별적인 신호 수준 분석기(32) 및 개별적인 이득 계산기(33)와 연관되고, 그로 인해 개별적인 이득 계산기(33)의 이득이 (예를 들어, 평균, 가중 평균, 최소 선택, 최대 선택에 의해) 결합되어, 결합된 이득이 감쇠/이득 적용기(22)에 제공된다는 것이 예상된다.
도 4는 일부 구현에 따른, 공간 오디오 객체(10)의 동적 범위 조정을 수행하기 위한 오디오 처리 시스템을 예시한다. 사이드-체인(30)에서, 공간 오디오 객체(10)는 하나의 또는 여러 렌더링된 오디오 프리젠테이션을 형성하기 위해 적어도 하나의 렌더러(31)에 제공된다. 각각의 렌더링된 오디오 프리젠테이션은 각각의 렌더링된 오디오 프리젠테이션의 적어도 두 개의 서브대역 표현을 추출하는 사이드-체인(30)의 분석 필터뱅크(41b)에 제공된다. 묘사된 실시예에서, 분석 필터뱅크(41b)는 적어도 하나의 렌더러(31)에 의해 출력된 각각의 렌더링된 프리젠테이션의 세 개의 서브대역 표현을 추출하지만, 두 개 또는 적어도 네 개의 서브대역 표현이 유사한 방식으로 사용될 수 있다. 각각의 서브대역 표현에 대해, 공간 오디오 객체(10)의 대응하는 시간 세그먼트 및 서브대역 표현에 적용될 각각의 감쇠/이득을 결정하기 위해, 개별적인 신호 수준 분석기(32a, 32b, 32c) 및 이득 계산기(33a, 33b, 33c)가 제공된다. 이를 위해, 분석 필터뱅크(41a)는 공간 오디오 객체(10)의 대응하는 서브대역 표현을 추출하는 데 사용된다.
메인-체인(20)에서, 개별적인 감쇠/이득 적용기(22a, 22b, 22c)(각각의 서브대역 표현에 대해 하나씩)는 공간 오디오 객체의 동적 범위 조정된 서브대역 표현을 형성하기 위해, 공간 오디오 객체의 서브대역 표현 및 이득 계산기(33a, 33b, 33c)에 의해 계산된 이득을 획득한다. 마지막으로, 합성 필터뱅크(42)는 공간 오디오 객체의 동적 범위 조정된 서브대역 표현을, 임의의 프리젠테이션 렌더러에 저장되거나 또는 제공되는 동적 범위 조정된 공간 오디오 객체의 단일 세트로 결합하는 데 사용된다.
각각의 서브대역 표현의 신호 수준 분석기(32a, 32b, 32c) 및 이득 계산기(33a, 33b, 33c)는 본 출원의 다른 부분에서 설명된 신호 수준 분석기(32) 및 이득 계산기(33)와 동등할 수 있다. 즉, 최고/최저 프리젠테이션 채널을 선택하는 단계 또는 각각의 시간 세그먼트에 대한 평균 신호를 결정하는 단계는 각각의 서브대역 표현에 대해 병렬적으로 수행된다. 유사하게, 감쇠/이득이 각각의 서브대역 표현에 대해 결정되고, 개개의 감쇠/이득 적용기(22a, 22b, 22c)에 의해 적용된다.
나아가, 각각의 서브대역 표현에 대해 동일한 임계 값이 사용되거나, 대안적으로 각각의 서브대역 표현에 대해 상이한 임계 값이 획득된다. 추가적으로, 도 6과 관련하여 아래에서 설명된 사이드-체인 매개변수 및 출력 렌더러 매개변수는 모든 서브대역 표현에 걸쳐 동일할 수도 있거나 또는 각각의 서브대역 표현에 대해 개별적으로 정의될 수 있다.
도 3의 다수의 렌더러 및 도 4의 다수의 주파수 대역은 각각 별개의 오디오 처리 시스템으로 묘사되어 있지만, 이들은 동일한 시스템의 일부를 형성할 수 있다는 것이 이해된다. 예를 들어, 적어도 두 개의 신호 수준 분석기(32a, 32b, 32c)가 각각의 프리젠테이션의 상이한 서브대역 표현에 대해 동작하는 두 개 이상의 렌더러(31)를 포함하는 오디오 처리 시스템은 하나의 구현으로 간주된다. 추가적으로, 메인-체인(20)은 사이드-체인(30)에 의해 도입된 임의의 지연을 보상하기 위한 지연을 도입하기 위해 하나 이상의 지연 유닛을 포함할 수 있다는 것이 이해된다.
도 5는 도 1의 오디오 처리 시스템의 변형을 묘사한다. 도 5의 사이드-체인(130)은 느린 이득 및/또는 빠른 이득의 계산 및 적용을 포함한다. 느린 이득은 시간이 지남에 따라 상대적으로 느리게 변하는 한편, 빠른 이득은 시간이 지남에 따라 더욱 빠르게 변한다. 빠른 이득 및 느린 이득 모두를 계산 및 적용하는 것은 디지털 "오버(overs)"를 제거하기 위한 효과적인 방법인 것으로 입증되었고, 여기서 디지털 "오버"는 예를 들어, 디지털 시스템에 의해 표현될 수 있는 최대 디지털 오디오 샘플을 초과하는 신호 수준을 의미한다.
느린 이득 및 빠른 이득 모두에 대해, 렌더러(들)(131)는 공간 오디오 객체(10)를 수신하고, 공간 오디오 객체(10)를 적어도 하나의 오디오 프리젠테이션으로 렌더링한다. 적어도 하나의 렌더링된 오디오 프리젠테이션은 예를 들어, 모든 프리젠테이션 오디오 채널에 걸쳐 각각의 시간 세그먼트에 대한 최소 또는 최대 신호 수준을 추출하는 최소/최대 분석기(132)인 신호 수준 분석기에 제공된다. 대안적으로, 최소/최대 분석기(132)는 모든 프리젠테이션 채널에 걸쳐 평균 신호 수준, 예를 들어 각각의 렌더링된 프리젠테이션에서 최고/최저 프리젠테이션 채널의 평균 신호 수준을 추출하는 평균 신호 분석기로 대체된다.
전술한 예에서, 최소/최대 분석기(132)는, 오디오 처리 시스템이 공간 오디오 객체의 피크 제한 및/또는 하향 압축을 수행하는 것을 가능하게 하는 프리젠테이션 오디오 채널에 걸쳐 피크 신호 값 p[n]을 결정하도록 구성된 피크 분석기인 것으로 가정될 것이다. 하지만, 예는 두 개 이상의 프리젠테이션 채널에 걸쳐 평균 신호 수준을 결정하도록 구성된 최소/최대 분석기(132)에 대해 유사하게 적용된다. 추가적으로 또는 대안적으로, 최소/최대 분석기(132)는, 오디오 처리 시스템이 예를 들어, 임계 수준 미만의 최소 또는 평균 신호 수준으로 시간 세그먼트를 침묵시키는 것과 같은 하향 확장 또는 (하단 제한과 같은) 상향 압축을 수행하는 것을 가능하게 하는 최저 신호 수준 min[n]과 연관된 프리젠테이션 채널을 결정하도록 구성될 수 있다.
피크 분석기는 각각의 시간 세그먼트에 대해 피크 신호 값 p[n]을 다음과 같이 결정한다
[수학식 2]
.
느린 이득 gs[n]의 계산을 위해, 각각의 시간 세그먼트의 피크 신호 값 p[n]은 피크 신호 값 p[n] 및 임계 값 T가 주어진 각각의 시간 세그먼트에 대한 제어 신호 c[n]을 추출하도록 구성된 제어 신호 추출기(133)에 제공된다. 일 구현에서, 제어 신호 추출기(133)는 제어 신호를 다음과 같이 계산하고
[수학식 3]
이는 프리젠테이션 채널 중 어느 것도 임계 값 T를 초과하지 않는 경우, 제어 신호 c[n]이 0이 될 것이라는 것을 의미한다. 제어 신호 c[n]은 느린 이득 적용기(122a)에 의해 공간 오디오 객체(10)에 적용될 느린 이득 gs[n]을 계산하기 위해 느린 이득 계산기(135)에 의해 사용된다.
선택적으로, 제어 신호 추출기(133) 다음에는, 미리 결정된 감쇠/이득 조정 레이트를 유지하기 위해 제어 신호 c[n]을 수정하는 것이 할당된 공격/해제 프로세서(attack/release processor, 134)가 뒤따른다. 공격/해제 프로세서(134)는 두 개의 인접한 시간 세그먼트 사이에 적용된 감쇠/이득에 대한 최대 변화율(즉, 도함수)을 나타내는 조정 레이트 매개변수를 획득하고, 결과적인 감쇠/이득이 조정 레이트 매개변수에 의해 표시된 최대 변화율로 변하도록 구성된 수정된 제어 신호 c'[n]을 생성한다.
일부 구현에서, 조정 레이트 매개변수는 적어도 제1 및 제2 조정 레이트 매개변수이고, 여기서 제1 조정 레이트 매개변수는 공격 시간 상수 ta를 나타내고, 제2 조정 레이트 매개변수는 해제 시간 상수 tr을 나타낸다. 공격 및 해제 시간 상수 ta, tr을 통해, 공격 계수 α와 해제 계수 β는 다음과 같이 획득될 수 있고
[수학식 4]
[수학식 5]
여기서 fs는 렌더링된 오디오 프리젠테이션 및/또는 공간 오디오 객체(10)의 샘플링 레이트이다. 후속적으로, 수정된 제어 신호 c'[n]은 공격/해제 프로세서(134)에 의해 다음과 같이 계산된다.
[수학식 6]
느린 이득 gs[n]은 이제 다음과 같이 공격/해제 프로세서(134)로부터의 c'[n]을 사용하여 느린 이득 계산기(135)에 의해 계산되거나
[수학식 7]
또는 대안적으로, 134에서의 선택적인 공격/해제 처리가 생략되는 경우, c'[n]은 c[n]으로 대체된다. 더욱이, 느린 이득의 추출의 설명을 위해 제어 신호 c[n]의 추출이 편리하지만, 제어 신호를 명시적으로 추출할 필요는 없다는 것을 유의한다. 수학식 3에서 관찰되는 바와 같이, 피크 수준 p[n]과 제어 신호 c[n] 사이에는 직접적인 링크가 있고, 이는 c[n]이 항상 p[n]에 의존하는 함수로 대체될 수 있다는 것을 의미한다.
느린 이득 gs[n]은 공간 오디오 객체(10)의 대응하는 시간 세그먼트에 느린 이득을 적용하는 느린 이득 적용기(122a)에 제공된다. 일부 구현에서, 느린 이득 계산기(122a)는 느린 이득 gs[n]이 적용될 정도를 나타내는 조정 제어 매개변수 ρ를 획득한다. 예를 들어, 조정 제어 매개변수 ρ는 간격 0≤ρ≤1에 있고, 사용자(예를 들어, 마스터링 엔지니어)에 의해 고정되거나 설정될 수 있다. 느린 이득 계산기(122a)는 제어 신호 c[n] 또는 c'[n] 및 조정 제어 매개변수 ρ에 기초하여 부분적인 느린 이득 g's[n]을 계산하고, 메인-체인(120)의 느린 이득 적용기(122a)에 부분적인 느린 이득 g's[n]을 제공하고, 느린 이득 적용기(122a)는 공간 오디오 객체(10)에 부분적인 느린 이득 g's[n]을 적용한다. 예를 들어, 부분적인 느린 이득 g's[n]은 다음과 같이 계산되거나
[수학식 8]
또는 대안적으로 부분적인 느린 이득 g's[n]은 다음과 같이 계산되고
[수학식 9]
여기서, 134의 공격/해제 처리가 생략되는 경우, c'[n]은 c[n]으로 대체될 수 있다.
도시되지 않은 다른 구현에서, 공격/해제 프로세서(134)는 공격/해제 처리 없이 추출되는 느린 이득 gs[n] 또는 g's[n]에 대해 동작하고, 여기서 공격 해제 프로세서(134)는 제어 신호 c[n]에 대해 공격/해제 처리를 수행하는 것과는 반대로, 이득 gs[n] 또는 g's[n]에 대해 공격/해제 처리를 직접적으로 수행하도록 구성된다.
느린 이득 gs[n] 또는 부분적인 느린 이득 g's[n]은, 동적 범위 조정된 공간 오디오 객체 x'i[n]을 형성하기 위해 공간 오디오 객체의 각각의 대응하는 시간 세그먼트(및 서브대역 표현)에 느린 이득 gs[n] 또는 부분적인 느린 이득 g's[n]을 적용하는 느린 이득 적용기(122a)에 제공된다.
일부 구현에서, 느린 이득 gs[n]의 계산 및 적용에는 빠른 이득 gf[N]의 후속적인 계산 및 적용이 수반된다. 대안적으로, 빠른 이득 gf [n] 및 느린 이득 gs[n] 중 하나만이 계산되고, 공간 오디오 객체의 각각의 시간 세그먼트에 적용된다. 아래에서, 빠른 이득 gf[n]에 대해 더욱 상세히 설명된다.
느린 이득 계산기(135)에 의해 계산되는 느린 이득 gs[n](또는 수정된 느린 이득 g's[n]을 통해, 느린 이득 gs[n]은 임계 값 T 및 피크 신호 수준 p[n]과 함께 수정된 최소/최대 계산기(136)에 제공된다. 수정된 최소/최대 계산기(136)는 예를 들어, 다음을 설정함으로써
[수학식 10]
또는 gs[n]을 g's[n]로 대체함으로써, 수정된 피크 수준 p'[n]을 계산한다.
수정된 피크 수준 p'[n]은 예를 들어, 수정된 피크 수준 p'[n]을 m개의 요소를 갖는 평활화 커널 w[m]과 컨볼루션함으로써, 평활화되고 수정된 피크 수준 p''[n]을 계산하는 예견 평활화기(137)에 의해 추가로 처리된다. 이상적으로, 평활화 커널 w[m]의 요소는 단위합 제약 조건을 충족한다:
[수학식 11]
가령, w[m] =[0.25, 0.25, 0.25, 0.25]. 빠른 이득, gf[n]은 그 후 다음과 같이 평활화되고 수정된 피크 값으로부터 계산되고,
[수학식 12]
그로 인해, 빠른 이득 gf[n]은 느린 이득 적용기(122a)에 의해 적용되는 느린 이득 gs[n]으로 이미 처리된 공간 오디오 객체에 대해 빠른 이득 gf[n]을 적용하는 빠른 이득 적용기(122b)에 제공된다.
일부 구현에서, 수정된 피크 수준 p'[n]은 길이 M의 제1 순환 피크 버퍼 b1에 저장된다.
[수학식 13]
여기서 %는 정수 모듈로 연산자(integer modulo operator)를 나타낸다. 길이 M의 제2 순환 버퍼 b2는 제1 순환 피크 버퍼에서 관찰된 최대 피크 수준을 저장한다. 따라서, 제2 순환 피크 버퍼 b2는 다음과 같이 획득된다
[수학식 14]
예견 평활화기(137)는 평활화 커널을 제2 순환 버퍼와 컨볼루션함으로써 평활화되고 수정된 피크 수준 p''[n]을 획득하도록 구성될 수 있다. 즉, 평활화되고 수정된 피크 수준 p''[n]은 다음과 같이 획득되고
[수학식 15]
이는 위의 수학식 12에 따라 빠른 이득 gf[n]을 계산하고, 빠른 이득 gf[n]을 빠른 이득 적용기(122b)에 제공하는 빠른 이득 계산기(138)에 제공된다.
예견의 양 및/또는 순환 버퍼 b1, b2의 길이는 사용자에 의해 사이드-체인 매개변수로 설정될 수 있다. 마찬가지로, 평활화 커널 w[m]의 길이, 예견 및/또는 개별적인 요소 값은, 사용자에 의해 원하는 동적 범위 조정된 공간 오디오 객체 x'i[n]을 확립하기 위해 사이드-체인 매개변수로 결정될 수 있다.
메인-체인(120)의 두 개의 지연 유닛(121a, 121b)이 또한 도 5에 묘사되고, 지연 유닛(121a, 121b)은 빠른 이득 gf[n] 및 느린 이득 gs[n]이 대응하는 시간 세그먼트에 적용되도록 공간 오디오 객체(10)에 개개의 지연을 도입하도록 구성된다. K개의 시간 세그먼트(예를 들어, K개의 샘플)의 초기 지연은 렌더러(들)(131), 최소/최대 분석기(132), 제어 신호 추출기(133), 공격/해제 프로세서(134) 및 느린 이득 계산기(135)에 의해 도입된 임의의 렌더링 지연 또는 예견을 보상하기 위해 제1 지연 유닛(121a)에 의해 공간 오디오 객체(10)에 적용된다. 유사하게, 제2 지연 유닛(121b)은 수정된 최소/최대 계산기(136), 예견 평활화기(137) 및 빠른 이득 계산기(138)에 의해 도입된 임의의 예견 또는 지연을 보상하기 위해 M개의 시간 세그먼트(예를 들어, M개의 샘플)의 제2 지연을 적용한다. 지연 유닛(121a, 122b)에 의해 도입된 지연 K 및 M은 통상적으로 수십 내지 수천 의 시간 세그먼트(샘플)의 범위에 있다. 예를 들어, 제1 지연 유닛(121a)에 의해 도입된 지연 K는 위에서 설명된 바와 같이, 렌더러(들)(131)에 의해 출력된 프리젠테이션(들)의 유형에 의존하여 수십 내지 수천의 시간 세그먼트(샘플) 사이에 있다. 제2 지연 유닛(121b)에 의해 도입된 지연 M은 주로 예견 평활화기(137)의 예견의 양에 기인하여, 통상적으로 1밀리초 내지 5밀리초 정도이다. 예를 들어, 32kHz 샘플링된 오디오 채널에서의 1밀리초 예견의 경우, 지연 M은 32개의 시간 세그먼트(샘플)이고, 192kHz 샘플링된 오디오 채널에서 5밀리초 예견의 경우 지연 M은 약 1,000개의 시간 세그먼트(샘플)이다.
하나의 특정 구현에서, 렌더러(들)(131)는 경량 전처리를 이용하는 객체 오디오 렌더러(Object Audio Renderer, OAR)이고, K = 512개의 시간 세그먼트(샘플)의 지연은 예견을 위해 M = 64개의 빠른 이득 지연으로 사용된다. 경량 전처리가 공간 코딩으로 대체되는 경우, 지연 K는 예를 들어 1536으로 증가될 수 있지만, 상이한 및/또는 추후의 전처리 방식 및 OAR 렌더링 기술을 통해, 지연 K가 1536 미만으로 감소될 수 있고, 심지어 영의 시간 세그먼트(샘플)의 지연에 다가가거나(approach) 또는 이에 도달하는 것이 예상된다. 따라서, 동적 범위 조정된 공간 오디오 객체 x'i[n]은 다음과 같이
[수학식 16]
또는 선택적으로 gs[n-M-K]를 g's[n-M-K]로 대체하여 획득될 수 있다.
도 6은 마스터링 또는 믹싱 엔지니어와 같은 사용자(70)가 위에서 설명된 오디오 처리 시스템을 사용하여 공간 오디오 객체(10)를 마스터링하는 것을 예시한다. 지연 유닛(들)(21) 및 감쇠/이득 적용기(22)는 메인-체인(20)을 형성하고, 위에서 설명된 바와 같이 하나 이상의 서브대역 표현에 빠른 이득 gf[n] 및 느린 이득 gs[n] 중 하나 이상을 적용하는 것을 수반한다. 유사하게, 사이드-체인(30)은 위에서 설명된 상이한 사이드-체인 구현 중 임의의 것이다.
공간 오디오 객체(10)를 마스터링할 때, 사용자(70)는 (단일 값일 수 있거나 또는 서브대역 표현 당 또는 사이드-체인의 렌더링된 프리젠테이션 당 설정될 수 있는) 임계 값 T, 조정 레이트(변경의 최대 레이트 또는 공격/해제 시간 ta, tr), 조정 제어 매개변수 ρ, 사이드-체인(30)의 렌더러의 수, 사이드-체인(30)의 렌더러의 유형, 사이드-체인(30)의 서브대역 표현의 수 및/또는 주파수(컷오프, 대역폭) 및 예를 들어 예견 평활화기(137)의 예견의 양 중 하나 이상을 포함하는 사이드-체인 매개변수(72)를 설정하거나 또는 조정할 수 있다. 메인-체인(20)이 지연 유닛(들)(21)에 의해 도입된 일부 지연으로 동작하더라도, 사용자(70)에 의해 사이드-체인 매개변수(72)에 대해 이루어진 임의의 변경은 메인-체인(20)에 의해 출력된 동적 범위 조정된 공간 오디오 객체 x'i[n]의 대응하는 변경을 도입할 것이다. 동적 범위 조정된 공간 오디오 객체 x'i[n]은 사용자(70)에 의해 음성 테스트되는 출력 렌더러(60)에 의해 선택된 (스테레오 프리젠테이션 및/또는 5.1 프리젠테이션과 같은) 하나 이상의 오디오 프리젠테이션(들)으로 렌더링된다. 따라서, 사용자(70)는 사이드-체인 매개변수(72)를 조정하고 튜닝의 결과를 빠르게 들을 수 있어서, 원하는 결과(즉, 마스터링된 공간 오디오 객체)를 획득하는 것을 용이하게 할 수 있다. 일부 구현에서, 출력 렌더러(60)는 동적 범위 조정된 공간 오디오 객체 x'i[n]을 두 개 이상의 프리젠테이션으로 병렬로 렌더링하여, 사용자(70)가 사이드-체인 매개변수(72)를 튜닝하는 동안 상이한 렌더링된 프리젠테이션 간에 빠르게 스위칭하는 것을 허용한다. 이를 위해, 사용자는 출력 렌더러의 수 및 유형(및 사용자(70)에 의해 사용되는 오디오 시스템에 현재 제공되는 어느 프레젠테이션)에 영향을 미치는 출력 렌더러 매개변수(60)를 조정할 수 있다.
사이드-체인(30)의 렌더러(들) 및 그의 개개의 출력 프리젠테이션은 아래에 강조된 상이한 기준에 기초하여 설정될 수 있다.
사이드-체인(30)의 렌더러(들) 및 그의 출력 프리젠테이션 포맷(들)은 사용자(70)에 의한 입력에 의해 설정될 수 있다.
사이드-체인(30)의 렌더러(들) 및 그의 출력 프리젠테이션 포맷(들)은 공간 오디오 객체(10)의 콘텐츠의 소비를 위한 가장 일반적인 프리젠테이션이 될 것으로 예상되는 하나 이상의 프리젠테이션을 커버하도록 선택될 수 있다. 예를 들어, 콘텐츠가 음악인 경우, 사이드-체인(30)의 렌더러(들)는 스테레오 프리젠테이션을 렌더링하도록 구성되고, 콘텐츠가 영화의 오디오 트랙인 경우 사이드-체인(30)의 렌더러(들)는 스테레오 프리젠테이션 및 5.1 프리젠테이션을 렌더링하도록 구성된다.
사이드-체인(30)의 렌더러(들) 및 그의 출력 프리젠테이션 포맷(들)은 디지털 오버의 위험에 관하여 최악의 사례의 상황을 표현하도록 선택될 수 있다. 예를 들어, 최고 피크 수준을 갖는 프리젠테이션 포맷(들)이 두 개 이상의 대안적인 프리젠테이션 포맷 중에서 선택된다.
사이드-체인(30)의 렌더러(들) 및 그의 출력 프리젠테이션 포맷(들)은 콘텐츠 소비에 사용될 다수의 가능한 렌더러(들) 및 프리젠테이션 포맷(들) 모두 또는 실질적으로 모두를 표현하도록 선택될 수 있다. 따라서, 동적 범위 조정된 공간 오디오 객체 x'i[n]은 어떠한 공간 오디오 객체의 표현도 임의의 오버를 갖지 않을 것이라는 것을 보장한다.
사이드-체인(30)의 렌더러(들) 및 그의 출력 프리젠테이션 포맷(들)은 프리젠테이션이 메인-체인(20)에 의해 출력된 동적 범위 조정된 공간 오디오 객체 x'i[n]로 도입하는(그리고, 출력 렌더러(60)에 의해 출력된 프리젠테이션으로부터 명백한) 소리 특성에 기초하여 선택될 수 있다. 소리 특성은: 일 양의 지각된 펀치(punch), 선명도, 음량, 고조파 왜곡 또는 포화도(saturation), 상호 변조 왜곡, 과도 스쿼싱(squashing) 또는 향상 또는 동적 향상 중 적어도 하나를 포함한다. 예를 들어, 사용자(70)는, 어떤 프리젠테이션 포맷이 사이드-체인(30)에 의해 도입된 감쇠/이득의 적용에 의해 도입된 소리 특성의 수정을 분석하기 위한 최선의 근거를 제공하는 지를 결정하기 위해 사이드-체인(30)의 다양한 프리젠테이션 포맷(들)을 순환시킨다.
달리 구체적으로 언급되지 않는 한, 다음 논의로부터 명백한 바와 같이, 본 개시 전반에 걸쳐 "처리", "컴퓨팅(computing)", "계산(calculating)", "결정", 분석" 등과 같은 용어를 활용하는 본 개시의 논의는, 전자와 같은 물리적 양으로 표현된 데이터를 물리적 양으로 유사하게 표현된 다른 데이터로 조작하거나 및/또는 변환하는, 컴퓨터 하드웨어 또는 컴퓨팅 시스템, 또는 유사한 전자 컴퓨팅 디바이스의 작동 및/또는 프로세스를 지칭하는 것으로 이해된다.
본 발명의 예시적인 실시예의 위의 설명에서, 본 발명의 다양한 특징은 본 개시를 간소화하고 다양한 발명 양상 중 하나 이상의 이해를 돕기 위한 목적으로 때때로 단일의 실시예, 도면 또는 그의 설명으로 함께 그룹화되는 것으로 이해되어야 한다. 하지만, 본 개시의 이 방법은 청구된 발명이 각각의 청구항에 명시적으로 인용된 것보다 더 많은 특징을 요구하는 의도를 반영하는 것으로 해석되어서는 안 된다. 오히려, 다음의 청구범위가 반영하는 바와 같이, 발명 양상은 단일의 전술한 개시된 실시예의 모든 특징보다 적은 부분에 있다. 따라서, 상세한 설명에 후속하는 청구범위는 본원에서 이 상세한 설명에 명시적으로 통합되며, 각각의 청구항은 본 발명의 별개의 예시적인 실시예로서 그 자체로 존재한다. 나아가, 본원에 설명된 일부 예시적인 실시예는 다른 예시적인 실시예에 포함된 다른 특징이 아닌 일부를 포함하지만, 상이한 실시예의 특징의 조합은 본 발명의 범주 내에 있는 것을 의미하며, 통상의 기술자에 의해 이해되는 바와 같이, 상이한 실시예를 형성한다. 예를 들어, 다음의 청구범위에서, 청구된 예시적인 실시예 중 임의의 것이 임의의 조합으로 사용될 수 있다.
나아가, 실시예 중 일부는 본원에서, 컴퓨터 시스템의 프로세서에 의해 또는 기능을 수행하는 다른 수단에 의해 구현될 수 있는 방법 또는 방법의 요소의 조합으로 설명된다. 따라서, 이러한 방법 또는 방법의 요소를 수행하는 데 필요한 명령어를 갖는 프로세서는 방법 또는 방법의 요소를 수행하기 위한 수단을 형성한다. 방법이 여러 요소, 예를 들어 여러 단계를 포함할 때, 특별히 언급되지 않는 한, 이러한 요소의 순서가 암시되지 않는다. 나아가, 장치 실시예의 본원에서 설명된 요소는 본 발명을 수행할 목적으로 요소에 의해 수행되는 기능을 수행하기 위한 수단의 예이다. 본원에 제공된 설명에서, 다수의 특정 세부사항이 제시된다. 하지만, 본 발명의 실시예는 이들 특정 세부사항 없이 실시될 수 있다는 것이 이해된다. 다른 경우에, 이 설명의 이해를 모호하게 하지 않기 위하여 잘 알려진 방법, 구조 및 기술은 상세히 나타내지 않았다.
따라서, 본 발명의 특정 실시예가 설명되었지만, 통상의 기술자는 본 발명의 사상을 벗어나지 않고 이에 대해 다른 및 추가적인 수정이 이루어질 수 있다는 것을 인식할 것이고, 이러한 모든 변경 및 수정이 본 개시의 범주에 속하는 것으로 청구하도록 의도된다. 예를 들어, 도 5와 결합하여 설명된 빠른 이득 gf[n] 및 느린 이득 gs[n]의 결정 및 적용을 위한 상이한 대안은 (위의 도 4에 관련하여 설명된 바와 같이) 두 개 이상의 서브대역 표현에 대해 병렬로 및/또는 (위의 도 3과 관련하여 설명된 바와 같이) 두 개 이상의 렌더링된 프리젠테이션으로부터의 프리젠테이션 오디오 채널에 걸쳐 수행될 수 있다. 추가적으로, 도 5의 최소/최대 분석기(132)는 도 1, 도 3 및 도 4의 신호 수준 분석기(32, 32a, 32b, 32c)에 포함될 수 있다. 유사하게, 도 5의 제어 신호 추출기(331), 공격/해제 프로세서(333) 및 느린 이득 계산기(334)는 도 1, 도 3 및 도 4의 감쇠/이득 계산기(33, 33a, 33b, 33c)에 포함될 수 있다.
다양한 특징 및 양상은 다음의 열거된 예시적인 실시예("EEE")로부터 이해될 것이다:
EEE 1. 객체-기반 입력 오디오 자산의 하나 이상의 객체-기반 오디오 신호의 수준을 동적으로 변경하기 위한 방법으로서, 방법은: 객체-기반 입력 오디오 자산을 수신하는 단계; 하나 이상의 오디오 렌더러를 사용하여 객체-기반 입력 오디오 자산을 하나 이상의 프리젠테이션으로 렌더링하는 단계; 하나 이상의 프리젠테이션의 신호 수준의 하나 이상의 측정을 결정하는 단계; 하나 이상의 신호 수준 측정에 응답하여 이득 또는 감쇠를 컴퓨팅하는 단계; 및 객체-기반 출력 오디오 자산을 생성하기 위해 하나 이상의 객체-기반 오디오 신호 중 적어도 하나에 컴퓨팅된 이득 또는 감쇠를 적용하는 단계를 포함하는, 방법.
EEE 2. EEE 1에 있어서, 객체-기반 입력 오디오 자산을 하나 이상의 프리젠테이션으로 렌더링하는 단계는 하나 이상의 확성기 또는 헤드폰 프리젠테이션을 생성하는 단계를 포함하는, 방법.
EEE 3. EEE 1 또는 2에 있어서, 신호 수준의 하나 이상의 측정을 결정하는 단계는 피크 신호 수준 또는 평균 신호 수준을 검출하는 단계를 포함하는, 방법.
EEE 4. EEE 1-3 중 어느 하나에 있어서, 감쇠는 하나 이상의 측정된 신호 수준으로부터 결정된 제어 신호에 기초하는, 방법.
EEE 5. EEE 1 내지 4 중 어느 하나에 있어서, 컴퓨팅된 이득 또는 감쇠는 하나 이상의 렌더링된 프리젠테이션에서 피크 수준을 감소시키도록 구성되는, 방법.
EEE 6. EEE 1 내지 5 중 어느 하나에 있어서, 컴퓨팅된 이득 또는 감쇠는 원하는 입력-출력 곡선에 기초하는, 방법.
EEE 7. EEE 1 내지 6 중 어느 하나에 있어서, 객체-기반 입력 오디오 자산을 렌더링하거나, 신호 수준의 하나 이상의 측정을 결정하거나, 이득 또는 감쇠를 컴퓨팅하거나, 및/또는 객체-기반 출력 오디오 자산을 실시간으로 음성 테스트하기 위해 하나 이상의 매개변수를 수정하는 단계를 더 포함하는, 방법.
EEE 8. EEE 4에 의존할 때 EEE 7에 있어서, 제어 신호를 컴퓨팅하기 위해 하나 이상의 매개변수를 수정하는 단계를 더 포함하는, 방법.
EEE 9. EEE 1 내지 7 중 어느 하나에 있어서, 하나 이상의 오디오 렌더러를 사용하여 객체-기반 입력 오디오 자산을 하나 이상의 프리젠테이션으로 렌더링하는 단계는: 객체-기반 입력 오디오 자산을 주파수 불변 방식으로 하나 이상의 프리젠테이션으로 변환하는 단계를 포함하는, 방법.
EEE 10. EEE 9에 있어서, 변환하는 단계는 객체-기반 입력 오디오 자산의 두 개 이상의 주파수 대역에서 적용되는, 방법.
EEE 11. EEE 1 내지 10 중 어느 하나에 있어서, 하나 이상의 신호 수준 측정에 응답하여 이득 또는 감쇠를 컴퓨팅하는 단계는 적어도 하나의 제어 매개변수에 기초하고, 하나의 제어 매개변수는 공격 시간 상수, 해제 시간 상수, 최대 진폭, 임계치, 적용될 이득 또는 감쇠의 비율 중 적어도 하나에 기초하는, 방법.
EEE 12. EEE 1 내지 11 중 어느 하나에 있어서, 하나 이상의 신호 수준 측정에 응답하여 이득 또는 감쇠를 컴퓨팅하는 단계는 빠른 이득 및 느린 이득을 컴퓨팅하는 단계를 포함하는, 방법.
EEE 13. EEE 12에 있어서, 빠른 이득 및/또는 느린 이득을 컴퓨팅하는 단계는 적어도 하나의 제어 매개변수에 기초하고, 하나의 제어 매개변수는 공격 시간 상수, 해제 시간 상수, 최대 진폭, 임계치 또는 적용될 이득 또는 감쇠의 비율 중 적어도 하나에 기초하는, 방법.
EEE 14. EEE 1 내지 13 중 어느 하나에 있어서, 하나 이상의 오디오 렌더러 및 하나 이상의 오디오 렌더러의 하나 이상의 개개의 출력 프리젠테이션 포맷은 기준을 기초로 선택되도록 구성되고, 기준은: (a) 최종-사용자 입력, (b) 최종-사용자 선호도, (c) 청취자에 의해 하나 이상의 프리젠테이션이 소비되는 가능성, (d) 두 개 이상의 대안에 걸쳐 예상된 피크 수준의 최악의 사례의 시나리오, (e) 하나 이상의 개개의 출력 프리젠테이션이 임계 값을 초과하는 피크 수준을 갖는다는 것을 보장하기 위해 복수의 하나 이상의 오디오 렌더러 및/또는 하나 이상의 개개의 출력 프리젠테이션 포맷을 병렬로 실행하는 것, 또는 (f) 특정 소리 특성을 획득하기 위해 복수의 옵션으로부터의 최종-사용자 선택 중 적어도 하나를 포함하는, 방법.
EEE 15. EEE 14에 있어서, 복수의 옵션은: 특정 양의 지각된 펀치, 선명도, 음량, 고조파 왜곡 또는 포화도, 상호 변조 왜곡, 과도 스쿼싱 또는 동적 향상 중 적어도 하나를 포함하는, 방법.
EEE 16. 객체-기반 입력 오디오 자산의 하나 이상의 객체-기반 오디오 신호의 신호 수준을 동적으로 변경하기 위한 시스템으로서, 시스템은: 하나 이상의 렌더러 - 하나 이상의 렌더러는: 객체-기반 입력 오디오 자산을 수신하고; 객체-기반 입력 오디오 자산을 하나 이상의 프리젠테이션으로 렌더링하도록 구성됨 - ; 및 하나 이상의 프리젠테이션의 신호 수준의 하나 이상의 측정을 결정하도록 구성된 피크 분석기; 하나 이상의 신호 수준 측정에 응답하여 이득 또는 감쇠를 컴퓨팅하도록 구성된 이득 분석기를 포함하고, 컴퓨팅된 이득 또는 감쇠는 객체-기반 출력 오디오 자산을 생성하기 위해 하나 이상의 객체-기반 오디오 신호 중 적어도 하나에 적용되는, 시스템.
EEE 17. EEE 16에 있어서, 하나 이상의 렌더러에 의해 도입된 하나 이상의 레이턴시를 보상하도록 구성된 지연 유닛을 더 포함하는, 시스템.
EEE 18. EEE 17에 있어서, 하나 이상의 렌더러는 병렬로 동작하는 적어도 두 개의 렌더러를 포함하는, 시스템.
EEE 19. EEE 18에 있어서, 피크 분석기는 병렬로 동작하는 적어도 두 개의 렌더러의 출력으로부터 도출된 제어 신호를 컴퓨팅하도록 추가로 구성되는, 시스템.
EEE 20. EEE 19에 있어서, 이득 분석기는 컴퓨팅된 제어 신호에 기초하여 하나 이상의 신호 수준 측정에 응답하여 이득 또는 감쇠를 컴퓨팅하도록 구성되는, 시스템.

Claims (20)

  1. 공간 오디오 객체(10)의 동적 범위 조정을 수행하기 위한 방법으로서, 상기 방법은:
    복수의 공간 오디오 객체(10)를 획득하는 단계(단계 S1);
    상기 공간 오디오 객체(10)의 적어도 하나의 렌더링된 오디오 프리젠테이션(rendered audio presentation)을 획득하는 단계(단계 S2) - 상기 적어도 하나의 렌더링된 오디오 프리젠테이션은 프리젠테이션 오디오 채널의 세트를 형성하는 적어도 하나의 프리젠테이션 오디오 채널을 포함함 - ;
    상기 프리젠테이션 오디오 채널의 세트에서 각각의 프리젠테이션 오디오 채널과 연관된 신호 수준 데이터를 결정하는 단계(단계 S3) - 상기 신호 수준 데이터는 상기 프리젠테이션 오디오 채널의 복수의 시간 세그먼트에 대한 신호 수준을 표현함 - ;
    임계 값을 획득하는 단계(단계 S31);
    각각의 시간 세그먼트에 대해:
    선택된 프리젠테이션 오디오 채널을 선택하는 단계(단계 S4) - 상기 선택된 프리젠테이션 오디오 채널은 상기 프리젠테이션 오디오 채널의 세트의 다른 프리젠테이션 오디오 채널에 비해 상기 시간 세그먼트에 대해 최고 신호 수준 또는 최저 신호 수준과 연관된 상기 프리젠테이션 오디오 채널의 세트의 프리젠테이션 오디오 채널임 - , 및
    이득을 결정하는 단계(단계 S5) - 상기 이득은 상기 임계 값, 및 상기 선택된 오디오 채널의 상기 신호 수준의 표현에 기초함 - ; 및
    동적 범위 조정된 공간 오디오 객체를 형성하기 위해, 상기 각각의 시간 세그먼트의 이득을 각각의 공간 오디오 객체의 대응하는 시간 세그먼트에 적용하는 단계(단계 S6)를 포함하는, 방법.
  2. 제1항에 있어서,
    조정 비율 계수를 획득하는 단계를 더 포함하고; 각각의 시간 세그먼트에 대해 이득을 결정하는 단계는:
    임계치 차이를 결정하는 단계 - 상기 임계치 차이는 상기 임계 값과 상기 선택된 오디오 채널의 상기 신호 수준 표현 사이의 차이임 - ; 및
    상기 임계치 차이 및 상기 조정 비율 계수에 기초하여 상기 이득을 결정하는 단계를 포함하는, 방법.
  3. 제1항에 있어서, 상기 이득은 상기 선택된 프리젠테이션 채널의 상기 신호 수준을 상기 임계 값으로 감쇠시키거나, 또는 상기 이득은 상기 선택된 프리젠테이션 채널의 상기 신호 수준을 상기 임계 값으로 증폭시키는, 방법.
  4. 제3항에 있어서,
    조정 제어 매개변수를 획득하는 단계 - 상기 조정 제어 매개변수는 상기 이득의 스케일링 인자를 나타냄 - ; 및
    상기 이득에 상기 스케일링 인자를 적용하는 단계를 더 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 각각의 시간 세그먼트에 대한 상기 신호 수준 데이터는 상기 프리젠테이션 오디오 채널의 복수의 주파수 대역에 대한 신호 수준 표현을 포함하고, 상기 방법은:
    각각의 시간 세그먼트 및 주파수 대역에 대해, 상기 프리젠테이션 오디오 채널의 세트의 프리젠테이션 오디오 채널을 선택하는 단계;
    각각의 시간 세그먼트 및 주파수 대역에 대한 이득을 결정하는 단계 - 상기 각각의 주파수 대역에 대한 이득은 상기 임계 값, 및 상기 선택된 프리젠테이션 오디오 채널의 상기 신호 수준의 상기 시간 세그먼트 및 주파수 대역의 표현에 기초함 - ; 및
    동적 범위 조정된 공간 오디오 객체를 형성하기 위해 각각의 주파수 대역 및 시간 세그먼트의 상기 이득을 각각의 공간 오디오 객체의 대응하는 시간 세그먼트 및 주파수 대역에 적용하는 단계를 더 포함하는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 각각의 렌더링된 오디오 프리젠테이션은 적어도 두 개의 프리젠테이션 오디오 채널을 포함하는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 적어도 두 개의 렌더링된 프리젠테이션이 획득되고, 각각의 렌더링된 오디오 프리젠테이션은 적어도 하나의 프리젠테이션 오디오 채널을 포함하는, 방법.
  8. 제7항에 있어서, 상기 이득은 제2 선택된 오디오 채널의 상기 신호 수준의 표현에 추가로 기초하고, 상기 제2 선택된 프리젠테이션 오디오 신호는 상기 선택된 오디오 채널의 상기 렌더링된 프리젠테이션과 상이한 제2 렌더링된 프리젠테이션의 것인, 방법.
  9. 제8항에 있어서,
    상기 적어도 두 개의 렌더링된 프리젠테이션 각각에 대한 제2 임계 값을 획득하는 단계를 더 포함하고;
    상기 이득은:
    상기 선택된 오디오 신호의 상기 신호 수준의 표현 및 상기 임계 값, 및
    상기 제2 선택된 오디오 채널의 상기 신호 수준의 표현 및 상기 제2 임계 값의 결합에 추가로 기초하는, 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    두 개의 인접한 시간 세그먼트 사이의 상기 이득에 대한 최대 변화율을 나타내는 조정 레이트 매개변수(adjustment rate parameter)를 획득하는 단계를 더 포함하고,
    상기 이득이 상기 조정 레이트 매개변수에 의해 표시된 최대 변화율로 변하도록, 상기 이득은 상기 조정 레이트 매개변수에 추가로 기초하는, 방법.
  11. 제10항에 있어서, 상기 조정 레이트 매개변수는 적어도 제1 조정 레이트 매개변수 및 제2 조정 레이트 매개변수이고,
    상기 제1 조정 레이트 매개변수는 공격 시간 상수를 나타내고,
    상기 제2 조정 레이트 매개변수는 해제 시간 상수를 나타내고, 및
    상기 이득이 상기 공격 시간 상수 및 상기 해제 시간 상수에 의해 각각 표시된 최대 변화율로 변하도록, 상기 이득은 상기 공격 시간 상수 및 상기 해제 시간 상수에 추가로 기초하는, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    각각의 시간 세그먼트에 대해, 수정된 신호 수준 표현을 결정하는 단계 - 상기 수정된 신호 수준 표현은 상기 적용된 이득을 갖는 상기 선택된 프리젠테이션 오디오 채널의 상기 신호 수준 표현에 기초함 - ;
    각각의 시간 세그먼트의 상기 수정된 신호 수준 표현을 평활화 커널(smoothing kernel)과 컨볼루션함으로써(convolving), 각각의 시간 세그먼트에 대해 평활화되고 수정된 신호 수준 표현을 결정하는 단계;
    각각의 시간 세그먼트에 대한 상기 평활화되고 수정된 신호 수준 표현에 기초하여 평활화 이득을 계산하는 단계; 및
    향상된 동적 범위 조정된 공간 오디오 객체를 형성하기 위해, 각각의 시간 세그먼트의 상기 평활화 이득을 각각의 동적 범위 조정된 공간 오디오 객체의 대응하는 시간 세그먼트에 적용하는 단계를 더 포함하는, 방법.
  13. 제12항에 있어서,
    길이 M의 제1 순환 버퍼에 연속적인 시간 세그먼트의 상기 수정된 신호 수준 표현을 저장하는 단계; 및
    길이 M의 제2 순환 버퍼에 상기 제1 순환 버퍼의 최대 수정된 신호 수준 표현 또는 최소 수정된 신호 수준 표현을 저장하는 단계를 더 포함하고;
    각각의 시간 세그먼트에 대한 평활화되고 수정된 신호 수준 표현을 결정하는 단계는 상기 제2 순환 버퍼를 상기 평활화 커널과 컨볼루션하는 단계를 포함하는, 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 각각의 프리젠테이션 오디오 채널의 각각의 시간 세그먼트의 신호 수준의 상기 표현은:
    상기 시간 세그먼트의 상기 신호 수준의 RMS 표현,
    상기 시간 세그먼트의 진폭,
    상기 시간 세그먼트의 최대 진폭,
    상기 시간 세그먼트의 평균 진폭, 및
    상기 시간 세그먼트의 최소 진폭을 포함하는 그룹으로부터 선택되는, 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 상기 적어도 하나의 렌더링된 프리젠테이션은:
    모노 프리젠테이션,
    스테레오 프리젠테이션,
    바이노럴 프리젠테이션(binaural presentation),
    5.1 프리젠테이션,
    7.1 프리젠테이션,
    5.1.2 프리젠테이션,
    5.1.4 프리젠테이션,
    7.1.2 프리젠테이션,
    7.1.4 프리젠테이션,
    9.1.2 프리젠테이션,
    9.1.4 프리젠테이션,
    9.1.6 프리젠테이션, 및
    22.2와 같이 적어도 세 개의 높이 수준을 갖는 다중 채널 프리젠테이션을 포함하는 그룹으로부터 선택된 렌더링된 프리젠테이션인, 방법.
  16. 동적 범위 조정을 위한 오디오 처리 시스템으로서,
    복수의 공간 오디오 객체(10)를 획득하고 상기 공간 오디오 객체를 렌더링된 프리젠테이션으로 렌더링하도록 구성된 적어도 하나의 렌더러(31, 31a, 31b, 31c) - 상기 렌더링된 프리젠테이션은 렌더링된 프리젠테이션 오디오 채널의 세트를 형성하는 적어도 하나의 프리젠테이션 오디오 채널을 포함함 - ;
    상기 프리젠테이션 오디오 채널의 세트에서 각각의 프리젠테이션 오디오 채널과 연관된 신호 수준 데이터를 결정하도록 구성된 신호 수준 분석 유닛(32, 32a, 32b, 32c) - 상기 신호 수준 데이터는 상기 프리젠테이션 오디오 채널의 복수의 시간 세그먼트에 대한 신호 수준을 표현함 - , 및
    이득 계산기(33, 33a, 33b, 33c)로서, 상기 이득 계산기(33, 33a, 33b, 33c)는:
    임계 값을 획득하고,
    프리젠테이션 오디오 채널을 선택하고 - 상기 선택된 프리젠테이션 오디오 채널은 상기 프리젠테이션 오디오 채널의 세트의 다른 프리젠테이션 오디오 채널에 비해, 상기 시간 세그먼트에 대한 최고 신호 수준 표현 또는 최저 신호 수준 표현과 연관되는 상기 프리젠테이션 오디오 채널의 세트의 프리젠테이션 오디오 채널임 - ,
    각각의 시간 세그먼트에 대해, 이득을 결정하도록 - 상기 이득은 상기 임계 값 및 상기 선택된 프리젠테이션 오디오 채널의 상기 신호 수준 표현에 기초함 - 구성되는, 상기 이득 계산기(33, 33a, 33b, 33c), 및
    동적 범위 조정된 공간 오디오 객체를 형성하기 위해 상기 각각의 시간 세그먼트의 이득을 각각의 공간 오디오 객체의 대응하는 시간 세그먼트에 적용하도록 구성된 이득 적용기(22, 22a, 22b, 22c)를 포함하는, 오디오 처리 시스템.
  17. 제16항에 있어서,
    상기 복수의 공간 오디오 객체(10)를 획득하고 상기 공간 오디오 객체에 대응하는 지연된 공간 오디오 객체를 생성하도록 구성된 지연 유닛(21)을 더 포함하고, 상기 지연 유닛에 의해 도입된 상기 지연은 상기 적어도 하나의 렌더러(31, 31a, 31b, 31c)에 의해 도입된 지연에 대응하고, 및
    상기 이득 적용기(22, 22a, 22b, 22c)는 동적 범위 조정된 공간 오디오 객체를 형성하기 위해, 상기 각각의 시간 세그먼트의 이득을 각각의 지연된 공간 오디오 객체의 대응하는 시간 세그먼트에 적용하도록 구성되는, 오디오 처리 시스템.
  18. 제16항 또는 제17항에 있어서, 각각의 렌더링된 프리젠테이션은 적어도 두 개의 프리젠테이션 오디오 채널을 포함하는, 오디오 처리 시스템.
  19. 제16항 내지 제18항 중 어느 한 항에 있어서, 적어도 두 개의 렌더러(31, 31a, 31b, 31c)를 포함하고, 각각의 렌더러(31, 31a, 31b, 31c)는 상기 복수의 공간 오디오 객체(10)를 획득하고, 상기 공간 오디오 객체를 개개의 렌더링된 프리젠테이션으로 렌더링하도록 구성되고, 각각의 렌더링된 프리젠테이션은 상기 프리젠테이션 오디오 채널의 세트를 형성하는 적어도 하나의 프리젠테이션 오디오 채널을 포함하는, 오디오 처리 시스템.
  20. 컴퓨터 프로그램 제품으로서, 프로그램이 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제1항 내지 제15항 중 어느 한 항에 따른 방법의 단계를 수행하게 하는 명령어를 포함하는, 컴퓨터 프로그램 제품.
KR1020237036304A 2021-05-28 2022-03-24 공간 오디오 객체의 동적 범위 조정 KR20240014462A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163194359P 2021-05-28 2021-05-28
US63/194,359 2021-05-28
PCT/US2022/021696 WO2022250772A1 (en) 2021-05-28 2022-03-24 Dynamic range adjustment of spatial audio objects

Publications (1)

Publication Number Publication Date
KR20240014462A true KR20240014462A (ko) 2024-02-01

Family

ID=81308360

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237036304A KR20240014462A (ko) 2021-05-28 2022-03-24 공간 오디오 객체의 동적 범위 조정

Country Status (7)

Country Link
US (1) US20240163529A1 (ko)
EP (1) EP4348643A1 (ko)
JP (1) JP2024520005A (ko)
KR (1) KR20240014462A (ko)
CN (1) CN117223057A (ko)
BR (1) BR112023021544A2 (ko)
WO (1) WO2022250772A1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2727383B1 (en) * 2011-07-01 2021-04-28 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
JP6531649B2 (ja) * 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
EP3997700A1 (en) 2019-07-09 2022-05-18 Dolby Laboratories Licensing Corporation Presentation independent mastering of audio content

Also Published As

Publication number Publication date
EP4348643A1 (en) 2024-04-10
CN117223057A (zh) 2023-12-12
JP2024520005A (ja) 2024-05-21
US20240163529A1 (en) 2024-05-16
BR112023021544A2 (pt) 2023-12-19
WO2022250772A1 (en) 2022-12-01

Similar Documents

Publication Publication Date Title
JP6982604B2 (ja) 符号化されたオーディオメタデータに基づくラウドネス等化及びdrc中の動的等化
JP7543386B2 (ja) 多様な再生環境のためのダイナミックレンジ制御
JP6633239B2 (ja) ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整
JP7215534B2 (ja) 復号化装置および方法、並びにプログラム
JP5730881B2 (ja) 録音の適応的ダイナミックレンジ強化
CN107851440B (zh) 经编码音频扩展的基于元数据的动态范围控制
JP5695677B2 (ja) 単一再生モードにおいてラウドネス測定値を合成するシステム
RU2520420C2 (ru) Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала
KR100904542B1 (ko) 멀티채널 합성장치 제어 신호를 발생하기 위한 장치 및방법과 멀티채널 합성을 위한 장치 및 방법
JP4887420B2 (ja) 中央チャンネルオーディオのレンダリング
RU2541183C2 (ru) Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания
TWI503817B (zh) 操作音訊信號處理裝置或操作處理系統之方法、預定義動態等化頻譜設定檔之提供系統及其之選擇和使用裝置、以及相關電腦可讀儲存媒體及處理系統
US11102577B2 (en) Stereo virtual bass enhancement
EP3761672A1 (en) Using metadata to aggregate signal processing operations
US11430463B2 (en) Dynamic EQ
KR20240014462A (ko) 공간 오디오 객체의 동적 범위 조정
US8300835B2 (en) Audio signal processing apparatus, audio signal processing method, audio signal processing program, and computer-readable recording medium
RU2779415C1 (ru) Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием диффузной компенсации
WO2023192036A1 (en) Multichannel and multi-stream source separation via multi-pair processing
KR20150088144A (ko) 퍼스널 오디오 스튜디오 시스템